用激光笔就能控制你的语音助手,你怕了吗?
原创2019-11-06 20:02

用激光笔就能控制你的语音助手,你怕了吗?

天猫精灵、小度在家、小米 AI 音箱、Siri、Alexa……不仅可以用来唠嗑,还可以用来控制家具,甚至一声令下它们就能帮人在网上买买买。

 

Alexa | 图源:Digital Trends


所以,语音助手就和私人管家一样,只有主人能给它下命令。没有人会希望别人偷偷摸摸用自己的语音助手的。

 

从识别主人的声音,到防止恶意程序的入侵,开发者们已经想尽了办法防止语音助手被盗用。但是,防不胜防,有研究表明,语音助手还能用激光控制


若是语音助手放在窗户边,对面楼上的人发条激光就能打开你家的门,还能花光你的钱。惊不惊喜,意不意外。

 

11 月初,日本电气通讯大学和美国密歇根大学的研究人员表示他们发现语音助手的输入端麦克风可以用激光笔甚至手电筒控制 [1]。


他们用这样的方法开了车库门,还把车库里的车启动了。这次实验的操作距离是 70 米,而用长焦镜头,操作距离竟然可以延伸到 106 米。

 

光怎么传递信息给麦克风?

 

光线和声音一样,都是在空间中传播的波。只要是波,就能传递能量和信息。比如说,在看户外演唱会的时候,阳光洒在脸上,会觉得暖,低音炮轰在脸上,会觉得懵。

 

麦克风里面有一个膜,声波来时会震动,然后将震动转换成电信号。这个膜也能把光波转换成电信号。

 

光可以传递信息,这个不难理解。举一个极简单的例子,韩国电影《寄生虫》里,杀了人的父亲躲到了地下室生活,地下室有一个开关能控制一层的灯。


他根据摩斯电码开关灯,盼望在地面的儿子能读懂他的信息。而给麦克风输入信息的情况略为复杂,需要按照预设输入的声波的波形、频率等参数模拟出光波。

 

研究人员还表示,这么一来,所有涉及安全的语音识别系统的麦克风都需要重新设计。加一层遮光解决不了问题,因为实验用的语音助手的麦克风即使有防尘布也能被光控。


其中,密歇根大学电机工程与计算机科学副教授傅佳伟(Kevin Fu)表示,光控麦克风这件事本身太具有普适性了,这个发现相当于给语音应用的安防一记重击。

 

他们已经把这项发现告知各大公司了,包括特斯拉、福特、亚马逊、苹果、谷歌。这些公司表示正在积极配合解决问题。

 

其实语音助手的光控还不是最让人细思恐极的。声控本身已经有很多可怕的情况了。

 

恶意指令可以藏在别的声音里

 

2016 年,加州大学伯克利分校和乔治城大学的研究人员表示他们可以在白噪音里隐藏指令,让语音助手自动变成飞行模式或者打开某个网页 [2]。


去年,这个技术升级了,原班人马表示不仅白噪音里可以隐藏指令,而且正常的音乐或者语音里面也可以隐藏指令了。


也就是说,当用户以为自己在听音乐的时候,有人可以通过在音乐里隐藏恶意指令来神不知鬼不觉地操纵语音助手。其中,加州大学伯克利分校的博士生 Nicholas Carlini 表示做这个实验的目的就是试探一下这类操作可以变得多么隐蔽。

 

恶意指令可以藏在人类听觉范围外的频率里。

 

2017 年,普林斯顿大学和浙江大学联合研究出用人类听觉范围以外频率的声音来操纵语音识别系统,并将这种操纵起名 DolphinAttack (海豚音攻击)[3]。


在语音助手的应用中,这类操作事先会把语音助手调成静音,这样用户就听不到语音助手发出的确认或者回应。随后,伊利诺伊大学厄本那-香槟分校的研究人员还做了一次演示实验,在 7 米开外用超声控制语音识别系统。虽然海豚音攻击没法穿墙,但是穿过窗户不在话下。

 

恶意指令还可以被伪装成人听不懂的声音

 

2015 年,乔治城大学的研究人员出了一篇论文,专门描述了人和机器在理解语音上的差异,并写了他们如何利用这种差异制造出机器可以理解而人无法理解的语音指令,同时提出这种差异很容易被人恶意利用 [4]。


他们发的论文的标题是《可卡因面条:利用人类和机器语音识别之间的差距》,“可卡因面条”(“Cocaine Noodles”)是这个差异的一个典型例子,谷歌的智能助理软件 Google Now 可以把“Cocaine Noodles”听成“OK, Google”。

 

事实上,在一种叫随机性的东西面前,人为恶意指令本身也没有那么可怕了。

 

DeepSpeech 是目前应用非常广泛的,学界公认的完善的语音识别底层系统之一,它的功能是把语音转成文字。

 

2018 年 1 月,加州大学伯克利分校的研究者 Nicholas Carlini 和 David Wagner 表示他们可以 100% 骗过 DeepSpeech [5]。通过对原音频作出一点小小的改变,小到 0.1% ,他们可以让 DeepSpeech 无法识别原音频,或者转出一些随机的文字。


至于是什么随机的文字,只能说一切皆有可能,人脑洞再大也想不到的。毕竟为了应对生活本身的 drama,人们已经耗光了自己仅存的一点想象力。

 

人类一思考,上帝就发笑。人总爱创造自以为巧夺天工的东西,而上帝总是会及时让人意识到自己的渺小。

 

然而,请不要恐慌,以上的控制语音助手的实验基本上都是在对于恶意操控来说最有利的条件下进行的,现实中这样的有利条件是比较罕见的,而且目前也没有迹象表明有坏人通过这些操控方法来干坏事。

 

各大科技巨头也早就意识到了这个问题。

 

亚马逊表示虽然不会公开具体的安防措施,但是其一直在升级 Echo,让它达到最安全的状态。不公开措施是好事,这样黑客会无从下手。谷歌也表示谷歌助理会过滤掉那些人耳无法识别的指令。

 

亚马逊 Echo 以及谷歌助理都只听从主人的命令,也就是说,亚马逊 Echo 以及谷歌助理会识别出非主人的嗓音而拒绝遵从指令。


虽然现有技术在识别嗓音方面还存在漏洞,比如 YouTube 有一堆让嗓音相似的人来戏弄语音助手的视频,但是现有技术已经可以规避大多数风险了。

 

苹果也表示苹果智能音箱 HomePod 会自行拒绝执行一些指令,比如开门。而有些涉及隐私的指令,比如开相册、打开某些 app 或者网站需要在 iPhone 或者 iPad 解锁的情况下才会执行。

 

所以,人还是想一想该怎么避免被别人利用比较好,人被未来的机器人统治这件事还早得很,也可能永远不会发生。

 

仔细看看关于人被未来的机器人统治的担忧,我发现这些说法基本上是西方提出的。为什么?理由肯定不是机器人起源于西方科技。

 

犹太教、基督教信仰中有“主”的观念,暗示等级制度,主张只有人具有灵魂。道教和佛教主张“和”,希望世间万物和平共处,主张世间万物皆有灵气。

 

西方国家的众多电影和电视剧《X 战警》、《环太平洋》、《爱、死亡和机器人》、《超能查派》等等都在传递一个信息,机器人优于人类,且更适合在未来世界生存。


而东方国家的以日本为代表的《铁胆火车侠》、《铁臂阿童木》、《哆啦 A 梦》甚至《奥特曼》等等都在讲述人和机器人平等生活一起分享喜怒哀乐的故事(即便你不愿意承认,但是日本的确是亚洲国家中领先的现代文化输出国)。

 

爱、死亡和机器人 | 图源:Esquire


当然,西方国家还是有很多人与机器人和平共处的文化作品。但是总得来说,许多西方观点在精神层面对机器人有复杂且矛盾的想法,有排斥、仰视、恐惧等等,一方面希望机器人成为人类的奴隶,另一方面又不愿让机器人具有任何人性,因为惧怕机器人的人性会反过来毁灭人类。


而亚洲国家一般持有机器人与人和谐共处的观点,现实中的机器人们都有自己的名字,甚至还有美丽的外表。


如果把机器人比作奴隶的话,你会发现历史总是惊人地相似,18到19世纪,白人不让黑奴信基督教,因为他们认为黑人太野蛮,没有灵魂。


而中国从唐朝一直延续到清朝的科举制度不论门第以考试选出士大夫。就算是农奴也可以跨越阶层,因为中国的文化本质上认为所有的人没有区别。

 

文化本身不存在优劣之分,我只是想让读者思考一下人被机器人取代的担忧的根源,并且理性地看待这个担忧。毕竟,最大的敌人是自己

 

参考文献

[1] Nicole Perlroth. With a Laser, Researchers Say They Can Hack Alexa, Google Home or Siri. New York Times.

https://www.nytimes.com/2019/11/04/technology/digital-assistant-laser-hack.html

[2] Nicholas Carlini, et. al. Hidden Voice Commands. people.eecs.berkeley.edu.

https://people.eecs.berkeley.edu/~daw/papers/voice-usenix16.pdf

[3] Guoming Zhang, et. al. DolphinAttack: Inaudible Voice Commands. acmccs.github.io.

https://acmccs.github.io/papers/p103-zhangAemb.pdf

[4] Tavish Vaidya, et. al. Cocaine Noodles: Exploiting the Gap between Human and Machine Speech Recognition. usenix.org

https://www.usenix.org/node/191969

[5] Nicholas Carlini, David Wagner. Audio Adversarial Examples: Targeted Attacks on Speech-to-Text. arXiv.

https://arxiv.org/pdf/1801.01944.pdf

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定

相关推荐