互联网“窃听风云”
2020-12-15 08:48

互联网“窃听风云”

本文来自微信公众号:人民数字 Fintech(ID:rmsz-Fintech),作者:马迪尔,题图来自:《窃听风云》


过去,人们用“在互联网上,没人知道你是一条狗”来形容网络的不可琢磨性。但现在,互联网不仅知道你是谁,还知道你喜不喜欢狗,并且给你推送狗粮广告。


当代科技简直比小棉袄还贴心。软件对用户兴趣的高度匹配的过程对普通用户而言如同一个全封闭式的黑箱,其中内部的运转机制错综复杂。


从专业角度来看,手机窃听,技术上不难实现。


2019年3月,某科技公司团队用不到5个小时编写出一款模拟APP。在允许使用录音权限的前提下,这款APP成功获取了使用者的讲话,并将数据通过自然语言处理技术上传到服务器,转化为文字信息。


在信息隐私的祭坛上,法律合同、行政管理甚至亲密关系得以维持或被扼杀,对个人信息安全的忧虑,折射出的更是用户日益敏感的神经。


若是尝试揭开这个黑箱的一角,我们真的陷入了“窃听风云”吗?


“隔屏有耳”


国家网络安全宣传周今年9月发布的《APP安全意识公众调查问卷报告》显示,32万名受访者中,近三分之一的人表示很反感APP的精准推送广告行为,感觉遭到了窥探或偷听。


通过技术手段对普通用户手机的监听10多年前早已实现,加之如今各类语音识别技术的兴起,或许你的生活在不经意间正在被人窃听。


方法1:APP的录音权限


大多人知道的是,窃听这件事的成本真的可以很低。随便下个 APP,它都有正当的理由来索取你手机的语音权限。


用户在安装APP时大多都会跳出一个长期权限的询问,百度、微信、小红书,外卖,每次下载好APP,使用前都需要先选择一个是否允许使用录音权限的对话框。



这导致提供商在用户不知情的情况下窃听了本应属于个人谈话的内容。从法律上讲,根据用户可能已经授予软件提供商的各种权限,法律角度这些做法并没有过错。但大多数时候,用户点击“同意”或“允许”按键,只是为了继续安装并使用,没有意识到其中的全部含义。


看似各种询问、指纹、人脸识别十分安全,但指不定今天说的哪句话,几千公里外的人也会听到。


方法2:语音数据天然共享


比起使用前的询问,更不易被察觉的是嵌入在APP内的SDK(软件开发工具包)。SDK是APP内提供特定功能或服务的插件,比如广告、支付、地图等。SDK的意义在于,当开发者需要调用某项功能时,不需要从头自行开发,只需要接入SDK即可。


这意味着,当APP A和APP B都采取了同一家广告SDK时,那么A和B内收集的数据都可能上传至这一家SDK上,A与B之间天然形成了数据共享。用户在使用A时说的话、搜索记录、使用习惯有可能就会被反映在B上。


正是由于它的隐蔽性,SDK也是数据安全和用户隐私保护上的重难点。



因为即便是原本不属于个人信息的数据,在不断汇聚之后,也可能会被发掘出事物间不为人知的联系,从而分析出用户的私密信息。


方法3:计步器可以听见你说话


“比拼体力”的步数计算器可以实现对语音通话的窃听,这并不是危言耸听。


在普遍认知中,计步器只用于计步、测速、手机姿态测量等与手机运动相关的数据采集过程,看起来与通话、短信、通信录等敏感信息并没有什么实际关联。


但实际上,计步器可在用户不知情、无需系统授权的情况下,利用手机内置加速度传感器采集手机扬声器所发出声音的震动信号,实现对用户语音的窃听。


近日,在网络与分布式系统安全会议(NDSS)上,浙江大学网络空间安全学院任奎团队、加拿大麦吉尔大学、多伦多大学学者团队展示了一项最新的研究成果。研究表明,计步器的窃听成功率可高达 90%。此外,这种窃听方式在当前并不违反监管部门的规定。



加速度计是当前智能手机中一种很常见的、能够测量加速度的传感器,会分别在手机的 X 轴(左右)、Y 轴(上下)、Z 轴(前后)三个方向测量感应。


技术实现难度较高,但所窃取到的个人隐私数据全,包括个人身份、地址、密码、声音特点等都可能被全套窃取,且个人手机用户基本无法防范。


非常重要的一点是,测量步数等与之相关的APP实际上无需获得用户授权就可以获得智能手机的加速度信息。也正因为这样,通过手机加速度器发起的攻击,不仅隐蔽,而且“合法”。



通过前三个方式衍生来看,生活中难免有这样的场景:用户A正在使用智能手机公开播放一段微信语音,而用户B在使用智能手机拨打电话。


若是二人手机上同时在使用记载用户步数APP的情况下,用户A和用户B在没有任何授权的情况下,二人的语音信息很有可能正在通过手机加速传感器泄露、识别并还原成声音信号,被攻击者使用。


窃听警告


“无处可逃。”浙江大学计算机科学与技术学院周亚金教授认为,个人在互联网上的困境越来越明显。语音被窃听最直接的会带来三种被攻击的风险。


第一种攻击:语音密码识别,可能能导致网银、银行卡密码等被窃。


例如,用户A通过语音消息给用户B发送了一段银行卡密码。当用户B播放这段音频时,一个采集运动数据的APP可以在后台采集对应的加速器数据,进而通过分析加速器数据识别出语音信息中包含的密码。


实验结果中,安静环境里,转换器可以准确识别出语音信息中86%的数字。即使是在嘈杂的环境中(例如有人说话的实验室或播放音乐的酒吧),模型也可以达到80%以上的准确率。


第二种攻击:语音敏感词识别。可能能导致用户个人隐私信息等被窃。


攻击者可以通过这种技术定位并识别用户语音通话中的敏感信息,包括省份、城市、信用卡、身份证等等。


例如,用户A通过打电话的方式把自己的家庭住址等敏感信息告诉用户B。


在通话过程中,一个第三方APP(例如音乐、阅读、健康等应用)可以通过后台采集加速器数据,识别出用户语音中包含的省份、城市,甚至街道信息,进而确定用户的住址。


第三种攻击:语音还原,可能导致用户通话内容等被直接窃听。


加速器数据与音频数据之间的映射和关联,可以将采集到的震动信号还原为原始的音频信号。


也就是说,在用户拨打电话或接收语音信息时,攻击者可以直接通过加速器数据还原出手机所播放的语音信息,进而通过人工来识别敏感信息。目前的语音重构模型能重构1500Hz包含了成人语音所有的元音信息。


不难看出,通过上述三种攻击,攻击者可以获得包括全套个人信息、金融密码和重点语音敏感信息在内的大量隐私数据。如果被犯罪分子获得,完全可以拼凑出全套近乎完整的个人隐私信息体系,从而对每个人的财产构成非常直接和巨大的威胁。


风会穿过整片森林


别把秘密告诉风,风会穿过整片森林。


早期的移动互联网、大数据行业呈现着一股野蛮生长的态势,企业和用户对于个人信息安全的理解都是一片混沌。甚至有观点认为,中国互联网行业之所以能够迅速崛起并成为世界一极,其中一项重要原因正是大量用户数据的反哺。


不得不承认,人工智能发展到现在的这个阶段,不管是获取语音还是分析数据,都已经没那么大的难度了。厂商们只要想做,安插一个 “ 间谍 ” 在你的硬件设备里,就能获取到任何信息。


只要有人想,凡是存在于网络上的东西,都没有真正的秘密可言。况且在下一个商业的风口到来之前,谁都不想落在后面,掌握的用户数据越多,就越有主动权。


大数据产业就像是一辆车。加速太猛了,超速了,现在就需要踩刹车、做保养,这也是为了以后能更好地跑起来。


2020年10月13日,备受瞩目的个人信息保护法草案在全国人大常委会上首次亮相。这部专门针对个人信息保护的法律明确,“处理个人信息应当在事先充分告知的前提下取得个人同意,个人有权撤回同意;重要事项发生变更的应当重新取得个人同意;不得以个人不同意为由拒绝提供产品或者服务。”


虽然人工智能和大数据的发展,必然以获取多维度、多角度、多用户的数据为基础,但并不意味着就一定要侵犯用户的隐私。


与2017年相比,2019年对100款APP的隐私政策透明度测评报告中,透明度在较高级别以上的企业从不到10%上升至超过60%,而不合格的APP比例从80%以上下降至17%。


不论是对个人隐私还是国家安全,移动端的安全问题比我们想象的要严重得多。不断提高人们对于威胁的认识。这一场“窃听风云”,才刚刚开始。


本文来自微信公众号:人民数字 Fintech(ID:rmsz-Fintech),作者:马迪尔

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP

相关推荐