消失的人工智能 “法外之地”
2020-04-19 10:05

消失的人工智能 “法外之地”

美国首都华盛顿特区,国会山庄北部。一阵笑声,从玻璃窗里传出。窗外晴空万里、绿野满坡,圆柱式门廊气势恢宏……


世界顶级立法机构的办公环境,果然宜人。


这一切,对于40岁就坐到参议院办公桌前的霍利(Josh Hawley)来说,他的黄金岁月才刚刚开始。


2019年,分水岭。


此前,他是美国密苏里州第42任司法部长。


此后,他是美国国会参议员。


作为一个每天都在上演“提案如何变成法律”的立法机构,美国国会的关键词本该是“庄严”。然而,国会却频繁“做客”美国脱口秀演播间。


很多年前,马克·吐温讲出了实话:“这是一群‘土生土长的犯罪团伙’”。


 而霍利在同僚中,保持着一项幸运的记录——本届美国参议院最年轻的议员。


对于政治家来说,年轻与激进都是优势。川建国拥有后者。霍利,两者兼具。


上任不久,他迅速成为共和党在科技产业问题上最响亮的声音。



东边日出,西边雨。


一种浓烈的自豪感,正在“抖音在国外有多火?”话题的带动下升腾。


无数掌声,正在送给头条系产品——抖音面向中国以外市场的TikTok。


政客高亢激昂的演讲、TikTok节奏强劲的短视频,就像“含笑半步癫”,是洗脑、居家、旅游的必备良药。


而今,在美国,它们混淆在一起,成了一种不和谐的背景音。


北京时间3月5日凌晨,华盛顿特区,一场美国国会参议院的听证会,正围绕用户数据安全、隐私问题展开。霍利议员挥舞起旗帜,在个人主页用加粗字体写下大大的标题:TikTok是“危险的伙伴”。



霍利早都准备好了。


他自信满满地坐在听证会的皮椅上,却久久未等到两位主角到场。


一则快报的标题是《TikTok和苹果,两公司双双缺席听证会》。


TikTok发言人告诉媒体:“我们感谢霍利参议员的邀请。不幸的是,短期内,我们无法提供能够为实质性的讨论做出贡献的证人。”


霍利坐在椅子上回忆,这是TikTok第二次拒绝参加听证会。


上次是2019年11月。


霍利能高兴嘛?虽然他知道自己这样做也只是为了吸引媒体注意,但是没有配合的演出,就是大写的尴尬。


“拒绝参演”后的整整一个月,TikTok都没有闲着,2019年12月赶紧发布了上半年《透明报告》,虽然内容不长,只有5页,但态度还是优秀的。Facebook自2013年起,也会定期发布。


一面,霍利等国会参议员已经开启团队作战模式,加入的参议员越来越多。


一面,TikTok呢,越来越争气。


在美国已下载超过1.23亿次。


在每月5亿活跃用户中,有2650万来自美国。


约有60%在16至24岁之间。


在不到18个月的时间里,美国成人TikTok用户数量增长了5.5倍。


议员们一边开会讨论,一边看着TikTok增长曲线往会议室天花板上窜。


霍利站立起来,说出他的好主意:


怀疑TikTok上传的短视频可能会泄露美军的秘密,对于美国能够接触到敏感的国家安全信息的人,禁止在政府设备上安装TikTok。



公务员管公务员,没毛病。


在听证会后,TikTok觉得此事得当面解释清楚,表示:


“(我们)最近与几位国会议员取得了联系,(大家)有兴趣在不久的将来见面。”


除了可能的约咖啡、约饭之外,TikTok也绞尽脑汁。比如,计划建立一个“透明中心”,允许外部专家查看公司团队如何管理短视频内容。


据说,位于美国洛杉矶,将于2020年5月开放,共享源代码和公开独立安全措施。


这里的工作令人向往,每天都看各种有趣的短视频,像极了很多人疫情期间每天躺在床上的销魂姿势。不用愧疚,大家都中了毒,用户平均每天在TikTok上花费52分钟。


为了证明产品“无毒”,让美国用户“吃”得放心,TikTok快马加鞭复制出西贝莜面村同款透明厨房。


听证会上的一切发言,都是要宣誓的。怀疑、质疑、传闻,都可以让美国立法机构采取一定程度的行动,而不限于事后惩罚。美国立法机构质疑TikTok产品层面的数据收取、保存路径。


谁能想到,TikTok会和数据泄露界的“犯罪之王”脸书公司相提并论,同样成为讨论数据安全、隐私问题的焦点。


图为传说中的TikTok(美国加州办公室)


TikTok背过脸,轻轻拭去脸上的泪水,有些眼泪是因违反美国儿童隐私法,被罚了几百万美金而流下的。


华盛顿夜未眠,立法争论永不休。


这只是一道坎而已,九九八十一难在后面排队拿号。


2020年3月6日。


听证会的第二天,TikTok有了首位首席信息安全官Roland Cloutier,他也是一位网络安全专家,向抖音负责人朱骏(Alex ZHU)汇报。



这一消息,霍利也注意到了。


中国互联网公司全球化的阻力好比台风天黑压压的乌云,有一朵,始终是数据安全和用户隐私。


东边日出,西边雨。


美国国会立法调查好比“鹰眼”,欧盟《一般数据保护条例》(GDPR)好比“鹰爪”。为保护数据,GDPR已经织起了天罗地网。一项强制性法律,保护的是自然人的“个人数据”,包括姓名、生日、信用卡、地址、病史、位置信息、行踪轨迹……


这个条例对AI技术的约束是从摇篮到墓地。“摇篮”是指,一开始获得授权,得用户点击“同意”;而“墓地”就是,数据用完了也不能存太久,还得抓紧时间删除。


《三国杀》里的曹丕说:“管杀,还得管埋”。


简单讲,数据是情报,是生产资料,AI技术极度依赖数据。没有汽油,劳斯莱斯再昂贵也只能观赏,无法行驶。缺了数据,再先进的AI也只能人工,无法智能。


所以,法例的约束会贯穿AI产品整个生命周期。窒息的高墙下,只留“合规”这个窄门,门后是欧盟市场5亿发达人口。


欧洲高度注重隐私和数据保护,这是文化。


第二次世界大战期间,欧洲建立了详细完备的个人数据库。结果,被纳粹用来清洗犹太人和迫害反纳粹人士。


欧洲600万犹太人的冤魂不散,致使很多欧洲人终身坚信,无论是出于何种目的,个人信息到后来一定会被滥用。


耶路撒冷灰暗的混凝土墙壁、静默的白色马安石地面、英文和希伯来文悼词,没有人再去打扰这份宁静。



 二战结束五十年后,GDPR的亲大哥《95指令》出生(1995年)。2009年,亲二哥《欧洲Cookie指令》出生。你别误以为GDPR是一个人在冲锋。不,这是一家子在战斗(Cookie是互联网常用的用户跟踪和识别技术)。


程序员开玩笑会说:


“数据和女友不能分享。”


欧洲程序员再加一句话:


“这是法律规定。”


欧盟高管表态:“我们欧盟委员会(的人),并不反对来自大西洋彼岸的科技巨头,但是前提是,他们必须守规矩。”


美国互联网企业享受了全球化最好的一轮红利,俯仰之间,王公贵胄、皇亲国戚都难逃一考。


加试题目是:数据安全与用户隐私保护。


东边日出,西边雨。


TikTok是AI技术领域的“贵族”,有着领先行业完整的现代化推荐系统(含推荐算法、训练平台、后端架构的推荐系统技术栈),建设有大规模分布式实时机器学习训练平台和分布式高性能Parameter server平台。


海量短视频数据,“化作”充足的生产资料,使TikTok有能力探索最新机器学习算法落地。


TikTok在用AI算法改造自身业务的路上从来不迟到。甚至有外媒总结:“截至2020年,TikTok已成为全球最受欢迎的应用程序之一(至少对于某些年龄以下的用户而言),其成功由一些世界上最先进的AI技术推动。”


一位曾经就职于小桨科技(产品,微叭App)的视频推荐算法工程师告诉我:“推荐算法(的结果)要看留存率、点击率、活跃时长、播放时长,(公司)直接考核业务指标。不达标会被产品经理锤死。”


机器无电不休,算法日夜不眠,算法工程师在“拼命”,背后站着熬红了眼的产品经理。



AI早已应用于挽回用户流失等功能。


产品经理一边唱着“爱我,别走……”,


一边伸出胳膊指挥:“再次对用户投放广告,精准挽留。”


“你的偏好,我知道。”用户每一次上翻、下滑、点赞,都是一份《产品改进意见书》,背后还有今日头条 AI lab 的支持。


AI技术渗透的力量,摧枯拉朽。一个没有智能算法的TikTok,已经不可想象。


东边日出,西边雨。


GDPR的余音回响,欧洲版的营业执照,一照难求。


2020年,当你打开GDPR认证的网站,可以看到许多站张熟悉的中国面孔,华为、小米、OPPO、美的、第四范式。OPPO进军欧洲市场,其认证的产品种类之多,居然包括了计算器(Calculator)和钟表(Clock)。

李鸿章在给同治皇帝的奏折上写下,“三千年未有之大变局”。


变局已成定势,做好思想准备和工作准备。


美国已死,欧洲苟活,人工智能法外之地会一寸一寸消失。


来者,需要拥抱高墙、窄门。


拥抱合规、限制、约束。


拥抱枷锁、脚铐、铁链。


将思考的维度上升到管理与合规,渗透在技术思考之中,包括在框架之内,体现在解决方案里。而不是绕着它走。绕也绕不开。


这些,要看企业是否愿意付出额外努力。


第四范式创始人兼CEO戴文渊的答案是:我愿意。


戴文渊,总是讲话温和,语速平缓,但是一旦你给他抛出问题,就能感受到清晰、缜密的思考力。


他说:“从技术手段上讲,保护隐私和数据安全是有办法的。不是没有办法,而是说,想不想解决?愿意花多大的代价去解决?”戴文渊似乎没有对GDPR低头。


他轻描淡写地提了一句,“第四范式的先知平台,已经是国内首个通过GDPR认证AI平台”,这一句更是增添了上一句话的底气。


突然想起香港应用科学研究院的一位博士也说过类似的观点:“技术上翻越肯定是可以做到的,只是很多时候不愿做,或者懒得做。”


业界有一个声音:


机器学习是一个有难度的技术,是“难度一次方”。


机器学习想落地,变成“难度二次方”。


再解决隐私保护问题,这又是一个很有难度的问题,变成“难度三次方”。


解决这些技术问题,专家不是一般的专家,既要懂机器学习技术,又得懂隐私保护技术,还得懂业务。要求是非常高的。


用金庸的话说,练成易筋经,需体质强。练成乾坤大挪移,需内力高。练成独孤九剑,需资质慧。想成为攻克“难度三次方”的专家,需能运用多种武功入化境。南帝北丐很难批量培养。望眼整个武林,还好有一代宗师。


 一代宗师可能会说:


“解决好隐私保护问题,看上去是一个技术问题,实际上是,人工智能的从业者要有一种思维的变革意识。将对文化、制度、法律等“社会因素”的思考融入代码、模型、架构、解决方案……”


 第四范式主任科学家涂威威告诉我:


“隐私保护作为一个学术问题已经走了很长一段路了,较早之前的需求来源于企业自我保护。个人关心隐私,企业关心的是商业机密。”


涂威威用两句话概括了隐私保护技术的昨天,继而又谈起它的现在。


他总结到:


“隐私保护就是一个矛与盾相争的过程,大家都研究又会出现哪些新的攻击手段,又有什么方法可以保护。”


 “隐私保护会涉及到非常多种类的技术,有底层的,也有最近几年才奠定起基础的。涉及的技术种类多,不是为了卖弄技艺,而是面对的情况复杂。”


拳守“数据安全”,脚护“隐私保护”。


易筋经、乾坤大挪移、独孤九剑,演变成“差分隐私算法”“安全多方计算”“自动多方机器学习技术”“联邦学习”。


当细数起这些“厉害的”技术,涂威威的语速加快,仿佛不需思考。


“根据不同场景,有时可能是允许数据出去的,可以通过加密的方式出去,运出去的过程中别人是没有办法知道的,因为是加密的,这里参考图灵奖获得者姚期智老师的思想,用安全多方计算。


有时可能是不允许数据出去,出去的只是一些统计结果或者模型,这里参考香港科技大学杨强教授的联邦学习技术。”


香港科技大学杨强教授曾说:


“联邦学习希望在不共享数据的前提下,利用双方的数据实现模型增长。”


他曾举例:


“假设A和B两家公司想要建立一个用户画像模型,其中部分用户是重合的。联邦学习的做法是,首先通过加密交换的手段,建立用户的识别符(identifier)找出共有的部分用户。


因为关键用户信息并没有得到交换,交换的只是共有的识别符。再将各自拥有的同样用户的不同特征输入,迭代地进行模型训练、参数交换。


我们证明了给定模型参数,双方不能互相反推出对方拥有的、自己没有的特征,因此用户隐私仍然得到了保护,双方的模型性能都得到了提高。”


姚期智院士、杨强教授……宗师们总有无上智慧。


“为什么第四范式会做隐私保护技术?”


涂威威的答案是:


“第四范式作为一家创业公司,初始做隐私保护技术是出于一群有理想的年轻人的前瞻性预判。一种来自技术本能的预判,数据孤岛迟早要打破,当打破发生之时,这个技术成为必备品,只靠‘解决信任’路途尚远。”


然而,现实的磨砺很快降临在向理想前进的路上。


涂威威说,我们的“一只脚”伸入到了金融,为什么是金融,因为金融的数据是最完备的,我们的技术是在数据之上做决策,必然选最完备的行业。


“一只脚”后,金融、医疗行业对隐私保护的需求推动了技术的另一轮发展。比如,第四范式经常参与银行竞标,《招标书》里,绝不会少了数据安全性条款。


涂威威在以往的《银行招标书》中划好了重点,并指给我看。


“隐私数据保护技术,苹果、谷歌都在用,谷歌早在2016年就提出了本地化差分隐私(Local Differential Privacy)技术,并成熟应用在产品数据采集阶段,第四范式的优势在哪?”


涂威威越谈越从容,带压力的问题也难不倒他。


他说:


“第四范式也提出应用在机器学习模型上的差分隐私技术,我们将训练数据按特征切开,并分别去训练,按特征重要性来进行隐私预算的分配,重要的特征分配较少的隐私预算,不太重要的特征则分配较多的隐私预算,从而保证了在相同隐私保护的条件下,获得更加有效的分析结果。”


涂威威的回答,就好像准备了答案,细节中处处都有巧思,无法容下不满意的蛛丝马迹。


话声未落,他就在草稿纸上手写了一篇学术论文的题目《Privacy-preserving Stacking with Application to Cross-organizational Diabetes Prediction》。


论文只是在工业界解决问题时的“副产品”,他想把荣誉感写在产品上。


他介绍,在公司的算法实验室里完成工作后,其实还有两个重点,一个是自动化,一个是场景。


他谈道:


“隐私保护,如同加密,解密。暴露的中间过程越多,泄露隐私的可能性越大。比如,AutoML(自动机器学习)之所以能够减少隐私的泄露,其实就是减少了人触碰数据的机会,减少人去分析特征,减少人在各个环节泄露隐私的可能。让机器去完成中间的过程,最后输出结果。自动多方机器学习就是隐私保护的自动机器学习,中间的过程全部是自动化完成的。”


他的答案中,技术细节多,观点少,唯有这句:“算法的未来就是自动化,不能自动化的算法,剩下的路也不长了。”


余音未尽,尚在绕梁。


场景落地又是另一场硬仗。他压低声音说了一句:


“如果不是瑞金医院的瑞宁知糖项目(预测三年后患糖尿病的概率以及个性化的干预),医疗算法团队都要稳不住了。”


创新,有时候就是下了一步险棋。


涂威威和也和我讲了“作弊”的办法:


“从某种角度讲,成本最低、效率最高的方式是侵犯隐私。”


好比打扑克偷看别人手里的牌。如果全世界艾滋病药厂知道了患有艾滋病人的家庭住址,就不需要打广告了,直奔病人家,挨家挨户兜售不就完了。


广告费都省下了。


别人披荆斩棘,你通过践踏个体隐私直接抄了近路。


法律会让你一直痛快下去吗?


企业选择用技术保护隐私时,其实是选择了一条“刀光剑影”的路。说不定就会像涂威威一样,没有好的落地场景,变成“光杆”。


观察发现,不少企业也在“研制隐私保护的秘诀”。由于金融行业是数据界的富豪,联邦学习技术被用于中国首家互联网银行——微众银行。微众银行也在推动“联邦学习”的标准。


从某种意义上讲,这是一份全球领先的标准。联邦学习作为隐私保护的代表技术,并没有被欧美大厂垄断。


在隐私保护的江湖里,中国人工智能从业者并不甘心屈服于国外标准。


招商金科(招商银行下属金融科技公司)一位不愿意透露姓名的研发高管告诉我,他们也参与了“联邦学习”第二版标准的制定,但不便于接受采访。


“京东集团也在使用联邦学习保护数据隐私。”京东大数据研究院首席数据官刘晖告诉我。


东边日出,西边雨。


流量、广告、品牌……的老故事,已经翻篇。中国互联网企业想变成全球互联网企业,光靠突破Facebook、Google、Amazon的防线,已经不够了。企业的战场向四面八方延伸,“法外之地”正在消失。


在别人看来绝望的事情,“创新者”与“创造者”总能从中找到希望。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定

相关推荐