87个国家750万张脸部表情,价值200亿美金的AI大生意
2019-03-10 17:13

87个国家750万张脸部表情,价值200亿美金的AI大生意

文章转自网易新闻旗下微信公众网易智能

选自:The Guardian 

作者:Oscar Schwartz 

编译:网易智能 


机器现在可以识别愤怒、恐惧、厌恶和悲伤,而情感检测已从一个研究项目发展到价值200亿美元的产业。


检测程序能通过读取面部表情和行为发现潜在的恐怖分子吗?这是美国交通安全管理局(TSA)2003年提出的一个假设,在开发这个项目时,他们咨询了旧金山加利福尼亚大学心理学荣誉退休教授保罗·艾克曼(Paul Ekman)。几十年前,艾克曼(Ekman)已经开发出了一种识别细微面部表情的方法,并将它们映射到相应的情绪上,这种方法被用来训练“行为检测人员”——扫描脸部观察是否有欺骗的迹象。


但当该计划于2007年推出时,却面临种种问题,比如警察利用该技术经常错误的逮捕嫌犯,更令人担忧的是,该计划据称涉嫌种族歧视。


此后,艾克曼(Ekman)试图与美国交通安全管理局的项目脱离关系,声称他的方法被误用了,但分析人士认为,该计划的失败是因为艾克曼(Ekman)的一个过时科学理论;即情绪可以通过面部的分析客观地推断出来。



近年来,科技公司已经开始使用艾克曼(Ekman)的方法来训练从面部表情中检测情感的算法,一些开发人员声称,自动情绪检测系统不仅比人类更好地通过分析面部表情洞察真实的情绪,而且这些算法也将适应检测我们内心的感受,极大地改善了我们与电子设备的交互。


但是许多研究情感科学的专家担心这些算法会再次失败,基于错误的科学对我们的生活做出高风险的决定。


01. 价值200亿美元的大生意


情感检测科技需要两种技术:计算机视觉,用于精确识别面部表情。机器学习算法,用于分析和解释这些面部特征表达的情感内容。


行人检测摄像头正在工作 图/纽约时报


第二步通常采用一种名为监督学习的技术。通过这种技术,一个算法被训练出来识别它曾经见过的东西。基本的想法是,如果你在“happy”(“快乐”)这个标签下显示出成千上万张笑脸的图像,当它看到一张上面有笑脸的新照片时,会再次把它识别为“happy”(“快乐”)


研究生拉娜·艾尔·卡利欧比(Rana el Kaliouby)是最早开始试验这种方法的研究人员之一。2001年,从埃及来到剑桥大学攻读计算机科学博士学位后,她发现自己花在电脑上的时间比花在与其他人相处的时间更多。她认为,如果她能教电脑识别自己的情绪状态并做出反应,那么没有家人和朋友在身边时,她也不会那么孤独了。


卡利欧比(Kaliouby)博士阶段的其余研究都致力于解决这个问题。最终,她开发出了一种设备,可以帮助患有亚斯伯格综合症(Asperger syndrome )的儿童阅读面部表情并做出相应的反应。她称其为“情感助听器”。


2006年,卡利欧比(Kaliouby)加入麻省理工学院的情感计算实验室,在那里,她与实验室主任罗莎琳德·皮卡德(Rosalind Picard)一起,继续改进和完善这项技术。此后,2009年,她们共同创办Affectiva公司,面向市场销售“人工情感智能”。


一开始,Affectiva将她们的情感检测技术作为一种市场研究产品出售,为广告和产品做出实时的情感反应,他们找到了诸如玛氏(Mars),家乐氏(Kellogg’s)和哥伦比亚广播公司( CBS)这样的客户。如今,亚马逊、微软和IBM也将“情感分析”作为他们的面部识别产品之一,许多较小的公司,如Kairos 和Eyris也已经开始崛起,提供类似的服务。


除了市场研究以外,情感检测技术现在还被用于监控和检测驾驶员的身体损伤,测试视频游戏的用户体验,以及帮助医疗专业人士评估患者的健康状况。


卡利欧比(Kaliouby)目睹了情感检测从一个研究项目成长为一个价值200亿美元的行业。她相信该行业将继续发展壮大。卡利欧比(Kaliouby)预言,在不久的将来,这项技术将无处不在,并整合到我们所有的设备当中,能够“利用我们内在的、潜意识的、时时刻刻的反应”。


02. 囊括87个国家750万张人脸的数据库


与大多数机器学习应用程序一样,情感检测的进展取决于访问更高质量的数据。


展会上的面部识别软件 图/路透社


Affectiva公司表示,他们的情感数据存储库包含来自87个国家的750多万张面孔,其中大部分是从收看电视或每天上下班行人的选择性录像中收集的。


目前,利用该技术可以将面部表情翻译成对应的情绪,例如,如果他们看到眉毛低垂,嘴唇紧闭,眼睛凸出的面容,就会贴上“愤怒”的标签。然后,这个带有标记的人类情绪数据集就会被用来训练算法,该算法会学习如何将皱眉头的脸与愤怒、微笑的脸与幸福等等联系起来。


这种标注方法,在情感检测行业中被许多人认为是衡量情感的黄金标准,它是由保罗·艾克曼(Paul Ekman)和弗里森(Wallace V Friesen)于20世纪80年代开发的一款名为“情感面部动作编码系统”(Emfacs)衍生而来。


这个系统的科学根源可以追溯到20世纪60年代,当时艾克曼(Ekman)和两位同事假设世界上存在六种普遍的情绪——愤怒、厌恶、恐惧、幸福、悲伤和惊讶——这些是我们与生俱来的情绪反应,可以通过分析面部肌肉运动在所有身处不同文化的人群中检测到。


为了验证这一假设,他们向全世界不同地区的人群展示了面部照片,要求他们辨别他们所看到的情绪。他们发现,尽管存在巨大的文化差异,人类还是会将相同的面部表情与相同的情感匹配在一起。对于美国的银行家和巴布亚新几内亚的半游牧猎人来说,眉毛低,嘴唇紧闭,眼睛凸出的脸都意味着“愤怒”。



此后的二十年里,艾克曼(Ekman)利用他的发现开发了一种识别面部特征并将其映射到对应情绪的方法,潜在的前提是如果一个人的普遍情绪被触发,那么一个相关的面部动作就会自动地出现在脸上。即使那个人试图掩饰情绪,真实的本能感觉也会“泄露”出来,因此懂得观察的人可以捕捉到对方的情绪。


整个20世纪后半叶,这个理论被称之为经典情感理论,开始主宰情感科学。艾克曼(Ekman)为他的情感检测方法申请了专利,并开始将其作为训练项目出售给CIA、FBI、海关和边境保护局以及TSA,真实情感可读的观念甚至渗透到了大众文化之中,构成了电视剧Lie to Me的理论基础。


然而,众多研究情感本质的科学家和心理学家对经典理论和埃克曼(Ekman)的相关情感检测方法提出质疑,近年来,东北大学心理学教授丽萨·费尔德曼·巴雷特(Lisa Feldman Barrett)提出了一个强烈且持久的批评。


巴雷特(Barrett)在研究生时期首先遇到了经典理论,她需要一种客观测量情感的方法,于是发现了艾克曼(Ekman)的方法。在回顾文献时,她开始担心潜在的研究方法有缺陷。具体地说,她认为通过给人们提供预选的情感标签来匹配照片,艾克曼(Ekman)无意中“已经有了预设的答案”。


巴雷特(Barrett)和一组同事通过重新运行艾克曼(Ekman)的测试来检验这个假设。但他们不提供标签,让测试者自由地描述自己所看到图像中的情绪,具体面部表情和具体情绪之间的关系直线下降。


从那时起,巴雷特(Barrett)发展了自己的情感理论,在她的著作《情感是如何产生的:大脑的秘密生活》(How Emotions Are Made: the Secret Life of the Brain)中得以阐述,她认为,大脑中没有由外部刺激触发的普遍情绪,相反,每一次情感体验都是由更基本的部分构成的。


她写道:“情感是你身体物理特性的结合,是一个灵活的大脑,可以连接到所处的任何环境中,是你的文化和教养提供了这种环境,情感是真实的,但在客观意义上不是说分子或神经元是真实的,与金钱一样真实,这不是幻觉,而是人类一致同意的产物。”



巴雷特解释说,把面部表情直接映射到所有文化和环境中的情绪,这么做是没有意义的,一个人生气时可能会皱眉,而另一个人可能会向敌人礼貌地微笑,因此,评估情绪最好理解为一种动态实践,包括自动认知过程、人与人的互动、具体经验和文化能力。她说,“这听起来很费劲,但确实如此。”卡利欧比同样认为“情感是复杂的。”


这就是为什么她和她在情感研究所的团队一直努力提高数据丰富性和复杂性的原因。


除了使用视频而不是静止图像来训练他们的算法外,他们还尝试捕捉更多的背景数据,比如声音、步态以及人类感知之外的面部细微变化,她相信更好的数据将意味着更准确的结果,一些研究甚至声称机器在情感检测方面已经优于人类。


但据巴雷特所说,这不仅与数据有关,而且与数据如何被标记有关,情感检测公司和其他情感检测公司用来训练算法的标记过程,只能识别巴雷特所说的“情感刻板印象”,就像表情符号一样,这些符号符合我们文化中普遍的情感主题。


纽约大学人工智能研究所的联合主任梅雷迪思·惠特克(Meredith Whittaker)认为,基于艾克曼过时的科学构建机器学习应用程序不仅仅是一种糟糕的实践,还会转化为真正的社会危害。


她说:“你已经看到招聘公司使用这些技术来衡量应聘者是否是一个好员工,你还可以看到用于学校的实验性技术,以观察学生在课堂上是忙碌、无聊还是愤怒。卡利欧比表示,“这些信息可以用来阻止人们获得工作或改变他们在学校的待遇和评估方式,如果分析并非十分准确,那将会是一种伤害。”


卡利欧比也敏锐地意识到建立不同数据集的重要性。她说:“我们要确保训练这些算法时,训练数据是多样化的,我们需要代表白种人、亚洲人、肤色较深的人,甚至是戴头巾的人。”这就是为什么研究团队要从87个国家收集数据的原因。


通过这个过程,他们注意到在不同的国家,情感表达似乎呈现出不同的强度和细微差别。例如,巴西人用宽而长的微笑来表达幸福,而在日本,微笑并不表示幸福,而是表示礼貌。情感分析解释了这种文化差异,增加了对系统的另一层分析,汇编了卡里欧比所说的“基于种族的基准”,编纂了关于不同种族文化中如何表达情感的假设。


但正是这种基于种族等标记的算法判断让惠特克(Whittaker) 担心情绪检测技术暗示了自动化面相的未来。事实上,已经有公司对某人成为犯罪分子的可能性进行了预测。


最近几项研究还表明,面部识别技术更容易产生伤害少数族裔群体的偏见,去年12月发表的一篇文章显示,与白人相比,情感检测技术显示出黑人脸上的负面情绪更多。


卡利欧比认为,情感系统确实有一个种族分类器,她承认,这项技术目前并非万无一失。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP