《经济学人》开年长文:NLP 60年沉思录 Finding a Voice
2017-01-08 20:16

《经济学人》开年长文:NLP 60年沉思录 Finding a Voice

新智元编译  来源:Economist 翻译:弗格森  刘小芹 序媛


【新智元导读】《经济学人》1月5日发表万字长文,回顾了机器语言技术长达60多年的发展历程,全文分为五个部分:人机对话、语音识别、机器翻译、语义理解和未来展望。


文章重点描述了机器语言技术的现状,特别是深度学习带来的进步,比如神经机器翻译系统。


作者说道,基于神经翻译系统训练使用的数据集不像基于短语的系统使用的那样大,这给了较小的公司与Google这样的巨头竞争的机会。


展望未来,作者说,言语是最典型的人类特征之一,所以很难想象机器可以像人类一样真正地交谈,却不具备超级智能。二者应该是同时出现的。


语言:发出声音


计算机在翻译、语音识别和语音分析上做得比之前好了很多,Greene 说,但是,他们仍然不能理解语言的意义。

 

“对不起,Dave。我恐怕不能这么做”,在 电影《2001: A Space Odyssey》中,计算机HAL 9000 用冷冰冰的声音说到。它将离开飞船外出巡航的宇航员 Dave Bowman 拒之门外。HAL 对它的同伴(David)的拒绝,让人们产生了对于机器智能的担忧。

 

电影在1968年播出时,让计算机跟人类进行顺畅的对话就好像人造飞船登上木星一样遥远。自那时起,人类在打造能对话、能用集成的自然语言回答问题的机器上取得了长足的进步。即便如此,人机之间的交流还是很困难的。如果今天再拍一部这样的电影来反映当下的语言技术,对话应该是这样的:“打开舱门,Hal”,“对不起,Dave,我有些不理解你的问题”。“打开舱门,Hal”,“我为你找到了eBay上有关舱门的物品列表,Dave。”


有创造力和真实对话能力,并且能处理意外事件的计算机现在离我们依然很遥远。被问到什么时候才能创造出智能的HAL、终结者或者Roise(三者都是电影中的机器人角色),人工智能研究者只能一笑而过。虽然除了少量的固定任务外,机器语言技术离取代人类还很遥远,但是,至少它们现在已经好到足够引起重视。它们能帮助人类把更多的时间花在那些只有人类可以完成的工作上。人工智能经历了60年的研究,虽然大部分时间都是让人失望的,但是在过去的几年间,确实产生了一些不小的成果,已经与早期先锋科学家们所期待的结果越来越近。


语音识别取得了卓越的进步。机器翻译也是一样,已经从一塌糊涂走到了可用的阶段,至少已经可以理解一段文本的主旨,很快,机器的翻译可能仅需要少量的人为修订。计算机私人助理,比如苹果的Siri,亚马逊的Alexa 和谷歌的Now以及微软的Cortana,现在已经能处理大量的问题,以多种方式进行组织,并以自然的语音给出准确和有用的答案。Alexa 现在甚至能完成 “给我讲个笑话”这样的请求,但是它只是从笑话数据库中寻找答案。计算机本身并没有幽默感。

 

苹果在2011年推出Siri时,体验效果非常差,所以很多人都放弃了。根据咨询机构Creative Strategies的数据,只有三分之一的智能手机用户会使用私人助理,并且95%的人的使用只是尝试。这些已经之前在使用过程中受挫的用户可能并没有意识到,现在这些程序有了多大的进步。


 1966年,John Pierce 在贝尔实验室做研究。他带领团队建造了第一个晶体管和第一个通信卫星,这两件事为他赢得了声望,所以,美国国家科学院委派给他一个任务,对自动语言处理技术的研究做一个报告。在那段时间,学者们承诺,语言的自动翻译要在几年内攻克。


但是后来这个报告的结果却让人震惊。在对机器翻译、语音自动识别近10年的发展进行了综述后,报告得出结论:钱应该用在一些重要的、实际的和相对短期的项目上。换句话说,语言技术的研究的前景被夸大了,并且很难有产出。


宾夕法尼亚大学的语言学教授、语言数据联盟的带头人Mark Liberman说,关于语言技术如何走过寒冬的故事,既包括实用性,也涉及普遍性。在那些“黑暗”的日子中,研究者一般都不指出自己的研究方法,并且用一种很难评估的方法来描述研究成果。但是,从20世纪80年代开始,美国 DARPA的成员 Charles Wayne 鼓励他们尝试另一种方法——通用任务。


 一步一步来

 

研究人员会商定一套共同的做法,无论他们是教计算机语音识别,说话人识别,文本情绪分析,语法分析,语言识别,手写识别或任何其他任务。他们将列出他们旨在改进的指标,共享用于训练他们的软件的数据集,并允许他们的结果由中立的外部人员进行测试。这使得这个过程更加透明。于是,研究资金再次开始涌入,语言技术开始改善,虽然很慢。



图:语言技术发展史,从1954到2016,来源,经济学人


语言技术的许多早期方法,特别是翻译 ,陷入了一个概念性的死胡同:基于规则的方法。在翻译中,这意味着尝试编写规则来分析原始语言的句子文本,将其分解成一种抽象的“语言”,并根据目标语言的规则重建它。这些方法早期确实表现出了一定的潜力。


但是语言充斥着模糊和异常,所以这样的系统是非常复杂的,并且当对超出它们设计的简单集合的语句进行测试时容易出故障(broke down)。在采纳了统计学的方法,也就是通常被称为“暴力”的方法后,几乎所有的语言技术都开始变得更好了,这依赖于软件搜索大量的数据,寻找模式和从先例学习。例如,在解析语言(将其分解成其语法组件)时,软件从已经被人类解析的大量文本中学习。它使用它学到的东西来对一个以前没见过的文本进行最佳猜测。


在机器翻译中,软件扫描已经由人类翻译的数百万字,再次寻找模式。在语音识别中,软件从记录的主体和人类进行的转录中学习。由于处理器的能力不断增长,数据存储的价格下降,最重要的是,可用数据的爆炸性增长,这种方法最终取得了丰硕成果。


几十年来已知的数学技术开始大显身手,有大量数据的大公司有望受益。那些被像BabelFish 这样的在线工具提供的不当翻译搞得歇嘶底里的人开始对谷歌翻译更有信心。


苹果说服了数百万 iPhone 用户不仅通过手机对话,而且对手机说话。大约5年前,随着深度神经网络(DNN)和深度学习的出现,他们开始取得突破。这种网络经常被吹捧为具有与人类大脑类似的特性:软件中的“神经元”是相互连接的,并且在学习过程,这种连接可以变得更强或更弱。


但是 Nuance 公司研究主管 Nils Lenke说,事实上“DNN只是另一种数学模型”,其基础几十年前就已经奠定。真正改变的是硬件条件。

 

几乎是偶然地,DNN 研究人员发现,用于在诸如视频游戏的应用中流畅地渲染图形的图形处理单元(GPU)也在处理神经网络方面非常有效。在计算机图形学中,基本的小形状根据相当简单的规则移动,但是有很多形状和许多规则,需要大量的简单计算。相同的GPU用于微调分配给DNN中的“神经元”的权重,因为它们搜索数据来学习。


该技术已经极大地提升了各种深度学习的质量,包括手写识别,人脸识别和图像分类。现在他们正在帮助改进各种语言技术,通常能带来高达30%的提升。这已经将语言技术从零星的使用,变为真正很好的技术。但到目前为止,还没有人完成从好到“可信赖的最好”的转变。


 语音识别:我能听懂你




在理解人类的语音上,计算机取得了长足的进步


当人说话时,空气通过肺部,使得声带振动,其通过空气发出特征波形。声音的特征取决于发音器官的位置,特别是舌头和嘴唇的位置,并且声音的特征性质来自某些频率的能量峰值。元音有称为“共振峰”的频率,其中两个频率通常足以区分一个元音与另一个元音。例如,英语单词“fleece”中的元音在300Hz和3000Hz处具有其前两个共振峰。辅音有自己的特征。

 

理论上,将这种声音流转换成转录的语音是很简单的。与其他语言技术一样,识别语音的机器根据先前收集的数据进行训练。在这种情况下,训练数据是由人类转录文本的声音记录,使得软件同时拥有声音和文本输入,所有它要做的是对二者进行匹配。


机器在处理如何以与人类在训练数据中相同的方式转录给定的声音块上变得更好。传统的匹配方法是一种称为隐马尔科夫模型(HMM)的统计技术,主要是基于机器之前做的工作进行猜测。最近,语音识别也从深度学习中获益良多。


英语有约44个“音素”,组成语言的声音系统的单位。 P和b是不同的音素,因为它们用于区分诸如pat和bat的词。“p ”的发音有时候是送气的,如在“party”一次中,p有时候又不送气,如在“spin”中 。如果计算机听到音素s,p,i和n相继出现,它应该能够识别出是词“spin”。


但是现场演讲的对于机器来说很困难。因为声音不是单独发音,一个音素接着另一个,它们大多是在一个恒定的流,找到边界不容易。音素也根据上下文而不同。 并且,扬声器在音色和音高以及重音方面不同。对话远不如仔细听写清晰。人们在说话的过程中的停顿比他们意识到的更频繁。


所有这一切,技术已经逐渐克服了许多这类问题,因此语音识别软件的错误率多年来稳步下降,然后随着深度学习的引入急剧下降。麦克风已经更好,更便宜。随着无处不在的无线互联网,语音记录可以轻松地传送到云中的计算机进行分析,甚至智能手机现在都经常有足够的计算能力来执行这项任务。


同义词识别:Bear arms or bare arms?


也许语音识别系统最重要的特征是它对某人可能会说什么或其“语言模型”的预期。与其他训练数据一样,语言模型基于大量真实的人类言语,并转录成文本。当语音识别系统“听到”声音流时,它对所说的内容做出许多猜测,然后基于它所具有的单词,短语和句子的种类来计算它找到正确的、此前见过的训练文本的几率。


在音素级别,每种语言都有允许或者禁止的字符串 。同样的话语。一些字符串比其他更常见。 在做出关于同音词的猜测时,计算机将会记住在其训练数据中,短语“拥有武器的权利”(the right to bear arms)比“裸露手臂的权利”(the right to bare arms)出现得多,因此将做出正确的猜测。


根据特定说话者进行训练大大减少了软件的猜测工作。对于那些愿意更长时间地训练软件的人,可以获得接近99%的准确性(意味着每一百个单词的文本,被错误地添加,省略或改变的不超过1个)。一个好的麦克风和一个安静的房间会更有效。


提前知道说话者可能谈论什么样的事情也会增加准确性。像“静脉炎”和“胃肠道”这样的词在一般话语中不常见。但是这些词在医学中是常见的,因此创建经过训练以查找这些词的软件会明显改善结果。 


与所有其他语言技术领域一样,深度学习大大降低了错误率。2016年10月,微软宣布,其最新的语音识别系统已经与人类速记员在识别 Switchboard Corpus中的语音上达到相同水平。




Switchboard Corpus 的错误率是一个广泛使用的基准,因此可以与其他的质量改进声明进行比较。十五年前,语音识别质量停滞不前,错误率为20-30%。微软的最新系统,有六个神经网络并行运行,错误率已降到5.9%,与人类转录的相同。微软首席演讲科学家黄学东表示,他原本的预计是,还需要两三年才能达到人类水平。


实验室的进步现在正应用于现实世界的产品中。越来越多的汽车配备有各种声控的控制,但是所涉及的词汇有限,这确保了高精度。麦克风或者通常具有窄拾音区域的麦克风阵列在识别组中的相关说话者方面越来越好。


一些问题仍然存在。儿童和老人说话者,以及在房间里移动的人,在识别上是困难的。背景噪声仍然是一个大问题,如果它与训练数据中的不同,软件则很难进行识别。例如,微软为企业提供了一个称为CRIS的产品,允许用户为背景噪声,特殊词汇和其他在特定环境中遇到的特别语音识别系统。这可能是有用的。


但是对于一台计算机来说,知道一个人所说的只是一个开始。两者之间顺畅的交互,也就是在几乎每个科幻故事中出现的那种,需要能够说话的机器。


机器翻译:超越巴别塔




计算机翻译变得惊人的好,但仍需要人类的输入。


在《星际旅行》中,有“宇宙翻译器”;在《银河系搭车客指南》中,有可以方便地进入耳朵的“巴别鱼”(Babel Fish)。科幻故事中,那些来自遥远文明的人们相遇时自然需要某种设备来让他们能够交谈。高质量的自动翻译技术似乎比其他语言技术更加神奇,因为对许多人来说,学习一种以上的语言已经足够费劲,更别说把一种语言翻译为另一种语言。


 这个想法从20世纪50年代以来一直存在,计算机翻译也一直作为新奇的“机器翻译”(MT)为人所知。这个概念可以追溯到冷战时期,当时美国科学家试图让计算机将俄语翻译为英语。他们的灵感来自第二次世界大战的代码破解的成功,这带来了计算机技术的发展。对他们来说,在俄语文本里的西里尔字母只是英语的编码版本,把它变成英语只是一个解码的问题。


IBM和乔治城大学的科学家都认为这个问题很快就能破解。他们在计算机上编写了六个规则和一个250个词汇的词汇表,于1954年1月7日在纽约进行了一次演示,并自豪地宣称已经成功完成60个俄语句子的自动翻译,包括“Mi pyeryedayem mislyi posryedstvom ryechyi”,这句话被正确地翻译为“ 我们通过讲话传达思想。”乔治城大学的Leon Dostert是这个项目的首席科学家,他大胆地预测三到五年内,机器翻译将完全实现,而且将是“一个完美的事实”。


然而,经过十多年的研究,1966年由John Pierce主持的一个委员会会议发表了一份报告,报告的导言中提到,机器翻译的结果令人失望,并敦促研究人员集中精力于狭义的,可实现的目标,如自动化词典 。政府赞助的MT研究开始进入冬眠,并持续了将近二十年。这期间的一切研究工作都是由私人公司支持进行的。其中最引人注目的是Systran系统翻译软件,它主要为美军提供粗略的翻译。


科学家们发现基于规则的机器翻译方法陷入困境。在他们继续完善这个6条规则的系统之后,他们相信如果他们把更多的规则编程给计算机,翻译系统将能变得更加复杂和准确。然而事与愿违,系统翻译的内容出现更多无意义的句子。添加额外的规则,用现在的软件开发人员的话来说,是没有“扩展”。


除了编程中大量的语法规则和例外带来的困难,一些早期的观察者注意到一个概念上的问题。即一个单词的含义通常不仅取决于其字典定义和上下文语法,而且取决于句子其余部分的含义。以色列MT领域的先导Yehoshua Bar-Hillel注意到“the pen is in the box”和“the box is in the pen”这两句话中,“pen”的翻译应该是不同的:能够装下“盒子”的“pen”应该是“围栏”,而不是“钢笔”。


怎样教给机器足够多的规则来进行这种区分?这要求机器要有一些关于真实世界的知识,但这远远超出了机器或者当时的程序员的能力。二十年后,IBM的科学家偶然发现了一种可以恢复对MT的乐观态度的方法。IBM的Candide系统是第一次使用统计概率而非人为制定的规则进行机器翻译的尝试。统计是“基于短语”的机器翻译,像语音识别一样,需要用来学习的训练数据。 Candide使用加拿大的《国会议事录》作为训练数据,这是用法语和英语出版该国议会辩论,为当时的统计翻译提供了大量的数据。基于短语的方法能够确保单词的翻译适当地考虑周围的单词。




但当时的翻译质量并没有取得飞跃。直到谷歌决定使用它的搜索引擎的所有数据来训练其翻译系统。2007年,谷歌翻译从基于规则的系统(由Systran提供)转变为它自己的基于统计的系统。为了构建这个系统,谷歌搜寻了一个万亿个网页,从中寻找似乎是另一个语言的对应的任何文本。例如,两个页面设计相同,但有不同的单词,或者有一些提示,例如一个网页的地址以/ en结尾,另一个以/ fr结尾。根据谷歌翻译总工程师Macduff Hughes的说法,使用大量数据的简单方法似乎比使用较少数据的复杂方法更有前途。


对平行文本(语言学家称之为语料库)的训练创建了一种“翻译模型”,它不是产生目标语言的一个翻译,而是一系列可能的翻译。下一步将这些目标语言的翻译放到单语语言模型中,检查其可能性。这实际上是一组关于目标语言中句式正确的句子可能的样子的期望。单语言模型不太难构建。(人工翻译的平行语料库很难得到;但大量单语训练数据不难得到。)与翻译模型一样,语言模型使用统计方法从训练数据中学习,然后将输出的翻译模型按照似然性排序。


统计机器翻译重新激发了MT领域的乐观情绪。互联网用户很快发现Google翻译远远优于之前使用的基于规则的在线翻译工具,例如雅虎的BabelFish。虽然统计翻译系统仍然有错误——有时是轻微的错误,有时的翻译结果很滑稽,有时是严重的错误,或者输出毫无意义的结果。这与语言对相关,如“汉语 - 英语”是两种结构相当不同的语言,两者间的翻译结果就不尽如人意。但成对的相关语言,如英语和德语之间的翻译相当准确。但通常情况下,Google翻译及其它竞争对手的免费在线翻译,如微软的Bing翻译,为人民提供了一些可用的近似翻译。


这样的系统变得更好,是再次得益于数字神经网络中的深度学习。计算语言学协会自2006年以来每年都举行关于MT的研讨会。其中的一个活动是MT系统之间的竞赛,用一组新闻文本进行翻译比赛。2016年8月在柏林举行的研讨会中,基于神经网络的MT系统得了第一,是102个MT系统中表现最好的。


谷歌已经发布八个语言对的神经翻译系统,将旧的翻译系统和人工翻译之间的质量差距大大缩小。这对于有大量可用的训练数据,而且有紧密关系的语言(如欧洲的大部分语言)尤其如此。虽然其结果仍然明显是不完美的,但已经比以前的翻译更顺畅而且更准确。英语和中文、英语和韩语之间的翻译不是很好,但在这些语言对里神经翻译系统也带来了明显的改善。


可口可乐的类比


基于神经网络的翻译系统实际上使用两个网络。一个是编码器,输入句子的每个词被转换成多维向量(一系列数值),并且每个新单词的编码会考虑句子中前部分的意思。意大利的Bruno Kessle是一个私人研究机构,该机构的研究人员Marcello Federico做了一个有趣的类比来比较神经网络翻译与基于短语的统计翻译。他说,后者就像将可口可乐描述为糖、水、咖啡因以及其他成分。相比之下,前者是描述诸如流体性,黑色,有甜度、会起泡等可口可乐的特征。


源语句被编码后,解码器网络将生成词对词的翻译,并且同样会考虑每个词前面的词。但假如代词含义需要取决于较长句子中较早出现的词时,就可能导致问题。这个问题通过“注意力模型”(attention model)来减轻,该模型这有助于保持对紧邻上下文之外的句子中的其他单词的关注。


神经网络翻译需要大量的计算能力,既要用于系统的原始训练,又要用于系统的使用。这种系统的核心是使深度学习革命成为可能的GPU,或者是像Google的张量处理单元(TPU)这样的专门硬件。较小的翻译公司或者研究人员通常需要在云中租用这种处理能力。基于神经翻译系统的训练中使用的数据集不像基于短语的系统那样大,这应该给了较小的公司与Google这样的巨头竞争的机会。


全自动化、高质量的机器翻译还有很长的路要走。现在,还有几个问题。所有当前的机器翻译都是逐句进行的。如果一个句子的意思取决于前面的句子的意思,自动化系统就会犯错误。长句,尽管有注意力模型这样的小技巧,可能还是很难翻译。基于神经网络的系统也特别难处理不常见词汇。


对于许多语言对来说,训练数据也太少了。欧洲语言之间的训练数据很丰富,因为欧盟有机构在欧盟24种官方语言之间制作了大量的人工翻译材料。但对于较小的语言来说,这样的资源非常少。例如,很少有希腊语乌尔都语的并行文本可用于训练机器翻译系统。因此,声称提供这种翻译的系统实际上通常都是通过桥接语言( bridging language)来进行的,而且这个桥接语言基本上总是英语。这就涉及两次翻译,而不是一次,出错的可能性也会加倍。


即使机器翻译还不完美,技术也可以帮助人类更快更准确地翻译。“翻译记忆”,存储已翻译的词语和段落的软件,早在上世纪80年代就开始使用。对于经常翻译相同材料(例如说明手册)的人,他们提供已翻译的信息,节省了大量的重复和时间。

 

类似的方法用于在处理狭窄的真实世界领域的文本上训练MT引擎,例如医学或法律。随着软件技术的精炼和计算机变得更快,训练变得更容易和更快。在欧盟的支持下开发并由一些内部翻译使用的免费软件,如 Moses,可以由任何人使用平行语料库进行训练。例如,医学翻译专家可以仅仅对医疗翻译系统进行训练,这使得它们更准确。

 

语言复杂性的另一面方面,可以针对人们在语音中使用的更短和更简单的语言来优化MT引擎,以便实现粗略但接近实时的语音到语音翻译。这正是微软的 Skype 翻译器所做的。它的质量是通过训练语音提高(比如电影字幕和常用的口语短语)而不是通过欧洲议会产生的并行文本提高。

 

翻译管理也受益于创新,聪明的软件允许公司迅速结合最好的MT,翻译记忆,个人翻译的定制等。翻译管理软件旨在切断那些一直作为客户和自由翻译队伍之间的中介。行业最喜爱的 Smartling 的创始人杰克·韦尔德(Jack Welde)说,未来翻译客户将选择,翻译需要多少人工干预的。一个快速自动的方法可以为短期内容的短期内容,但最重要的内容仍然需要一个完全手工制作和编辑版本。Welde说,他注意到MT既有促进者,又有诋毁者,他说他两者都不认同:“如果你采取教条主义,你就没有针对客户的需求进行优化。

 

翻译软件会越来越好。不仅工程师会不断调整他们的统计模型和神经网络,而且用户自己将改进自己的系统。例如,一个小而受人钦佩的初创公司 Lilt 使用基于短语的 MT 作为翻译的基础,但是一个易于使用的界面允许翻译者校正和改进MT系统的输出。每次这样做,校正被反馈到翻译引擎,其实时地学习和改进。用户可以建立几种不同的记忆 - 医疗,金融等等,这将有助于在该专业领域的未来翻译。

 

TAUS 是一个行业团体,最近发布了一份关于翻译行业状况的报告,称“在过去几年中,翻译行业已经涌现出了新的工具,平台和解决方案”。去年 JaUS van der Meer,TAUS的创始人和董事 写了一篇题为“未来不需要翻译者”的挑衅性博客文章,认为MT的质量将不断改进,对于许多应用来说,不完美的翻译已是足够好的。

 

未来的“翻译者”可能更像是一个质量控制专家,决定哪些文本需要最注意细节并编辑 MT 软件的输出。这可能是必要的,因为计算机,无论它们已经变得多么复杂,都不能真正地掌握文本意味着什么。


意义和机器学习:你在说什么?


机器无法跟人类正常对话,因为他们不理解这个世界。


在“黑镜”中——一个不列颠科幻讽刺剧,设置了在不远的未来一个反乌托邦社会中,一个年轻女人在车祸中失去了男朋友。朋友想帮助她缓解痛苦。死去的男人是社交网络发烧友,他的账号被用于复制成带有他人格的聊天机器人。女人可以和聊天机器人文字聊天,后来他们可以对话。在系统学习更好的模拟他的过程中,他也变得越来越真实。


这并不那么奇怪。如今计算机只要学习了适当的材料,完全可以的超真实的学会人类语言。它们目前还做不到真实的对话。真正人机直接的交互需要对世界有更广泛的理解。缺乏这点,机器无法聊到很广泛的话题,不能聊很久或者处理意外。


然而,针对有限的任务训练的机器可以表现得很出色。最明显的例子是由技术巨头创建的数字助理。用户可以用各种自然的方式向他们提问:“伦敦的温度是多少?”“外面的天气怎么样?”“今天会变冷吗?”助理知道一些关于用户的事情,例如他们在哪里生活和他们的家人,所以它们也可以是非常个性化的:“我的通勤路线看起来怎么样?”“发短信给我的妻子,说我会在15分钟内回家“。


现在,苹果的Siri每周收到20亿份请求,这些请求被用于进一步的训练。例如,苹果的Siri知道用户关于体育比分的每一种可能的提问方式。对于问圣诞老人的孩子,它也有一个令人愉快的答案。微软从一些以前的自然语言平台学到,约10%的人际交往是“闲聊”,从“给我讲一个笑话”到“谁是你的爸爸?”,并使用这种聊天训练它的数字助理——Cortana。


Cortana 的写作团队包括两个剧作家,一个诗人,一个编剧和一个小说家。Google 聘请了 Pixar (一家动画电影制片厂)和The Onion(一家讽刺性报纸)的作家,使其新的Google Assistant 变得更加简单。难怪人们经常感谢他们的数字助手做好的工作。助理的回答已经从“我的荣幸,一如既往”变化到“你不需要感谢我”。


擅长语法


自然语言平台如何知道人们想要什么? 他们不仅识别一个人使用的词,而且把话语根据语法和意义分解。语法解析相对比较发达,它是“自然语言处理”的成熟领域。但意义解析在“自然语言理解”之下,这是更难的。


首先,解析。大多数人不太善于分析句子的句法,但是计算机已经变得非常擅长,尽管大多数句子在人类很少意识到的方式上是模糊的。公共喷泉上的标志:“这不是饮用水”。人类理解这意味着水(“这”)不是某种水(“饮用水”)。但是计算机可能很容易解析它说“这个”(喷泉)目前不在做某事(“饮用水”)。


当句子变得更长时,语法上可能成立,但无意义的选项数量会成指数倍增。机器解析器如何知道哪个是正确的? 如果它知道一些词的组合比其他词更常见,可能对此有所帮助:短语“饮用水”被广泛使用,因此,对大量英语训练的解析器将评定这两个词可能加入一个名词短语。一些结构比其他结构更常见:“名词 动词 名词”可能比“名词 动词 名词”更常见。机器解析器可以计算所有组合的总概率,并选择最可能的。


“词法化”解析器可能做得更好。比如 Groucho Marx 的笑话,“一天早上我在睡衣里拍了一头大象。它怎么跑到我睡衣里面的,我永远不会知道。”  他第一句话是模棱两可的(这使之成为一个笑话),在语法上,“我”和“一头大象”可以附加到介词短语“在我的睡衣”。但是一个词法解析器会认识到“我[动词短语]在我的睡衣里“比”我的睡衣中的大象“更常见,因此赋予该语法分析更高的概率。


但意义比语法更难以确定。“男孩踢了球”和“球被男孩踢”具有相同的意义,但不同的结构。“时间就像箭一样”可以意味着时间像箭一样飞,或者有一种称为“时间苍蝇”的昆虫喜欢箭头。


“谁在 Thor 扮演 ‘Thor’?”你的回答者可能不记得那位在Marvel超级英雄电影中扮演同名的Norse上帝的牛仔澳大利亚人。但当他问他的iPhone,Siri想出了一个意想不到的回答:“我没有看到任何电影匹配'托尔'在美国爱荷华州索尔,今天。” 托尔,爱荷华州,人口184,是成千上万 的距离,和“雷神”,这部电影,已经走出电影院多年了。Siri 完全正确地解析了这个问题,但是答案是荒谬的,违反了语言学家称为 pragmatics 的规则:人们使用的共同的知识和理解来理解他们听到的、通常也是杂乱的人类语言。“你能拿到盐吗?”不是信息的请求,而是盐。自然语言系统必须手动编程以处理人们期望它们的请求,而不是字面意义。


多重选择


在谈话过程中也建立了共享信息,这就是为什么数字助理可以在谈话中变得灵活的原因。告诉助手,“我想和我的妻子去一家意大利餐馆,”它可能建议一家餐厅。但是,然后问:“它靠近办公室吗?”,助理必须掌握“it”(餐厅)和“her”(妻子)的含义。Nuance 正在致力于一个可以处理这种类型挑战的“门房”,但它仍然是一个原型。


这样的“门房”还必须提供营业的餐馆。将请求链接到常识(知道没有人想要被指到关门的餐厅)以及对真实世界的了解(知道哪些餐馆是关门的)是语言技术的最困难的挑战之一。


常识,一种古老的观察,将它编程到计算机更困难,Google 的 Fernando Pereira 说。自动语音识别和机器翻译具有共同点:储存了大量用于训练机器的数据(用于语音识别的记录和转录本,用于翻译的并行语料库)。但是没有常识的训练数据。


大脑扫描: Terry Winograd


Winograd 测试计算机对真实世界的“理解”


图灵测试为被用于评判真正的人工智能是否实现:如果计算机可以让人们相信它是人类,就没有理由说机器不是真正智能了。


在计算机行业的很少有大咖的威望能与图灵比肩,但一个大咖,以自己的名字命名了一个类似的挑战:,斯坦福的计算机科学家Terry Winograd在他的博士论文中,为计算机提出了一个谜语:“市议会拒绝给示威者许可证,因为他们害怕暴力。谁害怕暴力?”


它是一个完美的论证认知的点:许多对人来说很容易的东西对计算机来说是非常困难的。Winograd 先生在20世纪60年代和70年代进行AI研究,并开发了一个早期的自然语言程序,称为 SHRDLU,可以执行命令并回答关于一组它可以操纵的形状的问题:“找到一个比你所持有的更高的方块,并把它放入盒子里。” 这项工作给 AI 界带来了乐观的情绪,但是 Winograd 先生后来和他们分道扬镳了,不再致力于使机器变得聪明,而是让他们更好地帮助人类。(这些阵营因哲学和学术而大幅分化。)他在斯坦福大学的成为 Larry Page的老师,之后,Page 作为联合创始人加入 Google,Winograd 先生成为谷歌的客座研究员,帮助开发 Gmail。


2011年,多伦多大学的 Hector Levesque 对那些通过开玩笑或者避免直接回答问题而“通过图灵测试”的系统感到恼火。他后来要求借用 Winograd 的名字和他的论文的谜题的格式,提出一个更真实的机器“理解”的测试:Winograd 模式。它一整套问题的答案对人类是显而易见,但需要计算机有一些推理能力和现实世界的知识才能完成。第一届官方 Winograd 模式挑战赛今年举行,由语言软件公司 Nuance 提供的25,000美元的奖励给可以正确回答90%以上问题的程序。目前最好的只有只能正确回答 58%。


虽然已退休,Winograd 先生还在继续写作和研究。他的一个学生正在研究一个谷歌眼镜的应用程序。该应用程序将帮助自闭症人士阅读对话伙伴的面部表情,并提供佩带者情绪状态的信息。这让他可以为自闭症患者整合语言和非语言信息——这是自闭症患者和计算机无法识别的。


未来会走向何方?




在“WALL-E”中,动画片背景发生在未来,所有人类生活在一个太空飞船,在地球的环境已被废弃后。 人类在智能悬浮椅子里嬉戏; 机器照顾他们的每一个需要,所以他们都是病态肥胖。 即使是船长也不是真的负责; 实际的飞行员是一个智能和邪恶的对话机器人—— Auto,像许多谈论机器在科幻小说,他最终抓住权力。


言语是典型的人类特征,所以很难想象机器可以像人类一样真正地交谈,而不想像他们的超级智能。 如果他们超级聪明,没有人的缺陷,很难想象他们不想接管,不仅是因为他们好,也是为人类。 即使在一个相当仁慈的未来,如“WALL-E”,机器正在做所有的工作,很容易看到,那种状态下,任何有挑战性的事情都会对人有害。


减少苦差事并让人们做更有趣的工作的机器是件好事。从好的方面看,他们甚至可以创造额外的工作。但是任何大的调整对那些最不能适应的人来说是最痛苦的。社会变革带来的动荡,例如妇女的解放或劳动力市场的全球化 ,对一些人来说已经很难。当机器带来这些变化时,他们变得更加困难,并且当这些机器看起来越来越像人类时更是如此。人们对待无生命的物体就像他们是活的: 机器说的越多,他们似乎越理解人,他们的用户就越容易将人的特征归因于他们。


这提出了一个问题:到底怎么样才是人类?语言被广泛视为人类最有区分性的特征。 AI 研究人员坚持认为他们的机器不能像人一样思考,但如果它们能像人一样倾听和谈话,那么它们是什么呢?当人类教会更有能力的机器来使用语言时,二者之间明显的界限将会模糊。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定