BAT、谷歌、Facebook都在搞的神经机器翻译,真的就地表最强了吗?
2017-09-07 08:35

BAT、谷歌、Facebook都在搞的神经机器翻译,真的就地表最强了吗?

2014年到2016年,机器翻译领域可以说是翻天覆地。


这期间发生的大事,是以神经网络作为基础的机器翻译,开始在全面超越此前以统计模型为基础的统计机器翻译(SMT),并快速成为在线翻译系统的主流标配。


在这场革命之后,机器翻译彻底进入了Neural Machine Translation,即NMT神经机器翻译时代。


很多人为此欢欣鼓舞。回想去年,谷歌在中英翻译系统上部署了GNMT——谷歌神经机器翻译之后,当时网上有一句广为流传的话:“作为翻译,看到这个新闻的时候,我理解了18世纪纺织工人看到蒸汽机时的忧虑与恐惧。”


怎么样?是不是感受到了深深的绝望?


但是先让咱们的小情绪平静一下。时过一年,市面上的NMT系统越来越多,国内的BAT、搜狗,国外的谷歌、Facebook、微软等都在布局。虽然翻译质量确有提高,但远没到上述引文中描绘的发生“质变”的程度。这到底是为什么?


于是,我们选取了目前最有代表性的谷歌GNMT和屡获大奖的搜狗的SogouNMT,来摸索一下今天神经网络机器翻译的真实水平和进化空间。


应用效果测试


考虑到要求连贯性、语句准确的在线翻译技术,其应用场景无非两种:一是海外旅游、购物为代表的实时沟通场景;二是垂直领域的专业内容翻译(毕竟日常翻译需求查单词就够了),所以这里选取了一些旅游用语和专业论文,来检测一下SogouNMT和GNMT的翻译实力。


此外,今年6月搜狗在发布翻译APP时表示SogouNMT的独门秘籍之一是翻译古诗词,所以我们也找来了古诗词与文言文来折磨两个“小家伙”。


首先是来看一句基本的旅游用语:


英译汉:What is the possibility of my getting a seat if I wait?

谷歌答案:如果我等待,我可以得到座位的可能性?

搜狗答案:如果我等待的话,我有座位的可能性是多少?

汉译英:如果我等下去的话有多大几率有座位?

谷歌答案:What is the chance of having a seat if I wait?

搜狗答案:How often do I have a seat if I wait?


从中可以看出,英译汉的语序调整大体正确,搜狗对汉语的语法理解更准确。但汉译英却没有那么乐观,对于表述比较口语化的“几率”,两个系统都没有表现出对上下文的理解能力。


我们来找点论文里的长句子虐一下。


英译汉:

It seems anachronistic to talk about intertextuality in the beginning of the Twenty First Century, almost forty years since the term first appeared with Julia Kristeva’s introduction of Mikhail Bakhtin to the Western world. 


谷歌答案:

在二十一世纪初谈论互文性似乎不合时宜,自从Julia Kristeva将Mikhail Bakhtin引入西方世界以来,已经有四十年了。


搜狗答案:

在二十世纪初开始谈论互文性似乎是不合时宜的,近四十年来,从Julia kristeva引进米哈伊尔·巴赫金到西方世界第一次出现。


汉译英:

自四十年前朱丽娅·克里斯蒂娃在介绍巴赫金思想时首次将"互文性"概念引进西方世界以来,到21世纪初的今天再针对“互文性”进行讨论已经显得有些不合时宜。


谷歌答案:

Since the introduction of the "intertextuality" concept for the first time in the introduction of Bakhtin's thought forty years ago, the discussion of "intertextuality" at the beginning of the 21st century has become somewhat outdated.


搜狗答案:

Since Julia Christie introduced the concept of " intertextuality" to the western world for the first time 40 years ago, it has become an anachronism to discuss the " intertextuality" in the early 21st century.


从长句子的翻译上看,中英之间的语序调整还是大问题。而且语序引发的意义差别会影响整个翻译的结果。另外汉译英中,谷歌表现稍微好一点,搜狗出现了很严重的漏译。值得肯定的是,二者对专有名词的翻译都比较准确,但是人名库显然还不够大。


我们再来一点有意思的,杜甫的《石壕吏》:

暮投石壕村,有吏夜捉人。老翁逾墙走,老妇出门看。 吏呼一何怒!妇啼一何苦!


谷歌翻译版:

Twilight cast stone trench village, there are officials to catch the night.

The old man went over the wall and the old woman went out to see.

Official call an anger! Women cry one bitter!


搜狗翻译版:

Twilight lapidation the village, there are officials and night catchers. 

The old man went over the wall and the old woman went out to see.

The guards cried so fiercely  The old lady cried so sad.


参考巴顿·华兹生公认比较权威的译文:

At evening I put up at Stone Moat Village;
that night an official came to round up people.
The old man at the inn scaled the wall and ran away; the old woman came to open the gate.
The official, how fiercely he shouted!
The old woman, how pitiful her cries!


可以看出谷歌对古诗词的理解确实不如搜狗,比如妇啼一何苦搜狗翻译长了“old women”应该是对应上了前文。再比如“夜捉人”变成了“catch the night”似乎不如搜狗的贴边。当然了,两边对于“逾墙走”这类表达都无法准确理解,另外搜狗完全漏了石壕村。


另外还有一种情况,翻译过程中根据词的表面意义直翻的现象比较严重,并且应该是在算法的加持下强行组成句子。而这种翻译模式下,漏翻现象会很严重。


从以上测试可以得出以下两个问题:


  • 首先,中英文之间的语序对调,也就是机器翻译中的对齐问题还是没有得到妥善解决。

  • 其次,在于神经网络翻译应该会根据算法自己生成整句内容。这是因为算法把句子当做单独的序列,所以无论短语和单词是否正确,都必须生成句子。并且,语位关系与动词的翻译经常出错。


当然以上只是根据我们的实验得到的特征,不一定全面和准确,但似乎确实说明了神经机器翻译没有那么神,甚至有一些技术迭代后出现的新问题。


找钥匙,抢钥匙


目前来看,神经网络机器翻译未来很长时间都会处在主要位置。并且可能会短时间内不断突破。而针对上面分析到的问题,有一些解决方案可以作为比较高效的补充,也许这些会成为神经网络翻译企业接下来的重点战场。


这里探讨的是以其他技术力量完善神经网络机器翻译的方式,说不定其中某项会成为促进真人翻译进一步失业的“钥匙”:


一、引进NMT以外的人工智能技术:巧合的是,近两年关于机器翻译的技术突破往往来自其他人工智能领域。比如注意力模型,是来自Deepmind在机器视觉领域的技术构想。主动引入其他领域的算法和模型,或许在翻译领域有神奇的效果。


二、建立机器学习使用的用户数据库,激发互动:在机器学习的原理当中,对错误样本纠错往往是最好的学习途径,但翻译上的纠错行为显然是企业难以完成的。调动用户主动纠错翻译结果,并以之建立数据库,或许是非常便捷的办法。


三、尝试优质训练资料下的弱监督学习:目前的NMT体系,归根结底是个有监督学习过程,很多所谓“莫名其妙”的翻译结果都来自翻译机制无法优化。尝试一些深度学习架构让翻译系统自我优化,也许是个解决方案。


四、垂直领域语料数据库&数据抽调系统:解决具体的专业领域,甚至文言文的中英互译(当然也包括英文的诗歌和文学文本),其实也没什么特别的办法,拥有强大的垂直领域数据库是硬实力,当然好的数据抽调模型会事半功倍。


神经网络机器学习,还是个标准的新生事物。业界愿意选择它只是因为它比此前的方案更优化,也更有发展潜力。绝不是因为它一出手就秒杀众生,达到了取代人类同行的地步。


翻译依旧是一个非常安全的工作,至少今天还是。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定