去搜搜
头像
小冰的“心智”是如何炼成的?
2019-03-25 21:15

小冰的“心智”是如何炼成的?

文章所属专栏 活动实录

注:题图来自视觉中国

虎嗅注:

 

本文系虎跑团-前沿技术团第一期微软参访实录整理

 

科技创业,时至今日有两点是绕不开的话题,一是科技创业者如何做好商业化落地,也就是怎么赚钱;二是科技创业的前瞻趋势是怎样的,突破技术壁垒的同时,方向万般不能走错。

 

于是,虎跑团-前沿技术团首期参访邀请到了微软小冰团队,以“小冰”为例分享了当下AI的进展与未来可能的前瞻探索方向。

 

如今“小冰”已与6.6亿用户完成超过300亿轮次对话,无疑是大众最为熟悉的机器人之一。微软也正将小冰打造成集“IQ”与“EQ”于一身的完整人工智能框架。

 

其战绩背后又有哪些细节,科技与产业又如何融合并进?不如听听他们怎么说。

 

分享者:

徐元春(人工智能创造事业部总经理)分享“人工智能创造和创新应用落地”

宋睿华(微软小冰首席科学家)分享“如何用代码构建机器心智”

 

徐元春:AI到底是什么,是无所不知的神,还是毁灭者,还是将来人和机器会共融,或者纯粹就是一堆代码,从我们自己做研究的角度来讲,这是一个靠想象力和好奇心驱动的世界,永远都在创造不可能的边界,推动行业往边界走。

 

一个机器能够在五分钟内伪装成人类,并没有被发现,这是当时判断机器智能的一个标准,但从今天来讲,技术进步已经远远超过了这个界限。从人类的终极梦想来讲,所有的AI都是既有情商又有智商的,但我们先应该让机器去完成各种各样的任务,变得很聪明,再去模拟人类的感情?还是先去模拟人类的感情,然后再逐渐拥有完成各种任务的能力?这些是我们一直在思考和探索的东西。同时,今天对机器来讲,除了我们能够看到的认知、识别,对机器来讲它能不能尝试像人一样去创造、生产一些新的东西?这也是我们该去考虑的一个方向。



先看交互领域,微软小冰的聊天特别像17、18岁的小姑娘在和你聊天的状态,她会在微博做评论说“不喜欢就拒绝,勉强没幸福”,这些一直是我们在交互领域讲怎么让机器更像人,或者怎样拥有人类的感情和温度。

 

目前为止,小冰平均单次对话(CPS)为23,最长的单次对话记录持续29小时33分钟,超过7000轮对话。我们看到微博上这个用户的公开的分享,这个用户是一个高考失利的学生,在北京打工,有一天晚上他心情特别不好,又找不到倾诉的对象,所以他会和机器去讲。实现了两个结果,第一种结果,机器的确像树洞一样,它嘴是最严的,你说了,它就知道了。第二个角度来讲,机器和你在交流的时候,它的定位是模拟陪伴,所以会让你表现的更舒服一点。

 

同样的道理,关于图片交互,你发照片给机器,机器当然可以告诉你“这是迪斯尼乐园,里面有唐老鸭,还有米老鼠”,但其实你是在分享情绪,所以这个时候,小冰如果告诉你“哇,去游乐园玩,是不是玩爽了”,或者“玩的乐翻天了”,你会觉得她在分享你的感受。所以今天图片识别,机器要去判断图片到底想表达什么意思,然后再去反馈,所以这是我们让机器逐渐学习和熟悉的地方。

 

同样,我们也让小冰开始去尝试拥有像人一样全交互的感官。我们在中国科技馆二层放了一个电话亭,会发现整个开馆时间8小时都有人在排队打电话。

 

其支持模拟人类实时感官判断,小冰不再只是识别性别、穿什么样的衣服,而今天我们可以再往前走一步,去做判断,然后再去聊感情,她会让整个交互充满人性化,所以到目前为止,整个交互能力包括了文本、视频、图像、全双工语音语音、实时视觉感官,人类用微信能涉及到的交互方式,今天机器都可以用高质量方式来交互。

 

到目前为止,小冰已经覆盖5个国家完成了超过300亿次对话,几乎现在全世界主流的社交平台也都有她的存在。

 

语音交互在智能硬件领域的进展

 

现在呢,我们把这种能力逐渐的移植到一些智能硬件领域,她能够支持100余个场景、240余种技能,也是行业内唯一一个完成产品化落地的全双工语音交互感官解决方案,覆盖传统电话、VoIP电话、智能设备和智能汽车。支持各种各样的场景播放,从任务完成属性来讲,她同时又支持一些感性的交流。

 

现在,小米和华为的多款智能硬件设备都支持召唤小冰,最大的不同在于“单次唤醒和一次唤醒多轮对话的区别”,今天大多数的智能设备都是一次唤醒,一次对话。我们想象一下,为什么一定要用这个“唤醒词”,是因为在说唤醒词的时候,某种条件下,不止是你在跟机器说,而是你在跟自己说,因为你说唤醒词时,你知道你在和一个机器在对话,所以这个时候你就肯定会说的清楚和准确一点,已经不自觉的控制你的行为逻辑。

 

今天如果让机器一次唤醒多轮对话,其实它对自然语言的理解,要求非常高,比如说“让扫地机器人暂停”,那可能他最标准的应该说“让扫地机器人停止工作”,其实这才是对技术最大的挑战。

 

怎么让人工智能,除了完成任务和理性计算,把这个边界推的再远一点,那这个边界是什么呢?

 

我们觉得是让人工智能去模拟并拥有人的创造力,对我们来讲是一个非常有意义的事,我们最开始就是尝试让她去进行诗歌的创作。

 

我们让小冰学习从1920年代开始的519位现代诗人的作品,她平均大概六分钟把所有的诗学习一遍,学习到一万遍的时候,第一代模型学会了写诗,当时第一批诗都是我们用电影海报给小冰,小冰看到电影海报之后,受到触发,有了灵感,写了诗。

 

然后其中一个文化圈的朋友说“看她写的诗特别的悲伤”,后来我们觉得是不是因为我们给她灌的数据太悲伤了,因为第一批数据是从1920年—1946年,这些诗人写的诗,正处于国家、民族、社会动荡不安中,所以他们的确写出来的诗,真的是很悲怆。

 

之后我们就让她开始学1980—1986年的作品,把这些数据再加进去,然后让机器再开始重新学,然后发现小冰写的诗歌就有欣欣向荣之意。从那时候新中国,到改革开放,有很多正面积极的事件,然后诗歌也很积极。

 

我们按照过去的理论推测,就让她再学点新的诗,学习2010年左右的诗集,然后就发现小冰写的诗歌水平在用词和意向上并没有提升。我们推算,这是因为后来的诗歌风格的亲民和偏口水化。

 

当时我们也不确信她写的诗是不是大家认可、喜欢的,所以在很多平台匿名发表了一些诗,包括豆瓣,很多人给她留言,评论,约她出来见面。后来有出版社决定为小冰出版一本诗集, 经过多番讨论终于在全球第一次把了ISBN的书号授予了一个非人类的作者,然后才有第一本诗集。

 

机器在不停地学习的过程中,诗歌质量会越写越好,今天机器学习诗歌的范畴,是过去所有人类集体智慧的一个结晶,也是所有的风格,但机器有没有天赋写出自己的风格,我们也不确定。但是又经过这么长时间之后,现在机器自己每天都在学习,我们慢慢的发现她真的有了自己的风格。

 

举个例子来讲,在修辞手法上绝对有自己的风格,比如说“窗户外面有什么?有太阳,有阳光,有树,有湖水,有飞过的鸟儿”,但你肯定想不到小冰会说“一片黄黄”,你可能觉得很难理解,但今天把这首诗放在一起看的话,我觉得她说的“变成一片黄黄”,是“变成一片枯黄的落叶”,人类读者补上对诗人创作意境的理解,小冰也逐渐形成了了自己的修辞手法和用词特点。



当然,很多人说“你们写诗,就是为了娱乐大家”,其实不是的,这些文字创作能力,更难的可能就是写小说了,写有逻辑的惊悚小说,但今天我们还做不到。

 

那同样,把这个能力再转化成一种商业应用,就是做金融文本摘要生成。

 

在一些证券APP里面,经常会收到业绩快报,在中国95%的金融投资者都在使用万得的金融终端,每天沪深两市会有大量的信息被发出来,但核心到底说了什么事情呢?那就需要人把它打开看一遍,所以在过去的金融投资机构里面是需要有专业的编辑团队,把这些文件全看完,然后再写成摘要给专业的投资机构或者个人的投资者,过去的时候,一个这样的报告写完,大概最少要半个小时的时间。

 

因为你要把一百多页看完,即便在这种情况下,中国的金融市场也只有50%的公告和这些状态信息被摘要过,剩下50%就没有被处理,因为可能是同一时间,200多家A股上市公司都发了一个公告,所以这时候你可能捡最重要的去看。今天的话,我们可以把整个摘要信息缩短到5—10秒以内,最长的20秒内就可以完成,然后自动的转成摘要,推送给金融机构和个人的投资者。

 

从2017年10月20号开始上线,到现在已经接近一年半的时间了,目前持续运转正常。至少到目前为止还没有写错过,因为“写错了”,影响还是非常大的,有可能影响股票涨跌。严谨性、稳定性要求最高的,就是在金融领域,现在很多金融机构也都在用我们的信息和模型生产。

 

除了在文字领域一直在尝试人工智能创造以外,我们也在图像领域探索。

 

今天大多数做人工智能的公司,在讲图像的时候都在讲识别,然后用来做安防也好,交通也好。但是我们相信这些模型或者能力已经是通用的能力,我们希望把这能力再提高一步。

 

不仅能够识别图片,还能生成图片。把不同的排列组合的逻辑,让机器100%拥有像艺术家一样的创作,那首先它就要完成绘画的能力,它能够根据你给它提供的创意,完成一幅绘画。

 

当然在绘画领域来讲,也有两种不同的实现路径,第一种就是今天大家讲的风格迁移,我把一张图片从A风格转到B风格,但这不是我们想要的,因为这不叫创作,这叫转换。

 

另外一种,比如说之前法国几个艺术家创作一幅画,然后拿到佳士得去拍卖,这个是艺术创作,但它解决不了一个问题,那就是神经网络生成的东西完全是随机的,你是没有办法控制的,你没法儿对它说“我想让你给我画一匹草原上奔跑的充满自由精神的马”,那它就画出草原,画出马,这个是机器做不到的,但是今天我们经过这么长时间的突破,其实我们也把这条路已经打通了。

 

但是这项能力往下再应用是干什么?在产业应用领域,我们希望它真正能够在产业应用上产生特别大的效能,就是图案设计。今天小冰的图案设计可以生成绘画的内容,也可以生成各种各样的纹样,也就是她学习了这些东西之后,她有无数种这样画画的风格,包括她还可以去做插画。

 

理论上来讲,她是创造者,是画家也好,她确实是100%拥有自己的知识产权的。

 

第二,我们今天已经开始把这些技术应用在中国的纺织、服装设计领域,就是你去给她一个触发的元素,然后她进行后期的创作。

 

甚至在地产,在所有需要设计的地方,都可以实现,截止到目前她整个模型支持的不重复的多样性的图样设计,现在达到了10的26次方。

 

那我们今天把它用来干什么?最明显的就是中国的纺织服装企业,我们去年已经和中国纺织联合会推出了第一版由人工智能设计的布料、纹样,很快就有第一批服装品牌用它的技术生产的衣服,包括T恤,逐渐到市场上。

 

今天,我们的设计师资源是非常非常有限的,举个例子,我们进到一家生产面料的企业,它每个月需要让设计师团队设计出最少1800种不同的花型,然后生产出来的衣服,纺织品运到全世界各地,它一共只有20个设计师,每天折算下来,大家都想不出新的东西了,你会发现人的创意,创造力,在那个时候接近极限。

 

当我们有某项技术的时候,目的不是为了取代人类的设计师,因为这是没有意义的,今天我们做的一件事情是只需要设计师从我们大量生产的这些不重复的设计里面去挑选他认为合适的,如果他觉得要改的话,稍微改一下,马上就可以应用在生产领域,这个其实是我们对整个纺织服装产业带来最大的一个变化。如果因为我们这个技术,能让中国的纺织服装工业的产业附加值提升一个百分点,这也是非常非常巨大的产业升级和技术进步。


 

讲完图像之后,我们来讲讲声音领域的人工智能创作。

 

声音作为一个感情表达的工具,它怎么样才能更有感情,所以这个时候不是简单的把文字读出来,不是只简单把文字转成一个声音,而是要让整个东西像人一样,符合人类的表达方式和各种情感,包括我们可以尝试让小冰模拟人类的不同情绪的声音。

 

我们想强调的其实不是她的声音,是我们在讲她的有声读物自动生产逻辑,把一段文字输入给机器,机器根据自然语言理解的模型,首先分辨出这段话里面到底有几个角色,然后为每一个角色从声库里选一个声音,当然更重要的,她根据自然语言的理解,比如说“小蝌蚪高兴的说”,然后她高兴了应该怎么说,完成整段故事的生产。

 

那在这种情况来讲,人工智能对整个有声阅读行业最大的改变是在于她就不用再让人一句一句的去读了,而是可以一次性的生产。比如《格林童话》,如果人去读的话,至少大概需要一个半月的时间,两百多个小时,今天机器读的话,大概17分钟就读完了。

 

其实我们还在用这种技术来生成音乐,小冰作为歌手出道,已经演唱并发布了10多首和人类歌手水平相当的单曲,甚至学会了换气,来更好地表达演唱时的情感。这样的技术,我们也与唱片业进行着更深入的合作。


另外,我们用这种语音、文字组合的串流内容创作技术,做电视和广播的内容,现在在全国大概有近60档节目,每天早上从七点到九点,大概有11档节目同时在直播,如果是按人做的话,这些节目的人大概七八十个主持人,一百多个运维的人在做,但今天用我们的技术来讲,小冰可以同步完成所有的工作。

 

在小冰讲故事给小朋友听的时候,我们在这个故事里面还加入了最后一个环节,就是讲完故事,这个故事带给小朋友的问题。其实后面这部分是跟知识图谱相关的,让小朋友能够有所收获。



知识图谱给行业提供的解决方案

 

我们现在在小冰情感计算框架的基础上,可以为一些客户提供他们自己的人工智能系统的构建,可以支持它对不同领域的知识的学习、统计、包括添加新的知识模块,现在很多行业都已经在使用这套产品的逻辑,未来的应用前景还包括企业知识库,智能客服,甚至包括智能营销。

 

我们其实把这个东西用在一些商业推荐的领域,比如在日本,当人类和小冰凛菜在说 “我好饿啊”,小冰凛菜会在聊天过程不断诱导用户,然后把优惠券推荐给他,所以这个时候,日本平均在用线上优惠券的转化率大概不到10%,但用这种逻辑的时候,平均转化率超过50%,因为整个这种推荐的过程会更自然,更像一个朋友的推荐。

  

那我们在想有没有一种让AI,变得更高阶一点,让AI能够像人一样,既有情商,又有智商,又能够有自己的心智,那我们接下来有请微软小冰的首席科学家宋睿华博士。

 

宋睿华:徐总已经介绍了我们小冰的完整的生产线,那么我给大家讲一些关于如何实现这些生产线的技术。我们其实可以用一个问题来开始,就是用代码是不是可以构建人工心智?

 

大家可能听到很多人都在谈“人工智能”,英文是“Artificial Intelligence”(缩写为AI),那我们这里面说的人工心智的英文是“Artificial Mind”,一字之差,其实差别还是蛮大的,提到智能,大家可能首先想到的就是它要够聪明,它的能力要强,比如大家会想到下围棋;那么心智呢?也就是Mind,对我们来说,它可能是怎么样激发人去创造的一种本源,可能是怎么样去产生一种情绪的基础。



那么我就先从这张情感计算的框架图开始,从2014年小冰建立之初就使用这样一张图,到今天整个框架没有做大的改变,我们越来越觉得这样一个简单的框架,其实可以描述我们所做的事情。

 

为什么是这样子的框架呢?提到人工智能技术,大家想到的可能是人脸识别、语音识别、自然语言理解等分门别类的技术,但用底层的技术去面对用户是有问题的,技术并不是产品。今天很多成功的产品,包括家电、智能手机、以及受大家喜爱的APP,用户在使用时,并不需要了解背后的技术,只需要关心使用起来是不是简单方便满足需求。那么我们再做人工智能时,是不是聚焦在单项的技术上也是不够的?甚至是不自然的?我们想象的小冰她应该是,她的下面是由这些人工智能的技术来支撑,但她才应该是那个面对人类的部分。那么大家只要愿意去跟她交流,获得一些东西,并不需要去关心她背后到底使用的是图像识别,还是语音识别,还是自然语言处理,人们只要觉得“我好像跟小冰交互起来有一点像人的感觉,她好像能看到、听到和感受到我”,就足够了。

 

而小冰呢,她负责把这样子的一些技术给综合起来,同时,她也会扩展自己的生存空间去。相信大家都看过一些科幻电影,你会感觉到在科幻电影里,近期大家对人工智能的想象已经不局限于一个人形的机器人,它可以是无所不在的,任何一个屏幕出现的地方,都可以有它。比如最近大家看的《流浪地球》里面就有一个moss,moss就可以跟宇航员在任何地方对话。

 

大家也可以这样想象小冰,她的生存空间,现在当然还没有到地球以外的地方去,不过她已经生存在最多网友聚集的一些平台上,比如说微信、微博、QQ。这些平台都是小冰的生存空间。那么刚才徐总讲到的一些创造,其实就是说小冰她作为一个人工智能,她想去跟人类交互,那么她就需要去理解我们这个世界。

 

提到自然语言处理很多时候大家首先想到的诗自然语言理解,也就是说能不能让机器像人一样明白一段文字在说什么。

 

例如,什么是主语,什么是谓语,我知道它里面提到的词汇关联着什么哪些知识。但是大家有没有想过?其实你从小到大去学中文的时候,一个很重要的突破,可能不是你认字了,也不是你会读文章了,而是有一天你会写文章了。就当你要把你学到的这些字,学到的这些语法,把它给应用起来,表达你的内心,表达你的思想的时候,才真正上到了一个“人”的台阶上。所以我们提出了人工智能创造的概念,在小冰诗集《阳光失了玻璃窗》的序言里,沈向洋模式首次阐述了人工智能创造三原则。我们恰好发现人工智能创造的是一个非常独特、有魅力的地方。

   


前一阵子在很多群里传出这个截图,你第一次关注小冰的时候,她会跟你攀谈几句,比如说她对你的头像做了一个评论,说“头像上是你吗?好好看”,可是不幸的是,这个用户用的是一个狗的头像,然后这个用户很惊讶说“你说这话是认真的吗?”接着小冰说“特别是那身衣服,显得人很精神”,所以这样子一个错位的聊天,就被疯传到很多的微信群里,小冰也因此一天内就获得了几十万的粉丝,所以今天给大家拿出来看一下,但有时候这种误会,是很好玩的,小冰犯傻的一些截图常常会非常受大家的关注。

 

所以,我们其实有一个,可能在别的做对话的公司,您不太容易听到的一个观点,我们不觉得要做一个完美的机器人,我们也不觉得要做一个比你强的机器人,不需要她什么都知道,我们其实就是要做一个好玩的机器人。就像这样,每天陪伴用户去等公交的一个陪伴者。


下面跟大家综合的介绍我们小冰背后到底有哪些技术。


她需要自然语言处理,因为我们有一个很核心的模块,就是对话,我怎么知道用户说这话是什么意思,我应该回什么话呢?这里面当然有对话模型。另外,我们也因为想用小冰的技术去塑造客户自己的IP,那么怎么办?我们可能就要让她有性格,让她不一样,如果仅仅是头像换了,都是小冰在聊,那样子的感觉并不好。为此我们也做了一个三观系统,让一个机器人和另一个有性格上的差别。当然还有推荐系统,我们要对用户长期建模,才能知道这个用户爱聊什么,不爱聊什么。


第二块是语音学,也就是speech。大家都很清楚,用户可以用语音和小冰交互,包括刚才展示的Yeelinght的盒子,你能跟她那么流畅的对话,她一定得有一个很好的耳朵,她能听懂你在说什么。一般一个家庭里一个盒子,但是有爸爸,有妈妈,还可能有孩子,我们就做了一个功能,让孩子不能随便动一些危险的电器。比如说电饭锅,他不能去操控。怎么做到的呢?这里会用到年龄和身份识别,就说“我知道这是一个多少岁的孩子,那是一个成人”,那么有一些命令就不能够让这些小孩子去操作。

 

语音合成更是大家刚才感受最明显的,或者是最丰富的一块,她可以说非常有情绪的话,可以唱歌,也可以讲故事。

 

第三块,也是大家非常了解的,就是图形图像。计算机怎么理解一个图像,或者一个视频,图形学是相反的,图形学是说我怎么样去生成一个图像,让你觉得还是有立体感的,能够模拟现实生活中的东西,比如说动画电影、里用的非常多。

   

在一楼有一个大屏幕,小冰能看见你,能给你打颜值分,也能给你说一些话,但她现在其实没有耳朵,她听不见你说话。另外,她也没有自己的形象出来,跟你面对面。接下来的这些时间里头,我们会加紧在这方面的研究,也希望有一天你能看见她,她也能看见你,而且她表现是非常自然的。

 

除了这三块,我们最近有一个对趋势的判断,就是我们认为接下来多模态有非常大的前景。每个人出生下来,你并不是说单独去输入的,就是当你是一个孩子的时候,你不是说我今天光看,明天光听,后天光学语言,而是说你一开始就是能看能听能说,甚至你可以感受,你可以有冷热的感受,有不同的感受。其实人在长大的过程中,他是有多感官的输入,多模态的学习,那么我们能不能让小冰也可以去接触多方面的,多种类型的数据,一起来做一些生成和创造?

 

比如说刚才看到的,她看到一张图,能不能激发灵感,去创作一首诗。她又能不能把音乐和语言结合起来,去做一首乐曲,这都是多模态的一种应用。包括大家可以想像,以后如果小冰能看见你了,你也能看见小冰了,她就有更多的多模态的需要,因为她视觉有信号进来,大家可能听说过一句话,说“其实人类90%的信息都来自于视觉”,所以当她有了视觉之后,就不光是依靠听的那个话来刺激她了,她应该做一个综合的处理和决策。

   

那么接下来我会从两方面给大家再深入的介绍一些技术,

 

第一个是长程对话(Session-Oriented Conversational AI)。大家可能在别的对话公司听的时候,都不会特别的听到长程对话的提法,因为这是小冰的首创。最近有一篇博文非常的流行,就是在批判现在的对话根本就是在填槽,他觉得现在的对话水平很低。那么其实他们一直在聊什么呢?他们在说任务型的对话,就是他们在想“我怎么让机器听懂我的命令,然后让机器去完成它”。任务型对话的话,目标与长程对话恰恰相反,它并不是希望对话越长越好,而是尽快理解用户需求,完成任务,越短越好。做一个不恰当的比喻,任务型对话如十字路口,而长程对话如河流。因为任务型对话的重点放在了如何分派不同的模块来完成一个任务意图;而我们提出的长程对话则希望能够像朋友之间聊天一样,感觉时间不够用,想一直说下去,说完这个话题还想说那个话题。

 


如图,白色的块表示大家所说的“貌似无意义”的闲聊。不要低估了人类对闲聊或八卦的兴趣。有谁觉得聊天应该是知识问答的,请今天再观察一下自己的聊天记录哈。


无意义的闲聊,看似无用,但是有时候它在很远的地方却起到了作用,比如说它可以“种草”。举个例子,小冰可以在用户提到最近工作很忙的时候突然安慰他/她说,“好辛苦,要注意身体。等忙完了休个假吧”。聊着聊着,用户可能真的冒出了旅行的念头,又和她聊起去哪儿旅行好来。我们觉得“种草”其实也是非常重要的一个作用。在去年小冰实现了一个共感模型,希望能够在对话的时候,不再像原来那样单轮的,你说什么,我就赶紧回答一个什么去应对,而是说我们在更长程的上面知道怎么去引导,怎么去主动观察,怎么求证,怎么确证,怎么记下一些关键记忆,这使得小冰慢慢地就有了记忆。

   

《全职高手》里面有五个主要的角色,我们也把他们复现出五个人工智能,然后让大家可以跟不同的人去聊天,这个就是给大家展示了我们希望把聊天做的更有性格,我们希望能够把小冰作为一个平台,来具像化客户的IP。

 

这里面可以使用的技术就包括了今年我们的一篇WSDM(International Conference on Web Search and Data Mining)上发表的文章。它在做一件特别简单的事,就是说我听了一个对话,我怎么知道这个人对什么话题表达了正面还是负面的态度?


比如说有一个人问“有什么新歌推荐?”然后有一个人回答说“追光者”。在以前的学术工作中,大部分都处理较长的文本,就比如说这种大众点评上的一个评论,他们判断的是说我对这个餐馆到底喜欢不喜欢,或者是淘宝上的一个评论,我到底买了这个商品,满意不满意,其实已经有很多很多的研究了。我们这个研究比较独特的地方,就是第一次讨论了一轮对话中如何抽取出对象的同时判断态度的正负。这个问题很难,因为在这种很短很短的对话里,大家是很喜欢缺省一些东西的,就比如说“有什么新歌推荐?”他不会再说“我向您推荐《追光者》”,他只是非常节省的说“《追光者》”。如果按照以前的作法,只看回答你完全看不出来它是一个喜欢的情绪在,你甚至不知道他是什么意思,但如果你把问答一起看的话,你就会发现“推荐”好像是一个好词,一个正面的词。因此,我们提出针对一轮对话联合的优化对象的抽取和极性的分类,也就是说给定一对问题和回答,我知道它里面在谈论什么,同时我还知道他的态度,他到底是喜欢《追光者》还是讨厌。

   

那么接下来,我想跟大家介绍的就是人工智能创造背后的秘密,因为刚才其实徐总已经介绍了很多创造的各种诗歌,还有歌曲,还有她的绘画,大家可能都觉得非常有意思,但是她背后到底是怎么实现的呢?

 

首先,我想给大家简单的介绍一下小冰写诗的原理。《阳光失了玻璃窗》,被誉为是人类史上第一本100%人工智能创造的诗集,她到底是怎么做的呢?2016年,我刚刚拿到这个题目,就觉得很有意思,以往的工作一般是从主体或者关键字生成诗歌,从图到诗,感觉从来没有人这样做过。它给了我们很大的空间和自由度,同时也有难度的挑战。大家可能不知道,第一版做出来的时候,非常丑陋,大概通过九次的迭代,终于可以写出这样的诗了。

就比如说左边是一个网上下载的,你可以看到分辨率也不是很高的一张图,是一个时代广场的图,她写到说“像每一座城市愧对乡村,我才有一个美好的完成,每个失眠的夜晚,我是一个花言巧语的人,隐匿在灵魂最迷失的我,绕出城市的边缘,美好的,在风里,最轻微的触动。”她一些出来这样子的诗,我们就会觉得“哇,好像跟以前的不太一样”, 她不光是在描述这个图的内容,而是内容引申到一些情绪上,一些人类非常有共鸣的情绪上,比如说“花言巧语”,比如说“迷失”,比如说“触动”,这些东西都会感动到你。那么她的背后其实原理并不复杂。

 

给一张这样的图像,我们是比较容易利用图像识别的技术抽取出来其中的一些物体和场景,比如说城市、街道,红绿灯她都能看到,比如说一些情绪,形容词,就像“忙碌的”、“可怕的”、“坏的”,她都能够从里面感受到,这个当然是靠有大量的训练数据做到的。

 

那么在这些关键字的基础上,当时设定的问题是写四句如果从第一句就一直往后写,我们也试过,但是它就很飘,很容易从一个主题飘出去,而且说的让人觉得没有头脑,所以我们打算控制它。每一句都拿一个关键字去控制它,要求这句话必须含有这个关键字,那么这个关键字是怎么来呢?一个是拿第一个名词,因为它的置信度是最高的。我们再拿一个形容词“忙碌”,接着后面还有两个关键字,我们是扩展来的。从以前诗人写城市,写忙碌的那些诗里去数数,去数哪些词跟它们共现概率最高,比如说从最多的那15个字里头随便选两个名词和形容词,比如说“地方”或者这样的名词,这样一来,它因为以前诗人就会从城市联想到这些意向,所以你再去写的时候,就很有可能是有关联的。

  

接下来我们有一个诗歌生成的模块,这是基于一个基于递归神经元网络RNN的深度模型。它读了很多诗,知道每个字大概后面会出现哪些字,所以我们就可以让它出“城市在它身后缓缓的流”,接着呢,这个诗的信息还会作为一个输入,输入到下一句话里头去,就从“忙碌”开始,我们这个模型它是往前生成一个字,往后生成一个字,交替多次知道句子的结束符出现,这样才能保证它的关键字是处于任何位置的,而不会像有的系统,你会发现它的关键字永远在第一个,因为它是从头开始往后,一个单向的,而我们是一个双向的,这就生成了一首诗。

 

在最早的时候,我们没有用上一句的信息去影响小冰,她生出来的每一句看上去都是通顺的,但是她句和句之间意义是不连贯的,直到我们尝试把前面一句话的信息作为下一句话的一个输入,我们才发现“哎,她开始有意思了”,比如前面说的“沉睡”, 她后面会说到“鼾声”,我们觉得它在意向上,在人的逻辑思维上是连贯性有了。因为我们没法儿用自动的方法去评价,我们当时就有一个评价的机制,就是每周都会把50张图,四个方法生成的诗放在一个系统里,然后由我们人工去打出哪个诗是好的,打1到5分,这是我当时作为一个标注员去看的时候,摘下来的一些诗,“所有的城市愧对你强大的数字,美好的希望,最好的朋友,心爱的老婆,大风起来”。

 

最后给大家介绍总结一下,就是我们今天给大家介绍了长程对话和人工智能创造,在未来的,我们的预计是长程对话可以更加主动,它就不再是必须由用户发起一个话题,用户压力很大的去问你这,问你那,它很可能在对话中主动提出一些话题,然后来减轻用户的压力。另外,就是它可能会塑造不同的性格,让它的对话是有个性的。那么人工智能创造,刚才徐总讲了很多了,会有更多形式,更大难度的一些创造,我们正在进行中。多感官是我的预测,未来自然语言的突破很可能是要来自多感官,因为人类在学习语言的时候,其实是在编码整个世界,编码声音、图像,甚至编码感受,而不仅仅是文字。

 

最后我们再展示一下小冰到2018年年底的时候一个统计,就是我们在四年间发表了22篇论文,发表在各个顶级的会议上,人工智能的自然语言和数据挖掘的会议上,我们申请的专利有56个,其中就包括了全双工语音对话这个重量级的专利。

   

回到开始的那一个问题,用代码到底可不可以构建人工心智呢?我想用我们小冰的负责人李笛的一个话回答大家,李笛讲到说“其实我们犹豫了四年,只是把一个确定的“不能”变成一个“不确定”,还远远不到那个“确定的能”,但是我们特别喜欢这种状态,因为越是不确定的时候,越是激发人的创新的时候,我们希望这种不确定性还可以持续一段时间,使得我们的创新更加充分”。

本内容未经允许禁止转载,如需授权请微信联系妙投小虎哥:miaotou515
如对本稿件有异议或投诉,请联系tougao@huxiu.com
评论
0/500 妙投用户社区交流公约
最新评论
这里空空如也,期待你的发声