“我们真不是做搜索引擎的”
原创2019-11-27 11:41

“我们真不是做搜索引擎的”

虎嗅注:在Peak Labs创始人季逸超演讲之前,虎嗅F&M创新节揭晓了2019年度创造力榜单,作为虎嗅F&M创新节一项“历史悠久”的传统环节,虎嗅一直致力于,通过不断挖掘、评选、报道那些让我们生活变得不同,令我们感官耳目一新的产品、内容、人物,向此时此刻,身处这个时代节点的创新者们、创新精神致敬。

 

我们先来看一下有哪些产品、作品、人物获得了虎嗅2019年度脑洞奖。然后,再回归正题,听一下登上创造力榜单的Peak Labs创始人季逸超先生,在这款与众不同的“知识提取引擎”脑洞产品创新、落地上有哪些心得、行业体会。

 

虎嗅2019年度脑洞奖“年度创造力榜单”

 

2019年度创造力软件:鸿蒙OS和Magi浏览器

年度创造力数码产品: vivo NEX3 5G版

年度创造力二次元类产品:《哪吒之魔童降世》

年度创造力综艺:《中央广播电视总台2019主持人大赛》

年度创造力纪录片:《手术两百年》

年度创造力展演:尤伦斯当代艺术中心的《毕加索:一个天才的诞生》

年度创造力建筑与空间:MAD建筑事务所的四合院幼儿园

年度创造力跨界创新:雷佳音PK手工耿,宝沃汽车工厂直播卖车,

脑洞年度人物:B站数码up主,老师好我叫何同学

 


以下为Peak Labs创始人季逸超演讲实录(有删减):

 

大家好!今天很荣幸获得虎嗅的脑洞奖,虽然,还是给我们写成了搜索引擎。


在这里,我再跟大家说一下,Magi真的不是搜索引擎。我们最近也受到了很多的关注,其实,这也是一件相当意外的事情,我们是非常严肃地做知识工程的一个团队。

 

大家可能对国内的搜索引擎,总有一些小小的怨言,或者是过高的期望。所以,就把我们推到了前台。当然,我觉得这其实也是一件好事。然后,我希望能够借这个机会跟大家分享一下我们究竟在做什么,或者说,我们对现在的AI(人工智能)发展的一些看法。

 

我今天演讲的题目与规模化的知识工程有关,叫《人类的共享大脑,AI背后的AI》,说得比较大,咱们先从小的事情开始说。


自然语言处理为何发展不理想

 

先来看一下,现在AI发展比较好的几个领域,语音、计算机视觉(CV)、机器人,这些领域到底有什么共同点,为什么我们要探讨它们的共同点?

 

其实,可能很多人,包括我自己,都会觉得为什么自然语言处理(NLP)的发展,好像总是不如它们,这是一个事实。国内的NLP公司都活得苦哈哈、半死不活的,包括我们(自己)。然后,我们就想看一看这些领域到底有什么共同点。

 

这不是我(一个人)的观点,很多人都认为语音、图像、机器人,在某种程度都是感知程度的东西。什么叫感知程度?感知层面的东西很多动物或许也有。

 

当然,我不是说这几个领域比较浅,而是说,之所以它们这么好,是因为它们可能有一些更好、自然地解读。比如,语音我们可以用“波段”很明确地来描述它,图像有像素,机器人有一些信号控制。

 

但是,自然语言理解这个行业,或者说自然语言处理,其实起步比这几个领域都要早。但是,好像直到深度学习爆发以来,我没有看到(自然语言处理)有一个特别好地发展。

 

包括我本人在内,还有很多业内人士、学者,普遍认为自然语言处理领域其实比这些领域要落后一点,我指的落后是指“落地”,还有一些技术的前沿。可能现在发展的阶段也就到了2015年左右的状态。

 

有人说AI四小龙企业,其实,那是指CV四小龙,包括商汤、依图之类的(企业)。这不禁让我们想到,为什么我们这个领域好像有点惨呢?是因为我们这个领域的从业者都比较笨、比较懒吗?肯定不是,因为不至于影响这么大。

 

那我们仔细去思考一下这个问题。

 

第一,语言这个东西到底是怎么回事,这是一位爱丁堡大学认知计算学家写的一本书。里面提到,人类有很多近亲,猴子、猩猩等动物。它们其实跟人类一样,都是哺乳类动物,但为什么只有人类掌握了语言这种很复杂的形式,这是一件很奇怪的事。

 

我为什么要拿动物举例,动物也能看见东西,也能发出信号。譬如,虎鲸能发出60多种不同的信号跟伙伴进行沟通,像前一阵很火的皮皮虾,它的眼睛有12种不同的感知器。咱们人类只有三种,而它们眼中的世界是五彩斑斓的,是咱们自己都没办法想象的。

 

猴子还能自己磨树枝“造”兵器来打人,比咱们家里那种只会“啃”拖鞋的扫地机器人要聪明很多。为什么语言这些东西,咱们的近亲都没有搞定呢?科学家们开始往进化的层面去思考,想探究一下语言这件事到底是怎样产生的。

 

这本书后面一段说,只有人类在足够大的社群里面开始生活,然后,逐渐形成一种基于明示和推理的沟通形式。

 

这其实是一个非常不自然的东西。比如,我以前是一只猴子,我隔壁也有一只猴子,有一天我看见了一只狗熊,我指着那狗熊说“呼呼呼”。久而久之,我们这一个族群就都开始管熊叫“呼呼呼”,这些非常不适合计算机去处理。

 

因为语言或者自然语言是一个又一个的“惯例”,覆盖到另外一个“惯例”上。不断地滚来滚去,经过千百年之后,形成的就是现在我们常说的语言。

 

可以给大家举一个具象一点的例子,这也是我前一阵子听别人说的,我觉得非常好。咱们常说一句话,中国的乒乓球谁都打不过。我们都知道,中国的乒乓球非常厉害,就是说,没有人能打得过我们。

 

如果我们就把乒乓球这三个字换掉,说中国足球谁都打不过,大家一下子就明白了,这是在嘲讽国足。但如果你是一台计算机,你在没有一个常识,或者没有所谓世界观的语境下,你再看到这两句话时,其实,只有足球和乒乓球这样的区别。

 

这是因为,你在理解每一段话的时候,已经不是单纯地从一个输入去感知,我们有大脑,我们有自己的生活,所以才能理解这些内容指代。更广泛地来讲,比如,一些更复杂、长的、上下文理解,代词指代。

 

刚才,我们说到的这些东西统称为常识,现在,咱们可能觉得我们的语音助手,经常能帮我们很好地完成事务性的操作。譬如,天猫精灵说的开灯、关灯、做一些事情。但往往我们问一些稍微超乎意料一点的事情,语音助手可能就会楞一下。

 

我们又回到20年前的搜索引擎,这是为什么呢?很多时候计算机缺乏常识,常识这个东西是非常难搞定的。因为,我们常常认为人之所以能够高效地沟通,是因为我们有共识,而机器人的共识是从哪里来的呢?一定要从数据来,所以说,数据对于NLP来说是非常重要的,然而这又是另外一个非常悲惨的事情。

 

刚才说,现在计算机视觉发展地很好,我们认为要把功劳给到李飞飞博士所开始Image Net事业。当然,有很多别的大规模的标注集,他们让计算机视觉的发展得到了一个空前的机会。因为,他们有了大量的带标注的数据。

 

任何下游的任务,都可以经过在上游进行预训练,从而得到一个很好地提升,这就是一个典型的众包标注环节。比如,我们现在有一只猫的图像,然后,我们问三个小朋友,哪怕他可能都没有上过学,都知道这是猫。

 

对于语音、同样一个单词,我们让不同的人去练习,去收集这些数据,也没问题,哪怕你有口音也问题不大。当然,如果你的口音是方言这个级别的话,那就是另外一回事了,这就是为什么大家会用不同的模型去训练普通话和粤语。

 

到了知识这个领域,问题就会变得比较难受了。同样这一句话,到底是北京有一个大学,有一个教授叫季航;还是说,北京大学有一个教授叫季航;还是,北京有一个大学教授叫季航。


这不是分子层面的问题,分子其实是浅层的自然语言处理,这是对知识歧义理解的问题。我知道这句话是什么意思,因为季航是我爸,但这些机器人如果没有常识的话,会无法去解释这个问题。

 

对众包标注者来说,这也是一个非常大的问题,我们常说人工智能,有多少人工,就会有多少智能。而自然语言理解领域,大规模标注样本的缺失,很大程度上,是因为我们难以靠众多的人去完成一项很规范的标注。

 

就像刚才这个问题,这个数据如果你去标的话,会产生大量的内在企业,到最后模型要么不收敛,要么干脆就学偏了,什么事都干不成。


 

结合刚才说的两点:

 

  • 现在的人工智能缺乏常识

     

  • 自然语言处理领域缺乏大规模的数据


那么,很多人相信,知识图谱应该是解决这个问题的救星之一。其实,知识图谱已经存在很久了,但它一直有一个比较大的问题,就是知识图谱到底是从哪来的?

 

像谷歌Google,或其他公司,包括国内、国外的都会有知识图谱的应用。如果,我们仔细去想想知识图谱怎么来的话,这个问题非常好玩。说得稍微惨淡一点,现在大部分所谓的知识图谱其实都是互动百科、百度百科、维基百科取一个并集,再结合已有的结构化数据。

 

比如,世界银行等,他们相当于把人类已经整理好的数据,构造了更好地连接。当然,在此基础上,你可以用AI进行更深层次的连接去填充一些缺失,或把更多的多元、多模数据结合在一起。但这始终没有解决一个非常现实的问题,即世界上大部分的信息,其实都是在自有文本中。

 

什么叫自有文本?比如,一个网页的正文,再比如,我们企业内很多报告,有的是以Excel的形式存在,它其实已经是一个结构化和半结构化的形式,可以非常方便地被程序理解。

 

想象一下,你有一篇Word文章,这个Word文章可能是一份简历,也有可能是一份内部报告。他们实际上还是以文本的形式存在的,并没有解决,如何从自有的文本中提取知识并结构化的问题。

 

想象一下,如果我们能做到这样一件事,其实我们可以把信息的利用率和规模显著提升一个档次。Magi这个产品不是搜索引擎,它要解决的是知识图谱从哪里来的问题,或者大规模的知识工程,以及从非常不可靠的文本中,构建出尽量可信的知识图谱这项技术。

 

研究机构Gartner这张技术炒作曲线图显示,专家们认为知识图谱可能要5-10年才能真正地成熟,走向生产环境。

 

我相信他们的调查应该是在Magi被曝光之前写的,他们说的主要原因也没有错,其实我们公司从2015年开始就在做这件事,我们抢跑了5年,所以也很正常。

 

前一阵,大家从媒体上看到有一款叫Magi的搜索引擎突然莫名其妙地火了,这确实出乎意料,我们也懒得再去解释。

 

给目前没有见过Magi的朋友看一下,这是我们的公开版本Magi.com的搜索结果。你搜索一些实体,或直接提出自然语言问题的时候,我们能基于全网的数据,自动整理成一个无比大的知识图谱,它不基于任何现有的知识库,这跟刚才那些知识图谱应用有着本质区别。

 

比如,这个界面,我们查的其实是一个医疗领域的知识,并不是来自于权威数据库,而是从全网不涉白名单的自有文本中进行学习,这个界面看着很花,有红、有绿、有黄。

 

其实,每一种颜色代表的是模型学到的可信度,这个可信度不是说这条事实的成立概率,而是他判断自己有没有学对的概率。因此,我们绝对不能把AI黑盒子吐出来的东西,直接作为一个正确的知识,告诉给普通用户。这就是为什么,我们自己对可溯源这件事非常重视。

 

AI给出的每一条信息,必须得给出参考资料。不能像一个问答机器人一样,你问一个问题,它说出来我就信,这是不可以的。

 

这些颜色是怎么算出来的呢?我之前在知乎已经很具体地答过技术细节,我可以给大家一个浅显易懂的例子,假设现在咱们有一篇论文,这篇论文你怎么说它到底好不好?影响力大不大,一个最简单的指标就是看有多少人去引用它。

 

谷歌非常天才地基于这个假设推出了“PageRank”,PageRank其实就是一个网页,如果有越来越多的人反向链向我,那我的流传度和重要性应该更高。

 

这么多年过去了,对知识我们可以提出这样的假设,假设有一个知识点,它在更多不同的高质量数据源中以不同的形式被提及,它理应具有更高的可信度。

 

这里提到了两个点:一个是,更多不同的高质量来源;另一个是,每一个来源的表述要不同,它有不同的上下文。因为互联网语料其实非常脏,很多作者的文章会被别人去洗稿、抄袭、拼接。

 

如果两篇文章,我们学到的是同一知识,而这两篇文章的表达方式非常不同的话,则可以说明这篇文章起码经过了再创造,经过了人的检验。相当于,我们构造了一个半自动的机制,来把所有的知识从纯文本中挖掘出来,这就是公众版的Magi.com给大家展现的东西,它真的不是一个搜索引擎。

 

这么好的东西怎么去体验呢?直接上Magi.com,只要你把这个东西添加到主屏幕,它就可以成为一款APP,它不会有后台,没有推送,非常干净,有兴趣的(人)可以用一下。当然,我们小公司服务器也不是很给力,经常超时。

 

这个公众版本解决的是,一方面,让现在很多的企业了解NLP落地,我们能给他们一个非常具像的展现形式,为什么这么说呢?因为Magi.com所面对的是世界上最“脏”的互联网,而企业内的数据相对来说干净很多。

 

我们当时举了一个非常粗鄙的例子,Magi.com在“粪池”里面蝶泳都有模有样,在大家各自的泳池里面绝对是游刃有余。

 

另一方面,是为了给大家展示,Magi.com产品其实是一个自监督的循环过程。目的是什么,为了构造一个非常大规模、带标注的数据集。同时,能够尝试解决现在AI缺乏尝试和实时知识的情况,这两点非常致命,而且,实操性也是非常重要的。

 

以小米之前发布的MIX Alpha手机作为例子,因为小米这款MIX Alpha手机保密工作做得非常好。在发布会之前没有人泄漏价格,而在发布会最后的时候可以看到,Magi.com已经学到了小米Alpha的售价,19999元,但此时它的置信度很低,只有11。

 

接下来又过了一会儿,大概过了10分钟,我们已经在更多的文本、更多不同的报道中学到了19999元售价这件事,置信度开始逐渐提高。而且大家可以看右下角的百度百科,这种东西依赖于用户的UGC边界,而用户的速度永远不可能跟上AI产生信息的速度。

 

所以,可以看到在16点56分的时候,百度百科还没有人去编辑这个售价。但是,Magi.com已经对小米MIX Alpha的售价有了一个较为可信的结果。

 

接着又过了几个小时,关于小米MIX Alpha这一实体有了更多的信息,会从互联网上不同的地方逐渐聚合,它的可信度也就逐渐地提高。



我们在做什么?

 

我们再盘点一下Magi这个项目在做什么:

 

第一,我们要解决的是从纯文本中,自动构建可信的知识图谱技术。说起来可能有点绕,前一阵确实得到了学术界的一些肯定,因为这是一个非常激进的尝试。

 

第二,刚才提到,构建大规模带标注的数据集,我们非常想在知识领域对标一下。

 

第三,通过互联网进行终身学习和持续优化,我们刚才提到Magi.com和Magi,Magi.com是大家经常看到的网页形式,而Magi才是我们真正学习的技术。

 

通过把Magi这项技术部署在Magi.com上面,不断地学习互联网的文本,引入了越来越外部的统计量,像刚才说的交叉验证还有事实性矛盾,它们把好的结果和错误的结果不断地自动优化。

 

我们可以看到,现在Magi.com上面搜到了一个不好的结果,明天刷新一下可能就已经被AI自动判定过滤掉了。通过这样不断地持续优化,能够获得一个比较好的基础模型,能够完成一个第二项构建带标注的数据集,这是自监督过程。

 

第四,解决刚才说的获取常识知识,并结构化,我们终于让这个模型跟世界有了连接,这样能够不断地更新自己,掌握最新的知识。

 

第五,面向多任务迁移和跨领域学习,待会儿会讲到。

 

第六,是一个非常远大的愿景。大家常说可解释AI,我们现在做好了基础准备,至少不想,我们的知识连溯源都不可能溯源。所以,Magi.com给的每一个结果,你们都可以看到具体是从哪一段话学到的,不是空穴来风。

 

毕竟,我们是一家商业公司,还是要苟活的。所以,下面谈一下,为什么我们说自己不是做搜索引擎的。因为Magi.com没有商业化,又没有广告,而且还特别烧显卡,每用一次我们都在赔钱。

 

那么,我们是怎么活下去的呢?其实,我们对企业提供Magi这样的自动学习技术。比如,有一家猎头公司找到我们,我们现在有非常多的简历,我们想构造一个结构化的人才库,能不能用Magi这样的技术帮我们自动阅读这些简历,来提取出人的知识并整理起来呢。

 

这样的话,甚至最后可以进行搜索,直接说在北京有3年以上、语言开发经验、研究生学历的软件工程师,并且按照年龄升序排序,这都是可以做到的。

 

而之前,类似的功能也可以通过一些深耕垂直领域的公司技术去做到,但是这里面有一个非常大的问题,如果你要让一个垂直领域达到这样的效果,你需要这些客户提供他们独有的数据,确切地说是结构化的数据。

 

而这个过程其实并不顺畅,比如,大家知道医生工资很高,而且他们有自己的使命—救死扶伤。不能说你们这些医生,大家这两个月别看病了,来给我们标数据吧,准备一万条确保可以出来的数据,这样是不太可能的。

 

而我们刚才说了Magi.com在不断地自我学习过程中,已经积累了越来越多的常识,可以说学会了到底怎么样阅读。而要具体读出哪些东西,现在我们的客户不用给我们一万多条,给我们几百条、几千条做一个引导就可以达到了,整个过程我们通过提供非常标准的图形化界面就可以完成。

 

另外,因为我们2015年就开始了,做得非常早。去年谷歌的模型出来以后,大家可以多关注语言迁移、零样本跨语言迁移。其实我们起步非常早,而且我们自己支持170种语言,这是基于中文语料的训练,所以,效果不一定非常好。

 

举两个例子,一个是日语,日语和我们非常地接近,但是主谓宾逻辑和中文不一样,只是共享了很多的字;另外一种像泰语,其实包括阿拉伯语这种从右往左写的语言,问题也不大。

 

时间有限,技术方面不说太多了。我们想说一下这件事儿真的非常难、非常痛苦,我们做了4年才做到今天的程度。我们从头自己搭了一个所谓的Google,因为你们看到Magi.com虽然提供网页搜索,这个网页搜索不是我们的主打,但是它服务于整个模型。作为一个输入信任度的支持,我们没有用百度、Google这些结构,我们首先自己从头搭了一个搜索引擎。

 

第二,我们自己去准备了用来滚雪球,零耗版本的数据,这是独有的,不是学术界能找到的公开数据集。而到了现在,其实我们相当于被提早曝光了出来,所以我们现在很多事儿没有准备好,大家用我们服务的时候可能会遇见各种意外,也请大家多多包容。

如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定