“我们真不是做搜索引擎的”-虎嗅网

虎嗅注：在Peak Labs创始人季逸超演讲之前，虎嗅F&M创新节揭晓了2019年度创造力榜单，作为虎嗅F&M创新节一项“历史悠久”的传统环节，虎嗅一直致力于，通过不断挖掘、评选、报道那些让我们生活变得不同，令我们感官耳目一新的产品、内容、人物，向此时此刻，身处这个时代节点的创新者们、创新精神致敬。

我们先来看一下有哪些产品、作品、人物获得了虎嗅2019年度脑洞奖。然后，再回归正题，听一下登上创造力榜单的Peak Labs创始人季逸超先生，在这款与众不同的“知识提取引擎”脑洞产品创新、落地上有哪些心得、行业体会。

虎嗅2019年度脑洞奖“年度创造力榜单”

2019年度创造力软件：鸿蒙OS和Magi浏览器

年度创造力数码产品： vivo NEX3 5G版

年度创造力二次元类产品：《哪吒之魔童降世》

年度创造力综艺：《中央广播电视总台2019主持人大赛》

年度创造力纪录片：《手术两百年》

年度创造力展演：尤伦斯当代艺术中心的《毕加索：一个天才的诞生》

年度创造力建筑与空间：MAD建筑事务所的四合院幼儿园

年度创造力跨界创新：雷佳音PK手工耿，宝沃汽车工厂直播卖车，

脑洞年度人物：B站数码up主，老师好我叫何同学

以下为Peak Labs创始人季逸超演讲实录（有删减）：

大家好!今天很荣幸获得虎嗅的脑洞奖，虽然，还是给我们写成了搜索引擎。

在这里，我再跟大家说一下，Magi真的不是搜索引擎。我们最近也受到了很多的关注，其实，这也是一件相当意外的事情，我们是非常严肃地做知识工程的一个团队。

大家可能对国内的搜索引擎，总有一些小小的怨言，或者是过高的期望。所以，就把我们推到了前台。当然，我觉得这其实也是一件好事。然后，我希望能够借这个机会跟大家分享一下我们究竟在做什么，或者说，我们对现在的AI（人工智能）发展的一些看法。

我今天演讲的题目与规模化的知识工程有关，叫《人类的共享大脑，AI背后的AI》，说得比较大，咱们先从小的事情开始说。

自然语言处理为何发展不理想

先来看一下，现在AI发展比较好的几个领域，语音、计算机视觉（CV）、机器人，这些领域到底有什么共同点，为什么我们要探讨它们的共同点？

其实，可能很多人，包括我自己，都会觉得为什么自然语言处理（NLP）的发展，好像总是不如它们，这是一个事实。国内的NLP公司都活得苦哈哈、半死不活的，包括我们（自己）。然后，我们就想看一看这些领域到底有什么共同点。

这不是我（一个人）的观点，很多人都认为语音、图像、机器人，在某种程度都是感知程度的东西。什么叫感知程度？感知层面的东西很多动物或许也有。

当然，我不是说这几个领域比较浅，而是说，之所以它们这么好，是因为它们可能有一些更好、自然地解读。比如，语音我们可以用“波段”很明确地来描述它，图像有像素，机器人有一些信号控制。

但是，自然语言理解这个行业，或者说自然语言处理，其实起步比这几个领域都要早。但是，好像直到深度学习爆发以来，我没有看到（自然语言处理）有一个特别好地发展。

包括我本人在内，还有很多业内人士、学者，普遍认为自然语言处理领域其实比这些领域要落后一点，我指的落后是指“落地”，还有一些技术的前沿。可能现在发展的阶段也就到了2015年左右的状态。

有人说AI四小龙企业，其实，那是指CV四小龙，包括商汤、依图之类的（企业）。这不禁让我们想到，为什么我们这个领域好像有点惨呢？是因为我们这个领域的从业者都比较笨、比较懒吗？肯定不是，因为不至于影响这么大。

那我们仔细去思考一下这个问题。

第一，语言这个东西到底是怎么回事，这是一位爱丁堡大学认知计算学家写的一本书。里面提到，人类有很多近亲，猴子、猩猩等动物。它们其实跟人类一样，都是哺乳类动物，但为什么只有人类掌握了语言这种很复杂的形式，这是一件很奇怪的事。

我为什么要拿动物举例，动物也能看见东西，也能发出信号。譬如，虎鲸能发出60多种不同的信号跟伙伴进行沟通，像前一阵很火的皮皮虾，它的眼睛有12种不同的感知器。咱们人类只有三种，而它们眼中的世界是五彩斑斓的，是咱们自己都没办法想象的。

猴子还能自己磨树枝“造”兵器来打人，比咱们家里那种只会“啃”拖鞋的扫地机器人要聪明很多。为什么语言这些东西，咱们的近亲都没有搞定呢？科学家们开始往进化的层面去思考，想探究一下语言这件事到底是怎样产生的。

这本书后面一段说，只有人类在足够大的社群里面开始生活，然后，逐渐形成一种基于明示和推理的沟通形式。

这其实是一个非常不自然的东西。比如，我以前是一只猴子，我隔壁也有一只猴子，有一天我看见了一只狗熊，我指着那狗熊说“呼呼呼”。久而久之，我们这一个族群就都开始管熊叫“呼呼呼”，这些非常不适合计算机去处理。

因为语言或者自然语言是一个又一个的“惯例”，覆盖到另外一个“惯例”上。不断地滚来滚去，经过千百年之后，形成的就是现在我们常说的语言。

可以给大家举一个具象一点的例子，这也是我前一阵子听别人说的，我觉得非常好。咱们常说一句话，中国的乒乓球谁都打不过。我们都知道，中国的乒乓球非常厉害，就是说，没有人能打得过我们。

如果我们就把乒乓球这三个字换掉，说中国足球谁都打不过，大家一下子就明白了，这是在嘲讽国足。但如果你是一台计算机，你在没有一个常识，或者没有所谓世界观的语境下，你再看到这两句话时，其实，只有足球和乒乓球这样的区别。

这是因为，你在理解每一段话的时候，已经不是单纯地从一个输入去感知，我们有大脑，我们有自己的生活，所以才能理解这些内容指代。更广泛地来讲，比如，一些更复杂、长的、上下文理解，代词指代。

刚才，我们说到的这些东西统称为常识，现在，咱们可能觉得我们的语音助手，经常能帮我们很好地完成事务性的操作。譬如，天猫精灵说的开灯、关灯、做一些事情。但往往我们问一些稍微超乎意料一点的事情，语音助手可能就会楞一下。

我们又回到20年前的搜索引擎，这是为什么呢？很多时候计算机缺乏常识，常识这个东西是非常难搞定的。因为，我们常常认为人之所以能够高效地沟通，是因为我们有共识，而机器人的共识是从哪里来的呢？一定要从数据来，所以说，数据对于NLP来说是非常重要的，然而这又是另外一个非常悲惨的事情。

刚才说，现在计算机视觉发展地很好，我们认为要把功劳给到李飞飞博士所开始Image Net事业。当然，有很多别的大规模的标注集，他们让计算机视觉的发展得到了一个空前的机会。因为，他们有了大量的带标注的数据。

任何下游的任务，都可以经过在上游进行预训练，从而得到一个很好地提升，这就是一个典型的众包标注环节。比如，我们现在有一只猫的图像，然后，我们问三个小朋友，哪怕他可能都没有上过学，都知道这是猫。

对于语音、同样一个单词，我们让不同的人去练习，去收集这些数据，也没问题，哪怕你有口音也问题不大。当然，如果你的口音是方言这个级别的话，那就是另外一回事了，这就是为什么大家会用不同的模型去训练普通话和粤语。

到了知识这个领域，问题就会变得比较难受了。同样这一句话，到底是北京有一个大学，有一个教授叫季航；还是说，北京大学有一个教授叫季航；还是，北京有一个大学教授叫季航。

这不是分子层面的问题，分子其实是浅层的自然语言处理，这是对知识歧义理解的问题。我知道这句话是什么意思，因为季航是我爸，但这些机器人如果没有常识的话，会无法去解释这个问题。

对众包标注者来说，这也是一个非常大的问题，我们常说人工智能，有多少人工，就会有多少智能。而自然语言理解领域，大规模标注样本的缺失，很大程度上，是因为我们难以靠众多的人去完成一项很规范的标注。

就像刚才这个问题，这个数据如果你去标的话，会产生大量的内在企业，到最后模型要么不收敛，要么干脆就学偏了，什么事都干不成。

结合刚才说的两点：

现在的人工智能缺乏常识
自然语言处理领域缺乏大规模的数据

那么，很多人相信，知识图谱应该是解决这个问题的救星之一。其实，知识图谱已经存在很久了，但它一直有一个比较大的问题，就是知识图谱到底是从哪来的？

像谷歌Google，或其他公司，包括国内、国外的都会有知识图谱的应用。如果，我们仔细去想想知识图谱怎么来的话，这个问题非常好玩。说得稍微惨淡一点，现在大部分所谓的知识图谱其实都是互动百科、百度百科、维基百科取一个并集，再结合已有的结构化数据。

比如，世界银行等，他们相当于把人类已经整理好的数据，构造了更好地连接。当然，在此基础上，你可以用AI进行更深层次的连接去填充一些缺失，或把更多的多元、多模数据结合在一起。但这始终没有解决一个非常现实的问题，即世界上大部分的信息，其实都是在自有文本中。

什么叫自有文本？比如，一个网页的正文，再比如，我们企业内很多报告，有的是以Excel的形式存在，它其实已经是一个结构化和半结构化的形式，可以非常方便地被程序理解。

想象一下，你有一篇Word文章，这个Word文章可能是一份简历，也有可能是一份内部报告。他们实际上还是以文本的形式存在的，并没有解决，如何从自有的文本中提取知识并结构化的问题。

想象一下，如果我们能做到这样一件事，其实我们可以把信息的利用率和规模显著提升一个档次。Magi这个产品不是搜索引擎，它要解决的是知识图谱从哪里来的问题，或者大规模的知识工程，以及从非常不可靠的文本中，构建出尽量可信的知识图谱这项技术。

研究机构Gartner这张技术炒作曲线图显示，专家们认为知识图谱可能要5-10年才能真正地成熟，走向生产环境。

我相信他们的调查应该是在Magi被曝光之前写的，他们说的主要原因也没有错，其实我们公司从2015年开始就在做这件事，我们抢跑了5年，所以也很正常。

前一阵，大家从媒体上看到有一款叫Magi的搜索引擎突然莫名其妙地火了，这确实出乎意料，我们也懒得再去解释。

给目前没有见过Magi的朋友看一下，这是我们的公开版本Magi.com的搜索结果。你搜索一些实体，或直接提出自然语言问题的时候，我们能基于全网的数据，自动整理成一个无比大的知识图谱，它不基于任何现有的知识库，这跟刚才那些知识图谱应用有着本质区别。

比如，这个界面，我们查的其实是一个医疗领域的知识，并不是来自于权威数据库，而是从全网不涉白名单的自有文本中进行学习，这个界面看着很花，有红、有绿、有黄。

其实，每一种颜色代表的是模型学到的可信度，这个可信度不是说这条事实的成立概率，而是他判断自己有没有学对的概率。因此，我们绝对不能把AI黑盒子吐出来的东西，直接作为一个正确的知识，告诉给普通用户。这就是为什么，我们自己对可溯源这件事非常重视。

AI给出的每一条信息，必须得给出参考资料。不能像一个问答机器人一样，你问一个问题，它说出来我就信，这是不可以的。

这些颜色是怎么算出来的呢？我之前在知乎已经很具体地答过技术细节，我可以给大家一个浅显易懂的例子，假设现在咱们有一篇论文，这篇论文你怎么说它到底好不好？影响力大不大，一个最简单的指标就是看有多少人去引用它。

谷歌非常天才地基于这个假设推出了“PageRank”，PageRank其实就是一个网页，如果有越来越多的人反向链向我，那我的流传度和重要性应该更高。

这么多年过去了，对知识我们可以提出这样的假设，假设有一个知识点，它在更多不同的高质量数据源中以不同的形式被提及，它理应具有更高的可信度。

这里提到了两个点：一个是，更多不同的高质量来源；另一个是，每一个来源的表述要不同，它有不同的上下文。因为互联网语料其实非常脏，很多作者的文章会被别人去洗稿、抄袭、拼接。

如果两篇文章，我们学到的是同一知识，而这两篇文章的表达方式非常不同的话，则可以说明这篇文章起码经过了再创造，经过了人的检验。相当于，我们构造了一个半自动的机制，来把所有的知识从纯文本中挖掘出来，这就是公众版的Magi.com给大家展现的东西，它真的不是一个搜索引擎。

这么好的东西怎么去体验呢？直接上Magi.com，只要你把这个东西添加到主屏幕，它就可以成为一款APP，它不会有后台，没有推送，非常干净，有兴趣的（人）可以用一下。当然，我们小公司服务器也不是很给力，经常超时。

这个公众版本解决的是，一方面，让现在很多的企业了解NLP落地，我们能给他们一个非常具像的展现形式，为什么这么说呢？因为Magi.com所面对的是世界上最“脏”的互联网，而企业内的数据相对来说干净很多。

我们当时举了一个非常粗鄙的例子，Magi.com在“粪池”里面蝶泳都有模有样，在大家各自的泳池里面绝对是游刃有余。

另一方面，是为了给大家展示，Magi.com产品其实是一个自监督的循环过程。目的是什么，为了构造一个非常大规模、带标注的数据集。同时，能够尝试解决现在AI缺乏尝试和实时知识的情况，这两点非常致命，而且，实操性也是非常重要的。

以小米之前发布的MIX Alpha手机作为例子，因为小米这款MIX Alpha手机保密工作做得非常好。在发布会之前没有人泄漏价格，而在发布会最后的时候可以看到，Magi.com已经学到了小米Alpha的售价，19999元，但此时它的置信度很低，只有11。

接下来又过了一会儿，大概过了10分钟，我们已经在更多的文本、更多不同的报道中学到了19999元售价这件事，置信度开始逐渐提高。而且大家可以看右下角的百度百科，这种东西依赖于用户的UGC边界，而用户的速度永远不可能跟上AI产生信息的速度。

所以，可以看到在16点56分的时候，百度百科还没有人去编辑这个售价。但是，Magi.com已经对小米MIX Alpha的售价有了一个较为可信的结果。

接着又过了几个小时，关于小米MIX Alpha这一实体有了更多的信息，会从互联网上不同的地方逐渐聚合，它的可信度也就逐渐地提高。

我们在做什么？

我们再盘点一下Magi这个项目在做什么：

第一，我们要解决的是从纯文本中，自动构建可信的知识图谱技术。说起来可能有点绕，前一阵确实得到了学术界的一些肯定，因为这是一个非常激进的尝试。

第二，刚才提到，构建大规模带标注的数据集，我们非常想在知识领域对标一下。

第三，通过互联网进行终身学习和持续优化，我们刚才提到Magi.com和Magi，Magi.com是大家经常看到的网页形式，而Magi才是我们真正学习的技术。

通过把Magi这项技术部署在Magi.com上面，不断地学习互联网的文本，引入了越来越外部的统计量，像刚才说的交叉验证还有事实性矛盾，它们把好的结果和错误的结果不断地自动优化。

我们可以看到，现在Magi.com上面搜到了一个不好的结果，明天刷新一下可能就已经被AI自动判定过滤掉了。通过这样不断地持续优化，能够获得一个比较好的基础模型，能够完成一个第二项构建带标注的数据集，这是自监督过程。

第四，解决刚才说的获取常识知识，并结构化，我们终于让这个模型跟世界有了连接，这样能够不断地更新自己，掌握最新的知识。

第五，面向多任务迁移和跨领域学习，待会儿会讲到。

第六，是一个非常远大的愿景。大家常说可解释AI，我们现在做好了基础准备，至少不想，我们的知识连溯源都不可能溯源。所以，Magi.com给的每一个结果，你们都可以看到具体是从哪一段话学到的，不是空穴来风。

毕竟，我们是一家商业公司，还是要苟活的。所以，下面谈一下，为什么我们说自己不是做搜索引擎的。因为Magi.com没有商业化，又没有广告，而且还特别烧显卡，每用一次我们都在赔钱。

那么，我们是怎么活下去的呢？其实，我们对企业提供Magi这样的自动学习技术。比如，有一家猎头公司找到我们，我们现在有非常多的简历，我们想构造一个结构化的人才库，能不能用Magi这样的技术帮我们自动阅读这些简历，来提取出人的知识并整理起来呢。

这样的话，甚至最后可以进行搜索，直接说在北京有3年以上、语言开发经验、研究生学历的软件工程师，并且按照年龄升序排序，这都是可以做到的。

而之前，类似的功能也可以通过一些深耕垂直领域的公司技术去做到，但是这里面有一个非常大的问题，如果你要让一个垂直领域达到这样的效果，你需要这些客户提供他们独有的数据，确切地说是结构化的数据。

而这个过程其实并不顺畅，比如，大家知道医生工资很高，而且他们有自己的使命—救死扶伤。不能说你们这些医生，大家这两个月别看病了，来给我们标数据吧，准备一万条确保可以出来的数据，这样是不太可能的。

而我们刚才说了Magi.com在不断地自我学习过程中，已经积累了越来越多的常识，可以说学会了到底怎么样阅读。而要具体读出哪些东西，现在我们的客户不用给我们一万多条，给我们几百条、几千条做一个引导就可以达到了，整个过程我们通过提供非常标准的图形化界面就可以完成。

另外，因为我们2015年就开始了，做得非常早。去年谷歌的模型出来以后，大家可以多关注语言迁移、零样本跨语言迁移。其实我们起步非常早，而且我们自己支持170种语言，这是基于中文语料的训练，所以，效果不一定非常好。

举两个例子，一个是日语，日语和我们非常地接近，但是主谓宾逻辑和中文不一样，只是共享了很多的字；另外一种像泰语，其实包括阿拉伯语这种从右往左写的语言，问题也不大。

时间有限，技术方面不说太多了。我们想说一下这件事儿真的非常难、非常痛苦，我们做了4年才做到今天的程度。我们从头自己搭了一个所谓的Google，因为你们看到Magi.com虽然提供网页搜索，这个网页搜索不是我们的主打，但是它服务于整个模型。作为一个输入信任度的支持，我们没有用百度、Google这些结构，我们首先自己从头搭了一个搜索引擎。

第二，我们自己去准备了用来滚雪球，零耗版本的数据，这是独有的，不是学术界能找到的公开数据集。而到了现在，其实我们相当于被提早曝光了出来，所以我们现在很多事儿没有准备好，大家用我们服务的时候可能会遇见各种意外，也请大家多多包容。