NLP领域为什么独角兽公司少？【行研周报】

不到一周前，百度提出知识增强的语义表示模型 ERNIE（Enhanced Representation from kNowledge IntEgration），并声称，其在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理（NLP）各类中文任务上的验证显示，该模型效果全面超越谷歌的语义表示模型BERT。

此前，计算机视觉领域起家的云从科技也宣布在NLP上取得新进展。云从科技表示，与上海交通大学基于DCMN算法，提出了一种新模型，使机器阅读理解正确率提高了4.2个百分点，并在高中测试题部分超越人类。

其实在2018年，NLP业界也有不少突破，如在2018年10月，谷歌AI团队新发布的BERT模型，在11种不同NLP测试中创出最佳成绩。

当然，从底层技术的进步到工程化上的进步，其实还有一定距离。

相比于视觉识别和语音识别，自然语言处理难度更大，甚至被成为AI皇冠上的明珠，尽管技术上有一些突破，但目前自然语言处理的发展成就不及视觉识别和语音识别，识别的成功率远低于视觉和语音。

人工智能被戏称为“人工智障”，基本也是因为机器还不能有效识别人类的语言。在应用场景和商业价值方面，目前自然语言处理也不及二者。

虽然目前其盈利性堪忧，但NLP依然是人工智能领域里一个极为重要的分支，那么，我们今天就来分析一下NLP的突破难点，并盘点一下NLP的技术与应用领域。

行业纵览

1）我们先来了解一下NLP具体是指什么。

狭义上来说，NLP就是对以人类语言为载体的非结构化信息的处理，包括对文本的理解、分类、摘要、信息抽取、知识问答、生成等；广义上来说，NLP包括语音、手语等非数据化形态与数据形态之间的转换。也就是说，狭义上的NLP是让机器理解文本，广义上的NLP还包括让机器理解非文本信息。

NLP包括自然语言理解和自然语言生成。NLP 技术基于大数据、机器学习、语言学等，形成机器翻译、深度问答、对话系统的具体应用系统，再与各行业深入结合，形成包括搜索、智能客服、智能助理等具体应用。

自然语言最重要的三部分是词法、句法、语义。自然语言处理，大致也就包括三个层面，即词法分析、句法分析和语义分析。

词法方面，有词典、词性标注、词的形态变化、构词法等研究领域。
句法方面，有词对词的关联/依存关系，以及短语对短语的结合/拼接关系等研究领域。
在语义层面，有语义标签与它们在现实/想象世界中的所指之间的映射关系和语义标签之间的角色指派关系等研究领域。
除了词法、句法、语义，自然语言其实还有语用层面，有语言成分与语境之间、字面意义和言外之意之间的复杂互动关系。

也就是说，NLP是一个很大的概念，我们所熟知的更具体的研究领域包括：分词、词性标注、命名实体识别、句法分析、语义识别、垃圾邮件识别、拼写纠错、词义消歧、语音识别、音字转换、机器翻译、自动问答等。

此外，NLP技术还可以基于分析对象语言单位粒度来分类，分为词汇级、句子级级和篇章级。这样，自然语言处理的主要技术分类结果可以包括这些：

图片源自CSDN

2）不太了解技术的读者一定很好奇，让机器读懂人类语言，是怎么实现的？

在没有深度学习之前，早期的NLP更多是基于规则的方法，算法被告知要在文本中查找哪些单词和短语，并按照规则在这些短语出现时给出特定的响应，这样，就需要手动编码大量的规则集，让机器去遵循这些规则从而去理解语音。

深度学习兴起之后，基于现在海量的数据文本信息以及日益提升的算力，算法学会从许多例子中识别说话者的意图，就像孩子如何学习人类语言一样，机器通过分析一系列的例子，如数据库、电子文本的书籍、社交网络对话等，得出静态的推论，逐渐掌握一些语义。数据越多，模型越精确，识别能力越强。这使得NLP技术实际上是基于统计的方式。因此深度学习模型需要大量的标记数据来训练和识别相关的相关性，数据标注的压力与成本比较大。

近年来，由于过度依赖标注数据，深度学习的瓶颈越来越明显，无监督学习的NLP领域越来越火。基于海量无监督文本的深度神经网络预训练模型大幅提升了各个 NLP 基准任务的效果。谷歌于2018年10月提出的 BERT 模型，以及百度最近提出的ERNIE模型，都是如此。

3）目前机器对语言的理解能力还不能令人满意。

具体而言，在阅读理解方面，对于指定的篇章，机器只能在给定问句的情况下去篇章中抽取答案，且对训练数据的依赖性很高，不能利用知识去实现对篇章的理解；在推理方面，只能实现相对浅层的推理，当推理过程涉及到时间、梳理、条件判断的时候，准确率会比较低。

大家应该都调戏过微软小冰，小冰在NLP技术支持的聊天机器人中已经属于佼佼者了，但现在的聊天水平，也只能够保证聊天不中断，它总有话回复你，但并不能解决你提出的略带专业或深度的问题。

为什么视觉识别和语音识别精准度越来越高，机器对语义的理解能力与推理能力却依然不足？可以从两方面来考虑。

一方面，语言本身复杂程度远高于语音和视觉。语音和图片都可以去分割然后聚类。用语言沟通时，虽然有不同的词构成，但词与词之间是连贯的，并不好分割，排列组合起来，有多种分割方法，机器需要去选取最能符合上下文意思且能够连贯的分割方法，这对机器是个挑战。

机器识别图片时，图片就是客观的图片，不会变化。而词句语句往往会有不同的意思，如“中国队大败美国队”，到底是中国赢了还是美国赢了，不结合上下文环境，即使人也判断不了。考过GRE的人应该也有体会，GRE的最大难度之一，就是常用的单词有不常见的意思，一个简单的例子是，bank一般指银行，也有河岸、河畔的意思，二者几乎没有逻辑联系，这对于人来说，学习起来也有难度，机器学起来更难。

另外在口语中，会有大量的不规范的语言使用方式，如有些地方喜欢用倒装句，机器理解起来不容易。

此外，如果再让机器去理解语境，理解字面意思背后的深意，目前AI技术显然还没有这个能力，需要去学习大量的经过不同深度加工的真实文本的语料库，让机器慢慢变聪明。

从技术角度来讲，让机器学习读懂语言，靠的是算法不断去学习大规模语料库而实现算法迭代。语料库的基础构建工作是个难题，需要人工去构建去标注，标注类别如果过粗，训练算法的效果不好，类别过细，又面临极大的工作量，度不好把握。这就需要半监督学习和无监督学习的进步，让机器去利用无人工标注或部分标注的数据，提高效率。其次还需要更垂直、专业的语料库，去让机器学习更专业领域的信息。不然机器还是只能答非所问，没法解决实际问题。总会有大量长尾的词汇和知识，机器无法覆盖到。

另外，NLP还不能进行有效的推理，使得算法不能处理大量的复杂任务，如多轮对话等，涉及语言理解、语言生成、对话管理、知识库访问和推断，技术上还不能很好解决。

3）复杂的NLP技术，具体都有哪些应用？

自然语言处理技术的应用场景非常广，大致可分为交互型、生成型和分析型三类。交互型应用就是各类机器人，如聊天机器人、问答机器人、任务机器人等。生成型应用又包括机器翻译、搜索引擎、机器写作、主题与关键词热词抽取、推荐算法等，分析型应用，包括舆情分析、情感分析、阅读理解与文本分析与挖掘等。

交互型方面，聊天机器人与智能客服应用比较普遍，比如大家可能用过的微软小冰、出门问问等。智能客服现在产业界应用比较多，不仅是电商领域，现在很多互金公司也在通过开发智能客服，判断电话的另一端是否有进一步了解产品的意愿，有的话再接入人工做进一步沟通，从而减少无效拨叫的数量，提高效率。

翻译方面的应用，总体来说翻译出的内容的通顺性都还比较一般，机器理解整个句子的能力还不够强。知名产品包括百度、谷歌、讯飞、有道的翻译产品，这方面的创业公司如彩云科技，旗下有“彩云小译”产品，可实现同声传译和交互翻译功能，以及网页翻译、视频翻译和文档翻译等功能，商业化方面，主要是将NLP能力通过API接口开放给其他公司。

机器写作领域，应用案例已经不少，如现在腾讯财经已经用AI写股市收盘等比较简单的新闻，京东于2018年4月针对第三方平台的商家，推出了人工智能写作项目“莎士比亚”系统，在自然语言生产的技术上，结合京东的商品标签以及商品搜索大数据，从句子层面做结构解析、训练模型和语言生成。用途上主攻智能化的商品信息与营销文案的生产。此后京东针对京东自身的业务，推出了内容创作平台“李白写作”，主攻站内频道的营销文案。2019年初京东将二者整合，推出闪电智能内容创作平台。

主题与关键词热词抽取方面，百度与微博的关键词热搜比较受关注。另外也有一些创业公司的商业化应用，如三角兽的NLP技术商业化路径是“智能识屏”，与智能手机厂商合作，当用户对于手机页面上的某项信息感兴趣时，长按住页面，机器自动识别用户意图，提取页面上内容的关键词，用户点击其中感兴趣的关键词，即可进入搜索，获取内容信息或者电商、商旅等方面的推荐，省去了复制黏贴、打开APP等步骤。

情感分析也是比较热门的应用，对包含主观信息的文本进行情感倾向性判断，为口碑分析、话题监控、舆情分析等提供技术分析工具，为企业决策以及客服等业务环节提供支持。

百度AI开放平台的情感倾向分析展示

阿里、腾讯、百度的AI开放平台或者云服务都有情感分析相关的模块。创业公司如竹间智能，在售后客服环节，基于“多模态情感识别”，分析用户当下的情绪状况，与人类客服一起制定合理的回复，避免用户投诉的升级与恶化。

另外，AI在教育英语的应用，如AI老师、自适应学习等，需要构建知识图谱，背后也有NLP技术的支持，但不止NLP。做这类应用的公司包括松鼠AI、流利说、作业盒子等。

公司方面，由于NLP技术应用广泛，BAT、科大讯飞等公司都在NLP技术上投入很多，目前他们的开放平台也都有NLP技术的输出。计算机视觉起家的商汤、云从等公司也都在NLP技术上做了很多研发。

这个领域的创业公司也非常多，但在估值上普遍低于计算机视觉和语音识别领域的公司，知名度高的公司也不多。

行业解析

1）目前来看，NLP技术能力与用户需求还非常不匹配，不能有效实现多轮对话或者回答专业性问题，只能在完成简单沟通后，由系统判定是否需要人工介入交互过程。结合现在深度学习的局限性以及无监督学习略显滞后的情况，目前还看不到短期内可以实现自然语言理解和生产方面实现大幅突破的可能性，而随着智能音箱等硬件的崛起，这种交互能力的不匹配会更明显。

用户对于自然语言处理的要求是比较高的，需要能直接回答用户的问题，才有真正的商业价值，目前NLP领域的应用大多还做不到。

比较理想的NLP应用，应该可以理解用户多样的、复杂的、基于情感式的、语意模糊的需求，进行深入分析，精确地理解用户需求；然后通过知识的挖掘分析，将各种结构化、非结构化、半结构化的知识进行组织与梳理，最终以结构化的知识形式完整地、系统地呈现给用户；下一步应该能预测用户未提出的需求，提供相关的扩展信息。显然当下的NLP商业应用离理想状态还比较远。

这也使得NLP领域的创业公司估值普遍不高。计算机视觉领域有商汤、旷视这样的估值几十亿美元的公司，语音识别领域也有科大讯飞、思必驰、云知声等10亿美元估值以上的公司，NLP领域则很少有独角兽级别的创业公司。

2）虽然说技术上和效果上还不是特别让人满意，但NLP技术的应用场景这么丰富，可以提升NLP应用的商业价值吗？

目前来看，虽然应用广，用户量大，各种应用的商业价值还不够高。具体表现为：部分商业应用的环节主要集中在客服等方面，在各行业都不是核心环节，作用主要体现在一定程度上的成本节省，而且还不能完全代替人工，带来的价值还没得到充分体现。

而像计算机视觉技术在安防、金融、零售等领域的应用，是比较核心的环节，或者能直接带来效益的环节，商业价值更容易体现。

另外NLP技术的商业应用，多是工具性产品，如翻译、聊天机器人等，比较难建立起盈利模式。

目前来看商业价值相对较高的应用包括情感分析、意图分析、知识图谱等。知识图谱在搜索引擎、在线教育、金融等多方面应用价值比较大；意图分析基于历史对话数据，对业务实体进行数据挖掘和深度分析，从对话数据中分析出来电原因、投诉不满、潜在商机、近期热点等信息，情感分析提供口碑分析、话题监控、舆情分析等，都可以辅助商业决策。

评论

最新评论