语音识别为啥赚钱不多；AI公司要有什么道德标准；一年内癌症治愈？【前沿技术周报】

周五好！

进入2019年以来，一个明显的趋势是，之前比较低调的机器视觉领域技术公司，如商汤科技、旷视科技等，都变得高调起来，陆续发布新一年的新战略或者新布局。“消失”了两年的格灵深瞳最近也出来讲自己的产品和战略。

绑定了安防和金融两个有钱景的大场景，机器视觉公司在AI公司里面算是日子过得不错的，商业化进程相对较快，有将产品和技术品牌化的需求。

同是AI里受人关注的领域，语音识别领域公司的风头跟机器视觉公司没法比。龙头公司科大讯飞甚至传出裁员风波。另外，在2018年曾经撕过的两大语音识别公司思必驰、云知声，算是语音识别领域的代表性公司，估值却比商汤、旷视科技少不少。

为什么会这样？

本期周报为您解读语音识别这个领域。

一、语音识别行业纵览

1）语音识别在技术上是如何实现的？先了解一下基本的思路。

在一个语音识别系统中，首先是语音激活检测系统，用户端的语音输入可以将语音激活检测系统激活，唤醒后面的识别系统，完成下面的特征提取、识别建模、模型训练、解码、输出结果等操作。语音激活检测系统还可以减除音频文本前后两端的静音部分，防止对识别系统构成干扰。

图片识别中需要将图片各部分分区聚类再进行特征提取。语音识别也差不多，需要对语音内容用移动窗口函数等手段，进行分帧处理，每帧是非常微小的几十毫秒级别，这样就将语音分割为很多小段。此后，采用声学特征提取的手段，把每一帧波形变成一个多维向量，用多维向量来描述这一帧音频。大量的多维向量组合在一起，形成观察序列，之后需要把这个序列矩阵进行识别，转化为文本。

我们用的文本是单词组成的，单词则是音素集，每个音素又可以在细分成若干个状态。进行语音识别，要把我们常用的单词进行拆解，用状态去描述。进行语音识别时，将每一帧都识别为状态，这是最大的难点。之后把状态组合成音素，再把音素组合成单词，形成可以看的文本。将每一帧与状态联系起来，就需要用大量的语音数据来训练声学模型，计算出不同环境下的参数，使模型越来越准确，帧与状态的关联越来越精准。这是比较常见的监督学习的模式。之后，基于训练好的声学模型，并结合词典、语言模型，对输入的语音帧序列进行识别，即为解码的过程。

2）从以上的过程可以看到，大量的训练数据是语音识别技术发展的基础，在数据的喂养下形成越来越精准的算法。主要的语音识别算法包括基于动态时间规整（DTW）算法、基于非参数模型的矢量量化（VQ）方法、基于参数模型的隐马尔可夫模型（HMM）的方法、基于人工神经网络（ANN）和支持向量机等。由于数据训练过程中有大量的运算，高性能语音识别芯片也是提升语音识别效果的关键。使用专属语音识别AI芯片，来处理识别阶段大量的矩阵运算，实现运算加速，已经成为是语音识别芯片重要的发展方向。

3）我们的工作与生活中有大量的场景需要用语音来传递信息，因此通过语音识别技术让机器来听懂人话后再去执行人的命令，以及让机器识别语音信息后在传达给人，由人再来做决策，可应用的行业场景非常广泛，几乎每个行业都能找到某个环节应用语音识别技术。就具体的环节而言，目前语音识别主要的应用环节包括：智能客服、客服质检、社交工具中的语音输入、智能硬件与智能家居等行业中的语音控制、会议于访谈记录的文字转换、视频中的字幕生成、UGC语音内容鉴别审查等。

BAT在语音识别上都有布局。百度语音识别目前主要应用领域为交通出行、应用助手、智能家居、社交、游戏娱乐；阿里云封装了智能语音交互技术，在零售、城市管理等方面有不少应用，并收购了先声互联，推动语音识别技术在IoT场景落地；腾讯云语音识别在社交聊天、游戏娱乐等垂直领域有比较丰富的定制化经验。

5）机器视觉领域产生了AI四小龙，语音识别领域也产生了几家独角兽公司，如已上市的科大讯飞，以及云知声、思必驰、出门问问等。语音识别应用行业比较集中，主要是教育、医疗、智能家居等领域。

科大讯飞成立于1999年，是语音领域的代表性公司，C端主要产品包括讯飞输入法、讯飞电视助手、智能语音助手咪咕灵犀、讯飞智能音箱、讯飞听见等，在B端，有语音引擎、语音技术开放平台，以及教育、电信、公共安全、消费电子、建筑等行业的解决方案。最新切入的领域是智慧法院，与多个地方的法院建立合作，推广智能语音庭审系统等解决方案。科大讯飞布局最深的领域是教育行业，推出了教学、考试、练习、儿童智能硬件等产品，并在学校端推出智慧教育与智慧校园解决方案，目前是科大讯飞的重要营收来源。

思必驰成立于2007年，目前已完成D轮融资，已有的投资方包括阿里、深创投、中民投、元禾控股、联想之星等。思必驰主要押注智能终端领域，为智能车载、智能家居、智能玩具/机器人、智能穿戴、智能手机等提供自然语言交互产品方案，以智能车载、智能家居和智能机器人为重心。2017年以来，思必驰在白色家电领域语音解决方案上动作频频，此后还切入了儿童教育市场，为儿童故事机、早教机等提供解决方案。

云知声成立于2012，2018年7月，云知声宣布已完成C+轮融资，已有的投资方包括中国互联网投资基金、中金、高通、启明创投等。云知声主要切入的应用领域包括家居、车载、医疗和教育。在智慧医疗领域，云知声推出了语音病历解决方案，已在北京协和医院、福建省立医院等重点医院上线。在教育领域，云知声主打智能口语评测。

出门问问成立于2012年， 2017年4月完成D轮融资，已有的投资方包括谷歌、大众汽车、红杉、真格基金等。与思必驰和云知声主要做云端语音处理不同，出门问问主要做近场的语音交互，场景主要是可穿戴、车载和家居。出门问问推出了智能手表TicWatch 、智能耳机TicPods Free、智能后视镜TicMirror*、智能驾驶辅助TicEye*、智能音箱TicKasa和TicKasa Mini等产品，通过虚拟个人助理小问助手实现联动。

除此之外，语音识别领域的创业公司包括声智科技、捷通华声、SpeakIn等。声智科技拓展到家居、医疗、机器人、汽车、安防、玩具等场景。

6）在估值方面，语音识别领域创业公司估值略逊于机器视觉领域公司。在机器视觉领域，目前商汤科技估值在45亿美元左右，旷视科技估值在20亿美元左右。在语音识别领域，云知声和出门问问估值都在10亿美元左右。思必驰没有公开估值数据。

科大讯飞因为已经上市，估值考虑因素糅合了宏观大势、投资者情绪、股票稀缺性、流动性溢价等多种因素，与未上市公司可比性不太强。

就科大讯飞而言，目前营收规模不算大，利润规模较小。2018年上半年，科大讯飞实现营业收入32亿元，比上年同期增长52.68%。公司上半年实现归属于上市公司股东的净利润1.3亿元。但扣除非经常性损益后，净利润只有2020万，较上年同期下降74.39%。科大讯飞上半年非经常性损益金额为 1.1 亿元，以政府补助等多种形式实现，较上年同期增长 288.52%。

行业解析

1）语音识别技术日新月异，在AI技术中算是比较成熟的种类，但很明显，现在的语音识别成果还不能让用户满意，AI识别出的文本结果往往让人看不懂。语音识别集合了AI、声学、语音学、语言学、生理学、心理学、信号处理、信息论、数理统计等多门学科，想要达到理想的效果需要各方面齐头并进。

目前还存在的主要问题在于：

当下的语音识别技术对人在不同状态下的自动适应、特征提取能力还比较差，比如人在不同身体状态、心理与情感状态、说不同的方言等状态下，语音识别去做特征提取能力还不足；
端点检测是提高识别率的重要环节，即从连续的语音流中检测出有效的语音段，发现有效语音的起点和终点，算法比较复杂，目前效果还不太理想。
对语音环境要求苛刻，尤其是嘈杂环境下的语音，抑制噪声的谱减法、环境规正技术等还不是让人满意。噪音环境下的声学模型修正也需要进一步去提升；
语言本身也是复杂的，比图片更复杂，包括了语音、语法和词汇，词汇在不同上下文环境中可能有不同的语义，有不同的使用方法，还要对词汇进行音节、音素、声韵母等级别的拆分，以匹配AI识别的特征向量，将语言用音素表述出来本来也是有很大的复杂度。

2）与机器视觉领域相比，语音识别的应用更偏C端，产品化程度更高，在B端涉及到的应用行业也更广，但商业价值目前来看不及机器视觉领域。

一方面，有数据显示，人类接触的信息，约有七八成是通过视觉来获取的，约两成是通过语音来获取的，这决定了机器视觉相比于语音识别，能带给人类的效用会更多，人能从图像识别、视频识别等方面获得更多信息量；

另一方面，机器视觉公司虽然现在切入的行业不像语音识别领域那样多，但在金融和安防这两个重点领域找到了刚需，切中了两大行业中比较关键的业务环节，客户有比较强的付费意愿与能力。机器视觉大大提升了安防的识别能力与识别效率，也使金融行业在用户身份远程验证上有了可行的解决方案，给两大传统行业带来的价值都比较高。

而在语音识别领域，无论是智能家居、硬件上的智能助手，还是各行业的智能客服、语音输入，都还没有体现足够高的商业价值。要么是在智能家居、智能助手这样的新兴领域，用户使用习惯都还没建立起来，要么就是像智能客服等环节一样，不是业务的核心环节，只能带来成本的有一定程度上的下降，却不能带来业务量的大幅改观。

二．最新学术研究成果

1、以色列科学家声称治愈癌症：一年内公布神秘疗法

以色列AEBI公司董事会主席Dan Aridor日前在接受媒体采访时表示：“我们将在一年内，给出一套治愈癌症的方法。”他口中的治疗方法，是利用一种称为肽的小蛋白质片段，它可以像章鱼一样包裹着癌细胞，从多个角度攻击肿瘤，而且它能够到达其他治疗分子无法进入的区域。

AEBI公司CEO Ilan Morad博士表示，到目前为止，该公司已经完成其第一次探索性小鼠试验，在该试验中抑制了人类癌细胞的生长，而且小鼠的正常细胞并未受影响，除此之外，还完成了数项体外试验。

“将治愈癌症”的言论一出，就引来了众多癌症专家的批评。美国癌症学会首席医疗官Len Lichtenfeld甚至专门发布一篇博文，提醒人们人们正确看待这一“突破”。莫菲特癌症中心助理教授Vince Luca认为，这还不足以让人感到兴奋，甚至没有太多启发性。

重要性：高；槽点值：中。

观点：从这家公司目前的描述来看，策略主要是抑制癌细胞的生长和转移。“肽”在之前部分医学研究中已经表现出了足够的抗癌能力。假如我们真的能够凭借“肽”对癌细胞进行完全的“封锁”，未来我们或许就不需要再用药物去杀死癌细胞，从而减小整个治疗过程中的副作用和并发症。当然，这么“大张旗鼓”地提前宣传不太正常，坐等成果出来看看再给评价吧。

2、通过深度学习研究16625篇AI论文，MIT认为深度学习时代即将结束

MIT Technology Review的记者做了一项小研究，通过对arXiv（目前最大科学论文开源数据库之一）中关于“AI”的总计16625篇论文的摘要进行研究分析，得到了人工智能近20多年来发展的一些脉络。

从2004年起，论文库中关于深度学习的内容快速增长

这1.6万篇论文是从1993年开始被收录在arXiv当中的，通过分析论文的标题和开篇，他们总结出了一些行业级的变化，如2000年后机器学习的兴起，也有2012年之后深度学习的“一统AI江湖”。

但有一个结果也相当关键，整AI个发展史中，一直存在着比较强的时代性，而且周期大概在0年左右：例如20世纪50年代末和60年代的神经网络，70年代的各种象征性方法，80年代的知识型系统，90年代的贝叶斯网络，21世纪00年代的向量机，以及21世纪10年代的神经网络。

按照这个历史来看，深度学习领衔的时代或许即将走到尽头，旧技术新进展、新技术已经在孕育的路上了。

重要性：高；槽点程度：低。

观点：学术界中同样存在“炒作周期现象”（一种提取自科技行业的周期规律），这种10年一“时代”背后实际是因为，在资本和社会力量的推动下，学术有能力在较短时间内拿出成果，进而将这些成果真正付诸商业化，甚至应用于人类社会。当然，这个过程中不可避免有泡沫。

3、Coursera上线多伦多大学自动驾驶汽车专项课程，标价每月79美元

在线学习平台Coursera推出了由多伦多大学创建的自动驾驶汽车专项课程，该课程首次为学习者提供最先进的知识和工程技术，使安全的自动驾驶汽车成为现实。专业课程专为已具备一定工程经验但在自动驾驶技术方面几乎没有接受过正规培训的学员而设计。

Coursera首席执行官Jeff Maggioncalda表示，自动驾驶汽车课程的时机已经成熟，据估计，到2030年，超过2000万辆自动驾驶汽车将进入公共道路。但是当下自动驾驶汽车市场的主要参与者大多数不愿意主动分享他们的技术和进步，使得他人难以获得进入该领域所需的关键知识。

为了普及高质量的自动驾驶汽车开发知识，Coursera和多伦多大学决定在线上开放这一课程，具体价格为每月79美元，内容包括一系列高级的、实际操作的模拟和编程任务。

重要性：中；槽点程度：中。

观点：这个价格是真不贵，但正如我们之前在《你暂时干不掉老司机》中分析的那样，目前摆在自动驾驶面前的其实不是公司不够、也不是技术差多少，反过来是行业和国家如何推翻现有交通系统，重新制定标准的问题。在这个过程中，催生更多懂开发的人还算不上是重点。

4、利用AI等技术将大脑信号直接转换为可理解的语音（数字）

哥伦比亚AI工程师Nima Mesgarani博士开发了一个系统，可将思想转化为可理解、可识别的语音。通过监控某人的大脑活动，该技术可以以前所未有的清晰度重建一个人听到的单词。这一突破利用了语音合成器和AI的强大功能，可以为计算机直接与大脑通信提供新的途径，它还能够帮助不能说话的人重新建立与外界的沟通。

几十年的研究表明，当人们说话甚至想象在说话时，大脑中会出现明显的活动模式。当我们倾听某人说话或想象聆听时，也会出现明显可识别的信号模式。专家们试图记录和解码这些模式，也许在未来，思想不需要隐藏在大脑中，而是可以随意转换成口头语言。

研究人员让这些病人听讲话者背诵0到9之间的数字，同时记录大脑信号，这些信号可以通过声码器播放。声码器对这些信号发出的声音被神经网络分析和清理，这是一种模仿生物大脑神经元结构的AI。最终结果是一个如同机器人发出的声音背诵一系列数字，准确率高达75%。

Mesgarani博士和他的团队计划接下来测试更复杂的单词和句子，他们希望对一个人讲话或想象说话时发出的大脑信号进行相同的测试。最终，他们希望他们的系统可以成为植入物的一部分，将佩戴者的思想直接转化为文字。

重要性：低；槽点程度：低。

观点：从细节上来看，这项实验目前只能使用于数字这样最简单的内容，但假如让人工智能这样强力的数据处理器，再配合上高效的脑活动处理器，是否就完成了脑机接口的一部分？当然，这也将引起一系列疑问，例如将人脑中的想法直接转化为数字信号，是否算侵犯隐私？

三、前沿技术公司新动向

1、华为孟晚舟被美国司法部正式起诉

美国司法部周一（1月28日）正式宣布起诉中国电信巨头华为及其首席财务官孟晚舟，并通过两家法院提出23项具体指控。华为及孟晚舟被控的主要罪名包括银行及电信欺诈、妨碍司法，以及窃取商业机密。加拿大和美国媒体称，美国司法部已经向加拿大发出了引渡孟晚舟的要求。

美国司法部在起诉书中指，华为从2012年至2014年，企图窃取美国公司T Mobile用于测试智能手机耐久性的技术。当后者威胁要起诉华为时，华为存在妨碍司法的行为。华为目前已经着手准备在美国应诉。

重要性：高；槽点程度：高。

观点：按照此前国内其他通信企业的案例，华为目前的处境已经十分危险，而一旦华为遭受定点打击，势必会对国内通信通信行业造成重创。事情的走向将取决于之后华为在美国法庭上的表现，当然这与中美之间闹别扭的大环境也有隐藏关系。

2、Facebook与谷歌等合作开发AI框架，通过智能体研究语言的发展变化

Facebook AI，Google AI和纽约大学的研究人员合作发表了一篇题为“mergent Linguistic Phenomena in Multi-Agent Communication Games（多角色交流博弈中的语言现象）”的论文，主要描述了一个智能框架——智能体通过深度强化学习进行训练，在玩一系列游戏的同时，展示了一些在自然语言中观察到的“语言现象”。

这项工作并不是首个使用机器学习算法研究语言的工作，Facebook研究人员曾于2017年6月发表的一篇论文中，详细介绍了两个智能体如何在聊天消息中进行协商。但据Google项目人员介绍，这是智能体第一次使用最新一代能够处理丰富的感知输入的深度神经元，证明了语言可以从简单的交流中演变而来。

通过安排不同数量的智能体分组进行游戏对抗，研究人员发现已经构建了交流的智能体在合作进行游戏的时候成功率更高，那些间接交流或者隔着两重交流的智能体之间的游戏成功率明显更低。

研究人员表示，在所有情景中，智能体倾向于整合、同化而不是分离语言复杂性，当两个群落之间的人口不平衡较大时，趋于平稳。这些研究结果表明，语言并不依赖于进化的，复杂的语言能力，但可能源于具有感知能力的智能体玩通信游戏时的简单的社交。

重要性：中；槽点程度：低。

观点：这种看起来“没什么用”的实验，实质能反过来证明特定人工智能架构具有复现人类社会真实情况的能力。虽然只是碎片，但是对于人工智能能力的持续“进化”都具有一定意义。

3、谷歌借助AI系统预测洪水灾害，准确率高达75%

谷歌、以色列理工学院和Bar-Ilan大学的研究人员描述了一种机器学习系统，它可以准确预测河流洪水及洪灾。

这项研究回顾了谷歌去年年底在印度巴特那开展的工作，在巴特那，山景城公司与印度中央水利委员会合作，试点了一个洪水预测模型。它建立在哈佛大学和谷歌于2018年8月发表的研究基础上，该研究描述了能够预测大地震后一年内余震位置的人工智能模型，以及在12月份，Facebook AI研究人员开发了一种方法来分析卫星图像和量化火灾和其他灾害造成的损失。

研究人员通过利用河流水位的实时测量和短期预测来克服其中的一些障碍，他们的模型从中产生了一个洪水图；一张显示水位可能发生在哪里的地图，估算预测洪水的程度。他们声称，根据2018年季风季节产生的警报，预测准确率达到300米，查全率超过90%，查准率达到75%。

重要性：高；槽点程度：中。

观点：预测最难的，实际上是要对抗“蝴蝶效应”。从谷歌的这项研究来看，主要还是在检测到河流水位之后才给出的灾害预警，时间上的提前量可能还是相对有限。下一步更重要的或许是从“河流水位”进一步往前追溯，例如某片雪山的温度变化，又或者是上游水系的云团厚度等等，进一步为灾区争取应变时间。

4、LG 成立研究院，宣布启动 6G 研发计划

LG电子近日宣布，为了引领未来市场，公司除了准备即将登场的5G电信网络技术外，还启动了6G研发计划。

LG在韩国高等科技学院(KAIST Institute)内启用了一个6G研究中心。韩国高等科技学院位于大田广域市，是一个由韩国科学技术院(KAIST)运营的韩国经济发展技术研究组织。LG 6G研究中心将由韩国科学技术院电气工程教授Cho Dong-ho领导。

LG与韩国高等科技学院将在连接5G和6G的新技术上开展合作项目，目标是争取比竞争对手更快进入6G市场。

重要性：中；槽点程度：高。

观点：5G都还没来呢，怎么就弄上6G了？别急，这就是最正常的一个操作，要知道，中国去年就已经开始了6G概念的研究工作。现阶段6G还不需要过多担心，反正通信技术也不是谁早点研究谁就占优的。

之所以通信行业会坚持不断地开展更高级别的无线通信技术推进，关键在于后者的潜在发展路径已经比较确认，以及人类目前所使用的无线电波只能占到“沧海一粟”。最终平衡通信技术发展的，是具体商用和消费市场的体量。哪一天人们不再主动为新的通信技术掏钱了，通信技术就真的满足人类需求了。至少现在，我们还看不到这个契机。

四．前沿技术领域投融资

1、美国AI机器诊断解决方案提供商Augury宣布完成2500万美元C轮融资

软件开发人员加尔·绍尔（Gal Shaul）和模拟信号处理工程师萨尔·约斯科维茨（Saar Yoskovitz）在2011年创立了总部位于以色列和纽约的初创公司Augury，两人将其描述为“Shazam for machines”。该公司的无线手持设备奥古斯都（Auguscope）可以记录超声波振动，并将其上传到云端，在那里输入人工智能算法，预测机器的健康状况。

Augury还通过在机器的不同位置录制的，用来建立云端机器的基准读数，并与其他客户拥有的类似设备发出的声音进行比较。这样，Augury就不需要为每台新机器重新训练它的模型——随着时间的推移，系统开始识别异常声音和其他故障指标。

Augury声称，通过发现早期的破损迹象，它能够减少75%的故障，增加45%的正常运行时间，降低30%的资产成本。技术人员使用它的智能手机应用程序拯救了3000多台机器，监控了60000多台工商业设备，避免了7000多起故障。在一个案例中，Augury成功地诊断出转子杆上的裂纹，如果不加以检查，就有必要更换整个电机。

2、分子细胞生物学技术平台“仁源欣生”获200万美元天使轮融资

北京仁源欣生（RenGene Bio）生物科技有限公司宣布成功完成200万美元天使轮融资，本轮融资由和玉资本（MSA Capital）领投，赛赋医药研究院跟投。资金将用于投入研发，以及进一步加强研发团队和搭建技术平台。

仁源欣生（RenGene Bio）是一家基于全新分子细胞生物学技术平台的高科技公司，致力于开发全球领先的具有自主核心知识产权的大片段基因编辑技术，以建立高附加值动物模型，更高效的推动生物医药研发。

3、为金融机构提供智能机器人服务，智言科技获数千万元A轮融资

智言科技获数千万元 A 轮融资，同创伟业领投，老股东线性资本跟投。本轮融资将用于市场及产品迭代。

智言科技瞄准的是金融从业人员，希望通过 B2B2A 的方式为这一群体提供服务。公司基于知识图谱和深度学习技术建立了深度语义理解模型，同时构建了保险及证券领域知识图谱，从而开发了针对金融领域的智能机器人，可以为客户提供从售前的需求挖掘、客户行为激励、金融产品推荐到售后的客户关系、售后问题、客户数据图谱和营销决策及更新提供支持。

4、英国AI反欺诈公司Featurespace获2500万英镑融资

英国AI反欺诈公司Featurespace在其官网宣布已完成2500万英镑（约3230万美元）融资，领投方为Insight Venture Partners和MissionOG，现有投资者IP Group plc，Highland Europe，TTV Capital，Robert Sansom和Invoke Capital跟投。

ARIC平台能够通过收集统计大量行为数据，进行不间断的机器学习，了解每个客户的行为，并通过检测多个复杂数据集之间的异常，发现或识别新的和已知的欺诈攻击。该平台现已被多个世界级银行、保险公司和博彩机构应用。

五，专家观点

李开复：AI时代企业应有更强道德指向

我在达沃斯参加了两场讨论，话题都是：科技时代的企业责任感。这绝非偶然，而是大家已经意识到在AI时代，科技推动商业世界变化速度越来越快，科技公司也将拥有越来越强大的力量。在这个时代，企业需要承担更多的社会责任。

但是我认为出问题的情景（病毒、社交媒体分化社会）不是技术本身，而是少数人的恶意或错误使用。我坚信善意的人总是远远多于恶意的人，而且有政府媒体监督。从Y2K 和病毒安全问题，我们一次又一次地看到技术被用来克服被恶意或错误的技术。所以我们要相信：技术一定是带来人类的进步。

短期因为AI和自动化，会大批取代人类的工作，长期科技会创造更多的工作，但是需要的技能是和被取代的这批人是不匹配的。亚马逊也提供每个员工40%的工资的培训费用，而且唯一要求是培训的领域是不会被取代的，是否在亚马逊有这个岗位反而不重要。

企业的社会责任感非常的重要。如果企业只在乎赚钱和股价，那么他们就直接裁员，把问题抛给政府。但是这几个公司认为公司不止对股东有责任，对员工和社会也有责任。所以他们提供了这些培训的课程。

六、前沿知识点

强化学习与智能体架构

我们在前几期曾解释了“人工智能、机器学习和深度学习之间的区别”，而强化学习实际上就是与深度学习平层的一种机器学习机制。它主要强调算法本身在学习的过程中，还需要根据环境给出的条件进一步获取最大利益（达到目标）。

其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。强化学习更加专注于在线规划，需要在探索（在未知的领域）和遵从（现有知识）之间找到平衡。强化学习中的“探索-遵从”的交换。

因为环境给出的条件本身带有目的性，强化学习在实际应用中往往能比单纯的深度学习获得更加优秀的成绩，在很多时候还会推翻既有的“经验”，创造出全新的解决方案。例如Google子公司DeepMind所打造的围棋终极AI——AlphaGo Zero，其能力已经可以完虐通过深度学习不断总结人类经验下棋的早期AlphaGo。

而智能体架构则刚刚在DeepMind的另外一款游戏AI——星际争霸Al AlphaStar中扮演了重要角色。

相比于只有网格棋盘和黑白子的围棋，星际争霸的操作难度高上许多个量级，在围棋世界，动作空间只有361种，而星际2大约是10的26次方种。加之星际争霸既要求宏观的战略，也需要细节的微操，在整体的人工智能需求上明显不能被精简统一。

而智能体技术就能在这个环节中被用来“分割”整体的游戏AI需求，这些虚拟出来的“智能体”能够通过各式各样的机器学习算法对不同数据进行学习，然后再在游戏中分别输出自己的判断结果，进而让多个单一人工智能算法达成协作。

同时，智能体技术对于人工智能的实验也意义重大，单个人工智能算法的智能体可以被类比于人类或生物个体，通过特定的实验条件，这些智能体能够扮演多个人类或是生物，利用特定机制复现生物系统运行机制，反过来摸索出一些可以实现实际应用的人工智能机制。

评论

最新评论