AlphaGo退役后的两个月里，DeepMind都在忙些什么？-虎嗅网

一般来说，某个企业在推出一个成功的产品后，CEO都会冠冕堂皇风轻云淡的说一句“这只是一个开始”。大家也知道，这基本是套话。

但培养出AlphaGo这个年度人工智能标签的DeepMind好像有点实诚。按理来说，AlphaGo赢了柯洁之后，DeepMind应该好好休养生息一阵，融融资招招人，过一阵再憋个大招出来——赢了李世乭之后他们确实就是这么干的。

但DeepMind这种气质奇特的公司显然不能让你猜中套路。他们的CEO在AlphaGo退役时表示”这只是个开始“，然后居然就诚实地开动了。

从五月末AlphaGo退役到现在，正好经过了两个月，这两个月里DeepMind发表论文、公开新技术和讨论AI未来的次数都创下了纪录，差不多每五天就会有一篇新论文面世。而且其中干货很多，涉及到不少AI的关键领域和空白领域。

脑极体小伙伴们经历了痛苦（真的非常痛苦）的学习过程之后，得出的结论是大部分AI关注者篇篇不落地阅读这些论文近乎不可能。所以我们希望能用这篇文章总结一下DeepMind两个月中都做了哪些事，并且用相对容易理解的方式把这些事串起来。

当然，更重要的是，我们注意到DeepMind在涉及众多领域的论文背后，似乎蕴藏着一定的关联性和核心目标。这有点像围棋里的布局，每个棋子都是独立的，但它们合在一起却是一个局。大部分棋类游戏都是一种阳谋，一切信息都是公开的，计算藏在更深的地方。DeepMind现在在做的，好像也有点这个意思。

复杂环境处理：AI走出论文的第一步

任何技术都有其目的。按照目标差异来分类，可以把DeepMind最近公布的新技术分为两种（当然不可能特别准确）：一是复杂环境处理，二是AI对人类大脑独有能力的模仿。

DeepMind在ICML 2017上发表了一篇论文，名叫《强化学习的一个分布视角》，DeepMind提出了在强化学习系统的训练中加入一个新的变量：随机性。

此前的强化学习训练，基本是让强化学习来预测平均值。比如基于你玩游戏的数据，来预测你这一次游戏什么时候会输掉。但在游戏中，更多时候出现的是随机情况来影响结果：操作失误、忘记某些要素，甚至停电......针对这些随机现象，显然平均值的预测就没用了。

这篇论文里，DeepMind提出让强化学习来预测变体的所有可能。比如预测出行时间时，正常情况要多久、下雨了要多久、车辆出现事故要多久。一旦出现随机事件带来的峰值，AI就会针对性建模，强化学习系统也就可以重新预测结果。

强化学习系统测算各种输掉游戏的可能性

这种被称为“价值分布”的算法，它带来了一个最大的启发：将强化学习放置在了充满可能性的环境里，根据每一种变化来开启不同的对应训练。而这种模式指向的核心问题就是：AI在面对复杂环境时如何应对。

相较于刚刚这篇论文，不久前DeepMind还发布了另一篇更知名的论文。之所以出名，是因为这篇论文名叫《丰富环境下运动行为的出现》，而且提到了一件很有意思的事：让AI学跑酷。

说是跑酷，结果却不怎么酷。根据论文中给出的结果，这些AI小人儿跑得有点像《进击的巨人》，因此有不少媒体嘲笑其结果不理想，或者说勉强凑合。

进击的强化学习君

但这种评价有点站在人类立场的想当然。根据DeepMind给出的资料，他们在实验中没有给出复杂的奖励机制：比如挺胸抬头加分、姿势优美加分等等，而是制定了以通过为唯一目标的简单奖励机制。在布满了落崖、障碍物，甚至墙壁的关卡里，强化学习系统完全凭借自己的分析能力来制定应对策略。结果证明，简单指令下AI也可以应对复杂的环境并且完成目标。

这个实验的目的，在于测试强化学习如何适应陌生的复杂环境。如果说上面介绍的那篇论文在于应对过程中的复杂性，这篇就是在应对瞬间出现的复杂情况。

这里面运用的一个核心技术，是多任务强化学习。而有意思的是，DeepMind也在不久前公布了新的多任务学习框架Distral。这个系统的原理是利用提取学习和迁移学习相结合，在不共享参数的前提下提取多个任务之间的共同点，然后利用迁移学习来同步处理。多任务学习是AI应对复杂环境的基础。这个新系统可以说是复杂环境处理的底层基石。

从以上内容不难看出，DeepMind目前主攻方向之一就是AI如何处理复杂的问题和环境。两个月中，他们讨论了多种复杂环境的算法和技术支撑。

这么做的意义在于，真实世界中的AI应用，是很难出现简单环境和简单目标的。AI处理复杂问题，是强化学习这种深度AI从论文走向现实的第一步。

认知、推理和想象：不像人叫什么人工智能？

上周，DeepMind老大哈萨比斯亲自出马发表了一篇论文。有意思的是该文章并不是发表在人工智能领域的期刊上，而是发表在神经医学领域的最高规格刊物《神经》当中。

哈萨比斯讨论的核心问题是，人工智能想要发挥最大可能性，唯一的方法是回到神经科学领域，深入钻研人类大脑。

我们不妨回到那个追本溯源的命题：到底什么是人工智能？有人说机器学习是人工智能，有人说人机交互是人工智能，但这显然都是从结果去逆推初衷。从这个名字就知道，只有一种东西是人工智能，那就是模仿人类智能。

哈萨比斯认为，当下虽然人工智能成果大量爆发，但这些算法和技术大多只能解决一个问题：机器学习只能承担一个任务、自然语言处理只能完成语音方面的交互、机器视觉只能辨认单一目标，这些能力水平绝不是类人的智能体。

这些所谓的人工智能，距离真正像人类大脑一样去感知、思考、分析、想象，还差着十万八千里，甚至根本还没上路。哈萨比斯在文章中感叹，兼具神经科学和人工智能特长的人才太难得了。他这篇论文显然展示了DeepMind的一个核心思路：回到人类大脑，制造像人一样的人工智能。

而DeepMin确实也在努力。比如在6月初，DeepMind公布了两篇论文，这两篇文章研究的领域差别非常大，一篇是大体可以归于计算机视觉的《视觉互动网络》，一篇是神经网络领域的《用于关系推理的简单神经网络模块》，但这两篇文章指向的核心却是一个：让AI学会推理。

推理能力，尤其是基于人类感知方式（比如视觉资料）的推理能力，是机器培养类人智能的核心方向。

《视觉互动网络》中提出了同名网络模型VIN，这种神经网络由一个视觉模块和一个现实推理模块组成。前者能够接受并处理视觉信息，而后者可以预测不同物体在物理规律下会发生的情况。就像人脑能够根据车辆距离的远近和行驶快慢来推理避让方式一样，VIN也能达到类似的效果。

左边是真实结果，右边是VIN的预测

《用于关系推理的简单神经网络模块》则描述了模块化的、具有关系推理能力的神经网络架构 RN（关系网络）。这种神经网络算法可以模拟大脑推理的过程，可以处理例如“在一堆几何图形中，灰色图形和形状相同的图形有几个？”这一类涉及关系推理的问题。更强大的地方在于，RN可以适配到其他神经网络算法中，也就是说它像游戏中的一个装备，装备它可以给其他AI提升推理能力。

在推理能力以上，人类更高级的能力叫做想象，而DeepMind也没有放过这个领域。前不久，DeepMind又有两篇论文，分别是《深度强化学习中的想象力增强剂》和《从零开始的学习模型规划》。DeepMind按照其的玩游戏传统，在推箱子等游戏中展示了让深度学习系统，通过简单数据进行抽象推理和长期规划的能力——基本也就是人类所说的想象力。

借助想象增强能力，AI系统可以一次性规划出推箱子的步骤

这种解决方案的原理，是让深度学习系统通过对环境信息的内部模拟，进行粗浅的策略判断。然后通过多条想象轨迹来构思解决策略，最终选择最优解决方式。

事实上，AlphaGo在下围棋的时候就是用类似的方式来进行局面判断。但相对于围棋的规则严谨性，在游戏里关卡是随机生成的，规则自然也是相对开放和变化的，给AI想象力带来的挑战也就更大。

除了钻研推理、想象这种让AI学习人类解决问题的能力，DeepMind还借助于心理学，探索起了让AI模仿人类认知的可能性。6月末的一篇论文里，DeepMind提出利用名叫“匹配网络”（Matching Network）的神经网络模型，记忆并且提炼出AI是如何进行判断的。

这个实验的意义在于，未来可能会利用成熟的技术，让AI去解释甚至理解自己的行为，甚至阐述自身在做选择时表现出的偏好。这种技术的未来想象空间可就厉害了，只知道能完成任务的是机器和奴隶，会思考自己为什么完成任务，甚至解释自己完成任务的方法，可就距离独立思考的人类不远了。

在认知能力之外，DeepMind还在这个月提出了名叫SCAN（符号概念关联网络）的神经网络。它的作用是模仿人类的感官，让AI从真实世界接受信息。这个网络模型有哈萨比斯亲自参与，重要程度也可见一斑。

短短两个月里，DeepMind在模拟人类大脑与神经系统工作当中，先后发布了对应感官、认知心理、推理能力、想象力的技术和算法。模拟人类大脑和神经系统，估计已经成为了这家公司的一个全面战略目标。

而无论是第一步的复杂环境处理，还是升级版的类人智能，都指向着唯一的目标：通用。

通用，一切为了通用

我们知道，人工智能的最高阶形式被称为通用智能。这种形态的智能，不是解决单一目标。比如语音处理、图像处理、驾驶辅助，而是像人一样全面思考和反作用于真实世界。

这种说法可能过于科幻，但从非常现实的角度出发，人工智能想要摆脱其他智能硬件的附属者身份，走向独立完成任务，并且比人类操作机器更有优势，就必须能够像人一样判断真实世界的复杂环境，进行各种各样的判断、推理、规划和想象。

这些能力进化的终点，也许是人工智能开始质疑和思考。但这些能力才是真正有无限商业潜力的机会。否则人工智能的作用永远是提升效率，而不是改变世界的运行规则和运行结构。

综合来看，DeepMind应该有非常复杂而且分工明细的目标规划。在多个领域同时探索人工智能进一步拟人的可能性。这些能力集合起来，就是一个完整的智能体。

就像AlphaGo综合了DeepMind的大量技术，才最终达成了超越所有人类棋手的目标。将大量拟人的神经网络能力进行综合，可能会得到更出色的智能体。这个智能体一定是在DeepMind另一个关注的核心领域“复杂环境”中发挥作用的——也就是现实世界当中。

总之，DeepMind在拆解和逐个攻克通用智能的达成条件，这应该是一场阳谋。虽然这场赛跑还很漫长，不知道何时才有结果。但它的结果，很可能是AI银行家、AI律师，甚至AI首席执行官这种可以全面应对多元环境，并且能够推理、计划、深度分析现实世界的“狠角色”，甚至可能是有发明能力的AI。

到那时，我们或许就会发现，人类不仅仅在围棋上没有胜算。就像哈萨比斯说的：“这只是开始”。