AlphaGo退役后的两个月里,DeepMind都在忙些什么?
2017-07-26 15:48

AlphaGo退役后的两个月里,DeepMind都在忙些什么?

一般来说,某个企业在推出一个成功的产品后,CEO都会冠冕堂皇风轻云淡的说一句“这只是一个开始”。大家也知道,这基本是套话。


但培养出AlphaGo这个年度人工智能标签的DeepMind好像有点实诚。按理来说,AlphaGo赢了柯洁之后,DeepMind应该好好休养生息一阵,融融资招招人,过一阵再憋个大招出来——赢了李世乭之后他们确实就是这么干的。


但DeepMind这种气质奇特的公司显然不能让你猜中套路。他们的CEO在AlphaGo退役时表示”这只是个开始“,然后居然就诚实地开动了。


从五月末AlphaGo退役到现在,正好经过了两个月,这两个月里DeepMind发表论文、公开新技术和讨论AI未来的次数都创下了纪录,差不多每五天就会有一篇新论文面世。而且其中干货很多,涉及到不少AI的关键领域和空白领域。


脑极体小伙伴们经历了痛苦(真的非常痛苦)的学习过程之后,得出的结论是大部分AI关注者篇篇不落地阅读这些论文近乎不可能。所以我们希望能用这篇文章总结一下DeepMind两个月中都做了哪些事,并且用相对容易理解的方式把这些事串起来。


当然,更重要的是,我们注意到DeepMind在涉及众多领域的论文背后,似乎蕴藏着一定的关联性和核心目标。这有点像围棋里的布局,每个棋子都是独立的,但它们合在一起却是一个局。大部分棋类游戏都是一种阳谋,一切信息都是公开的,计算藏在更深的地方。DeepMind现在在做的,好像也有点这个意思。


复杂环境处理:AI走出论文的第一步


任何技术都有其目的。按照目标差异来分类,可以把DeepMind最近公布的新技术分为两种(当然不可能特别准确):一是复杂环境处理,二是AI对人类大脑独有能力的模仿。


DeepMind在ICML 2017上发表了一篇论文,名叫《强化学习的一个分布视角》,DeepMind提出了在强化学习系统的训练中加入一个新的变量:随机性。


此前的强化学习训练,基本是让强化学习来预测平均值。比如基于你玩游戏的数据,来预测你这一次游戏什么时候会输掉。但在游戏中,更多时候出现的是随机情况来影响结果:操作失误、忘记某些要素,甚至停电......针对这些随机现象,显然平均值的预测就没用了。


这篇论文里,DeepMind提出让强化学习来预测变体的所有可能。比如预测出行时间时,正常情况要多久、下雨了要多久、车辆出现事故要多久。一旦出现随机事件带来的峰值,AI就会针对性建模,强化学习系统也就可以重新预测结果。


强化学习系统测算各种输掉游戏的可能性


这种被称为“价值分布”的算法,它带来了一个最大的启发:将强化学习放置在了充满可能性的环境里,根据每一种变化来开启不同的对应训练。而这种模式指向的核心问题就是:AI在面对复杂环境时如何应对。


相较于刚刚这篇论文,不久前DeepMind还发布了另一篇更知名的论文。之所以出名,是因为这篇论文名叫《丰富环境下运动行为的出现》,而且提到了一件很有意思的事:让AI学跑酷。


说是跑酷,结果却不怎么酷。根据论文中给出的结果,这些AI小人儿跑得有点像《进击的巨人》,因此有不少媒体嘲笑其结果不理想,或者说勉强凑合。


进击的强化学习君


但这种评价有点站在人类立场的想当然。根据DeepMind给出的资料,他们在实验中没有给出复杂的奖励机制:比如挺胸抬头加分、姿势优美加分等等,而是制定了以通过为唯一目标的简单奖励机制。在布满了落崖、障碍物,甚至墙壁的关卡里,强化学习系统完全凭借自己的分析能力来制定应对策略。结果证明,简单指令下AI也可以应对复杂的环境并且完成目标。


这个实验的目的,在于测试强化学习如何适应陌生的复杂环境。如果说上面介绍的那篇论文在于应对过程中的复杂性,这篇就是在应对瞬间出现的复杂情况。


这里面运用的一个核心技术,是多任务强化学习。而有意思的是,DeepMind也在不久前公布了新的多任务学习框架Distral。这个系统的原理是利用提取学习和迁移学习相结合,在不共享参数的前提下提取多个任务之间的共同点,然后利用迁移学习来同步处理。多任务学习是AI应对复杂环境的基础。这个新系统可以说是复杂环境处理的底层基石。


从以上内容不难看出,DeepMind目前主攻方向之一就是AI如何处理复杂的问题和环境。两个月中,他们讨论了多种复杂环境的算法和技术支撑。


这么做的意义在于,真实世界中的AI应用,是很难出现简单环境和简单目标的。AI处理复杂问题,是强化学习这种深度AI从论文走向现实的第一步。


认知、推理和想象:不像人叫什么人工智能?


上周,DeepMind老大哈萨比斯亲自出马发表了一篇论文。有意思的是该文章并不是发表在人工智能领域的期刊上,而是发表在神经医学领域的最高规格刊物《神经》当中。


哈萨比斯讨论的核心问题是,人工智能想要发挥最大可能性,唯一的方法是回到神经科学领域,深入钻研人类大脑。


我们不妨回到那个追本溯源的命题:到底什么是人工智能?有人说机器学习是人工智能,有人说人机交互是人工智能,但这显然都是从结果去逆推初衷。从这个名字就知道,只有一种东西是人工智能,那就是模仿人类智能。


哈萨比斯认为,当下虽然人工智能成果大量爆发,但这些算法和技术大多只能解决一个问题:机器学习只能承担一个任务、自然语言处理只能完成语音方面的交互、机器视觉只能辨认单一目标,这些能力水平绝不是类人的智能体。


这些所谓的人工智能,距离真正像人类大脑一样去感知、思考、分析、想象,还差着十万八千里,甚至根本还没上路。哈萨比斯在文章中感叹,兼具神经科学和人工智能特长的人才太难得了。他这篇论文显然展示了DeepMind的一个核心思路:回到人类大脑,制造像人一样的人工智能。


而DeepMin确实也在努力。比如在6月初,DeepMind公布了两篇论文,这两篇文章研究的领域差别非常大,一篇是大体可以归于计算机视觉的《视觉互动网络》,一篇是神经网络领域的《用于关系推理的简单神经网络模块》,但这两篇文章指向的核心却是一个:让AI学会推理。


推理能力,尤其是基于人类感知方式(比如视觉资料)的推理能力,是机器培养类人智能的核心方向。


《视觉互动网络》中提出了同名网络模型VIN,这种神经网络由一个视觉模块和一个现实推理模块组成。前者能够接受并处理视觉信息,而后者可以预测不同物体在物理规律下会发生的情况。就像人脑能够根据车辆距离的远近和行驶快慢来推理避让方式一样,VIN也能达到类似的效果。


左边是真实结果,右边是VIN的预测


《用于关系推理的简单神经网络模块》则描述了模块化的、具有关系推理能力的神经网络架构 RN(关系网络)。这种神经网络算法可以模拟大脑推理的过程,可以处理例如“在一堆几何图形中,灰色图形和形状相同的图形有几个?”这一类涉及关系推理的问题。更强大的地方在于,RN可以适配到其他神经网络算法中,也就是说它像游戏中的一个装备,装备它可以给其他AI提升推理能力。


在推理能力以上,人类更高级的能力叫做想象,而DeepMind也没有放过这个领域。前不久,DeepMind又有两篇论文,分别是《深度强化学习中的想象力增强剂》和《从零开始的学习模型规划》。DeepMind按照其的玩游戏传统,在推箱子等游戏中展示了让深度学习系统,通过简单数据进行抽象推理和长期规划的能力——基本也就是人类所说的想象力。


借助想象增强能力,AI系统可以一次性规划出推箱子的步骤


这种解决方案的原理,是让深度学习系统通过对环境信息的内部模拟,进行粗浅的策略判断。然后通过多条想象轨迹来构思解决策略,最终选择最优解决方式。


事实上,AlphaGo在下围棋的时候就是用类似的方式来进行局面判断。但相对于围棋的规则严谨性,在游戏里关卡是随机生成的,规则自然也是相对开放和变化的,给AI想象力带来的挑战也就更大。


除了钻研推理、想象这种让AI学习人类解决问题的能力,DeepMind还借助于心理学,探索起了让AI模仿人类认知的可能性。6月末的一篇论文里,DeepMind提出利用名叫“匹配网络”(Matching Network)的神经网络模型,记忆并且提炼出AI是如何进行判断的。


这个实验的意义在于,未来可能会利用成熟的技术,让AI去解释甚至理解自己的行为,甚至阐述自身在做选择时表现出的偏好。这种技术的未来想象空间可就厉害了,只知道能完成任务的是机器和奴隶,会思考自己为什么完成任务,甚至解释自己完成任务的方法,可就距离独立思考的人类不远了。


在认知能力之外,DeepMind还在这个月提出了名叫SCAN(符号概念关联网络)的神经网络。它的作用是模仿人类的感官,让AI从真实世界接受信息。这个网络模型有哈萨比斯亲自参与,重要程度也可见一斑。


短短两个月里,DeepMind在模拟人类大脑与神经系统工作当中,先后发布了对应感官、认知心理、推理能力、想象力的技术和算法。模拟人类大脑和神经系统,估计已经成为了这家公司的一个全面战略目标。


而无论是第一步的复杂环境处理,还是升级版的类人智能,都指向着唯一的目标:通用。


通用,一切为了通用


我们知道,人工智能的最高阶形式被称为通用智能。这种形态的智能,不是解决单一目标。比如语音处理、图像处理、驾驶辅助,而是像人一样全面思考和反作用于真实世界。


这种说法可能过于科幻,但从非常现实的角度出发,人工智能想要摆脱其他智能硬件的附属者身份,走向独立完成任务,并且比人类操作机器更有优势,就必须能够像人一样判断真实世界的复杂环境,进行各种各样的判断、推理、规划和想象。


这些能力进化的终点,也许是人工智能开始质疑和思考。但这些能力才是真正有无限商业潜力的机会。否则人工智能的作用永远是提升效率,而不是改变世界的运行规则和运行结构。


综合来看,DeepMind应该有非常复杂而且分工明细的目标规划。在多个领域同时探索人工智能进一步拟人的可能性。这些能力集合起来,就是一个完整的智能体。


就像AlphaGo综合了DeepMind的大量技术,才最终达成了超越所有人类棋手的目标。将大量拟人的神经网络能力进行综合,可能会得到更出色的智能体。这个智能体一定是在DeepMind另一个关注的核心领域“复杂环境”中发挥作用的——也就是现实世界当中。


总之,DeepMind在拆解和逐个攻克通用智能的达成条件,这应该是一场阳谋。虽然这场赛跑还很漫长,不知道何时才有结果。但它的结果,很可能是AI银行家、AI律师,甚至AI首席执行官这种可以全面应对多元环境,并且能够推理、计划、深度分析现实世界的“狠角色”,甚至可能是有发明能力的AI。


到那时,我们或许就会发现,人类不仅仅在围棋上没有胜算。就像哈萨比斯说的:“这只是开始”。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定