DeepMind创始人专访:十年内出现AGI?
2024-03-03 14:33

DeepMind创始人专访:十年内出现AGI?

本文来自微信公众号:机器之心 (ID:almosthuman2014),编辑:Panda,原文标题:《十年内出现AGI?下一代Gemini能感知环境?DeepMind CEO哈萨比斯畅谈AI》,题图来源:视觉中国

文章摘要
Demis Hassabis, CEO of DeepMind, discussed various topics including the nature of intelligence, reinforcement learning, and the future of AI in a recent podcast interview. He mentioned that he wouldn't be surprised if AGI (Artificial General Intelligence) systems similar to humans' intelligence are developed within the next ten years.

• 🧠 Demis Hassabis believes that there are fundamental principles underlying the way our brains process information, which can be applied to the development of AI systems.

• 🤔 He mentioned the potential of reinforcement learning coupled with tree search algorithms, like AlphaZero, to achieve specific goals in the real world.

• 🌍 DeepMind is working on developing multi-modal systems that can understand and interact with the environment using various modes of perception, such as video, audio, and touch.

“如果我们在未来十年内拥有类似 AGI 的系统,我不会感到惊讶。”Google DeepMind 联合创始人和 CEO Demis Hassabis 近日在人工智能播客节目 Dwarkesh Podcast 上如是说。


在长达一个小时的节目中,Hassabis 分享了自己对智能本质、强化学习、规模扩展和对齐、AGI、多模态等主题的看法。机器之心选择性地整理了其中的主要内容并进行了适当编辑以便阅读。


一、智能的本质


Dwarkesh Patel:第一个问题:您有神经科学背景,那么您是怎么看待智能的?


Demis Hassabis:这个问题很有趣。智能非常宽泛,可普遍用于各种用途。我认为这说明对于大脑处理我们周围世界的方式,必然存在某种高层级的共同之处,算法层面的共同之处。当然,大脑中有做特定事情的特定部分,但我认为所有这些事情下面可能有一些基本原则作为支撑。


Dwarkesh Patel:您怎么看待这一事实:对于现在的 LLM,当你向其提供大量特定领域的数据时,它们往往会在那个领域变得格外地好?难道不能在所有不同领域上实现普遍提升吗?


Demis Hassabis:首先,我认为当在某个领域内获得提升时,有时候也会在其它领域获得出人意料的提升。举个例子,当这些大模型的编程能力提升时,它们的一般推理能力实际上也能得到提升。所以现在是有一定的迁移学习的证据。而且这也是人脑学习的方式。如果我们大量经历或练习象棋或写作等事项,我们就会越来越擅长对应的事情,即便我们是使用某种通用学习技术和通用学习系统来学习某个特定的领域。


Dwarkesh Patel:以语言和编程为例,在神经网络中,是否存在某种地方存在某种机制让模型的语言和编程能力一起提升? 


Demis Hassabis:我们目前的分析技术还不足以确定这一点。实际上,对于这些系统构建的表征的机制分析,还有待大量研究。我有时候把这称为虚拟脑分析(virtual brain analytics)。从某个方面看,这有点像是 fMRI,或者记录真实大脑中单个细胞的活动。对于这类分析技术,可以怎样将其类比到人造心智呢?


这方面有很多出色的研究成果。比如 Chris Olah 就在研究这个,我很喜欢他的研究。有很多计算神经科学的技术可以引入过来分析我们目前正在构建的这些系统。事实上,我也在努力鼓励我在计算神经科学领域的朋友思考这个方向,应用他们的所学来理解大型模型。


Dwarkesh Patel:由于您有神经科学背景,您多半了解一些其他 AI 研究者不太了解的有关人类智能的知识。这方面的知识有哪些?


Demis Hassabis:神经科学的助益很大。看看过去一二十年的研究就能知道。事实上我已经思考这些三十多年了。在这新的一轮 AI 浪潮早期,神经科学提供了大量有趣的引导性线索。于是出现了强化学习以及深度学习等技术。我们在这方面也有一些开创性的研究成果,比如经历重放(experience replay)以及已经变得非常重要的注意力(attention)概念。


很多这些成果的初始灵感都是来自对大脑工作方式的理解,当然它们并不完全一样。一种是工程开发出的系统,另一种是自然的系统。它们并不是某种算法的一对一映射,而更像是某种指示方向的灵感——或许是某种架构思想,或者算法思想或表征思想。毕竟大脑本身就是通用智能存在的证据。人类就是这样的,一旦知道某件事是可能的,就更容易朝那个方向努力,因为你知道这就是一个努力进取直到某时取得成功的问题,而不是能否成功的问题。这能让人更快地取得进展。


我认为在如今成功的背后,神经科学启迪了很多人的思考,至少是间接的。至于未来,我认为在规划方面还有很多有趣的问题有待解决。还有大脑是以何种方式构建出了正确的世界模型?举个例子,我研究过大脑是如何进行想象的,你也可以将这看作是心智模拟。我们就会问:为了执行更好的规划,我们是以怎样的方式创建了对于世界的非常丰富的视觉空间模拟?


二、LLM 之上的强化学习


Dwarkesh Patel:LLM 能否具备这种类似树搜索的能力?您对此怎么看?


Demis Hassabis:我认为这是一个非常有潜力的研究方向。我们在持续不断地提升大型模型,让它们成为越来越准确的世界预测器。在效果上,就是让它们成为越来越可靠的世界模型。这明显是必要的,但我认为这可能并不是 AGI 系统的充分条件。在这之外,我们还在研究 AlphaZero 这样的规划机制——其可使用模型执行明确的规划,从而在世界中实现特定的目标。另外可能还会搭配某种链式思维或推理路径,也可能使用搜索来探索巨大的可能性空间。我认为这是我们当前的大模型所缺少的能力。


Dwarkesh Patel:对于这些方法所需的巨量算力,您会怎么获得?您认为这方面的效率会怎么得到提升?


Demis Hassabis:首先,摩尔定律会帮助我们。每一年,计算能力都在提升;但我们更关注样本高效型的方法以及复用已有的数据,比如经历重放。世界模型越好,搜索效率就越高。举个例子,AlphaGo 的搜索效率就远高于使用暴力搜索的深蓝(Deep Blue)。深蓝的每一次决策可能需要查看数百万种可能下法。AlphaGo 则只需要大约数万次就能决定下一步。但人类的大师级棋手可能只需检查几百种下法就能得到一个非常好的下一步决策结果。这明显说明,暴力搜索系统对这些棋并没有真正的模型。AlphaGo 有相当不错的模型,而顶级人类棋手拥有更丰富、更准确的围棋或国际象棋模型。这让他们只需少量搜索就能做出世界级的决策。


Dwarkesh Patel:但是 AlphaGo 胜过了人类冠军。


Demis Hassabis:当然,所以我们做出了开创性的成果,DeepMind 也因此出名。我们使用游戏作为验证平台,因为很显然在游戏中的搜索效率更高。另外,在游戏中也更容易设定奖励函数——不管是获胜还是赢取分数。这些是大多数游戏内置的奖励机制。但对于真实世界系统,这却非常困难——该如何定义正确的目标函数、正确的奖励函数和正确的目标?


Dwarkesh Patel:人类智能有很高的样本效率,它与 AlphaGo 这些系统得到解答的方式有何不同?比如爱因斯坦如何想出了相对论?


Demis Hassabis:它们大不相同,因为我们的大脑并不会执行蒙特卡洛树搜索。这不是我们的有机大脑的工作方式。为了弥补这一点,人类的大脑会用到直觉。人类会使用自己的知识和经历来构建非常准确的模型,比如爱因斯坦构建了非常准确的物理模型。如果你阅读一下爱因斯坦的经历,看看他是如何想出那些理论的,你会发现他习惯视觉化地思考那些物理系统,而不只是通过数学公式。这让他有了对这些物理系统的非常直觉化的感知。这让他产生了在当时显得非常离奇的想法。


我认为这就是我们构建的世界模型的复杂精妙之处。想象一下,如果你的世界模型能让你抵达你正在搜索的某个树的某个节点,然后你就只需要在这个节点附近搜索即可。这样一来,你的搜索量就少多了。


Dwarkesh Patel:现在还有一个问题有待解决:强化学习能否让模型使用自我博弈合成数据来克服数据瓶颈问题?您似乎对此很乐观。


Demis Hassabis:是的,我对此非常乐观。首先,仍然还有大量数据可以使用,尤其是多模态和视频等数据。而且显然,社会也在一直不断增加更多数据。但我认为创造合成数据方面也有很大的发展空间。这方面有一些不同的方法,比如模拟和自我博弈,模拟方法包括使用非常仿真的游戏环境来生成接近真实的数据。而自我博弈则是让模型互相交互或交谈。这种方法在我们开发 AlphaGo 和 AlphaZero 时效果非常好。


Dwarkesh Patel:那么该如何确保合成的数据不是来自模型的数据集,而是新数据?


Demis Hassabis:我认为这需要一门完整的学科来进行研究。在这方面,我们仍处于数据管理和数据分析的初级阶段。比如通过分析数据分布,能找到分布中的漏洞,这对于公平与偏见等议题来说非常重要。要将其移出系统,就需要确保数据集能够代表你想要学习的分布。对此人们有一些可以使用的技巧,比如增大数据中特定部分的权重或重放这部分数据。也可以想象,如果你发现你的数据集中有如此漏洞,你可以使用生成的数据来进行填补。


Dwarkesh Patel:现在人们很关注强化学习,但其实 DeepMind 很多年前就研究过了。是否还有类似这样的研究方向——早已经出现了,但还没有引起人们重视?


Demis Hassabis:事实上,过去几十年来这种事情一直在发生。新旧思想结合起来就有巨大潜力,比如过去的一些想法与更大规模模型和大型多模态模型结合起来也许就能得到激动人心的结果。


Dwarkesh Patel:强化学习、LLM、树搜索,哪种方法有潜力催生出 AGI?


Demis Hassabis:从理论上看,我认为纯 AlphaZero 式的方法没理由不成功。Google DeepMind 和社区一些人正在研究在假设完全没有先验知识、没有数据的前提下,从头开始构建所有知识。我认为这是有价值的,因为这些想法和算法在有一定知识时也能使用。


话虽如此,但目前来说我认为最可能最快实现 AGI 的方法是使用目前世界上已有的知识,比如网络上的和我们收集的知识。而且我们还有 Transformer 等有能力消化这些信息的可大规模扩展的算法。你可以将一个模型用作某种形式的先验,基于其上进行构建并执行预测,以此启动 AGI 学习。没理由不这样做。我猜想,在最终的 AGI 系统中,大型多模态模型会成为整体解决方案的一部分,但它们本身并不足以成为 AGI。它们还需要额外的规划搜索能力。


三、扩展与对齐


Dwarkesh Patel:现在有个规模扩展假设(scaling hypothesis)。有人猜想,只要扩大模型和数据分布的规模,智能终会出现,您认同吗?


Demis Hassabis:我认为这是一个需要实验检验的问题。几乎所有人(包括那些最早开始研究规模扩展假设的人)都很惊讶规模扩展所带来的成就。看看现如今的大模型,它们的效果好得简直不合理!大模型涌现出的一些性质相当出人意料;在我看来,大模型是有某种形式的概念和抽象能力。要是回到五年以前,我会说要做到这一点,我们可能还需要另一种算法方面的突破。也许更类似大脑的工作方式。我认为,如果我们想要明确的、简洁的抽象概念,我们依然需要更加理解大脑,但这些系统似乎可以隐式地学习它们。


另一个出人意料的有趣结果是这些系统获得了某种形式的现实基础知识(grounding/定基),即便它们并未体验过世界的多模态——至少在近期的多模态模型出现之前没有。只是靠语言就能构建起如此大量的信息和模型,着实让人惊讶。


对此的原因,我有一些假设。我认为大型语言模型能通过 RLHF 反馈系统获得一些现实基础知识,因为人类反馈者本身就是生活在现实中的人。我们就立足于现实世界中。所以我们的反馈也是立足于现实的。因此这能让模型获得一些现实基础。


另外,也许语言中就包含了更多的现实基础,如果你能完全洞悉语言,也许能发现我们之前可能没考虑到的东西,甚至可能已经有语言学家研究过这些方面。这实际上是一个非常有趣的哲学问题。人们甚至可能都尚未触及其表面。看看过去的进展,畅想未来是非常有趣的。


对于你说的规模扩展问题,我认为我们应当尽可能地扩大规模,我们也正在这么做。至于最后会趋近一条渐近线还是撞上铁墙,这是个实验问题,不同的人会有不同的意见。但我认为我们应该直接去测试。没人能想出答案。但与此同时,我们也应该加倍投资创新和发明。这是谷歌研究院、DeepMind 和谷歌大脑的做法,我们在过去十年中开创性地取得了许多成果。这就是我们的生存之道,


可以说,我们一半的努力是在扩展规模,另一半则是在研发未来的架构和算法——它们或许是在模型变得越来越大之后所需的。我大概猜想,未来这两方面都需要。所以我们要两方面都尽可能地发力。我们很幸运,因为我们确实能做到这一点。


Dwarkesh Patel:再多聊聊定基(grounding)。可以想象,有两件事会让定基变得更加困难。一是随着模型变得更加聪明,它们就能在我们无法生成足够人类标签的领域工作——因为我们不够聪明。而是关于计算。目前我们做的都是下一 token 预测。这就像是一个护轨,限制模型让其像人类一样谈话,像人类一样思考。现在,如果额外的计算是以强化学习形式出现的呢——我们只知道达成了目标但无法追踪是如何达成的?如果这两者组合起来,定基会出现什么问题?


Demis Hassabis:我认为如果系统没有适当地定基,系统就无法适当地实现这些目标。我认为在某种程度上系统应该有定基,至少要有一些,这样才能在真实世界中真正实现目标。随着 Gemini 这样的系统变得更加多模态,可以在文本数据之外处理视频、音频和视觉数据,这些系统就会开始将这些东西融合到一起。我认为这其实就是一种形式的定基。这样系统就会开始更好地理解真实世界的物理机制。


Dwarkesh Patel:为了对齐比人类更聪明的系统,应该怎么做?


Demis Hassabis:我和 Shane(注:Shane Legg,DeepMind 联合创始人,现担任该公司首席 AGI 科学家)还有其他许多人在我们创立 DeepMind 之前就已经在考虑这个问题了,因为我们计划着取得成功。2010 年时,还没什么人研究 AI,更别说 AGI 了。但我们那时就知道,如果我们能通过这些系统和思想取得成功,创造出的技术将会具有让人难以置信的变革力量。所以我们 20 年前就在思考了,这样会有什么正面和负面的后果。正面的后果就是惊人的科学成果,比如 AlphaFold、科学和数学领域的科学发现。同时我们也需要确保这些系统是可理解的和可控的。


为了得到经过更为严格评估的系统,人们提出了很多想法。但我们目前还没有足够好的评估方法和基准可以确定系统是否欺骗了你、系统是否会泄漏自己的代码等不良行为。还有些人提出可以使用 AI 来辅助分析,就是使用应用范围窄的 AI(narrow AI)。它们不具备通用学习能力,而是专门为某个特定领域专门设计的;它们可以帮助人类科学家分析更通用的系统的行为。


我认为一个有很大潜力的方向是创造强化型沙盒或模拟环境——它们的网络安全经过增强,可以把 AI 困在其中,也能保证外部攻击者无法进入。这样一来,我们就可以在这个沙盒中自由地做实验了。另外也有些人在研究让人类能够理解这些系统构建的概念和表征。


四、时间线和智能爆炸


Dwarkesh Patel:您认为 AGI 会在什么时候出现?


Demis Hassabis:我没有具体的时间预测,因为我感觉还有很多未知和不确定,而且人类的聪明才智和努力总是会带来惊喜。这些都可能导致时间线变化。但我要说,在我们 2010 年创立 DeepMind 时,我们认为这个项目需要 20 年时间。实际上,我觉得我们正按预期向目标靠近。这很了不起,因为通常的 20 年计划总是还要另外 20 年。如果我们在未来十年内拥有类似 AGI 的系统,我不会感到惊讶。


Dwarkesh Patel:如果有了 AGI,您会使用吗?您可以将其用来进一步加速 AI 研究。


Demis Hassabis:我认为这是有可能的。这要看我们做出什么决定。我们需要作为一个社会来决定如何使用第一个新生的 AGI 系统或甚至 AGI 原型系统。即便是我们现有的系统,我们也需要考虑其安全方面的影响。


五、Gemini 的训练


Dwarkesh Patel:目前 Gemini 的开发遇到了什么瓶颈?既然规模扩展法效果很好,为什么不直接把它增大一个数量级?


Demis Hassabis:首先,有实践方面的限制。一个数据中心究竟能有多少算力呢?实际上,这会遇到非常有趣的分布式计算难题。幸运的是,我们有最好的研究者在研究这些难题以及如何实现跨数据中心训练等等。还有硬件方面的难题,我们有自己构建和设计的 TPU 等硬件,也会使用 GPU。至于规模扩展的效果,也不是总如魔法般有效。扩大规模时也还需要扩展超参数,每一种规模都需要各种不同的创新。不是每一种规模都能重复一样的配方。我们必须调整配方,而且这在某种程度上就像是搞艺术。另外还需要获得新的数据点。


Dwarkesh Patel:在 Gemini 的开发过程中,您觉得最出人意料的是什么?


Demis Hassabis:我得说没什么非常出人意料,但是能在那种规模上进行训练并从一种组织化的角度去研究它,是非常有趣的。


Dwarkesh Patel:很多人认为其它实验室的模型的计算效率可能比 DeepMind 的 Gemini 高。您怎么看?


Demis Hassabis:我认为情况并非如此。实际上,Gemini 使用的算力差不多,也许就比传闻中 GPT-4 使用的算力稍多一点。


Dwarkesh Patel:对于 2010 年刚创立 DeepMind 的您来说,现在的 AI 进展中哪一点最让您感到意外?


Demis Hassabis:你也采访过我的同事 Shane。他总是从计算曲线方面进行思考,也常常将 AI 与大脑进行比较——有多少神经元或突触。但现在我们已经差不多到大脑中神经突触数量的数量级和那样的计算量了。


但我认为,更根本的问题在于,我们关注的重心始终是通用性和学习。这始终是我们使用任何技术的核心。因此我们把强化学习、搜索和深度学习看作是三种可以扩展并且可以非常通用的算法,无需大量人工设计的人类先验知识。这不同于 MIT 等在当时构建的 AI——它们是基于逻辑的专家系统,需要大量人工编码。


事实证明这种做法是错误的。我们在早期看出了发展趋势。我们使用游戏作为验证平台,发现结果还不错。最后也取得了巨大的成功。AlphaGo 等成功给其他许多人带去了启发。当然,还有我们谷歌研究院和谷歌大脑的同事发明的 Transformer,这种深度学习方法让模型可以处理海量数据。这些技术就是如今成果的基础。这些都是一以贯之的传承。我们当然不可能预测出每一次技术转变,但我认为我们前进的总体方向是正确的。


六、治理超人类 AI


Dwarkesh Patel:您怎么看待超人类智能的前景?它仍然受私有企业控制吗?具体应该如何治理它?


Demis Hassabis:我认为这种技术将会带来重大影响。大于任何一家公司,甚至大于任何一个行业。我认为这必需来自民间社会、学术界、政府的许多利益相关者的大规模合作。好消息是,随着近期聊天机器人等技术的广泛使用,社会中其它一些部分被唤醒了,他们开始认识到这种系统正在到来并且他们也将与这些系统互动。这很不错。这为良好的对话打开了很多大门。


其中一个例子是几个月前在英国举办的 AI Safety Summit。我认为这是一次巨大成功。我们需要进行国际间的对话,要让整个社会一起来决定我们要使用这些模型做什么、我们希望怎样使用它们、我们希望它们不被用于什么目的。


Dwarkesh Patel:现在的 AI 系统已经非常强大,为什么它们的影响没有更大呢?


Demis Hassabis:这说明我们依然还处在这个新时代的起点。目前的这些系统已经有一些有趣的用例,比如使用聊天机器人系统来为你做总结、完成一些简单的写作任务、进行样板式写作;但这些只是我们日常生活的一小部分。


我认为,对于更一般化的用例,我们仍然需要新的能力,比如规划和搜索,另外还需要个性化、记忆、情境记忆等。因此长上下文窗口是不够的,还要记住 100 轮对话之前我们说了什么。一旦这些技术成熟了,我们就会看到新的用例,比如能帮助我们找到更好更丰富材料(书、电影、音乐等)的新推荐系统。那样我就会每天使用这类系统。我认为我们目前只是触及了这些 AI 助理的表面,其实未来它们能为我们的一般日常生活和工作做更多事情。另外用它们做科研也不足够可靠。但我相信未来当我们决定了事实性和定基等问题之后,这些 AI 系统就能变成世界上最好的研究助理。


Dwarkesh Patel:说到记忆,您在 2007 年有一篇论文谈到记忆和想象(imagination)有某种程度的相似之处。现在也有人说目前的 AI 就只是记住了些东西。您对此怎么看?只靠记忆就足够了吗?


Demis Hassabis:在有限的情况下,也许记住一切就够了,但这样无法泛化到原有的分布之外。但很明显 Gemini 和 GPT-4 等模型确实能够泛化到新的情况。至于我的那篇论文,我实际上表达的是:记忆(至少是人类记忆)是一种重建的过程。记忆不是磁带式的精确记录。我们的大脑是把看起来熟悉的东西组合到一起。


这让我思考想象可能也是这么回事。只不过这时候我们组合的是语义组件(semantic component)——你的大脑将它们组合起来并且认为结果是全新的。我认为我们目前的系统依然缺少这种能力——即把世界模型的不同部分拿出来组合到一起来模拟新东西,从而帮助用来执行规划。这就是我所说的想象。


七、安全、开源和权重安全


Dwarkesh Patel:你们有计划和其它两家主要的 AI 实验室一样从某种程度上放出 Gemini 的框架吗?


Demis Hassabis:是的,我们内部已经做了大量的检查和平衡,我们也会开始发布一些东西。未来几个月,我们有很多博客文章和技术论文发出来。


Dwarkesh Patel:如何保护模型的权重,使其不被恶意盗用?


Demis Hassabis:这涉及到两个方面。一是安全,二是开源。安全非常关键,尤其是网络安全。我们 Google DeepMind 非常幸运。因为我们在谷歌的防火墙和云的保护之下,这可以说是世界上最好的安全防护。除此之外,我们 DeepMind 还有特定的措施来保护我们的代码库。所以我们有双重保护。而且我们还在不断提升和改进,比如使用强化沙盒。我们也在考虑特定的安全数据中心或硬件解决方案。所有的前沿实验室都应该这么做。


开源也很重要。我们是开源和开放科学的大力支持者。我们已经发布了数千篇论文,包括 AlphaFold、Transformer 和 AlphaGo。但对于核心的基础技术,我们会考虑如何阻止恶意组织、个人或流氓国家,防止他们使用这些开源系统去实现他们的有害目的。这是我们必须回答的问题。我不知道这个问题的答案,但我也没能从支持开源一切的人那里听到让人信服的答案。我认为这其中必须要有些平衡。但很显然这是个很复杂的问题。


Dwarkesh Patel:在安全方面,其它一些实验室有自己的专攻领域,比如 Anthropic 在研究可解释性。现在你们有了最前沿的模型,你们也会在安全方面做前沿研究吗?


Demis Hassabis:我们已经开创了 RLHF 等技术,这不仅能用于提升性能,也能用于安全。我认为很多自我博弈想法也有潜力用于自动测试新系统的边界条件。部分问题在于,对于这些非常通用的系统,它们的适用范围非常广。我认为我们将需要一些自动测试技术以及之前提到的模拟和游戏、非常拟真的虚拟环境。在这方面我们有很长的研究历史。另外,很幸运谷歌有大量网络安全专家和硬件设计师。这也是我们可以获得的安全保障。


八、多模态和进一步的进展


Dwarkesh Patel:对于 Gemini 这样的系统,目前与它们默认的交互方式是通过聊天。随着多模态和新能力的加入,这种情况会如何改变?


Demis Hassabis:在理解完整的多模态系统方面,我们还处于起步阶段。与其的交互方式将与我们现在的聊天机器人大不相同。我想明年的下一代版本可能会具有一定的环境理解能力,比如通过相机或手机。然后我可以想象下一步。模型在理解方面会变得越来越顺畅。我们可以使用视频、声音甚至触碰。如果再考虑到使用传感器的机器人,世界将会开始变得激动人心。我想未来几年,我们就能看到多模态对机器人学科意味着什么。


Dwarkesh Patel:Ilya 曾在播客上跟我说过 OpenAI 放弃研究机器人的原因:在该领域的数据不够,至少在那时候是如此。您认为这对机器人的发展而言依然还是一个瓶颈吗?


Demis Hassabis:我们的 Gato 和 RT-2 Transformer 取得了激动人心的进展。我们一直以来都很喜欢机器人。我们在这一领域也有出色的研究成果。我们仍然在进行机器人研究,因为我们其实喜欢这一事实:这是一个数据稀少的领域。我们认为这会是一个非常有用的研究方向,其中涉及到的课题包括采样效率和数据效率、从模拟环境迁移到现实的迁移学习。我们一直在努力研究。


实际上 Ilya 说得对,机器人很有挑战性就是因为数据问题。但我想我们会开始看到大模型可以迁移到机器人领域、在非常普适的领域学习,并且可以将 Gato 这样的 token 当作是任意类型的 token 进行处理。这些 token 可以是动作,也可以是词、图块、像素等等。我心中的多模态就是这样。但一开始,训练这样的系统比简单直接的文本语言系统更困难。我们之前聊迁移学习时也谈到了,对于一个真正的多模态系统,一个模态是可以从其它模态获益的。比如如果模型更加理解视频,其语言能力也会有所提升。我们最后会有一个这样的更加通用、更有能力的系统。


Dwarkesh Patel:DeepMind 发表了许多有趣的研究成果来加速不同领域的科学研究。为什么要构建这样的特定领域的方案呢?为什么不等到一二十年后让 AGI 来做?


Demis Hassabis:我想我们并不知道 AGI 将在何时到来。而且我们过去也常常说,我们不必等到 AGI,也能做出些出色的成果来造福这个世界。我个人也对 AI 在科学和医疗领域的应用充满热情。而且你可以看到我们的多篇 Nature 论文关注了多个不同的领域。有很多激动人心的研究方向能影响这个世界。作为拥有数十亿用户的谷歌的一分子,我们很荣幸有这样的巨大机会,可以将我们取得的进步快速提供给数十亿人,帮助改善、丰富和助力他们的日常生活。


从 AGI 的角度看,我们也需要检验我们的想法。我们不能指望闭门造 AI 就能推动发展,因为这样只会让内部指标偏离人们真正会关心的真实事物。真实世界应用能提供大量直接的反馈,可以让我们知道系统是否在进步或者我们是不是需要提高数据或样本效率。因为大多数真实世界难题都需要这样。这能不断推动和引导你的研究方向,以确保它们走在正确的道路上。当然,另一方面是,即便是在 AGI 诞生之前很多年,世界也能从中获益。


九、Google DeepMind 内部


Dwarkesh Patel:Gemini 的开发工作涉及到谷歌大脑和 DeepMind 等不同机构的合作。这其中遇到了哪些挑战?产生了哪些协同效应?


Demis Hassabis:过去的一年是很棒的一年。当然,挑战是有的,和任何大型整合工作一样。但我们是两个世界级的组织,各自都发明了许多重要技术,从深度强化学习到 Transformer。因此,我们的很多工作就是将这些汇集起来,实现更加紧密的合作。其实我们过去常常合作,只不过之前是针对具体项目的合作,现在则是更加深度和广泛的合作。


Gemini 是这一合作的首个成果,其实 Gemini 这个名字就暗含了孪生兄弟姐妹的意思。当然,也有很多事情的效率更高了,像是把计算资源、想法和工程开发工作汇集到一起。我们目前就处于这个阶段,基于世界级的工程开发来构建前沿系统。我认为进一步的合作是有意义的。


Dwarkesh Patel:您和 Shane 创立 DeepMind 的部分原因是你们担忧 AI 的安全问题。您认为 AGI 的到来有现实的可能性。您感觉来自谷歌大脑的研究者也有类似看法吗?这个问题方面是否存在文化差异?


Demis Hassabis:没有。总体而言,这就是我们在 2014 年与谷歌携手的原因之一。我认为,谷歌和 Alphabet 整体(不只是谷歌大脑和 DeepMind)都以负责任的态度认真对待这些问题。差不多我们的座右铭就是大胆尝试这些系统,同时要负起责任。我显然是一个技术乐观主义者,但我希望我们对技术保持谨慎,毕竟我们共同为这个世界带来的东西具有变革性的力量。我认为这很重要。我认为这将成为人类发明的最重要的技术。


Dwarkesh Patel:最后一个问题。2010 年时,当其他人还觉得 AGI 很荒谬时,您就在思考这个终极目标了。现在随着这类技术的慢慢起飞,您是怎么想的呢?您是否已经在您的世界模型中预想到过?


Demis Hassabis:是的,我确实已经在我的世界模型中预想到过这些,至少是从技术角度。但很显然,我们不一定预料到了公众会在如此早期阶段参与进来。像是 ChatGPT 等一些应用在某些方面还有所欠缺,但人们已经有浓烈的兴趣去使用它们了。这一点挺让人意外的。


另外还有更加专业化的系统,比如 AlphaFold 和 AlphaGo 以及一些科学方面的成果,但它们在公众关注的主线发展之外,也许几年后公众会关注到它们,那时候我们可能就有了更加普遍适用的助理类型的系统。这会创造出一个和现在不一样的环境。而且情况可能看起来会更混乱,因为会有很多事情发生,也会有很多风险投资,好像所有人都失去理智一样。


我唯一担忧的是我们能否负责任地、深思熟虑地、科学地对待这种情况,使用科学方法来应对。也就是我说的乐观但谨慎的方式。我一直都相信这是我们应对 AI 这类事物的方式。我希望我们不会迷失在这场快速袭来的巨大热潮中。


参考链接:

https://www.dwarkeshpatel.com/p/demis-hassabis

https://twitter.com/dwarkesh_sp/status/1762872471479529522


本文来自微信公众号:机器之心 (ID:almosthuman2014),编辑:Panda

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定