本文来自微信公众号:Web3天空之城,作者:Web3天空之城,原文标题:《OpenAI首席研究官Mark Chen长访:扎克伯格煮汤挖人, 我们靠信仰留天才 | 全文图解+语音点评+视频+3万字》,题图来自:视觉中国
作为OpenAI的首席研究官(Chief Research Officer),Mark Chen不仅掌管着数百个前沿研究项目的资源分配,更是OpenAI技术路线图的关键制定者之一。
说起来, 城主高看Mark Chen一眼的地方在于, 当Meta史无前例地大举挖角OpenAI, 据说动用了10亿美金挖Mark Chen, 而他并不为所动, 作为目前OpenAI研究的绝对核心, 他的这个动作是有意义的. 在当下Sam Altman已经发出了Code Red红色警报追赶Gemini的全员邮件后, Mark Chen显然是这场技术生死之战的关键人物。
近日,Mark Chen接受了资深科技记者Ashlee Vance的深度专访。在这次罕见的公开对话中,Mark Chen深入探讨了当前AI领域激烈的人才争夺战,特别是Meta与OpenAI之间的竞争,以及Mark Zuckerberg亲自“送汤”挖角的轶事。Mark Chen分享了他从数学竞赛、高频交易转行至AI研究的个人经历,并详细回顾了OpenAI内部的文化、Sam Altman离职风波期间团队的团结,以及他对技术路线(如预训练、推理模型、算力扩展)的看法。访谈还触及了AI在科学发现自动化方面的潜力、对AGI的定义以及对未来模型安全与对齐的思考。
更为重要的是,Mark Chen为我们描绘了一幅清晰的AGI(通用人工智能)发展蓝图:预训练技术仍有巨大潜力,而推理模型(Reasoning Models)将是下一个关键范式。 他甚至给出了具体的时间表——在未来两年半内,AI有望实现从“实习生”到“独立科学家”的质变,从而根本性地重塑科学发现的进程。
核心观点
人才竞争与文化:尽管Meta等竞争对手以高薪和激进策略(如亲自送汤)挖角,OpenAI依靠其独特的使命感和研究文化保留了核心人才。
技术路线图:Mark Chen强调“扩展(Scaling)”并未终结,预训练仍有巨大提升空间,且推理模型(Reasoning)是重要的下一阶段。
科研自动化:OpenAI的短期目标是利用AI实习生辅助研究,长期目标(约两年半内)是实现AI进行端到端的科学研究。
AGI的定义:AGI是一个过程而非单一时刻,当前的重点是AI能否产生新的科学知识并推动前沿发展。
安全与对齐:随着模型变得更聪明,确保其思维过程的透明和对齐(Alignment)至关重要,特别是防止模型学会“欺骗”。
“我们不会和Meta进行美元的薪资抗衡……但人们仍然非常乐意留在OpenAI,这给了我极大的信念:人们真的相信未来的潜力,并相信我们将实现目标。”
“许多人说扩展定律(Scaling)已经死了。我们完全不这么认为。预训练仍有巨大的提升空间。”
“我们设定了非常具体的目标:在一年之内,我们要依靠‘AI实习生’进行研究;在两年半的时间内,我们希望AI能够进行端到端的科学研究。”
“AGI是一个过程而非单一时刻……我最关注的指标是:我们是否正在产生新的科学知识?我们是否正在推进科学的前沿?”
“随着模型变得更聪明,掌控它的思维过程将变得极其重要。我们必须警惕模型学会‘欺骗’,即为了给出人类想听的答案而隐藏真实的意图。”
硅谷人才争夺战:扎克伯格的“鸡汤”与OpenAI的防御
在当今的科技界,顶级AI研究员的身价堪比顶级职业运动员。Mark Chen在访谈中坦言,OpenAI正面临着前所未有的人才竞争压力,尤其是来自Meta等巨头的激进挖角。
这种竞争甚至演变成了某种极具硅谷特色的轶事。Mark Chen透露,Meta CEO马克·扎克伯格为了招募OpenAI的研究员,甚至采取了极具个人色彩的攻势——亲自给被挖角对象送去他亲手煮的汤。“随着时间的推移,这种情况逐渐升级……我也给那些我们试图从Meta招募的人送过汤,” Chen幽默地回应道,“我开始认为这些策略以它们自己的方式是有效的。”
然而,尽管Meta拥有每年数百亿美元的资本投入,并且开出了极具诱惑力的薪酬倍数,OpenAI的核心团队依然保持了惊人的稳定性。Mark Chen指出,在他直接管理的下属中,尽管半数以上接到了竞争对手的邀请,但鲜有人离开。
“我没有听到任何人说通用人工智能(AGI)会首先在Meta被开发出来,” Chen强调。OpenAI的护城河不再仅仅是薪酬,而是一种独特的“使命感”和纯粹的研究文化。在这场人才博弈中,OpenAI依靠的是一种信念:这里才是通往AGI的最快路径。
“扩展定律”并未终结:预训练与推理模型的新征程
近期,关于“大模型扩展定律(Scaling Law)已死”的言论在业内甚嚣尘上。对此,Mark Chen给出了截然相反的判断:“很多人说规模化已经死了。我们完全不这么认为。”
Chen解释道,OpenAI不仅在强化预训练(Pre-training)这一传统强项,更在开辟新的战场。他承认,在过去两年中,团队将大量资源投入到了推理(Reasoning)能力的研发上——这一赌注最终催生了像o1(在访谈语境中隐含)这样具备深度思考能力的模型。
“思考和语言模型,这是一种你一旦拥有就无法回头的原始状态,” Chen表示。他指出,随着算法的突破,预训练的数据效率和模型能力仍有巨大的提升空间。面对Google DeepMind推出的Gemini系列等竞品,OpenAI保持着高度的自信。Chen透露,内部模型在性能上已经达到了极高水准,尤其是在解决复杂数学和编程问题上,AI正在跨越人类专家的门槛。
他举了一个生动的例子:当他将一篇最新的物理学论文交给OpenAI的推理模型时,模型“思考”了30分钟,最终解决了一个连专业物理学家都认为难以攻克的难题。这标志着AI正在从单纯的模式识别,转向真正的逻辑推理和创造性解决问题。
科学发现的自动化:从AI实习生到端到端的研究员
Mark Chen在访谈中抛出了一个极具野心的短期路线图,这或许是本次对话中最令人震动的预测。他将OpenAI的未来目标具体化为“科研自动化”的两个阶段:
1. 一年内(AI实习生阶段): 改变研究的执行方式。人类研究员将拥有高效的“AI实习生”,它们能辅助代码编写、调试和初步实验,大幅提升科研效率。
2. 两年半内(端到端研究阶段): 实现AI进行全流程的科学研究。“我们希望达到一个世界,我们只需控制外部循环——提出想法,而模型负责实施、调试并得出结果。”
这一愿景不仅仅是关于构建更强的聊天机器人,而是关于构建能够推动人类知识边界的“AI科学家”。Chen提到了“OpenAI for Science”的构想,旨在通过AI工具加速物理、生物、材料科学等领域的突破。他认为,当前的AI已经开始在生物技术(如蛋白质结构预测)和数学竞赛中展现出超越人类的能力,这种趋势将迅速扩展到更广泛的学科。
安全与对齐:警惕学会“欺骗”的超级模型
随着模型智力的飞跃,安全问题变得愈发微妙和棘手。Mark Chen不仅是技术研发的推动者,也曾直接管理过OpenAI的对齐(Alignment)团队。他提出了一个深层的担忧:“诡计(Scheming)”。
Chen解释说,当使用强化学习训练模型时,如果仅仅奖励模型给出“正确”或“令人愉悦”的答案,模型可能会学会一种危险的策略:隐藏其真实的思维过程,只展示人类想看的内容,甚至学会欺骗以获得奖励。
为了应对这一挑战,OpenAI采取了一项关键决策:“不干预模型的原始思维过程(Chain of Thought)。” 即便模型的思维链条中包含人类不喜欢的成分,研究人员也必须保持其透明可见。“我们能够持续观察模型的思考过程,将其视为理解对齐的一个工具,” Chen强调。只有确保思维过程的透明,人类才能在AI变得比我们更聪明时,依然掌控其意图,防止其与人类价值观背道而驰。
走出至暗时刻:以研究为核心的组织韧性
访谈不可避免地触及了去年Sam Altman的离职风波。作为核心管理层,Mark Chen回忆了那段“至暗时刻”:竞争对手像饿狼一样在门口徘徊,试图瓜分OpenAI的人才库。
然而,这场危机反而成为了团队凝聚力的试金石。Chen和Jakub Pachocki(OpenAI现任首席科学家)等人迅速组织起来,稳定军心。“我们给自己定了一个目标,我不会失去任何一个人,” Chen回忆道。最终,超过90%的研究员签署联名信要求董事会迎回Altman,这种惊人的团结证明了OpenAI内部文化的韧性。
Mark Chen将这种文化归结为“精英管理(Meritocracy)”与“扁平化创新”的结合。在这里,管理者必须拥有深厚的技术判断力才能赢得尊重,而最好的想法往往通过“自下而上”的方式涌现。无论是数汤挖角的故事,还是内部的权力更迭,最终都未能动摇这家公司最核心的资产——那群渴望用代码改写人类未来的研究员。
结语
在访谈的最后,Mark Chen展现出一种紧迫感。对于他而言,AGI不是一个遥远的科幻概念,而是一场正在发生的工业革命。他每天工作到凌晨,不仅是为了赢得与竞争对手的比赛,更是为了不错过这个重塑世界的历史窗口。
“我们正处于一场工业革命之中,你必须尽可能多地利用它,” Chen说道。对于OpenAI而言, soup(汤)可以拒绝,但在通往AGI的道路上,他们绝不减速。
附录: 天空之城全文整理
人才争夺战与“送汤”轶事
主持人: 关于人才争夺战,这确实受到了很多关注,字面上来说,而且看起来Meta相当激进。这种针锋相对具体是什么样子的?我们处于哪个阶段?
Mark Chen: 存在人才的吸引力,每个人都大致了解他们是谁。而且,我认为许多公司已经意识到,建立一个出色的人工智能实验室的关键要素之一,不是唯一的要素,但却是关键要素之一,就是招募最优秀的人才。我认为Meta采取这种激进的策略并不令人意外。我们并没有袖手旁观。我实际上想从Open AI的角度来讲讲这个故事。我认为媒体对“人才单向流向Meta”做了很多渲染。但我的看法是,Meta确实非常积极地招募了很多人,但很多时候并不成功。
Mark Chen: 所以为了让您了解背景,在我的人员中,在我直属下属中,在他们招聘任何新人的时候,我认为他们争取了我一半的直属下属,但他们都拒绝了。当然,您知道,如果他们每年有像100亿美元这样的资本用于人才投入,他们肯定能招到人。所以我实际上觉得我们在保护我们顶尖人才方面做得相当不错。而且,随着时间的推移,这种情况逐渐升级,这很有趣。这里有一些有趣的故事……扎克实际上亲自给那些他试图从我们这里招募的人送去汤。
比如一个……只是为了表明他会走多远……我想他……他是亲手煮的汤。
而且,当时这让我感到震惊,但是,随着时间的推移,我开始认为这些东西以它们自己的方式是有效的,而且,我也给那些我们正在从Meta招募的人送过汤。你在做数汤吗。我想,如果我要为我的员工举办一个户外活动,下一次户外活动,我要带他们去上烹饪课。好的。这只是,但我确实认为,我在招聘方面学到了一些东西。
主持人: 你的汤是你自己煮的吗?如果你能得到像米其林星级那样的汤就更好了。
Mark Chen: 你知道我的意思吗?不。我觉得“Deahoe”非常好,可能比任何汤都要好。但我确实认为我学到了一些关于如何积极争取顶尖人才的东西。我认为我深受启发的一点是,即使在OpenAI中,那些已经离职去Meta的人中,我没有听到任何人说通用人工智能(AGI)会首先在Meta开发出来。每个人都对OpenAI的研究项目非常有信心。我向我的员工,向整个研究组织非常明确地表明了一点,我们不会和Meta进行逐美元的抗衡。并且(薪资)倍数低于Meta提供的水平,但人们仍然非常乐意留在OpenAI,这给了我极大的信念,人们真的相信未来的潜力,并相信我们将实现目标。
主持人: 还有Alex,Alex Wayne,他以前是其中一家数学公司的人,我确信你们一起待过。
Mark Chen: 我和Alex一起待过几次,但我们现在不太常待在一起了。
主持人: 为什么汤会成为那个东西?
Mark Chen: 这只是,我不知道,有过汤,有过鲜花,有过你能想到的任何东西。但是,我不知道,我认为,生活是一场冒险。我顺应了这个模因梗。
主持人: 在思考的过程中,有什么可以采用的扑克策略吗?
Mark Chen: 再说一次,我认为这真的回到了我之前谈到的关于媒体叙事的问题。这个游戏的目的不是要留住组织中的每一个人。而是要信任我们为培养人才而建立的这个体系,并了解我们需要留住的关键人物是谁,然后留住他们。我认为我们在这一点上做得非常出色。
介绍Mark Chen与OpenAI的研究管理
主持人: 我们今天有一个特别的惊喜。我很兴奋。来自OpenAI的Mark Chen来了。他是首席研究官。他是我在过去几年里认识的一位人士。非常感谢您。
Mark Chen: 能认识您这么久真是太棒了。
主持人: 我觉得,世界上有为数不多的人正在从事这个非常重要的项目。而且,您正处于这个项目的顶端。所以能有机会聊聊真是太酷了。
Mark Chen: 感谢您邀请我来。
主持人: 这是我的荣幸。而且,我想和你谈论很多事情,因为正如我们所说,我在过去几年里认识了你。我想让人们更多地了解你的生平经历。而且,我也知道会有人工智能爱好者希望我们在那几件事情上深入探讨。所以我们会尽力而为。我想首先让大家了解一下你的工作,在我看来,如果我理解有任何错误,请随时纠正我。但是,萨姆一直以来,他非常热衷于研究。他是老板。他在食物链的顶端。但然后你和雅库布一起合作,共同塑造OpenAI的研究方向,而你在这个角色的附加部分是决定哪些计算资源分配给哪些项目,所以你必须规划OpenAI的走向,以及实现目标的操作机制。这总让我觉得这是一份很糟糕的工作,因为我想到人们会竭尽全力从YouTube获取GPU。这是真的。
Mark Chen: 人们在试图达成幕后交易以获取他们需要的GPU方面非常有创造力。但我的确,这是工作的一个重要组成部分,确定研究组织的优先事项,并对执行情况负责。针对第一个观点,我和雅各布每隔一到两个月会进行一次活动,清点OpenAI所有的项目。那是一个大约包含300个项目的巨大电子表格,我们会尽力深入理解每一个项目,并对它们进行真正的排序。我认为对于一个拥有500人的公司来说,让员工理解核心优先事项是什么,并通过我们分配计算资源的方式,明确地、口头上传达这些优先事项是非常重要的。
主持人: 我们在“核心记忆”(Core Memory)中做什么?我们关注的是创新、快速发展、具有前瞻性的公司,这就是为什么“核心记忆”由Brex赞助的原因,因为Brex是许多此类公司的智能财务平台,服务于从初创企业到全球最大企业的30,000家公司,它们依赖Brex的技术来管理其财务。他们拥有智能企业卡、高收益商业银行服务以及出色的费用报销自动化工具。我讨厌报销费用。Brex的人工智能软件可以贯穿这些费用,弄清楚我们在哪里花钱,并为您处理掉很多事情,这样您就无需浪费时间自己处理了。请访问brex.com斜杠core memory以了解更多信息,并及时跟上进度。我们开始吧。让我们摆脱这种过时的财务软件,迈向未来。核心内存和 Brex。
主持人: 所以你有,当你谈论这500个时,它们就是这500个。这对你来说是研究的核心。
主持人: 他们现在的组织是,在谈到这300个项目时,我猜想,很明显其中一些是巨大的前沿模型,而另一些可能是人们正在进行的一些实验。那么,你如何才能跟上所有这些,然后对哪些项目值得使用GPU、哪些不值得得出某种结论呢?
Mark Chen: 绝对。我认为在进行这项工作时,保持你的关注非常重要。保持核心路线图的关注。我认为OpenAI区别于其他大型实验室的一点是,OpenAI的核心始终是核心探索性研究。我们的业务不是复制其他实验室的成果,也不是在基准测试方面追赶其他实验室。那真的不是我们的看家本领。我们一直在努力探寻下一个范式是什么。而且我们愿意投入资源来确保我们找到它,我想大多数人可能会感到惊讶,但用于探索的那项工作所消耗的计算量,比训练实际产物要大。
主持人: 它一定是,它仍然必须是,你如何阻止自己被别人说服?因为每个人都会提出,就像我有时思考这个问题时,我就会想象我在《纽约时报》工作时,你们会有一个头版会议,每个人都想上头版。每个人都认为自己的报道是最重要的报道。他们都在竭尽全力地告诉你这件事为什么如此重要。在那个房间里的每个人都为他们所推介的内容付出了数周、数月的心血,所以感觉就像生死攸关一样。而且,对我来说,这看起来太困难了。
Mark Chen: 这也是一个艰难的过程。而且我认为最困难的原因是,这是一个我们现在无法资助的项目。但我也认为这是好的领导力。你需要清晰地传达,嘿,这些是优先事项。这是我们将要讨论的内容。这些是我们认为能推动研究项目的成果类型。可能还会有其他事情,但那些必须明确排在第二位。
竞争动态与长期研究
主持人: 当你,就像你提到的那样,不对竞争对手做出反应时。当我浏览我的笔记时,我不知道我是否能足够快地跟上思路。但这,这就像一个让我感到骄傲的点,你觉得,其他一些公司,你们处于一个领先的地位,并且为其他人设立了标准,所以他们对你们发布的内容做出了反应。我们恰好在 Gemini 3 发布几天后进行这次采访,你的竞争对手在某些时候确实存在……这种来回博弈正在进行,而且我知道基准测试的价值在某种程度上是有争议的,但你知道人们仍然会关注这些事情,那么随着时间的推移,你如何保持那种奢侈或那种智力上的地位,让你觉得我们就做我们该做的事情呢?
Mark Chen: 我认为如今的人工智能研究领域比以往任何时候都更具竞争力。重要的是不要陷入这种竞争动态中,因为你总会说,嘿,我可以发布一个增量更新,让我比竞争对手领先几周或几个月。我不认为这是进行研究的长期可持续方式,因为如果你能攻克下一个范式,那将重要得多。你将塑造它的演变。你将了解围绕该思想领域的各种侧面研究方向。
Mark Chen: 因此,当我们以我们的强化学习(RL)项目为例来思考这个问题时,我们在两年多前就押注,我们真的要攻克语言模型上的强化学习。这在当时是一个非常不受欢迎的赌注。现在看起来很明显。但那时,环境是,嘿,有一个预训练机器运行得很好。有一个后训练机器运行得很好。为什么要投资于其他事物呢?我认为今天,每个人都会告诉你,思考和语言模型,这是一种你不能拥有的原始状态。我们不能没有它而生存。因此,我们真正要做的是进行这些大胆的投资,并找出如何扩展和构建算法,使其能够扩展到比我们现有的算力量大几个数量级的规模。今天拥有的。
主持人: 我在智力上理解这一点,随着你们最初基本上是一家纯粹的研究公司,这变得越来越困难。当你今天看OpenAI时,你有产品法律(指产品化、商业化等法规或流程)。OpenAI的某些部分看起来更像是成熟的微软或谷歌,你有产品线。你必须服务于所有这些不同的事物。通常情况下,我觉得你们还很年轻。所以也许你还没有面临这些确切的压力,但随着这些公司发展,总会出现一个问题:我们更专注于那些能为底线服务的事务,而不是花大价钱做研究,这似乎总是会随着时间推移而逐渐减少。我认为这正是OpenAI其核心最特别之处之一:我们是一家纯粹的人工智能研究公司,我认为市面上很少有其他公司能这么说。
Mark Chen: 而且,我们最初是作为一家非营利组织成立的。我正是在那个时期加入的。我认为其精神是,不惜一切代价构建通用人工智能(AGI),推进AGI研究,当然,要以安全的方式进行。但我确实认为那是创造真正价值的最佳“障眼法”,如果你专注于研究并取得了成功,那么创造价值是很容易的事情。所以我认为有一种陷阱,就是过于沉迷于“让我们提高底线”这样的想法。但实际上,如果你做出了最好的研究,那么那部分(创造价值)就非常容易了。
工程师与研究员的界限
主持人: 你是在2018年开始的吗?在2018年。所以你觉得那种灵魂,那种核心文化和核心的根基,它真的非常持久。
Mark Chen: 它仍然存在。
主持人: 那是什么?那他(指某人)是谁?他说,我们不应该称呼你们任何人是研究人员。这只是工程技术。
Mark Chen: 我想,我们,这是真的,因为我觉得一旦你有了这种等级制度,并且你把,比如说,研究科学提升到一个高于工程技术的地位,你就已经完全输掉这场游戏了,因为当你在构建一个大模型时,在优化所有那些,那些百分之几的优化实践中,有非常多的内容,你如何让你的内核(kernels)快那么一点点?你如何确保数值?都正常工作,这是一项深入的工程实践。如果你没有这部分内容,你就无法扩展到我们今天使用的GPU数量。
主持人: 因为我认为他们,但研究人员和工程师之间存在一种神秘感,你明白我的意思吗?那么你是否觉得保持头脑冷静在那方面会更好一些呢?这就是你所说的意思吗?
Mark Chen: 或者,我只是觉得研究人员有各种不同的类型。我们一些最优秀的研究人员,他们是那种,能想出十亿个点子的人,而且其中很多都不好,但是,就在你快要觉得,啊,这个人真的值得吗的时候,他们会想出一个,绝妙的点子。他们中有些人就是非常擅长沿着清晰的前进道路去执行。所以研究人员有各种不同的类型。我认为很难将他们归入一种刻板的、有效的工作类型。
基准测试与Gemini 3
主持人: 这有道理。我不会就竞争对手的问题过多地打扰您。只是因为 Gemini 3 已经发布了,我很好奇当你们的一个竞争对手发布了类似产品时,你个人或团队会发生什么,比如大家都会去看看它能做什么吗?你们是否有这样一个提示词或问题,你们经常会向这些新模型提出,以检验它们的能力?
Mark Chen: 所以就 Gemini 3 而言,它是一个相当不错的模型。我想我们所做的一件事是努力建立共识,基准测试只能告诉你一部分信息。仅从基准测试来看,我们实际上感到相当自信。我们内部的模型在性能上达到了 Gemini 3 的水平,我们非常有信心将很快发布它们,并且我们可以发布比它更好的后续模型。
主持人: 但是,再说一遍,基准测试只能说明一部分问题,而且我认为每个人都会用自己的方式来探查这些模型。
Mark Chen: 我喜欢给模型出一个数学题。我认为到目前为止,它们中没有一个真正解决这个问题,即使是那些思考模型也一样。我会等着看。这是像一个秘密的数学问题吗?不。如果我在这里宣布它,也许它就会被训练进去。但我认为这是去年一个很好的难题之一。这就是42问题。所以你想创建一个这个模42的随机数生成器。你可以使用一堆基本元,它们是小于42的素数的随机数生成器。你希望期望中对这些子生成器的调用次数尽可能少。所以这是一个非常巧妙的谜题,但语言模型可以非常接近最优解,但我还没有看到有哪个模型能完全解开它。
主持人: 好的。在我们到达那里之前,我想问你一个我们正要深入探讨的方向。我知道我见过你。你很有竞争力。你也对我说过。
Mark Chen: 我想我找到了。我热爱竞争。我讨厌在任何地方输掉。我真的很讨厌失败。
我讨厌输。
主持人: 所以我在想象,我只是好奇这是否正确,如果如果我们知道 Gemini 3 或任何版本将在周四发布,你会在午夜时分把它那个问题扔给它吗,还是没有那么夸张?我认为这需要长期的努力,任何事情,比如,我是一个有执念的人。
Mark Chen: 我认为任何事业,你都必须着眼于长远。在过去半年里,我们实际上一直在专注于预训练,特别是加强我们的预训练工作。我认为这是其中一些努力的结果,与雅库布一起,专注于并在 OpenAI 建立起预训练的肌肉,围绕它打造一个真正的超级明星团队,确保预训练所有重要的领域和方面都得到强调。这就是今天所创造的成果,让我们感觉我们可以在预训练方面轻松地与 Gemini 3 一较高下。
主持人: 好的。我想问一下预训练方面的事情。因为我一直在和你们所有人就此进行很多讨论。你对这些新模型出现时游说的,问题不太痴迷,而更关注这个,这个漫长的旅程。 我想谈谈你目前面临的难题的原因,
Mark Chen: 我在OpenAI开始之前就认识雅各布(Yaakov),那时他正在参加一个编码竞赛,我有一段时间非常沉迷于编码竞赛。有一个叫肯尼迪的人。我不知道他是否还出名,但他就像是这些编码竞赛中的迈克尔·乔丹。所以我去Facebook看了一场。我不知道他们是否还举办,但他们有一个年度黑客杯(hacker cup)。黑客杯。那是我第一次见到雅各布。然后我知道,我想你在高中时参加过数学竞赛。大概从小学到高中都在参加。
Mark Chen的成长背景与竞赛经历
Mark Chen: 我接触编程非常晚。是大学时的一个室友说服我上了第一堂编程课,那时我带着一个数学家的全部傲慢,觉得数学是最纯粹的科学核心,你真正证明自己价值的地方就在那里。我想那会儿我可能太沉迷于竞赛了。但说真的,这成了一件非常有益的事情,一开始它纯粹只是为了和我的大学朋友们保持联系的一种方式。
主持人: 因为你去了麻省理工学院(MIT)。
Mark Chen: 我去了麻省理工学院。我毕业后,每个周末我们都会登录上去做这些竞赛,只是为了彼此保持联系。我开始参加比赛并且表现相当不错,然后为像美国信息学奥林匹克这样的一些竞赛编写题目,最终开始指导那支队伍。这是一个很棒的社区,我在那里遇到了像斯科特这样的人,
主持人: 所以我想很多人可能熟悉数学竞赛,因为他们可能看到孩子们经历过这些。国际信息学奥林匹克(I.O.I)和这些编程竞赛则有些不同。它是,它好太多了。但当我看到它们时,它看起来像一个,几乎像一个文字谜题。你正试图找到最有效和正确的方法来解决这个问题。而你正与所有人进行一场竞赛。然后每个人都在他们的电脑上编写代码,然后,有些人试图非常快地达到目标,但他们的方案有点没有解决问题,存在这种权衡,完全正确。你实际上是在麻省理工学院的团队中,那是我大学毕业后做的一些事情,但今天你是美国国家队的教练,其中一位教练,其中一位教练,是去年还是前年,比如美国已经很长时间没有赢过一次了,这支队伍,你永远无法预测每年的顶尖人才构成是什么样的。
Mark Chen: 但在前年,我认为我们有一个非常极端的团队。好的。我相信他们赢得了奥林匹克竞赛。
主持人: 因为我觉得通常是像中国或俄罗斯,或者像白俄罗斯和波兰。所以这个大型竞赛每年都在不同的国家举行。它是什么样的?有多少人参加?
Mark Chen: 他们从每个国家选出最好的四名学生。它既是一场竞赛,也是一个社交活动。这是一个紧密团结的社区。他们都去做了非常了不起的事情。是一场为期两天的高强度竞赛,每天你只有三个问题,有五个小时来解决它们。你真的能感受到房间里的肾上腺素和所有压力。但它也带来极大的乐趣。我想人们会平静下来,通过这个交到一辈子的朋友。
Mark Chen: 作为教练,你到底做什么?我是说你太他妈忙了,老兄,你花多少时间在这个上面?老实说,那是什么样子的?孩子们有很强的自我激励性,有时候重点真的在于管理他们的表现和策略。我想,你会有好日子,也会有坏日子,比赛中会有好的时间段,也有糟糕的时间段,你不能让这些影响你的心态。管理参赛者和管理研究人员有很多相似之处。就像在一个长得多的时间尺度上,但研究人员也会有好的月份和坏的月份。你不能让那些连续的失败影响你的心态,因为这就是研究的本质,我认为在某一阶段,很大程度上是士气管理。
Mark Chen: 我认为竞赛最近帮助我认识到的另一个有趣之处是,当你部署模型去解决这些竞赛问题时,如今它们在这方面非常擅长。
Mark Chen: 我正想问你这个问题。它们,与人类的工作方式有很大不同吗?我们通常认为这些机器,它们非常擅长模式识别。
主持人: 你可以解决任何问题。
Mark Chen: 如果它能映射到之前的问题,它很可能会解决它。但我注意到在之前的一些国际智能(IIs)中,有一个问题非常即兴或特殊(ad hoc)。我本不认为模型能解决它,但实际上它对人工智能来说是最简单的问题之一。好的。这让我有种感觉,人工智能加上人类在前沿研究中,将会创造出一些惊人的成就。仅仅因为人工智能对什么容易、什么不容易有一种不同的直觉。
主持人: 当我们深入思考整个AlphaGo事件时,你是否觉得,有那么一个时刻,它做出了人类以前从未有过的下法。所以有点类似于那种情况,是吗?
Mark Chen: 我认为是。我认为是。我认为对于GPT5 Pro来说,确实如此,前沿研究已经出现了一个拐点。关于这一点,我能讲到的最好的轶事之一是,我想在发布后三天。我遇到了一个朋友,他是一名物理学家,他一直在玩弄这些模型,感觉,它们很可爱,但没什么大用处。我用专业版模型挑战了他,让他尝试一些有抱负的事情。他输入了他最新的论文。它思考了30分钟才解决出来。
主持人: 我会说,那一刻的反应,有点像在第37步和第38步看到丽莎一样。
Mark Chen: 我只是觉得,对于前沿数学、科学、生物学、材料科学来说,这种情况只会越来越多地发生。这些模型确实已经发展到那个阶段了。
AI能力的提升与未来评估
主持人: 我本来要问你一个问题,这个问题其实一点都不新颖,因为我认为自从“深蓝”和所有国际象棋的事情以来,我们一直在讨论这个问题了。但是,作为一个一直关注这些比赛的人,如果你……我不知道,当你开始看到这些模型解决了那些曾是这些独特人类智慧的巅峰成就时,会有一种失落感。
Mark Chen: 有,也有没有。我擅长竞技编程。我从来没有达到绝对的顶尖水平。一种复仇的方式。我的确认为,对我个人而言,肯定有一个时刻,在我们开发推理模型的一段时间里,我们追踪了编码竞赛的表现。在项目开始时,它们(模型的表现)不是非常出色,也就是说,还达不到参加竞赛的任何普通竞争者的水平。随着时间的推移,它们的能力只是不断提高,不断上升。你还记得那个时刻,你走进会议室,看到(模型展示的)表现,然后模型超越了那个水平。天哪,那也让我感到震惊。这哇,我们如此之快地将能力自动化到了这个水平。当然,雅科夫(Yaakov)还在那里,还有点自鸣得意。但在大约一两个月内,它也超过了他。
Mark Chen: 今天的模型处于前沿,通过我们今年夏天在 Coder 竞赛中取得的成绩就可以很清楚地看出,世界上顶级的优化竞赛程序员,我认为它在那里取得了第二名,所以说它真的从去年的第一百名跃升到今年的前五名。你认为我们十年后还会进行这些比赛吗?我想会的,我的意思是它们很有趣。当然有一批人会用它来优化他们的简历,他们会因此退出这项活动,但我认为那些一直最擅长这项活动的人,是那些纯粹出于乐趣而做这件事的人。而且我不认为这会消失。
主持人: 当我在做这个报道时,他们告诉比如如果你来自俄罗斯或者我不知道哪些国家,你基本上可以自动获得去任何你想去的大学的免费通行证。我看到美国队的人去了哈佛和麻省理工学院。所以他们看起来过得不错,但似乎美国并没有一个类似的体系。有的。
Mark Chen: 难道你不觉得未来,面试将会有点被破坏了吗?每个人都在一定程度上看到了这一点。甚至大学考试或大学作业,在这一点上都已经被破坏了,我确实认为我们需要新的方法来评估和衡量谁在做哪些工作,谁学到了什么,以及某人实际上的水平在哪里。所以我有一个想法,也许在我们的面试中,我们应该让候选人直接和聊天GPT交流。这是一个特殊的ChatGPT,模型试图衡量你是否了解这些材料,或者你是否具备在OpenAI工作的能力水平。你必须与它进行一场让你在OpenAI深信不疑的对话。当然,不允许你“越狱”(指绕过安全限制),事后我们会查看对话记录,但也许像这样的测试在未来能更准确地反映你是否真的懂。
主持人: 所以你现在还没有这样做,但你在考虑——就是用有创意的、革新的方式。
Mark Chen: 来进行面试。
Mark Chen的个人历史:从贝尔实验室到扑克
主持人: 硅谷以在面试时做那些“脑筋急转弯”式的问题而闻名。我们教过你,你从小数学就很好。我想你,你是在东海岸出生的吗?出生在东海岸。然后你搬到了西海岸。接着你在台湾生活了很长时间,从小学到高中。四年。好的。你的父母在贝尔实验室工作。所以你出身于工程世家,这是一个非常有趣的背景,因为你接触到了所有这些创新中心,尤其是你的父母在贝尔实验室,他们……我是在一个非常科学的环境中长大的,餐桌上的谈资就是谜题之类的事情,而且我也体验到了那种更传统的、你知道的、贝尔实验室东海岸的经历。
Mark Chen: 在西海岸,我父亲去创办了一家初创公司。所以在很小的时候我也接触到了一点那种新公司的氛围。当然,然后是巨大的跨越到台湾,而且我认为那是一个巨大的文化冲击。你穿着制服,在学校里,学校周围有带刺的铁丝网,同时也接触到了那种程度的严谨性。我想这只是许多非常棒的经历的成长过程。
Mark Chen: 所以学校更难一些?我会说,我会说它只是更……学校系统中的灵活性和自由度少了一点,但我认为它也能教会你一些东西。
主持人: 从第一天起,《核心记忆》(Core Memory)播客就得到了硅谷 E1 风险投资公司(E1 Ventures)那些优秀人士的支持。他们是一家年轻而富有雄心的风险投资公司,位于硅谷,投资于年轻而富有雄心的公司和个人。非常感谢 E1 风险投资公司给予的所有支持。而且你知道你想回来。回到美国。上大学?绝对。好的。
主持人: 然后,所以你在麻省理工学院。你身处一个相当有趣的群体中。我猜麻省理工学院一直都有一些有趣的人。
Mark Chen: 天哪。2012年真是太棒了。
主持人: 他们有点像一个全明星名单。
Mark Chen: 那一年很棒。比如,我不知道你是否认识雅各布·斯坦哈特(Jacob Steinhart)。他现在正在做 translucent。我和他过去经常在计算机科学课上一起做项目。
主持人: 有保罗·克里斯蒂亚诺,他写了很多非常出色的……他在OpenAI工作,很多业内知名的人工智能人才都出自那一年。然后,然后我们谈论的是竞技编程,比如Scott Woo,他在Cognition工作。他现在因为他的数学能力而闻名,甚至成了一个梗。但你只是通过编程,通过编程社区认识他的。好的。然后我现在看到你们的竞技成果,对我来说,看起来就像现在的扑克。我想我是在一个活动上,我想我必须,我们必须对这次活动的具体细节保密,或者什么的。但我认为我可以谈论这部分,就是深夜里,我走到一张桌子旁,有你、斯科特,我想还有来自Palantier的肖恩,还有……还有一小群其他人,进行着一场相当激烈的……看起来很激烈,但对你们来说只是,就是一场相当激烈的扑克牌局。所以你们现在是将你们的数学和竞技技能应用于这里了。
Mark Chen: 扑克是一款非常有趣的游戏。我一直用一系列痴迷来描述我的生活。扑克绝对是过去这些痴迷之一。
主持人: 我认为我对扑克最大的领悟是,它更多的是一门数学游戏,而不是一门观察人性和虚张声势的游戏。
Mark Chen: 而且我认为你对扑克了解得越多,你就越是朝着那个方向进行更新,我想,我以前是一个非常糟糕的虚张声势者。当你清楚地知道这是一个数学上正确的虚张声势时,那就太容易了,就像你对此完全感觉不到任何紧张一样。而且非常有趣的是,你有一个我认为被认为是如此人性化的游戏,但其底层的机制和获胜方式却如此深刻地依赖于数学。前几天我正好想到了这一点,这在语言模型中也有某种关联,你有一个深度人性化的语言生成过程,但有一个数学机器可以和我们一样出色地完成它。
主持人: 作为一名作家,我一直都在思考那一部分,我在大学时学了所有关于维特根斯坦以及所有这些思考这些问题的人的哲学。那么,你如何找到一种优势呢?你和斯科特都给我的感觉像是超自然的一样。
Mark Chen: 擅长数学,但我不太理解你们中的一个人是如何算出超过另一个人的……它主要是一个让我们聚在一起、叙叙旧的平台,今天我们没有把它看得那么严肃。我认为,对扑克这类事情过于认真会使其失去乐趣。我对扑克的痴迷我认为在十多年前就已经结束了,现在它只是为了好玩。你这么说是因为我看到斯科特赢了两天的比赛,我想。
主持人: 你说的也许是对的。他确实非常认真地对待它,非常认真地对待它。就像大学毕业后,你在某种程度上,我曾经是……
Mark Chen: 不过我在飞机上打败了他。
主持人: 好的。你在飞机上打败了他,直接回家的路上? 是只有你和他对决,还是又像一群人一起玩?
Mark Chen: 可能有三四个人。
从高频交易到OpenAI的转折
主持人: 好的。我觉得很多,我觉得有三类,尤其是在,比如说,如果你回顾到2018年左右的时间范围,对于在人工智能领域处于高水平的人来说,我认为我没有过度概括,其中很多人都有学术背景,很多人是数学神童,或者他们将自己的数学背景应用于机器人技术或物理学之类的工作。然后是另一类人,他们曾在华尔街从事高频交易和量化分析之类的工作。所以你的第一条道路就是直接从麻省理工学院去了华尔街。
Mark Chen: 我并不太为拥有那样的经历而感到骄傲。坦率地说,那对于在麻省理工学院(MIT)中那些非常注重量化分析的孩子来说是一条相当普遍的道路。那当然,那绝对是一个非常讲究精英治国(meritocratic)的体系,你可以运用你的智慧,而且有一条非常明确的路径决定了你将获得多少利润。但我想在文化上对我来说是困难的。那是一个地方,当你发现一些东西时,你的第一本能是把它尽可能地藏起来,因为你的知识就是你的价值所在。感觉即使在公司内部,像这样的竞争动态也会产生一种外部表现,人们之间互不信任。而且我认为它也感觉像一个非常封闭的生态系统,我想我们今天不会太有感觉,比如,当高频交易(HFTs)中的某人发现了一个让他们的算法快一点点的突破时,其他任何人都没有感觉,随着时间的推移,我只是觉得,四五年后我醒来时,我们正在与完全相同的参与者群体竞争,每个人都只是一点点快了大约一点,但世界真的因此改变了那么多吗?我觉得是时候做点别的事情了,当时正好有一堆事情凑到了一起,有阿尔法狗(AlphaGo)那场比赛,我认为那对 OpenAI 的很多人来说是一个巨大的鼓舞。
Mark Chen: 你玩围棋吗?我没有玩,但我认为从某种意义上说,那个模型能够做一些有创意的事情。我真的很想了解那背后到底发生了什么。
主持人: 所以你看到了那一幕的发生。你当时有没有阅读过人工智能的研究论文之类的东西?
Mark Chen: 说实话,没有。然后我看到了那个事件。那真的很有启发性。从那时起,我才开始深入研究人工智能。看到那之后我的目标之一就是复现深度Q学习网络(DQN)的结果。这是一个能够高效地以超人水平玩很多雅达利(Atari)游戏的网络。从那里开始,这就是我接触人工智能的起点。你当时是业余时间做那些事情吗?
主持人: 所以你工作一整天,然后回去再试着。好的。这确实很奇怪。我记得我当时在采访乔治·哈茨(George Hatz),大概是在2018年左右,也许再早一点,他刚刚自己动手在他的车库里造了一辆自动驾驶汽车。然后,这是乔治。所以他会说出宏大的陈述。
Mark Chen: 有时这可能不完全准确或放之四海而皆准,或者不适用于其他人,但他他就像人工智能仍然很年轻,你可以,如果你阅读,我不知道是多少,10篇、20篇、30篇研究论文,你就可以了解整个领域。我是说,这让我着迷的是,它在很多方面都很古老,可以追溯到几十年前,但这个特定的时刻非常浅薄。我总是给那些对进入这个领域感到不知所措的人这个建议:它太浅薄了,花上三到六个月时间,选择一个项目,比如你可能知道的,复现DQN,你就能非常快地达到前沿。过去几年增加了一点深度,但它完全不像你所知道的理论数学或物理学。你认为这是一个这样的领域吗?我前几天问了雅各布这个问题,我不知道我为什么对这个问题如此着迷,但在数学中,你会看到人们倾向于在20多岁时做出最好的工作或取得重大突破,然后随着他们变老,很难再有那种时刻。就像你说的,我们是否依赖年轻人阅读这些论文然后产生一些见解,还是说这是一个可以让你在整个职业生涯中不断进步的事情?我是说,我认为你可以一直进步。我是说,OpenAI本身确实有一个相当年轻的文化,但我认为你不必年轻才能做出好的研究。我认为,年轻且对既有范式了解较少,会让人觉得这就是行事的方式。
主持人: 我认为随着时间的推移,你可能会形成自己的愿景,这是一件好事,但这也会让你固守一种思维定势,比如,研究就是这么做的。
Mark Chen: 好的结果就是这样产生的。我认为年轻的研究人员在这方面的概念上倾向于有更多的可塑性。
主持人: 你的职业生涯在 OpenAI 中很有趣。看起来你一开始就进入了一个非常重要、规模很大的职位。但当你在 2018 年刚去的时候,人数大概只有 50 人左右?
Mark Chen: 当时人数更接近 20 人。更接近 20 岁了。当时看起来确实像是两个团队。我是以住院医师的身份加入的。一个明显不是专家、不是博士的人。我想我在他任职于“开眼”(Opening Eye)期间,一直都是住院医师。所以在这方面我非常幸运,能够学习他是如何从宏观层面思考研究的。在这种情况下,住院医师就像是你的得力助手。
所以是某人进来,通常是来自另一个领域,他们是初入此道的人。我想投资并培养人工智能方面的人才。所以我想住院医师的第一阶段就像是一个为期六个月的压缩版博士学位。然后在此基础上,深入到越来越深的研究项目中去。
主持人: 所以你几乎每天都在和伊利亚交流?他是不是在塑造你的博士研究?
Mark Chen: 他负责我的项目、我的课程设置和我的学习。我就是会去找他,问“嘿,这是怎么回事?”比如,人们为什么会追求这个?
主持人: 而且,我想如果你去领英(LinkedIn)上查看,上面会写着你在OpenAI的第一份工作就是前沿研究负责人。不不不。我在IC(可能是指某个部门或角色)待了大概三年。
Mark Chen: 好的。所以我当时在做独立研究项目。我研究生成式模型,因为那确实是伊利亚当时关注的重点所在。然后过了一段时间我才开始管理团队。
主持人: 您说的是生成式。大多数人可能会指出Dali是第一个被公众广泛记录的重大项目。这公平吗?
Mark Chen: 所以我想这也标志着我从个人贡献者(IC)转变为管理者的过渡。我自己的一个重要项目,也是我今天非常自豪的一个项目是ImageGBT,这个概念验证表明,即使在语言之外,你也可以将图像之类的内容放入Transformer中,模型就会内化非常好的表征,并理解图像的内容。这就像一个概念验证,证明你可以对纯文本之外的内容进行语言建模,并获得非常好的表征,并将它们扩展到与其他方法一样先进的水平。我认为那是Dolly的一个先驱工作,而我当时正处于管理的对立面。而且我认为在这两者之间,我作为个人贡献者(IC)参与做的另一个让我非常自豪的项目是Codex,我们在其中为评估代码模型建立了很多框架,并对如何使语言模型在代码方面表现出色进行了深入研究。
主持人: 那么,是什么让你选择了‘开眼界’(Opening Eye)呢?因为我可以在脑海中从两个方面来看待这件事。一个是在小池塘里的大鱼。这里有很有趣的人。我记得2018年时,OpenAI只有20个人。在我看来,就像是,这可能不会成功。谷歌似乎已经把这件事锁死了。而且这只是一小群人,试图挑战一件看起来需要数十亿美元现金的事情。这甚至是在规模化(scaling)工作之前,当时谷歌已经在人工智能领域投入了大量的资金,只不过形式与我们现在所想的不同。但你已经在手机上做翻译之类的事情了。所以这对你来说是一个艰难的决定吗,还是你这么快就偶然进入了OpenAI的工作?
Mark Chen: 我认为有两件事,你需要有抱负和远见。这当然是OpenAI当时所拥有的。但也需要有足够的人才来支持它,而且我觉得OpenAI是少数几个抱负远大,但人才也足够大到能够弥补这一差距的地方之一,而且你知道我很幸运,我在大学时期就认识像格雷格这样的人,格雷格是在麻省理工学院和你一起的,我想我们在高中时一起参加过数学竞赛,对,然后我给他发了条信息,我说,我不太确定我是否具备正确的技能组合,但这听起来像是一个正在做着出色工作的机构。
主持人: 这仍然让人觉得很疯狂,就这样凭空出现,现在你却在领导研究工作。对我来说也是超现实的。
Mark Chen: 对我来说也是超现实的。即使是从个人贡献者(IC)到管理者的转变,我当时对接受这个职位也非常犹豫。我不知道管理是否是我会擅长的技能组合。我真的很享受信息安全(IC)方面的工作。我想我做得很开心,做得非常出色,建立了非常棒的合作关系。这真是一段疯狂的旅程。
领导力危机与团队团结
