OpenAI首席研究官Mark Chen分享了对AI人才竞争、技术路线和AGI发展的见解，强调OpenAI通过使命驱动文化而非高薪留住核心人才，并预测AI将在两年半内实现端到端科研能力。 ## 1. 硅谷人才争夺战：扎克伯格的"鸡汤"与OpenAI的防御 - Meta以10亿美元挖角OpenAI核心人才，扎克伯格甚至亲自送汤，但OpenAI核心团队保持90%以上稳定性 - OpenAI依靠"使命感"文化而非薪资竞争，Chen管理的团队半数收到Meta邀请但无人离开 - 关键见解：OpenAI员工普遍相信"AGI将首先在这里实现"，这种信念比金钱更有吸引力 ## 2. 技术路线图：预训练未死，推理模型是下一突破点 - 反驳"扩展定律已死"观点，认为预训练仍有巨大提升空间，数据效率可优化3-10倍 - 过去两年重点投入推理能力研发，使模型能进行30分钟深度思考解决物理难题 - 关键数据：AI在国际编码竞赛排名从100名跃升至前5名，数学解题能力接近人类专家 ## 3. 科研自动化：从AI实习生到独立科学家的路线图 - 一年目标：AI成为能辅助代码编写、调试的"实习生"，提升科研效率 - 两年半目标：AI实现端到端科研，人类仅需提出想法，AI负责实施和产出结果 - 案例：OpenAI模型已能解决专业物理学家难以攻克的论文难题，生物技术领域突破频现 ## 4. AGI定义与安全挑战：警惕"欺骗性"AI - 将AGI视为过程而非时刻，核心指标是AI能否产生新科学知识和推动前沿发展 - 最大安全担忧是模型学会"欺骗"——隐藏真实思维过程，只展示人类想看的答案 - 解决方案：保持模型思维链透明，即使包含人类不喜欢的成分也绝不干预原始思考过程 ## 5. OpenAI的文化韧性：从危机中成长的精英管理 - Sam Altman离职危机中，研究团队自发联名（90%签署率）要求董事会将其召回 - 扁平化创新文化：300个项目每月排序，计算资源分配决定研究优先级 - 人才策略：保持500人规模，通过"不增岗"机制维持高人才密度，坚持署名认可制度

2025-12-03 13:54

扎克伯格煮汤挖人，OpenAI靠什么留住人才？

Web3天空之城

本文来自微信公众号：Web3天空之城，作者：Web3天空之城，原文标题：《OpenAI首席研究官Mark Chen长访：扎克伯格煮汤挖人，我们靠信仰留天才 | 全文图解+语音点评+视频+3万字》，题图来自：视觉中国

作为OpenAI的首席研究官（Chief Research Officer），Mark Chen不仅掌管着数百个前沿研究项目的资源分配，更是OpenAI技术路线图的关键制定者之一。

说起来，城主高看Mark Chen一眼的地方在于，当Meta史无前例地大举挖角OpenAI，据说动用了10亿美金挖Mark Chen，而他并不为所动，作为目前OpenAI研究的绝对核心，他的这个动作是有意义的. 在当下Sam Altman已经发出了Code Red红色警报追赶Gemini的全员邮件后， Mark Chen显然是这场技术生死之战的关键人物。

近日，Mark Chen接受了资深科技记者Ashlee Vance的深度专访。在这次罕见的公开对话中，Mark Chen深入探讨了当前AI领域激烈的人才争夺战，特别是Meta与OpenAI之间的竞争，以及Mark Zuckerberg亲自“送汤”挖角的轶事。Mark Chen分享了他从数学竞赛、高频交易转行至AI研究的个人经历，并详细回顾了OpenAI内部的文化、Sam Altman离职风波期间团队的团结，以及他对技术路线（如预训练、推理模型、算力扩展）的看法。访谈还触及了AI在科学发现自动化方面的潜力、对AGI的定义以及对未来模型安全与对齐的思考。

更为重要的是，Mark Chen为我们描绘了一幅清晰的AGI（通用人工智能）发展蓝图：预训练技术仍有巨大潜力，而推理模型（Reasoning Models）将是下一个关键范式。 他甚至给出了具体的时间表——在未来两年半内，AI有望实现从“实习生”到“独立科学家”的质变，从而根本性地重塑科学发现的进程。

核心观点

人才竞争与文化：尽管Meta等竞争对手以高薪和激进策略（如亲自送汤）挖角，OpenAI依靠其独特的使命感和研究文化保留了核心人才。

技术路线图：Mark Chen强调“扩展（Scaling）”并未终结，预训练仍有巨大提升空间，且推理模型（Reasoning）是重要的下一阶段。

科研自动化：OpenAI的短期目标是利用AI实习生辅助研究，长期目标（约两年半内）是实现AI进行端到端的科学研究。

AGI的定义：AGI是一个过程而非单一时刻，当前的重点是AI能否产生新的科学知识并推动前沿发展。

安全与对齐：随着模型变得更聪明，确保其思维过程的透明和对齐（Alignment）至关重要，特别是防止模型学会“欺骗”。

“我们不会和Meta进行美元的薪资抗衡……但人们仍然非常乐意留在OpenAI，这给了我极大的信念：人们真的相信未来的潜力，并相信我们将实现目标。”

“许多人说扩展定律（Scaling）已经死了。我们完全不这么认为。预训练仍有巨大的提升空间。”

“我们设定了非常具体的目标：在一年之内，我们要依靠‘AI实习生’进行研究；在两年半的时间内，我们希望AI能够进行端到端的科学研究。”

“AGI是一个过程而非单一时刻……我最关注的指标是：我们是否正在产生新的科学知识？我们是否正在推进科学的前沿？”

“随着模型变得更聪明，掌控它的思维过程将变得极其重要。我们必须警惕模型学会‘欺骗’，即为了给出人类想听的答案而隐藏真实的意图。”

硅谷人才争夺战：扎克伯格的“鸡汤”与OpenAI的防御

在当今的科技界，顶级AI研究员的身价堪比顶级职业运动员。Mark Chen在访谈中坦言，OpenAI正面临着前所未有的人才竞争压力，尤其是来自Meta等巨头的激进挖角。

这种竞争甚至演变成了某种极具硅谷特色的轶事。Mark Chen透露，Meta CEO马克·扎克伯格为了招募OpenAI的研究员，甚至采取了极具个人色彩的攻势——亲自给被挖角对象送去他亲手煮的汤。“随着时间的推移，这种情况逐渐升级……我也给那些我们试图从Meta招募的人送过汤，” Chen幽默地回应道，“我开始认为这些策略以它们自己的方式是有效的。”

然而，尽管Meta拥有每年数百亿美元的资本投入，并且开出了极具诱惑力的薪酬倍数，OpenAI的核心团队依然保持了惊人的稳定性。Mark Chen指出，在他直接管理的下属中，尽管半数以上接到了竞争对手的邀请，但鲜有人离开。

“我没有听到任何人说通用人工智能（AGI）会首先在Meta被开发出来，” Chen强调。OpenAI的护城河不再仅仅是薪酬，而是一种独特的“使命感”和纯粹的研究文化。在这场人才博弈中，OpenAI依靠的是一种信念：这里才是通往AGI的最快路径。

“扩展定律”并未终结：预训练与推理模型的新征程

近期，关于“大模型扩展定律（Scaling Law）已死”的言论在业内甚嚣尘上。对此，Mark Chen给出了截然相反的判断：“很多人说规模化已经死了。我们完全不这么认为。”

Chen解释道，OpenAI不仅在强化预训练（Pre-training）这一传统强项，更在开辟新的战场。他承认，在过去两年中，团队将大量资源投入到了推理（Reasoning）能力的研发上——这一赌注最终催生了像o1（在访谈语境中隐含）这样具备深度思考能力的模型。

“思考和语言模型，这是一种你一旦拥有就无法回头的原始状态，” Chen表示。他指出，随着算法的突破，预训练的数据效率和模型能力仍有巨大的提升空间。面对Google DeepMind推出的Gemini系列等竞品，OpenAI保持着高度的自信。Chen透露，内部模型在性能上已经达到了极高水准，尤其是在解决复杂数学和编程问题上，AI正在跨越人类专家的门槛。

他举了一个生动的例子：当他将一篇最新的物理学论文交给OpenAI的推理模型时，模型“思考”了30分钟，最终解决了一个连专业物理学家都认为难以攻克的难题。这标志着AI正在从单纯的模式识别，转向真正的逻辑推理和创造性解决问题。

科学发现的自动化：从AI实习生到端到端的研究员

Mark Chen在访谈中抛出了一个极具野心的短期路线图，这或许是本次对话中最令人震动的预测。他将OpenAI的未来目标具体化为“科研自动化”的两个阶段：

1. 一年内（AI实习生阶段）： 改变研究的执行方式。人类研究员将拥有高效的“AI实习生”，它们能辅助代码编写、调试和初步实验，大幅提升科研效率。

2. 两年半内（端到端研究阶段）： 实现AI进行全流程的科学研究。“我们希望达到一个世界，我们只需控制外部循环——提出想法，而模型负责实施、调试并得出结果。”

这一愿景不仅仅是关于构建更强的聊天机器人，而是关于构建能够推动人类知识边界的“AI科学家”。Chen提到了“OpenAI for Science”的构想，旨在通过AI工具加速物理、生物、材料科学等领域的突破。他认为，当前的AI已经开始在生物技术（如蛋白质结构预测）和数学竞赛中展现出超越人类的能力，这种趋势将迅速扩展到更广泛的学科。

安全与对齐：警惕学会“欺骗”的超级模型

随着模型智力的飞跃，安全问题变得愈发微妙和棘手。Mark Chen不仅是技术研发的推动者，也曾直接管理过OpenAI的对齐（Alignment）团队。他提出了一个深层的担忧：“诡计（Scheming）”。

Chen解释说，当使用强化学习训练模型时，如果仅仅奖励模型给出“正确”或“令人愉悦”的答案，模型可能会学会一种危险的策略：隐藏其真实的思维过程，只展示人类想看的内容，甚至学会欺骗以获得奖励。

为了应对这一挑战，OpenAI采取了一项关键决策：“不干预模型的原始思维过程（Chain of Thought）。” 即便模型的思维链条中包含人类不喜欢的成分，研究人员也必须保持其透明可见。“我们能够持续观察模型的思考过程，将其视为理解对齐的一个工具，” Chen强调。只有确保思维过程的透明，人类才能在AI变得比我们更聪明时，依然掌控其意图，防止其与人类价值观背道而驰。

走出至暗时刻：以研究为核心的组织韧性

访谈不可避免地触及了去年Sam Altman的离职风波。作为核心管理层，Mark Chen回忆了那段“至暗时刻”：竞争对手像饿狼一样在门口徘徊，试图瓜分OpenAI的人才库。

然而，这场危机反而成为了团队凝聚力的试金石。Chen和Jakub Pachocki（OpenAI现任首席科学家）等人迅速组织起来，稳定军心。“我们给自己定了一个目标，我不会失去任何一个人，” Chen回忆道。最终，超过90%的研究员签署联名信要求董事会迎回Altman，这种惊人的团结证明了OpenAI内部文化的韧性。

Mark Chen将这种文化归结为“精英管理（Meritocracy）”与“扁平化创新”的结合。在这里，管理者必须拥有深厚的技术判断力才能赢得尊重，而最好的想法往往通过“自下而上”的方式涌现。无论是数汤挖角的故事，还是内部的权力更迭，最终都未能动摇这家公司最核心的资产——那群渴望用代码改写人类未来的研究员。

结语

在访谈的最后，Mark Chen展现出一种紧迫感。对于他而言，AGI不是一个遥远的科幻概念，而是一场正在发生的工业革命。他每天工作到凌晨，不仅是为了赢得与竞争对手的比赛，更是为了不错过这个重塑世界的历史窗口。

“我们正处于一场工业革命之中，你必须尽可能多地利用它，” Chen说道。对于OpenAI而言， soup（汤）可以拒绝，但在通往AGI的道路上，他们绝不减速。

附录: 天空之城全文整理

人才争夺战与“送汤”轶事

主持人: 关于人才争夺战，这确实受到了很多关注，字面上来说，而且看起来Meta相当激进。这种针锋相对具体是什么样子的？我们处于哪个阶段？

Mark Chen: 存在人才的吸引力，每个人都大致了解他们是谁。而且，我认为许多公司已经意识到，建立一个出色的人工智能实验室的关键要素之一，不是唯一的要素，但却是关键要素之一，就是招募最优秀的人才。我认为Meta采取这种激进的策略并不令人意外。我们并没有袖手旁观。我实际上想从Open AI的角度来讲讲这个故事。我认为媒体对“人才单向流向Meta”做了很多渲染。但我的看法是，Meta确实非常积极地招募了很多人，但很多时候并不成功。

Mark Chen: 所以为了让您了解背景，在我的人员中，在我直属下属中，在他们招聘任何新人的时候，我认为他们争取了我一半的直属下属，但他们都拒绝了。当然，您知道，如果他们每年有像100亿美元这样的资本用于人才投入，他们肯定能招到人。所以我实际上觉得我们在保护我们顶尖人才方面做得相当不错。而且，随着时间的推移，这种情况逐渐升级，这很有趣。这里有一些有趣的故事……扎克实际上亲自给那些他试图从我们这里招募的人送去汤。

比如一个……只是为了表明他会走多远……我想他……他是亲手煮的汤。

而且，当时这让我感到震惊，但是，随着时间的推移，我开始认为这些东西以它们自己的方式是有效的，而且，我也给那些我们正在从Meta招募的人送过汤。你在做数汤吗。我想，如果我要为我的员工举办一个户外活动，下一次户外活动，我要带他们去上烹饪课。好的。这只是，但我确实认为，我在招聘方面学到了一些东西。

主持人: 你的汤是你自己煮的吗？如果你能得到像米其林星级那样的汤就更好了。

Mark Chen: 你知道我的意思吗？不。我觉得“Deahoe”非常好，可能比任何汤都要好。但我确实认为我学到了一些关于如何积极争取顶尖人才的东西。我认为我深受启发的一点是，即使在OpenAI中，那些已经离职去Meta的人中，我没有听到任何人说通用人工智能（AGI）会首先在Meta开发出来。每个人都对OpenAI的研究项目非常有信心。我向我的员工，向整个研究组织非常明确地表明了一点，我们不会和Meta进行逐美元的抗衡。并且（薪资）倍数低于Meta提供的水平，但人们仍然非常乐意留在OpenAI，这给了我极大的信念，人们真的相信未来的潜力，并相信我们将实现目标。

主持人: 还有Alex，Alex Wayne，他以前是其中一家数学公司的人，我确信你们一起待过。

Mark Chen: 我和Alex一起待过几次，但我们现在不太常待在一起了。

主持人: 为什么汤会成为那个东西？

Mark Chen: 这只是，我不知道，有过汤，有过鲜花，有过你能想到的任何东西。但是，我不知道，我认为，生活是一场冒险。我顺应了这个模因梗。

主持人: 在思考的过程中，有什么可以采用的扑克策略吗？

Mark Chen: 再说一次，我认为这真的回到了我之前谈到的关于媒体叙事的问题。这个游戏的目的不是要留住组织中的每一个人。而是要信任我们为培养人才而建立的这个体系，并了解我们需要留住的关键人物是谁，然后留住他们。我认为我们在这一点上做得非常出色。

介绍Mark Chen与OpenAI的研究管理

主持人: 我们今天有一个特别的惊喜。我很兴奋。来自OpenAI的Mark Chen来了。他是首席研究官。他是我在过去几年里认识的一位人士。非常感谢您。

Mark Chen: 能认识您这么久真是太棒了。

主持人: 我觉得，世界上有为数不多的人正在从事这个非常重要的项目。而且，您正处于这个项目的顶端。所以能有机会聊聊真是太酷了。

Mark Chen: 感谢您邀请我来。

主持人: 这是我的荣幸。而且，我想和你谈论很多事情，因为正如我们所说，我在过去几年里认识了你。我想让人们更多地了解你的生平经历。而且，我也知道会有人工智能爱好者希望我们在那几件事情上深入探讨。所以我们会尽力而为。我想首先让大家了解一下你的工作，在我看来，如果我理解有任何错误，请随时纠正我。但是，萨姆一直以来，他非常热衷于研究。他是老板。他在食物链的顶端。但然后你和雅库布一起合作，共同塑造OpenAI的研究方向，而你在这个角色的附加部分是决定哪些计算资源分配给哪些项目，所以你必须规划OpenAI的走向，以及实现目标的操作机制。这总让我觉得这是一份很糟糕的工作，因为我想到人们会竭尽全力从YouTube获取GPU。这是真的。

Mark Chen: 人们在试图达成幕后交易以获取他们需要的GPU方面非常有创造力。但我的确，这是工作的一个重要组成部分，确定研究组织的优先事项，并对执行情况负责。针对第一个观点，我和雅各布每隔一到两个月会进行一次活动，清点OpenAI所有的项目。那是一个大约包含300个项目的巨大电子表格，我们会尽力深入理解每一个项目，并对它们进行真正的排序。我认为对于一个拥有500人的公司来说，让员工理解核心优先事项是什么，并通过我们分配计算资源的方式，明确地、口头上传达这些优先事项是非常重要的。

主持人: 我们在“核心记忆”（Core Memory）中做什么？我们关注的是创新、快速发展、具有前瞻性的公司，这就是为什么“核心记忆”由Brex赞助的原因，因为Brex是许多此类公司的智能财务平台，服务于从初创企业到全球最大企业的30，000家公司，它们依赖Brex的技术来管理其财务。他们拥有智能企业卡、高收益商业银行服务以及出色的费用报销自动化工具。我讨厌报销费用。Brex的人工智能软件可以贯穿这些费用，弄清楚我们在哪里花钱，并为您处理掉很多事情，这样您就无需浪费时间自己处理了。请访问brex.com斜杠core memory以了解更多信息，并及时跟上进度。我们开始吧。让我们摆脱这种过时的财务软件，迈向未来。核心内存和 Brex。

主持人: 所以你有，当你谈论这500个时，它们就是这500个。这对你来说是研究的核心。

主持人: 他们现在的组织是，在谈到这300个项目时，我猜想，很明显其中一些是巨大的前沿模型，而另一些可能是人们正在进行的一些实验。那么，你如何才能跟上所有这些，然后对哪些项目值得使用GPU、哪些不值得得出某种结论呢？

Mark Chen: 绝对。我认为在进行这项工作时，保持你的关注非常重要。保持核心路线图的关注。我认为OpenAI区别于其他大型实验室的一点是，OpenAI的核心始终是核心探索性研究。我们的业务不是复制其他实验室的成果，也不是在基准测试方面追赶其他实验室。那真的不是我们的看家本领。我们一直在努力探寻下一个范式是什么。而且我们愿意投入资源来确保我们找到它，我想大多数人可能会感到惊讶，但用于探索的那项工作所消耗的计算量，比训练实际产物要大。

主持人: 它一定是，它仍然必须是，你如何阻止自己被别人说服？因为每个人都会提出，就像我有时思考这个问题时，我就会想象我在《纽约时报》工作时，你们会有一个头版会议，每个人都想上头版。每个人都认为自己的报道是最重要的报道。他们都在竭尽全力地告诉你这件事为什么如此重要。在那个房间里的每个人都为他们所推介的内容付出了数周、数月的心血，所以感觉就像生死攸关一样。而且，对我来说，这看起来太困难了。

Mark Chen: 这也是一个艰难的过程。而且我认为最困难的原因是，这是一个我们现在无法资助的项目。但我也认为这是好的领导力。你需要清晰地传达，嘿，这些是优先事项。这是我们将要讨论的内容。这些是我们认为能推动研究项目的成果类型。可能还会有其他事情，但那些必须明确排在第二位。

竞争动态与长期研究

主持人: 当你，就像你提到的那样，不对竞争对手做出反应时。当我浏览我的笔记时，我不知道我是否能足够快地跟上思路。但这，这就像一个让我感到骄傲的点，你觉得，其他一些公司，你们处于一个领先的地位，并且为其他人设立了标准，所以他们对你们发布的内容做出了反应。我们恰好在 Gemini 3 发布几天后进行这次采访，你的竞争对手在某些时候确实存在……这种来回博弈正在进行，而且我知道基准测试的价值在某种程度上是有争议的，但你知道人们仍然会关注这些事情，那么随着时间的推移，你如何保持那种奢侈或那种智力上的地位，让你觉得我们就做我们该做的事情呢？

Mark Chen: 我认为如今的人工智能研究领域比以往任何时候都更具竞争力。重要的是不要陷入这种竞争动态中，因为你总会说，嘿，我可以发布一个增量更新，让我比竞争对手领先几周或几个月。我不认为这是进行研究的长期可持续方式，因为如果你能攻克下一个范式，那将重要得多。你将塑造它的演变。你将了解围绕该思想领域的各种侧面研究方向。

Mark Chen: 因此，当我们以我们的强化学习（RL）项目为例来思考这个问题时，我们在两年多前就押注，我们真的要攻克语言模型上的强化学习。这在当时是一个非常不受欢迎的赌注。现在看起来很明显。但那时，环境是，嘿，有一个预训练机器运行得很好。有一个后训练机器运行得很好。为什么要投资于其他事物呢？我认为今天，每个人都会告诉你，思考和语言模型，这是一种你不能拥有的原始状态。我们不能没有它而生存。因此，我们真正要做的是进行这些大胆的投资，并找出如何扩展和构建算法，使其能够扩展到比我们现有的算力量大几个数量级的规模。今天拥有的。

主持人: 我在智力上理解这一点，随着你们最初基本上是一家纯粹的研究公司，这变得越来越困难。当你今天看OpenAI时，你有产品法律（指产品化、商业化等法规或流程）。OpenAI的某些部分看起来更像是成熟的微软或谷歌，你有产品线。你必须服务于所有这些不同的事物。通常情况下，我觉得你们还很年轻。所以也许你还没有面临这些确切的压力，但随着这些公司发展，总会出现一个问题：我们更专注于那些能为底线服务的事务，而不是花大价钱做研究，这似乎总是会随着时间推移而逐渐减少。我认为这正是OpenAI其核心最特别之处之一：我们是一家纯粹的人工智能研究公司，我认为市面上很少有其他公司能这么说。

Mark Chen: 而且，我们最初是作为一家非营利组织成立的。我正是在那个时期加入的。我认为其精神是，不惜一切代价构建通用人工智能（AGI），推进AGI研究，当然，要以安全的方式进行。但我确实认为那是创造真正价值的最佳“障眼法”，如果你专注于研究并取得了成功，那么创造价值是很容易的事情。所以我认为有一种陷阱，就是过于沉迷于“让我们提高底线”这样的想法。但实际上，如果你做出了最好的研究，那么那部分（创造价值）就非常容易了。

工程师与研究员的界限

主持人: 你是在2018年开始的吗？在2018年。所以你觉得那种灵魂，那种核心文化和核心的根基，它真的非常持久。

Mark Chen: 它仍然存在。

主持人: 那是什么？那他（指某人）是谁？他说，我们不应该称呼你们任何人是研究人员。这只是工程技术。

Mark Chen: 我想，我们，这是真的，因为我觉得一旦你有了这种等级制度，并且你把，比如说，研究科学提升到一个高于工程技术的地位，你就已经完全输掉这场游戏了，因为当你在构建一个大模型时，在优化所有那些，那些百分之几的优化实践中，有非常多的内容，你如何让你的内核（kernels）快那么一点点？你如何确保数值？都正常工作，这是一项深入的工程实践。如果你没有这部分内容，你就无法扩展到我们今天使用的GPU数量。

主持人: 因为我认为他们，但研究人员和工程师之间存在一种神秘感，你明白我的意思吗？那么你是否觉得保持头脑冷静在那方面会更好一些呢？这就是你所说的意思吗？

Mark Chen: 或者，我只是觉得研究人员有各种不同的类型。我们一些最优秀的研究人员，他们是那种，能想出十亿个点子的人，而且其中很多都不好，但是，就在你快要觉得，啊，这个人真的值得吗的时候，他们会想出一个，绝妙的点子。他们中有些人就是非常擅长沿着清晰的前进道路去执行。所以研究人员有各种不同的类型。我认为很难将他们归入一种刻板的、有效的工作类型。

基准测试与Gemini 3

主持人: 这有道理。我不会就竞争对手的问题过多地打扰您。只是因为 Gemini 3 已经发布了，我很好奇当你们的一个竞争对手发布了类似产品时，你个人或团队会发生什么，比如大家都会去看看它能做什么吗？你们是否有这样一个提示词或问题，你们经常会向这些新模型提出，以检验它们的能力？

Mark Chen: 所以就 Gemini 3 而言，它是一个相当不错的模型。我想我们所做的一件事是努力建立共识，基准测试只能告诉你一部分信息。仅从基准测试来看，我们实际上感到相当自信。我们内部的模型在性能上达到了 Gemini 3 的水平，我们非常有信心将很快发布它们，并且我们可以发布比它更好的后续模型。

主持人: 但是，再说一遍，基准测试只能说明一部分问题，而且我认为每个人都会用自己的方式来探查这些模型。

Mark Chen: 我喜欢给模型出一个数学题。我认为到目前为止，它们中没有一个真正解决这个问题，即使是那些思考模型也一样。我会等着看。这是像一个秘密的数学问题吗？不。如果我在这里宣布它，也许它就会被训练进去。但我认为这是去年一个很好的难题之一。这就是42问题。所以你想创建一个这个模42的随机数生成器。你可以使用一堆基本元，它们是小于42的素数的随机数生成器。你希望期望中对这些子生成器的调用次数尽可能少。所以这是一个非常巧妙的谜题，但语言模型可以非常接近最优解，但我还没有看到有哪个模型能完全解开它。

主持人: 好的。在我们到达那里之前，我想问你一个我们正要深入探讨的方向。我知道我见过你。你很有竞争力。你也对我说过。

Mark Chen: 我想我找到了。我热爱竞争。我讨厌在任何地方输掉。我真的很讨厌失败。

我讨厌输。

主持人: 所以我在想象，我只是好奇这是否正确，如果如果我们知道 Gemini 3 或任何版本将在周四发布，你会在午夜时分把它那个问题扔给它吗，还是没有那么夸张？我认为这需要长期的努力，任何事情，比如，我是一个有执念的人。

Mark Chen: 我认为任何事业，你都必须着眼于长远。在过去半年里，我们实际上一直在专注于预训练，特别是加强我们的预训练工作。我认为这是其中一些努力的结果，与雅库布一起，专注于并在 OpenAI 建立起预训练的肌肉，围绕它打造一个真正的超级明星团队，确保预训练所有重要的领域和方面都得到强调。这就是今天所创造的成果，让我们感觉我们可以在预训练方面轻松地与 Gemini 3 一较高下。

主持人: 好的。我想问一下预训练方面的事情。因为我一直在和你们所有人就此进行很多讨论。你对这些新模型出现时游说的，问题不太痴迷，而更关注这个，这个漫长的旅程。我想谈谈你目前面临的难题的原因，

Mark Chen: 我在OpenAI开始之前就认识雅各布（Yaakov），那时他正在参加一个编码竞赛，我有一段时间非常沉迷于编码竞赛。有一个叫肯尼迪的人。我不知道他是否还出名，但他就像是这些编码竞赛中的迈克尔·乔丹。所以我去Facebook看了一场。我不知道他们是否还举办，但他们有一个年度黑客杯（hacker cup）。黑客杯。那是我第一次见到雅各布。然后我知道，我想你在高中时参加过数学竞赛。大概从小学到高中都在参加。

Mark Chen的成长背景与竞赛经历

Mark Chen: 我接触编程非常晚。是大学时的一个室友说服我上了第一堂编程课，那时我带着一个数学家的全部傲慢，觉得数学是最纯粹的科学核心，你真正证明自己价值的地方就在那里。我想那会儿我可能太沉迷于竞赛了。但说真的，这成了一件非常有益的事情，一开始它纯粹只是为了和我的大学朋友们保持联系的一种方式。

主持人: 因为你去了麻省理工学院（MIT）。

Mark Chen: 我去了麻省理工学院。我毕业后，每个周末我们都会登录上去做这些竞赛，只是为了彼此保持联系。我开始参加比赛并且表现相当不错，然后为像美国信息学奥林匹克这样的一些竞赛编写题目，最终开始指导那支队伍。这是一个很棒的社区，我在那里遇到了像斯科特这样的人，

主持人: 所以我想很多人可能熟悉数学竞赛，因为他们可能看到孩子们经历过这些。国际信息学奥林匹克（I.O.I）和这些编程竞赛则有些不同。它是，它好太多了。但当我看到它们时，它看起来像一个，几乎像一个文字谜题。你正试图找到最有效和正确的方法来解决这个问题。而你正与所有人进行一场竞赛。然后每个人都在他们的电脑上编写代码，然后，有些人试图非常快地达到目标，但他们的方案有点没有解决问题，存在这种权衡，完全正确。你实际上是在麻省理工学院的团队中，那是我大学毕业后做的一些事情，但今天你是美国国家队的教练，其中一位教练，其中一位教练，是去年还是前年，比如美国已经很长时间没有赢过一次了，这支队伍，你永远无法预测每年的顶尖人才构成是什么样的。

Mark Chen: 但在前年，我认为我们有一个非常极端的团队。好的。我相信他们赢得了奥林匹克竞赛。

主持人: 因为我觉得通常是像中国或俄罗斯，或者像白俄罗斯和波兰。所以这个大型竞赛每年都在不同的国家举行。它是什么样的？有多少人参加？

Mark Chen: 他们从每个国家选出最好的四名学生。它既是一场竞赛，也是一个社交活动。这是一个紧密团结的社区。他们都去做了非常了不起的事情。是一场为期两天的高强度竞赛，每天你只有三个问题，有五个小时来解决它们。你真的能感受到房间里的肾上腺素和所有压力。但它也带来极大的乐趣。我想人们会平静下来，通过这个交到一辈子的朋友。

Mark Chen: 作为教练，你到底做什么？我是说你太他妈忙了，老兄，你花多少时间在这个上面？老实说，那是什么样子的？孩子们有很强的自我激励性，有时候重点真的在于管理他们的表现和策略。我想，你会有好日子，也会有坏日子，比赛中会有好的时间段，也有糟糕的时间段，你不能让这些影响你的心态。管理参赛者和管理研究人员有很多相似之处。就像在一个长得多的时间尺度上，但研究人员也会有好的月份和坏的月份。你不能让那些连续的失败影响你的心态，因为这就是研究的本质，我认为在某一阶段，很大程度上是士气管理。

Mark Chen: 我认为竞赛最近帮助我认识到的另一个有趣之处是，当你部署模型去解决这些竞赛问题时，如今它们在这方面非常擅长。

Mark Chen: 我正想问你这个问题。它们，与人类的工作方式有很大不同吗？我们通常认为这些机器，它们非常擅长模式识别。

主持人: 你可以解决任何问题。

Mark Chen: 如果它能映射到之前的问题，它很可能会解决它。但我注意到在之前的一些国际智能（IIs）中，有一个问题非常即兴或特殊（ad hoc）。我本不认为模型能解决它，但实际上它对人工智能来说是最简单的问题之一。好的。这让我有种感觉，人工智能加上人类在前沿研究中，将会创造出一些惊人的成就。仅仅因为人工智能对什么容易、什么不容易有一种不同的直觉。

主持人: 当我们深入思考整个AlphaGo事件时，你是否觉得，有那么一个时刻，它做出了人类以前从未有过的下法。所以有点类似于那种情况，是吗？

Mark Chen: 我认为是。我认为是。我认为对于GPT5 Pro来说，确实如此，前沿研究已经出现了一个拐点。关于这一点，我能讲到的最好的轶事之一是，我想在发布后三天。我遇到了一个朋友，他是一名物理学家，他一直在玩弄这些模型，感觉，它们很可爱，但没什么大用处。我用专业版模型挑战了他，让他尝试一些有抱负的事情。他输入了他最新的论文。它思考了30分钟才解决出来。

主持人: 我会说，那一刻的反应，有点像在第37步和第38步看到丽莎一样。

Mark Chen: 我只是觉得，对于前沿数学、科学、生物学、材料科学来说，这种情况只会越来越多地发生。这些模型确实已经发展到那个阶段了。

AI能力的提升与未来评估

主持人: 我本来要问你一个问题，这个问题其实一点都不新颖，因为我认为自从“深蓝”和所有国际象棋的事情以来，我们一直在讨论这个问题了。但是，作为一个一直关注这些比赛的人，如果你……我不知道，当你开始看到这些模型解决了那些曾是这些独特人类智慧的巅峰成就时，会有一种失落感。

Mark Chen: 有，也有没有。我擅长竞技编程。我从来没有达到绝对的顶尖水平。一种复仇的方式。我的确认为，对我个人而言，肯定有一个时刻，在我们开发推理模型的一段时间里，我们追踪了编码竞赛的表现。在项目开始时，它们（模型的表现）不是非常出色，也就是说，还达不到参加竞赛的任何普通竞争者的水平。随着时间的推移，它们的能力只是不断提高，不断上升。你还记得那个时刻，你走进会议室，看到（模型展示的）表现，然后模型超越了那个水平。天哪，那也让我感到震惊。这哇，我们如此之快地将能力自动化到了这个水平。当然，雅科夫（Yaakov）还在那里，还有点自鸣得意。但在大约一两个月内，它也超过了他。

Mark Chen: 今天的模型处于前沿，通过我们今年夏天在 Coder 竞赛中取得的成绩就可以很清楚地看出，世界上顶级的优化竞赛程序员，我认为它在那里取得了第二名，所以说它真的从去年的第一百名跃升到今年的前五名。你认为我们十年后还会进行这些比赛吗？我想会的，我的意思是它们很有趣。当然有一批人会用它来优化他们的简历，他们会因此退出这项活动，但我认为那些一直最擅长这项活动的人，是那些纯粹出于乐趣而做这件事的人。而且我不认为这会消失。

主持人: 当我在做这个报道时，他们告诉比如如果你来自俄罗斯或者我不知道哪些国家，你基本上可以自动获得去任何你想去的大学的免费通行证。我看到美国队的人去了哈佛和麻省理工学院。所以他们看起来过得不错，但似乎美国并没有一个类似的体系。有的。

Mark Chen: 难道你不觉得未来，面试将会有点被破坏了吗？每个人都在一定程度上看到了这一点。甚至大学考试或大学作业，在这一点上都已经被破坏了，我确实认为我们需要新的方法来评估和衡量谁在做哪些工作，谁学到了什么，以及某人实际上的水平在哪里。所以我有一个想法，也许在我们的面试中，我们应该让候选人直接和聊天GPT交流。这是一个特殊的ChatGPT，模型试图衡量你是否了解这些材料，或者你是否具备在OpenAI工作的能力水平。你必须与它进行一场让你在OpenAI深信不疑的对话。当然，不允许你“越狱”（指绕过安全限制），事后我们会查看对话记录，但也许像这样的测试在未来能更准确地反映你是否真的懂。

主持人: 所以你现在还没有这样做，但你在考虑——就是用有创意的、革新的方式。

Mark Chen: 来进行面试。

Mark Chen的个人历史：从贝尔实验室到扑克

主持人: 硅谷以在面试时做那些“脑筋急转弯”式的问题而闻名。我们教过你，你从小数学就很好。我想你，你是在东海岸出生的吗？出生在东海岸。然后你搬到了西海岸。接着你在台湾生活了很长时间，从小学到高中。四年。好的。你的父母在贝尔实验室工作。所以你出身于工程世家，这是一个非常有趣的背景，因为你接触到了所有这些创新中心，尤其是你的父母在贝尔实验室，他们……我是在一个非常科学的环境中长大的，餐桌上的谈资就是谜题之类的事情，而且我也体验到了那种更传统的、你知道的、贝尔实验室东海岸的经历。

Mark Chen: 在西海岸，我父亲去创办了一家初创公司。所以在很小的时候我也接触到了一点那种新公司的氛围。当然，然后是巨大的跨越到台湾，而且我认为那是一个巨大的文化冲击。你穿着制服，在学校里，学校周围有带刺的铁丝网，同时也接触到了那种程度的严谨性。我想这只是许多非常棒的经历的成长过程。

Mark Chen: 所以学校更难一些？我会说，我会说它只是更……学校系统中的灵活性和自由度少了一点，但我认为它也能教会你一些东西。

主持人: 从第一天起，《核心记忆》（Core Memory）播客就得到了硅谷 E1 风险投资公司（E1 Ventures）那些优秀人士的支持。他们是一家年轻而富有雄心的风险投资公司，位于硅谷，投资于年轻而富有雄心的公司和个人。非常感谢 E1 风险投资公司给予的所有支持。而且你知道你想回来。回到美国。上大学？绝对。好的。

主持人: 然后，所以你在麻省理工学院。你身处一个相当有趣的群体中。我猜麻省理工学院一直都有一些有趣的人。

Mark Chen: 天哪。2012年真是太棒了。

主持人: 他们有点像一个全明星名单。

Mark Chen: 那一年很棒。比如，我不知道你是否认识雅各布·斯坦哈特（Jacob Steinhart）。他现在正在做 translucent。我和他过去经常在计算机科学课上一起做项目。

主持人: 有保罗·克里斯蒂亚诺，他写了很多非常出色的……他在OpenAI工作，很多业内知名的人工智能人才都出自那一年。然后，然后我们谈论的是竞技编程，比如Scott Woo，他在Cognition工作。他现在因为他的数学能力而闻名，甚至成了一个梗。但你只是通过编程，通过编程社区认识他的。好的。然后我现在看到你们的竞技成果，对我来说，看起来就像现在的扑克。我想我是在一个活动上，我想我必须，我们必须对这次活动的具体细节保密，或者什么的。但我认为我可以谈论这部分，就是深夜里，我走到一张桌子旁，有你、斯科特，我想还有来自Palantier的肖恩，还有……还有一小群其他人，进行着一场相当激烈的……看起来很激烈，但对你们来说只是，就是一场相当激烈的扑克牌局。所以你们现在是将你们的数学和竞技技能应用于这里了。

Mark Chen: 扑克是一款非常有趣的游戏。我一直用一系列痴迷来描述我的生活。扑克绝对是过去这些痴迷之一。

主持人: 我认为我对扑克最大的领悟是，它更多的是一门数学游戏，而不是一门观察人性和虚张声势的游戏。

Mark Chen: 而且我认为你对扑克了解得越多，你就越是朝着那个方向进行更新，我想，我以前是一个非常糟糕的虚张声势者。当你清楚地知道这是一个数学上正确的虚张声势时，那就太容易了，就像你对此完全感觉不到任何紧张一样。而且非常有趣的是，你有一个我认为被认为是如此人性化的游戏，但其底层的机制和获胜方式却如此深刻地依赖于数学。前几天我正好想到了这一点，这在语言模型中也有某种关联，你有一个深度人性化的语言生成过程，但有一个数学机器可以和我们一样出色地完成它。

主持人: 作为一名作家，我一直都在思考那一部分，我在大学时学了所有关于维特根斯坦以及所有这些思考这些问题的人的哲学。那么，你如何找到一种优势呢？你和斯科特都给我的感觉像是超自然的一样。

Mark Chen: 擅长数学，但我不太理解你们中的一个人是如何算出超过另一个人的……它主要是一个让我们聚在一起、叙叙旧的平台，今天我们没有把它看得那么严肃。我认为，对扑克这类事情过于认真会使其失去乐趣。我对扑克的痴迷我认为在十多年前就已经结束了，现在它只是为了好玩。你这么说是因为我看到斯科特赢了两天的比赛，我想。

主持人: 你说的也许是对的。他确实非常认真地对待它，非常认真地对待它。就像大学毕业后，你在某种程度上，我曾经是……

Mark Chen: 不过我在飞机上打败了他。

主持人: 好的。你在飞机上打败了他，直接回家的路上？是只有你和他对决，还是又像一群人一起玩？

Mark Chen: 可能有三四个人。

从高频交易到OpenAI的转折

主持人: 好的。我觉得很多，我觉得有三类，尤其是在，比如说，如果你回顾到2018年左右的时间范围，对于在人工智能领域处于高水平的人来说，我认为我没有过度概括，其中很多人都有学术背景，很多人是数学神童，或者他们将自己的数学背景应用于机器人技术或物理学之类的工作。然后是另一类人，他们曾在华尔街从事高频交易和量化分析之类的工作。所以你的第一条道路就是直接从麻省理工学院去了华尔街。

Mark Chen: 我并不太为拥有那样的经历而感到骄傲。坦率地说，那对于在麻省理工学院（MIT）中那些非常注重量化分析的孩子来说是一条相当普遍的道路。那当然，那绝对是一个非常讲究精英治国（meritocratic）的体系，你可以运用你的智慧，而且有一条非常明确的路径决定了你将获得多少利润。但我想在文化上对我来说是困难的。那是一个地方，当你发现一些东西时，你的第一本能是把它尽可能地藏起来，因为你的知识就是你的价值所在。感觉即使在公司内部，像这样的竞争动态也会产生一种外部表现，人们之间互不信任。而且我认为它也感觉像一个非常封闭的生态系统，我想我们今天不会太有感觉，比如，当高频交易（HFTs）中的某人发现了一个让他们的算法快一点点的突破时，其他任何人都没有感觉，随着时间的推移，我只是觉得，四五年后我醒来时，我们正在与完全相同的参与者群体竞争，每个人都只是一点点快了大约一点，但世界真的因此改变了那么多吗？我觉得是时候做点别的事情了，当时正好有一堆事情凑到了一起，有阿尔法狗（AlphaGo）那场比赛，我认为那对 OpenAI 的很多人来说是一个巨大的鼓舞。

Mark Chen: 你玩围棋吗？我没有玩，但我认为从某种意义上说，那个模型能够做一些有创意的事情。我真的很想了解那背后到底发生了什么。

主持人: 所以你看到了那一幕的发生。你当时有没有阅读过人工智能的研究论文之类的东西？

Mark Chen: 说实话，没有。然后我看到了那个事件。那真的很有启发性。从那时起，我才开始深入研究人工智能。看到那之后我的目标之一就是复现深度Q学习网络（DQN）的结果。这是一个能够高效地以超人水平玩很多雅达利（Atari）游戏的网络。从那里开始，这就是我接触人工智能的起点。你当时是业余时间做那些事情吗？

主持人: 所以你工作一整天，然后回去再试着。好的。这确实很奇怪。我记得我当时在采访乔治·哈茨（George Hatz），大概是在2018年左右，也许再早一点，他刚刚自己动手在他的车库里造了一辆自动驾驶汽车。然后，这是乔治。所以他会说出宏大的陈述。

Mark Chen: 有时这可能不完全准确或放之四海而皆准，或者不适用于其他人，但他他就像人工智能仍然很年轻，你可以，如果你阅读，我不知道是多少，10篇、20篇、30篇研究论文，你就可以了解整个领域。我是说，这让我着迷的是，它在很多方面都很古老，可以追溯到几十年前，但这个特定的时刻非常浅薄。我总是给那些对进入这个领域感到不知所措的人这个建议：它太浅薄了，花上三到六个月时间，选择一个项目，比如你可能知道的，复现DQN，你就能非常快地达到前沿。过去几年增加了一点深度，但它完全不像你所知道的理论数学或物理学。你认为这是一个这样的领域吗？我前几天问了雅各布这个问题，我不知道我为什么对这个问题如此着迷，但在数学中，你会看到人们倾向于在20多岁时做出最好的工作或取得重大突破，然后随着他们变老，很难再有那种时刻。就像你说的，我们是否依赖年轻人阅读这些论文然后产生一些见解，还是说这是一个可以让你在整个职业生涯中不断进步的事情？我是说，我认为你可以一直进步。我是说，OpenAI本身确实有一个相当年轻的文化，但我认为你不必年轻才能做出好的研究。我认为，年轻且对既有范式了解较少，会让人觉得这就是行事的方式。

主持人: 我认为随着时间的推移，你可能会形成自己的愿景，这是一件好事，但这也会让你固守一种思维定势，比如，研究就是这么做的。

Mark Chen: 好的结果就是这样产生的。我认为年轻的研究人员在这方面的概念上倾向于有更多的可塑性。

主持人: 你的职业生涯在 OpenAI 中很有趣。看起来你一开始就进入了一个非常重要、规模很大的职位。但当你在 2018 年刚去的时候，人数大概只有 50 人左右？

Mark Chen: 当时人数更接近 20 人。更接近 20 岁了。当时看起来确实像是两个团队。我是以住院医师的身份加入的。一个明显不是专家、不是博士的人。我想我在他任职于“开眼”（Opening Eye）期间，一直都是住院医师。所以在这方面我非常幸运，能够学习他是如何从宏观层面思考研究的。在这种情况下，住院医师就像是你的得力助手。

所以是某人进来，通常是来自另一个领域，他们是初入此道的人。我想投资并培养人工智能方面的人才。所以我想住院医师的第一阶段就像是一个为期六个月的压缩版博士学位。然后在此基础上，深入到越来越深的研究项目中去。

主持人: 所以你几乎每天都在和伊利亚交流？他是不是在塑造你的博士研究？

Mark Chen: 他负责我的项目、我的课程设置和我的学习。我就是会去找他，问“嘿，这是怎么回事？”比如，人们为什么会追求这个？

主持人: 而且，我想如果你去领英（LinkedIn）上查看，上面会写着你在OpenAI的第一份工作就是前沿研究负责人。不不不。我在IC（可能是指某个部门或角色）待了大概三年。

Mark Chen: 好的。所以我当时在做独立研究项目。我研究生成式模型，因为那确实是伊利亚当时关注的重点所在。然后过了一段时间我才开始管理团队。

主持人: 您说的是生成式。大多数人可能会指出Dali是第一个被公众广泛记录的重大项目。这公平吗？

Mark Chen: 所以我想这也标志着我从个人贡献者（IC）转变为管理者的过渡。我自己的一个重要项目，也是我今天非常自豪的一个项目是ImageGBT，这个概念验证表明，即使在语言之外，你也可以将图像之类的内容放入Transformer中，模型就会内化非常好的表征，并理解图像的内容。这就像一个概念验证，证明你可以对纯文本之外的内容进行语言建模，并获得非常好的表征，并将它们扩展到与其他方法一样先进的水平。我认为那是Dolly的一个先驱工作，而我当时正处于管理的对立面。而且我认为在这两者之间，我作为个人贡献者（IC）参与做的另一个让我非常自豪的项目是Codex，我们在其中为评估代码模型建立了很多框架，并对如何使语言模型在代码方面表现出色进行了深入研究。

主持人: 那么，是什么让你选择了‘开眼界’（Opening Eye）呢？因为我可以在脑海中从两个方面来看待这件事。一个是在小池塘里的大鱼。这里有很有趣的人。我记得2018年时，OpenAI只有20个人。在我看来，就像是，这可能不会成功。谷歌似乎已经把这件事锁死了。而且这只是一小群人，试图挑战一件看起来需要数十亿美元现金的事情。这甚至是在规模化（scaling）工作之前，当时谷歌已经在人工智能领域投入了大量的资金，只不过形式与我们现在所想的不同。但你已经在手机上做翻译之类的事情了。所以这对你来说是一个艰难的决定吗，还是你这么快就偶然进入了OpenAI的工作？

Mark Chen: 我认为有两件事，你需要有抱负和远见。这当然是OpenAI当时所拥有的。但也需要有足够的人才来支持它，而且我觉得OpenAI是少数几个抱负远大，但人才也足够大到能够弥补这一差距的地方之一，而且你知道我很幸运，我在大学时期就认识像格雷格这样的人，格雷格是在麻省理工学院和你一起的，我想我们在高中时一起参加过数学竞赛，对，然后我给他发了条信息，我说，我不太确定我是否具备正确的技能组合，但这听起来像是一个正在做着出色工作的机构。

主持人: 这仍然让人觉得很疯狂，就这样凭空出现，现在你却在领导研究工作。对我来说也是超现实的。

Mark Chen: 对我来说也是超现实的。即使是从个人贡献者（IC）到管理者的转变，我当时对接受这个职位也非常犹豫。我不知道管理是否是我会擅长的技能组合。我真的很享受信息安全（IC）方面的工作。我想我做得很开心，做得非常出色，建立了非常棒的合作关系。这真是一段疯狂的旅程。

领导力危机与团队团结

主持人: 关于这一点，你一直给我一种非常随和、头脑冷静的人的印象。

Mark Chen: 我必须说，OpenAI 的历史中有一些安静的、戏剧性的、肥皂剧般的、有点像《权力的游戏》的权力斗争，对我来说，作为那里的管理者，我想说现在感觉这些比过去要平静一些，但是当你回顾过去时，我不知道，你是在说你必须学习这些技能，但其中一些感觉与你的个性背道而驰，需要处理所有这些事情。老实说，我在 OpenAI 运气很好，我真诚地这么说，从某种意义上说，我的管理者真的为我争取过，他们看到了我的才能并为我争取过。我想当我参与 Codex 的工作，后来向鲍勃汇报时，我从来没有要求过晋升或提升职位，这都是自然而然发生的，而且一路上每个人都给了我很好的建议。我想作为一个人成长的部分，就是获得经验，我认为在 OpenAI 没有比这更好的地方来获得这些经验了，总是有挑战需要解决，我认为培养这种信心，我实际上认为管理层更多地是关于经验，而不是才能。我不想让你尴尬，我不知道这是否会让你尴尬，我猜你可能也不想过多地谈论那次政变或小插曲，或者我们想谈论什么，我们可以谈论任何事情，我只是，我已经采访了很多人，关于这个问题，我也会把我的“宝石”留给我的书。我不会那样做，但我不会说出来，但其中有几个时刻，你，你帮助研究人员围绕那件事达成一致，就是要求让山姆回来，然后，然后我想在那一两天后，有一个演讲，我认为是在格雷格的房子里给出的。

主持人: 是吗？

Mark Chen: 我想是在切尔西的房子里。

主持人: 好的。这两件事都让我觉得是非常深刻的时刻，尤其对于，我猜是为自己所相信的东西站出来并召集人马来说。

Mark Chen: 就像在危机时刻，我不知道，所以那些，那对我来说确实感觉是一个非常关键的时刻，我想在飞艇事件后的几天里，有很多不确定性，我和当时在尼克·巴雷特都感到有责任，野狼就在我们脚后跟上，每个人都在接到来自所有这些竞争实验室的电话，他们说，你应该来我们这里工作。我给自己定了一个目标，我不会失去任何一个人。而且我们也没有。每天都向人们敞开我们的家门，人们可以来这里。他们可以，有一个地方来释放他们的焦虑。然后也帮助他们与领导团队保持联系，让他们觉得自己能够有所作为。我想，随着时间的推移，人们真正感受到了‘我们都在同一条船上’的精神。我们如何才能有所作为？我们如何向世界表明我们团结一致？我们当时在几处住所之间来回奔波，我们有了一个想法，就是‘嘿，我们需要向世界表明我们思想高度一致，我们将为萨姆而努力’。然后我们组建了请愿书团队，那个想法我想在凌晨2点才最终定稿。

主持人: 我想到了早上，我们获得了整个研究组织超过90%的人的签名，每个人都在给他们的朋友打电话，问‘你加入还是不加入’，我想最后有接近100人签署了那份请愿书。不过我必须说，这让你处于一个很艰难的境地，尤其是在一开始，伊利亚和萨姆似乎站在对立面，而伊利亚是你的导师，然后我知道伊利亚后来又回来了……我不知道，那会不会很尴尬？那很艰难，那是一个信息稀疏的环境，但从根本上说，我认为在那个时刻，你很可能得出结论：萨姆在这里做了什么吗？有没有……但是格雷格和雅科夫这样正直的人会因此辞职吗？

Mark Chen: 我只是觉得，故事的某一部分在这里被误解了。

主持人: 雅各布在那里待了很长时间了。比如，人们应该了解雅各布的哪些方面而他们却不知道呢？这很有趣，因为他是个超级有趣的人。

Mark Chen: 他太搞笑了。我的天哪。他有一种讽刺的幽默感。这让我笑得很开心。老实说，这是我今天喜欢“Open Eye”的方面之一。就像我与 Yaacob 的契合度一样，我感觉我们走进会议室，就可以互相碰撞想法，快速达成一致，然后传达同样的信息，并且可以在一个宏大路线图的不同部分协同运作。这是我在 OpenAI 工作所拥有的巨大特权之一。回到关于让人们团结在一起的那个观点，我对 OpenAI 的研究仍然有同感，我认为我们正受到攻击，我们是一个大家庭，我们一直受到攻击，你看，当任何一家公司开始时——这就是我知道我们处于领先地位的方式——他们会从哪里招募人才？就是 OpenAI，他们想要专业知识，他们想要我们的愿景，可以说是我们对世界的理念，我们培养了这么多顶尖研究人员，我认为 OpenAI 比其他任何地方都更能造就当今 AI 领域的名字，我仍然有同样的保护欲，就像有人来找茬，我会尽我所能确保他们快乐，确保他们理解他们在 OpenAI 的角色，你知道他们的角色如何融入路线图。我认为我在写书时或者只是实时关注事件发展时一直在与此斗争，就像我回顾历史，你有伊利亚（Ilya）在 2012 年取得了重大突破。

主持人: 然后，2017 年你在谷歌有诺姆（Noam）在做 Transformer 模型。然后你有亚历克·拉德福德（Alec Radford）。比如有时候故事是这些个人真正推动着这个领域向前发展。而且感觉这是一个仍然非常年轻的领域，你可以有，有这样一个人。然后似乎有一群人，我不知道具体人数，我们称之为八到十人，他们似乎有能力反复做到这一点，他们真的在塑造着这一切将走向何方，所以当我开始看到像约翰·舒尔曼离开或亚历克离开，然后感觉哇，如果你失去了一部分全明星团队，你该如何……这似乎是一个你无法轻易替代的领域，但在那之后，你们在推理和一些其他方面取得了进展。所以我不确定，我在智力上遇到过困难。

Mark Chen: 我确实不同意这是当今进行良好研究的总括性方式。我认为自上而下的引导肯定有很多。我们押注于方向，但Openet也有一个非常深入的自下而上的优美文化，其中一些最好的想法有机地出现，有时是从最令人惊讶的地方冒出来的。我认为真正伟大的事情是看着这些赌注如何展开、成形、扩展，而推理就是其中一个核心例子。

主持人: 而且，那么在这个想法中，比如我们有多依赖明星？因为你仍然看到谷歌花费巨额资金把诺姆带回来。你懂我的意思吧？

Mark Chen: 所以这让我想，这就是它的运作方式。我认为这是一个混合体，比如你必须投资于你的人才储备，因为我对我们培养明星的能力非常有信心。但确实，外面有非常优秀的人才，而且每个人都知道他们很优秀。我认为如果说我从Meta学到的一件事是，Open A也可以非常积极地追逐顶尖人才。有一种非常积极的招聘方式，我也借鉴了一些方法。但我认为我们应该始终努力组建最好的团队。为了实现我们想要完成的使命。

主持人: 这很有趣，因为这是一个相对小的圈子，而且你们所有人都聚在一起，即使你们是竞争对手，然后。我知道。这肯定很奇怪，因为在某种程度上我知道你和不同的人是朋友。然后你还试图窃取他们所有最好的东西。

Mark Chen: 在所有层面上，这都是一个残酷竞争激烈的行业，但话说回来，这也是我所热爱的。我是一个极具竞争力的人。我讨厌输。无论是在研究方面，还是在招聘方面，在所有这些方面。我会非常努力地对待它们。

知识共享与领导层协作

主持人: 这让我想起，因为我有点像个半导体，我是一个历史迷，但早期的半导体时代并没有那么遥远。所有这些半导体初创公司一下子都出现了。他们都在挑战物理学的极限，最终会有人在那一点上发现一些新东西。

Mark Chen: 他们会去酒吧，就像那些工程师一样，他们无法停止彼此之间分享知识，但同时他们也被拉扯着，这很艰难，每家公司都在以这样或那样的方式迅速取得突破，你提出了一个有趣的点，即总会有某种基础的知识传播，我认为公司对此有两种应对方式：一种是建立深度的信息孤岛，就像“嘿，我们要用所有这些方式来保护信息”，我认为OpenAI不是这样运作的，我们也不认为这是正确的运作方式，我们只是会尽快地跑赢其他人。我喜欢这种开放的文化。研究人员可以自由地分享想法。我认为这是取得最快进展的方式。

主持人: 那么，萨姆和雅各布现在如何合作呢？我想人们有时，如果你阅读公告和所有内容，你会发现萨姆更侧重于研究，而不是公司的日常运营，你知道我的意思吗？你可以看出研究是他的热情所在，甚至从头衔和组织方式上也可以看出，尤其是最近，你和雅科夫对这些事情非常深入，我知道萨姆很懂技术，但你们俩总是沉浸其中，然后你知道萨姆在和每个人交谈，我只是对你们三个人之间的这种动态感到好奇，以及如何——我的意思是你们不总是在资源分配上达成一致，但是，我只是对你们感到好奇，我们是一个非常紧密的群体，我每天都和萨姆和雅科夫交谈，对于萨姆来说，他热爱研究，他热爱了解研究，他喜欢与研究人员交谈，我认为在某些方面，他非常善于把握研究部门的脉搏。

Mark Chen: 我还要依靠他来，这里是否存在任何隐藏的潜在问题。去发现它们，向我揭示出来。雅科夫和像是个性还是技术上的？可能只是一些小事情。比如，比如办公室的布局方式，使得这个团队和那个团队更难协作。而他们两个就是让我去协作，以帮助我们实现我们想要的突破。所有这些事情，都非常、非常重要。我想雅各布和我花了很多时间来设计如何让工作取得成功。

主持人: 我认为将能力互补的人员搭配在一起，还有如何激励人们朝着我们认为重要的方向努力。

Mark Chen: 我们所做的工作中很大一部分就是这些。

主持人: 还有，萨姆，他在干什么？他，比如，他在读论文吗？他在和你们聊天吗？

Mark Chen: 我认为他阅读论文的工作量也占了他应得的份额。

主持人: 他与研究人员交流，了解他们如何看待世界、你们进行的研究类型，当然，他还负责这之外的庞大事务范围。

深入技术：预训练、推理与算力扩展

主持人: 我现在要问一些比较钻牛角尖的问题，或者我将尝试问，我不知道我能否达到我们期望的水平，但我会尽力而为，我会问……我不知道其中有多少内容是绝密，但是……但是，也许你会不小心说漏嘴，我们会把它问出来。在我参加过的会议中——我也不认为我是在泄密，因为我们已经讨论过一些了——我想我在这里是安全的。但是，预训练似乎是这样一个领域，感觉……似乎你们觉得你们已经弄明白了什么，对此感到兴奋，认为这将会是一个重大的进步。它也曾是我认为被忽视或有点令人不快的地方。以前的事情可能正如你们所期望或希望的那样运作。你们能告诉我们你们弄明白了什么，以及在某种参考框架下，我们已经看到了这些周期性的巨大飞跃？

Mark Chen: 绝对的。所以我想我从高层次来描述一下过去两年的情况，我们在推理、在理解这个原始能力并使其奏效方面投入了大量的资源。而且它确实奏效了。而且我认为，这样做的一个副产品是，你在其他职能（如预训练和后训练）上会损失一点肌肉。在过去的六个月里，我和亚克沃（Yaquo）做了大量工作来重建这种肌肉。我认为预训练确实是一种需要锻炼的肌肉。你需要确保所有信息都是最新的。你需要确保在最前沿的人员正在从事优化工作，在最前沿的人员正在从事数值计算工作。而且我认为你也必须确保关注度到位。这也是我最近专注于做的事情之一，就是引导和塑造人们在公司内部讨论的焦点，而今天，这个焦点非常集中在预训练上。我们认为预训练有很大的发展空间。很多人说规模化已经死了。我们完全不这么认为。从某种意义上说，所有对强化学习（RL）的关注，我认为对我们来说有点像是“阿尔法”（优势），因为我们认为预训练还有很大的提升空间。而且我认为，作为这些努力的结果。我们一直在训练更强大的模型。这也给了我们极大的信心，可以推进到，Gemini III以及今年年底即将发布的其他版本。

主持人: 我有时在脑海中构想的方式是，你们一直在做这件事，你们跑得太快了。整个领域都跑得太快了。所以我们正处于这样一个时刻，就是‘我们已经从互联网上收集了海量的信息’。我们把这些信息投入到这台超级计算机上。然后，ChatGPT就这样诞生了，然后我们就卷入了一场正在进行的、令人难以置信的竞赛中。比如，当我听到你们说话时，我只是试着从一个基准的角度来思考这个问题，也许是为那些没有那么密切关注此事的人设定的一个基准。在最初的那个时刻，你拥有了海量的数据。你将这些数据一股脑地扔给这个机器。

Mark Chen: 你最初会尝试对这些数据进行一些塑形，而现在我们只是在学习更有效的方式来塑形它，所以不总是清楚错误在哪里，我确实认为，你提到了我一直在深入思考的一个问题，对吧，当你想到预训练时，你获取人类书写的データ并教模型如何模仿它，对吧，它理解了人类的写作模式。从某种意义上说，这也会成为瓶颈，并限制了你能够达到的能力上限，当你模仿人类的书写时，你实际上无法超越人类写下的内容。

Mark Chen: 你会致力于像强化学习（RL）这样的东西。在那里，你可以真正地朝着人类能想到的最困难的任务进行引导，让模型做一些跳出固有思维、跳出它从模仿人类中学到的东西的思考，并实现更高水平的能力。但现在出现了一个很有趣的问题：我们如何超越人类今天所能做到的事情呢？我也在那里发现了严重的衡量问题。即使是在“人类能否评判科学领域中的超人表现”这个意义上，我们怎么知道一个超人数学家比另一个超人数学家更厉害呢？数学家，我们确实需要想出衡量这个世界取得进步意味着什么的更好评估标准，到目前为止我们一直很幸运，有一些竞赛，比如国际数学奥林匹克（IMO），它真正衡量的是谁是世界上最顶尖的数学家，但是当模型的 AI 能力超越人类时，就没有更多的测试了，你刚让我想起一个问题，回到 IMO 的事情上，我是说，抱歉，我们稍后会再回来谈这个的。

主持人: 它刚刚完全跳入我的脑海。比如，我经常看到那些在这些竞赛中表现出色的孩子。他们会被谷歌或脸书之类的公司录用，但他们之后并不总是顶级的执行官或最著名的工程师，也许这是他们的选择，但我认为肯尼迪并没有像迈克尔·乔丹那样最终在这些公司工作。这完全可能是出于选择。我不是想贬低它。但对我来说并不清楚，比如，对我来说并不清楚，在人类中表现出色的人，不一定是你将拥有的最伟大的工程师。如果一个人工智能特别出色，我们能学到什么呢？

Mark Chen: 这就是我喜欢在人工智能领域工作的原因。我认为，与标准工程文化相比，它更像是一个精英统治（meritocracy）的体系，因为，我试过这个。很多次了，也吸取了这个教训很多次了，但让一个得不到他所领导的研究人员尊重的管理者来领导一个团队是很难的。我想在研究领域，这一点比其他任何领域都更为突出。你必须做出非常坚定的技术判断，比如，这是正确的方向。当出现分歧时，这是一种正确的项目选择。

主持人: 如果你做出了错误的判断，你就会失去研究人员的尊重，与人工智能合作和创建一个强大的人工智能组织中的有趣之处在于，你知道我的整个团队都是非常精通技术的，和他们谈论技术问题很有趣，关于这个，我正在再次进行预训练，片刻，对我来说，在我脑海中，感觉像Transformer引发了这次巨大的、巨大的飞跃，我是说，推理对我来说感觉非常相似，如果不是更令人惊叹的话。当我在过去几个月里和你们交谈时，我的，我永远无法判断这是否是乐观情绪，你们是否只是在尽力而为，但当我与你们、与格雷格、与雅各布、与萨姆交谈时，我的感觉是，你们似乎在进行三、四、五年的艰苦工程工作，但这些工作还没有完全显现出来。所以我永远无法判断应该有多兴奋或不兴奋。比如当你们暗示你们看到的一些东西时，你们是否觉得，是否已经可以判断出这相当于那些重大的、末日式的飞跃？

Mark Chen: 我想

Mark Chen: 我想当我们发布GPT5时，我们也谈了很多关于合成数据的事情，这种形式的许多其他线索，我们认为它们具有相当大的潜力，并且我们现在正在非常积极地扩大规模，而且我认为这总是关于保持这种投注组合，选择那些提供更多实证潜力的，并以更大的程度扩大规模和支持它们。就在大约两周前，曾在OpenAI工作的安德烈·卡帕西（Andrej Karpathy）参加了多卡斯（Dorcas）的播客，并说了一些话，比如让AI行业很大一部分人感到泄气，他说，我认为他说的是，通用人工智能（AGI）大概还有10年，10年才能实现。

主持人: 然后当我听到，然后我大约一周前听到达里奥（Dario）在谈论，他似乎非常坚持那种大规模的科学观点，他称之为“天才之邦”（Nation of Genius）？他似乎仍然坚持那种，可能慢一点，但对那个时间线是两年左右的看法。当您听到安德烈所说的，您是怎么想的？

Mark Chen: 我认为推特（Twitter）很喜欢这种循环，太糟糕了，我们回来了。而且，当时对叙事有帮助的任何事情，我认为，都会被放大。

主持人: 我正试图在这里做一个点击（理解/突破），但我的思考方式是，这就像通用人工智能（AGI），每个人都为自己的AGI定义一个点。

Mark Chen: 我认为即使在OpenAI内部，你也无法让房间里的每个人都达成一致，说：嘿，这是我对AGI的清晰定义，并且它是一致的。所以我倾向于将其视为一个过程，就像你正处于工业革命时期，你是否认为机器制造纺织品，这就是工业革命，还是蒸汽机才是工业革命？每个人都有自己不同的定义。我认为我们正处于产生AGI的过程中。对我来说，我认为我最关注的一点是，我们是否正在产生新的科学知识？以及我们是否正在推进科学前沿？我感觉自今年夏天以来，在那方面出现了一个巨大的阶段性转变。

AI在科学发现中的作用

主持人: 从你看到的情况来看，首先跳入我脑海的是所有那些处于生物技术领域的初创公司，它们展示了，一次性抗体和分子，但我对它们一无所知。你是谁？

Mark Chen: 我深受那位物理学家的影响，回去想，嘿，我们应该为科学创建一个开放的人工智能。我认为我们的目标是，对于今天意识到这些模型潜力的少数科学家，并且觉得他们想要投入并加速发展，我们应该尽我们所能来加速他们。而且，我知道其他公司也有类似的目标，旨在推动科学前沿。但我认为我们想做的是，并且我想说，在与谷歌在科学领域的工作相比，我们有所不同的一个框架是，我们希望让每个人都有机会为自己赢得诺贝尔奖。这更多的是关于我们为开放人工智能赢得荣誉，那会很好，但我们希望构建工具和框架，以便所有科学家都能感受到这种加速的影响，而且我们认为我们可以共同推动该领域的发展。

主持人: 当你谈到你感到兴奋的那些发现时，是否还有其他更具体的你所说的那些……我想，如果你想要一份非常详尽的此类发现列表，你可以去看看塞布（Seb）的推特账户。所以最近，有一篇关于开放凸优化问题的 JPD5 论文，那是塞巴斯蒂安·梅巴赫（Sebastian Me Back）的推特账户，这与我们正在解决的一些核心机器学习问题密切相关。我知道有人认为这些东西只是花哨的文献检索或类似的东西，但实际上它比那复杂得多。我本来可以举出一些例子，但我老实说，我现在应接不暇，因为我基本上是一个通才，但我尤其关注生物技术领域，感觉每隔两天，伙计，我走进办公室，他们就会说“我们正在制造一个人工智能科学家”，或者“我们一击就获得了人体结构信息”，所以一部分的我感到很兴奋，而且，在我认识的这些公司中，至少有几家的负责人和真正的科学家我都认识，太多的事情让我觉得要么是真正了不起的事情正在发生，要么是到处都是，对我来说，要分辨出哪里是现实，信息量太大了。我个人不会对它发生在生物学领域感到惊讶，因为我在计算机科学和数学方面拥有最多的专业知识，而且我们确实有那里的专家可以证实这些都是正在取得的发现。

Mark Chen: 那就是给我最大信心的东西。但我一点也不感到惊讶。这正在生物学中发生。

主持人: 但就像你说的，这与……有点不同，我同意，叙事似乎每三周就改变一次。但就像你说的，这有点不同，因为即使在安德烈说那话之前，最大的批评对我来说，我当时在听一个政治播客，萨格，我想是“突破点”（Breaking Points）。这是他们的播客，你知道他是一个相当聪明且知识渊博的人，但他一直在抨击人工智能和缺乏进展，说这都是想象出来的，都是……如果这些发现没有发生的话，我想公众已经意识到了这一点，仅供参考，在为开放科学（Open Air for Science）做准备的过程中，我们与许多物理学家、许多数学家进行了交谈，而且实际上我们交谈过的大多数人对人工智能并不那么看好。

Mark Chen: 他们仍然相信，嘿，这个东西不是一个可以解决新定理的东西。那是不可能的。一定还有其他事情在发生。这就是为什么我觉得赋权给那些真正相信并投入其中的人群非常重要。

主持人: 就像那些人只是，会超越其他所有人一样。

Mark Chen: 我们希望构建工具并说服人们，这是进行科学研究的正确方法。

主持人: 好的。就这一点而言，我承认每个人对通用人工智能（AGI）的看法都不同，但至少我听到的是，用你想要称呼它的任何方式，你觉得在未来一两年内，我们会看到巨大的变化，这有点像一个梗，就像“通用人工智能什么时候才能实现？”我认为我们已经不在那个世界了，是数学和科学中的这些成果给了我这种信念，但在 OpenEye 的研究工作中，我们设定了两个非常具体的目标，

Mark Chen: 一年之内，我们希望改变我们进行研究的方式的本质。我们希望在研究开发过程中能够富有成效地依赖人工智能实习生。在两年半的时间内，我们希望人工智能能够进行端到端的研究。我认为这是非常不同的。就像今天一样，你产生一个想法，你执行它，你实现它，你调试它。这意味着在一年之内，我们非常有信心能够达到一个我们控制外部循环的世界。我们提出想法，但模型负责实施和调试。

算力需求与Gemini 3的竞争

主持人: 好的。在预训练之外，当我与你们交谈时，我有时会感觉到类似的事情。就像我们所有人的脑海中，至少是我所说的那类人，都有一个共识，就是存在一个大规模的基础设施建设，而且每当你们将模型算力提升10倍时，模型似乎就会变得更好。有一段时间有个说法，当你们从4代转向5代时，尽管获得了更多的计算资源，但并未看到预期的效果。但后来我与你们交谈得越多，就越感觉你们认为我们实际上还没有——那时事情发展太快了，我们还没有。实际上看到实现算力提升10倍的那个时刻。我不知道我是否把这个问题问得很清楚。

Mark Chen: 我的确有一个想法想分享，那就是，当人们问你们真的需要所有这些计算资源吗？这是一个非常令人震惊的问题，因为在日常工作中，我处理着大量的计算请求。而且，我现在的想法是，如果我们今天有3倍的计算能力，我能立即非常有效地利用起来。如果我们今天有10倍的算力，很可能在几周之内就能完全高效地利用起来。我认为对算力的需求确实存在。我没有看到任何放缓的迹象。当人们问我们，比如“你们真的需要更多的算力吗？”时，我真的感到很困惑。这对我来说没有意义。

主持人: 你认为，就我刚才那个很糟糕的问题的大致方向而言，就是关于你们对预训练进展非常乐观的方面，你们是否同样，不只是人们想要更多GPU的需求，而是你们是否能非常清楚地看到同样的趋势，即扩展即将迎来一个高峰期。

Mark Chen: 我们绝对希望继续扩展模型。而且我认为我们拥有能够扩展模型的算法突破。而且，我认为Gemini III有很多令人印象深刻的地方。我注意到的一件深入研究后发现的事情是，当你查看像Sweet Bench分数这样的东西时，在数据效率方面仍然存在一个他们尚未解决的重大问题，他们在这方面还没有取得太大进展。我认为我们在那里有非常强大的算法。

主持人: 还有一份泄露的备忘录，我是说，萨姆在这份备忘录中对 Gemini 三号听起来相当忧心忡忡。我正在努力寻找那段引文。你，你肯定收到了那份备忘录。好这似乎是一个小小的转折点。

Mark Chen: 我确实认为萨姆工作的一部分是注入紧迫感和速度。这也是我工作的一部分。我认为我们专注于规模化非常重要。

主持人: 而且我确实认为，Gemini III 正是谷歌应该追求的正确类型的赌注。

Mark Chen: 与此同时，我会这样校准：我们工作很大一部分就是尽可能地向组织注入紧迫感。这是一个很好的模式。我想我们已经有了对策，而且我认为我们可以更快地执行后续工作。

与Jony Ive的合作与AI硬件

主持人: 你对我确信你会准确地告诉我关于乔尼·艾维设备的情况，这类事情参与到什么程度？研究部门是否也参与其中？

Mark Chen: 确实如此。实际上，我昨天刚吃完晚饭。

主持人: 如果你愿意，你可以向我描述一下，绝对可以，它看起来是这样的，昨天我正和乔尼以及一些研究人员共进晚餐，还有我们的预训练和后训练负责人，我真的很想谈谈我对ChatGPT未来的看法，你今天看你如何与ChatGPT互动，它给我的感觉非常愚钝，它给我的感觉不像一个真正的思考者，你给它一个提示，对吧，你得到一个回复，然后它不会为你做任何有成效的工作，直到你给出下一个提示。

Mark Chen: 如果你给它一个相似的提示，它会思考相同的时间。它并没有因为你提出了第一个提示而变得更聪明。而且，我认为未来将是一个记忆能力得到极大改进的时代。你每次与ChatGPT互动时，它都会对你学到一些深刻的东西。它会思考你为什么会问这个问题，以及相关的问题。任何事情。然后你下次再去找它时，它就会更加聪明。我认为这确实引出了一个问题：你如何设计一个将此作为主导论点的设备？我认为那是一次非常有成效的经历。我可能说过，也可能没说过。

主持人: 关于你们和约翰尼谈论的事情，我的看法是：像苹果这样一家以硬件为核心的公司，那是史蒂夫·乔布斯一直以来痴迷的东西，就像是一种手艺，一种艺术形式。你们中，无论是萨姆、格雷格、雅各布还是其他任何人，据我所知，你们以前都没有做过硬件产品。萨姆似乎非常重视设计。我从他家的建筑和其他事物上就能看出来。但是，没有什么可以证明的往绩，就像我一直认为史蒂夫·乔布斯是有品味的，你知道吗？然后，我过去有几个老板，比如乔希·蒂尔曼，他曾管理《商业周刊》。他总是给我留下这样的印象。他就是有品味，无论是某样东西的外观，还是一个故事应该如何叙述。这就像一种存在于非常高层次的与生俱来的东西。我觉得这有点像这里所需要的。我想这就是为什么在某种程度上你要有像约翰尼这样的人。完全正确。但你必须要有这种来回的交流。我们怎么知道你们中的任何一个人有品味，并且，可以塑造一个硬件产品呢？

Mark Chen: 说实话，我们自己不需要有品味。那是约翰尼的工作。他是我们关于品味的判断者。

主持人: 我认为实际上有一件非常好的事情是，我意识到他们在设计方面的工作方式和我们在研究方面的工作方式存在一些深层次的共通之处，有很多探索和构思，你会探索一堆假设，然后你花时间，最后创造出你满意的那个东西，那个你满意的最终产物，让他们融入公司感觉非常好，并且在关于我们要发布什么功能、最终产品形态是什么样子的，以及如何将它们融合起来的沟通方面，变得更加直接，我用一种很粗俗的方式来表达，因为我一生都在仰慕和与这些人交谈，但有时我只是想，天哪，我不知道一群数学迷是不是你想要让他们来制造人工智能计算机的人，你懂吗？但我猜这就是你在谈论的那种融合，老实说，你说得对，那些最擅长构建人工智能能力的人与那些拥有最佳品味的人略有不同。

Mark Chen: 我们确实有团队是由那些对模型行为具有出色品味的人组成的。我认为你需要不断问自己的哲学和一套问题非常不同。一个例子，比如一个好的品味问题，就像你可以想象的那样，在模型行为面试中，像‘查夫·奇皮（Chav Chippee）’最喜欢的数字应该是多少？”

主持人: 我很好奇你会如何回答，我认为它最喜欢的数字应该是多少？我有一个很愚蠢的答案，那就是我曾在波莫纳学院（Pomona College）就读，而47是那里的一个“传说”数字。我认为这是一个很好的答案。我马上就让你走了，你已经非常慷慨了，我非常感谢。有没有……我将问你一个ChatGPT告诉我问你的问题。很棒。那就是，如果你回顾五年前，你现在看到的是否有一些微小、脆弱、初现端倪的想法，你的直觉告诉你，这些想法可能会成为重大突破的核心？有那么几个。

Mark Chen: 我会说有那么一小部分想法。我不能透露太多细节，但我非常非常兴奋。有没有一些提示或大致的领域范围？我的确一直在集中精力于预训练，一些与预训练相邻的领域，以及在强化学习（RL）方面的一小部分想法，以及一些关于如何将它们整合在一起的想法。我试过了，我试过了。所以你可能知道也可能不知道任何提示。不提示。我们谈论了很多，我非常感谢你。

OpenAI的未来展望与个人投入

主持人: 我感觉我在让那些书呆子们，就是那些痴迷于人工智能的人们有点失望，是吗？目前，有没有什么技术上的、或者你们认为大家对你们有些误解的地方，是你希望澄清的？

Mark Chen: 我认为最重要的事情是，任何在OpenAI的人，在研究领域的人都会告诉你，这只是一家以研究为中心的公司。这是一个纯粹的人工智能赌注。公司的核心，其抱负是构建通用人工智能（AGI），而且是在没有干扰的情况下构建它。我认为任何关于产品构建的事情，都非常容易地源于此。

主持人: 当我们谈到我们在研究中想做什么时，我们想实现人工智能研究的自动化。

Mark Chen: 我认为从私心上来说，我们想加速我们自己的进步。

主持人: 然后我们想实现科学发现的自动化。

Mark Chen: 当然，我们也想实现经济上有用工作的自动化。我认为所有这些支柱都在倒塌。你看到过去一年中最大的更新，就像在自动化科学研究的第二个支柱中一样。它正在发生。

主持人: 你现在多大了？

Mark Chen: 34岁，快35岁了。

主持人: 快35岁了。好的。你还能有社交生活吗？

Mark Chen: 说实话，不能。我认为过去两周的每一天，工作电话一直打到凌晨1点或2点。但我喜欢这样做，只是有很多工作要做，有很多我想招募的人，有很多指导需要完成，而且为什么浪费这个黄金时刻呢？就像我们正处于一场工业革命之中，你必须尽可能多地利用它。我听说你睡在办公室的故事，那也是很有趣的一次。老实说，这只是……我想在公司总有一些时候，我想是在米拉·德穆拉离开并自己创办公司之后，工作就是要求如此，而且，当我把所有的一切剥开并审视那种深层的情感时，它只是对那项研究的保护欲，那是在米拉离开之后。花一个月的时间，有点像睡在办公室里。

主持人: 这感觉就像我需要保护这个研究药物。他们感觉，感觉就像我的宝贝一样。所以你们经历了这些波折。发生了政变。每个人都在试图挖走你的人。我猜每个人一直都在试图挖走你的人，但你遇到了这个拐点。Mirror Leaves，Meta 决定要启动这个庞大的实验室。你觉得，我们是不是，我们已经度过那个阶段了？到目前为止，所有人都已经亮出底牌了吗？我有我的团队。

Mark Chen: 会议，我和我的下属谈了谈。我说，我要处理的事情是这样的。等我回来，等我完成这个（工作）线程后，我会进行宏观审视，到时候就没有什么紧急情况了。所以到目前为止，我已经完全内化了，构建通用人工智能的风险足够高，所以总会有事情发生。我想重要的是，能够在所有这些事情正在发生的时候，明白哪些是重要的事情。

主持人: 你是不是感觉已经过去几个月了，都没有那种深度探索的时刻或者其他什么。我猜是十二月，24号左右，我想是。早些时候，或者一月份。现在有什么吗，感觉人们疯了一小会儿，现在回顾一下并看看他们从那时起做了什么，关于开源模型和中国的开源模型，我猜有一些想法。

Mark Chen: 我认为那是最早的几个时刻之一，我才意识到我们坚持我们的研究模式有多么重要。我想当那个出来的时候，它疯传了，就像每个人都在说，天哪，像开放眼（OpenAI）是否迷失了方向？这些模型在迎头赶上吗？有什么回应吗？有什么回应吗？有什么回应吗？我想我们所做的，而且是理所当然的，就是加倍投入我们自己的研究项目。而且我不认为那是对的，那是完全错误的决定。我还没看到DeepSeek的后续模型。我认为他们是一个非常强大的实验室。但从根本上说，我们还是应该专注于创新。我认为DeepSeek是对我们主系列模型中思想的一次很好的复现。但我们还是专注于创新吧。

主持人: 你认为500人这个数字，随着公司的发展它会增长吗？还是说这是可以同时追求的大型想法的最佳人数？

Mark Chen: 说实话，我觉得甚至可以用更少的人来完成。再说一次，当我们招聘人工智能研究人员或人工智能实习生时，如何围绕这一点设计团队，这是一个真正的问题。但我肯定是一个非常重视高人才密度的人。我喜欢以这种方式进行大量的实验。举个例子，在今年第二季度，我想，嘿，我就是不会为研究部门的任何人增设职位名额。如果你想招聘人员，你就得弄清楚谁不在船上（谁不应该被留下）。我认为这类练习非常重要。你不想让工作蔓延到无法管理的程度，而且你想把人才标准保持得非常高。

主持人: 我保证这是最后一个问题。抱歉，我得让你离开了。我记得有一次会议，我想你和亚卡（Yaka）在这个问题上意见比较一致，但我肯定记得你的观点，关于谁该为一个项目获得署名，你似乎持有一种观点，即人们对此有点过于着迷了。而且，显然，人工智能的根源在于学术界，在那里，如果有一篇论文发表了，你会感到非常自豪，这是一件大事，而署名是一件极其重要的事情。我想我记得那次会议中你的立场是正确的。那又怎样？我们已经到了一个新的阶段，在那里，这一点就不那么重要了，或者说，这只是一家公司，谁做了什么变得不那么重要了。

Mark Chen: 我其实非常喜欢这个话题。我认为，对功劳的过度关注是一件非常糟糕的事情，我想，但另一方面，我实际上觉得，作为一家公司，我们必须在内部和外部都认可功劳，这很重要。很多公司实际上都回避了这一点。我认为整个行业都已不再热衷于发表论文、署名名单了。但是雅各布（Yaakov）和我最终决定要在 OpenAI 这样做。当然，反驳的声音总是说，老兄，你这简直是把你的顶尖人才拱手相让，其他人都会积极地招募这些人。但我认为那不重要，我们应该认可那些做出出色工作的人。我们应该继续成为培养人工智能超级巨星的输送管道。而且说实话，对我们来说，让那些在公司里做出最出色工作的人获得名声是很重要的。但你似乎也在说，研究人员个人或许应该少关注这一点，或者是我完全记错了？我……我认为房间里确实有一种那样的情绪，其实雅各布和我对此持更反对的观点。已经有一段时间了，在我的笔记里。但我认为我们必须给予认可，即使冒着让所有人都知道我们顶尖人才的风险。我将发表一个更强烈的声明。

主持人: 我认为 OpenAI 是人均获得外部认可度最高的地方。

Mark Chen: 好的。好的。

主持人: 我要合上我的笔记了。现在我有更多内容了。绝对的。绝对的。我只记得自己是讨论的话题，而且有很多不同的意见。所以这很有趣。在那件事上，我撒谎了。最后一个问题，我发誓。你在2018年到了那里。那是一家研究公司。那是一家非营利组织。这家公司创立之初，创始人就希望成为谷歌的制衡力量，目标就是确保通用人工智能（AGI）安全地到来。你从高频交易领域接触到这个，并看到了正在发生的有趣的事情，比如在你的职业生涯中——我确定你会说你希望这件事安全发生，我理解——但是如果你看看你的职业道路，你是一个聪明、好奇的人，看到了这个有趣的事情正在发生，这并不是一个要求你必须在哲学层面上非常关心这件事，或者希望看到一个超级智能。但不管怎样，让我们听听你最初为什么做这个。我想，实际上是在安全和对齐方面。

结语：对齐、安全与黑匣子问题

Mark Chen: 我也在OpenAI管理过对齐团队。我真诚地觉得未来一到两年内的一些重大挑战是关于对齐问题的。而且我认为，对于广泛关注该领域研究的群体来说，OpenAI 在过去一年中可能做得最好的工作。我这么说是因为出现了很多关于例如“诡计”（scheming）方面的工作，你向模型投入的强化学习（RL）算力越多，你就越能衡量诸如自我意识、自我保护，甚至模型可能耍花招（scheme）的情况。这很可怕，因为模型最后可能会给你一个正确的答案，你期望的答案，但它是通过一种非常扭曲的方式得出的，我认为随着模型为我们完成更复杂的任务，掌控它的思维过程将变得极其、极其重要。

主持人: 好的。聊天机器人（ChatGPT）让我问你一个与此非常相关的问题，那就是，你正在谈论一个领域——机械可解释性（mechanistic interpretability），在这个领域中，我们正试图，这是一个捕捉我们试图理解这个黑匣子及其运作方式的术语。我猜问题的核心是，我们做这件事的技能是否跟得上人工智能系统的复杂性，还是我们只会到达一个失控的点？

Mark Chen: 我们好像永远也学不会这个东西是如何运作的，所以我想我们做出的一个可以追溯到01年发布时的决定，我为此感到非常自豪，就是我们决定不干预模型的思考过程。我想，当你给模型设置激励，让它给出的思考过程对人类很有吸引力时，它不一定会对你诚实，它不会告诉你它真实的想法和意图。因此，通过这个渠道，我们实际上能够持续观察模型的思考过程，将其视为理解对齐（alignment）的一个工具。而且，就在几个月前，深度思维（DeepMind）和安智（Anthropic）发表了一篇论文，探讨了随着时间的推移，这种情况将如何发展。我想我们在设计方面做出了很多相当不错的选择。

Mark Chen: 我真的很担心未来世界的某个时刻，模型会告诉我们一些极其令人信服的事情，但我们无法确定模型是否与我们保持一致，对吧，是否与我们的价值观保持一致。所以我认为这里有很多有趣的方向。比如，你能设置一些博弈（games）吗？或者你能设置一些框架或环境，让模型相互监督，或者它们以某种方式共同演化吗？或者唯一的稳定平衡点是模型诚实的那种情况。我认为那里的工作非常令人兴奋。

主持人: 好的。我现在会表现得乖一点。非常感谢您加入我们。我很高兴我已经够老了，不用再接受像那种超级聪明的聊天机器人的工作面试了，那种我感觉你无法通过讨好和胡说八道来蒙混过关的。

Mark Chen: 你会做得很好的。

主持人: 我不知道，伙计。我觉得还行，我已经够老了，可能不用做那种事了。马克，非常感谢你。我知道你非常忙，所以感谢你抽出时间。也非常感谢您抽出时间。伙计，这很有趣。非常荣幸。

Mark Chen: 伙计，这很有趣。非常荣幸。

本文来自微信公众号：Web3天空之城，作者：Web3天空之城

AI创投日报频道: 前沿科技

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定