本文来自微信公众号: 未尽研究 ,作者:未尽研究
DeepMind的核心人物、工程副总裁、Gemini模型的联合负责人,这几个头衔并不足以说明沙泽尔在AI界的影响力有多么重磅,他是Transformer论文的作者之一,2024年,谷歌花了27亿美元,把他从自己的创业项目character.ai那里拉回来,拯救Gemini大模型。
沙译尔的离开,对于谷歌是一个重大打击。年初谷歌DeepMind副总裁、强化学习的旗手、哈萨比斯最早的创业伙伴西尔弗(David Siver)出走创业;两个月前谷歌创始人布林(Sergi Brin)对Gemini在编程方面落后于Anthropic感到不满,亲自干预,成立了一支突击队来补上短版。Gemini今年以来乏善可陈,这次沙泽尔离开,增加了它的不测,甚至会增加谷歌DeepMind CEO哈萨比斯的不测。
沙泽尔对于Gemini有多重要,甚至流传着一个段子,他只动了几行训练代码,Gemini的质量立竿见影地提升。
沙泽尔的离开暴露了谷歌的老问题:它可能仍是世界上最会产生AI发明的公司之一,却不一定是最能快速释放和商业化这些发明的组织。
沙泽尔回到谷歌不到两年又去了OpenAI,问题可能不只是薪酬,而是顶级研究者对速度、权力、产品方向、组织摩擦、发布节奏,自有其判断。它也令人猜测,当初DeepMind与Google Brain合并之后,可能只是暂时缓解了Gemini大模型追赶OpenAI的问题,但其内部的人才、组织与文化的整合,可能并未告成。
所有往事,皆为序章。接下来OpenAI与Anthropic的对决,将在很大程度上是沙泽尔与卡帕西谁能发出更大的光芒。如果只论对大模型技术路线的硬核底层贡献,沙泽尔的研究硬实力更强;如果论AI文化、工程教育、研究品味、产品化感知和公众影响力,卡帕西影响更大。
沙泽尔是Transformer论文作者之一,这篇论文提出了完全基于注意力的架构,成为后来的GPT、BERT、T5、Gemini、Claude等几乎所有现代大模型的基础。他还是T5论文作者之一;T5把各种自然语言任务统一成text-to-text框架,对后来的指令模型、统一任务接口影响很大。更重要的是,沙泽尔是当下最流行的稀疏专家混合模型(sparse MoE)路线的关键开拓人物:2017年,Sparsely-Gated MoE这篇论文把按样本激活部分专家的条件计算推向实用化;Switch Transformer又把MoE简化到更容易规模化训练,并展示了万亿参数稀疏模型的路径——也基本上是DeepSeek和中国所有开源模型后来的道路。
卡帕西的贡献则更丰富。他早期在斯坦福大学做计算机视觉、多模态图像描述,与李飞飞合作的图像-语言对齐工作,是视觉语言结合的重要早期代表之一。他是OpenAI早期成员,后来在特斯位领导Autopilot视觉团队,把深度学习从研究系统推向真实世界的高风险工程系统。
但卡帕西的特殊影响力还在于他对把复杂技术讲清楚,并建立起工程直觉。他的“AI教育三件套”:如斯坦福计算机视觉课CS231n、“手搓”模型minGPT/nanoGPT、视频公开课Neural Networks:Zero to Hero、还有他发明的流行词如vibe coding等,都让他成为一代工程师理解深度学习和LLM的入口级人物。
沙泽尔更像是架构发明者,而卡帕西则更像研究工程文化的塑造者。谁影响力更大,无法给出一个简单的答案,可以从以下几层来比较:

沙泽尔加盟OpenAI,最可能攻克的几个问题:
第一,下一代基础模型架构与MoE效率。OpenAI需要在更大规模、更低成本、更高吞吐之间找到新平衡。沙泽尔的MoE、提升预训练效率的Switch Transformer、解码更快的multi-query attention、模型并行的Mesh TensorFlow经验,正好可用于解决“把模型做大但不把成本做爆”的问题。
第二,预训练扩展(scaling)的新拐点。当数据、算力、成本都变成瓶颈,单纯稠密scaling越来越贵。沙泽尔的价值在于,他长期思考如何用条件计算、稀疏激活、系统并行,继续扩大模型有效容量。
第三,产品级人格化与长对话体验。不要忘了他还创办了character.ai。OpenAI如果要做更强的个人助理、长期记忆、人格化交互、消费级AI关系产品,沙泽尔也有独特经验。
第四,Gemini的内部知识转移。他刚刚还是Gemini的联合负责人,对Google最新一代模型训练组织、架构选择、工程路线有直接经验。这对OpenAI的战略意义,不只是一个科学家加入,而是一个竞品核心模型负责人加入。
卡帕西去Anthropic,最可能攻克的是另一组问题。
第一,Claude的预训练研究效率。他加入Anthropic的预训练团队,并将参与用Claude加速预训练研究本身。Anthropic现在的重视的竞争力不只是模型本身,而是能否让模型帮助自己做下一代模型研究。
第二,把AI编码/AI研究工作流系统化。卡帕西精通人如何与模型协作写代码、做实验、建立直觉。Anthropic已经在Claude Code、长程智能体、研究辅助上很强,卡帕西加入后,可能会把这种能力进一步内化到模型研发流程里。
第三,补强Anthropic的基础训练气质。Anthropic过去最鲜明的标签是对齐、安全、宪法AI、Claude的产品体验。卡帕西加入预训练团队,说明Anthropic不满足于后训练和产品体验强,而是要在基础模型训练、数据、架构、实验自动化上继续加码。
第四,研究品味与人才吸引力。卡帕西在社交媒体上是AI顶流,能吸引大量优秀工程师和研究者的。他的加入本身就是Anthropic声誉的一部分,说明它不只是安全公司,也正在成为顶级模型研发公司。
OpenAI在用沙泽尔争夺下一代模型架构和规模化训练的核心发动机;Anthropic则用卡帕西去抢占下一代模型研发方式和AI辅助研究范式的研究操作系统。
这两位顶尖研究者的变动,正好说明2026年前沿AI竞争已经从单纯抢算力,进入拼研究的阶段,看谁能建立起模型架构、训练系统和研究方法的新范式。
