2026-06-05 12:48

跑得最快的人却喊着要刹车？Anthropic 呼吁全球中止AI 研究，网友：你自己为啥不先停

本文来自微信公众号： AI前线，作者：四月，原文标题：《跑得最快的人却喊着要刹车？Anthropic 呼吁全球中止 AI 研究，网友：你自己为啥不先停》

今天，Anthropic发布了一篇长文博客《When AI builds itself》，正式把一个过去只存在于科幻小说里的技术概念推到了台前：递归自我改进，Recursive Self-Improvement，缩写RSI。

说得通俗一点，就是AI不只是帮人类写代码、跑实验、做研究，而是开始参与构建下一代AI。今天是Claude帮Anthropic写代码、调系统、做实验；再往后，就是Claude开始帮Anthropic构建出更强的Claude。

这也是文章最为核心、也最让人焦虑不安的判断：AI的进化速度，不再完全取决于人类工程师和研究员，而是越来越多地被AI自己推动。模型越强，研发越快；研发越快，下一代模型又会更强。这个飞轮一旦转起来，就不再只是“AI提效”的问题，而是AI研发本身开始进入自我加速。

Anthropic用一组关键数据对这个能力进行了度量：AI独立完成的任务时长。过去大约每7个月翻一倍，现在已经加速到每4个月翻一倍。2024年3月，Claude Opus 3大概只能完成一个人类需要4分钟的软件任务；一年后，Claude Sonnet 3.7已经能处理约1.5小时任务；再往后，Claude Opus 4.6可以完成约12小时任务。

在用一连串数据图表把Claude的能力跃迁铺陈到极致之后，Anthropic终于点明了它真正的主旨：如果前沿AI继续以这样的速度发展下去，全球需要认真考虑放缓，甚至暂时停止前沿AI开发。

表达用词虽然委婉，但仍可称得上“暴论”，全球范围内的讨论热度瞬间被点燃。目前该贴的浏览量已经超过500万。但其实比“AI会不会失控”更值得关注的，还有“Anthropic如果已经深刻认识到这项工作的风险，为什么不自己先停下呢？”

对此，他们加了一个极其微妙的前提：“如果其他前沿实验室能一起按下暂停键，那我们也会采取同样的措施。”

这里的言外之意其实已经很清晰。除非大家同时停车，而且还能互相验票，确认谁都没偷偷往前跑，否则谁也别指望Anthropic会单方面踩下刹车。

于是讽刺的真相来了，全球跑得最快的AI公司，开始呼吁全世界同仁要踩踩刹车；但真问他自己要不要先松送油门时，答案又变成了：大家一起停才能停。

我想，这或许才是Anthropic这次表态能引发如此争议的原因之一。这已经不是一个技术伦理的问题，放到前沿AI竞赛的语境里，它本质上还是一个囚徒困境：

每家公司都知道AI的发展速度太快，每家公司都知道治理和法规滞后，每家公司也都知道更强模型可能带来失控风险；但大家更知道，只要自己先慢下来，别人就可能冲到前排。

所以，某种程度而言，这番呼吁的背后，不仅是技术上的预警，更是话语权的争夺。

在文末，Anthropic亮出底牌：未来几个月，他们将牵头组织一系列全球对话，拉上监管机构、政策制定者、学界和友商，开启一场关于“如何给AI自进化踩刹车”的全球探讨（博弈）。

而同样是在本周，OpenAI也发表了博客《A blueprint for democratic governance of frontier AI》，提出一套关于前沿AI民主治理的蓝图，核心是推动美国建立一个更持久的联邦框架，强化CAISI作为美国前沿AI安全主要机构的角色，并把递归自我改进明确列为未来治理必须重点关注的能力。

OpenAI在蓝图中表示，今天的系统中已经能看到递归自我改进的早期迹象，也就是“AI研发本身正在被AI加速”；它预计这会加剧开发者和国家之间的竞争压力，并带来现有机构尚无法应对的治理挑战。

可以看到，治理议题一旦成立，接下来竞争的就不只是模型能力，还有规则制定权。

无论是Anthropic，还是OpenAI等一众前沿AI公司，都被架在了一个尴尬位置：它们既是加速者，也是预警者；本身既是风险的制造者，还要充当规则的倡议者。也就是说，你既要向资本市场展示无限的造富能力，也得向监管机构表忠心我们非常警惕技术风险。

说白了，他们真正想做的，不只是提醒大家AI可能失控，而是在AI真的逼近失控之前，率先成为那个讨论“治理规则”的话事人。

AI造AI，正在发生

Anthropic之所以敢把“递归自我改进（RSI）”的技术细节与能力摆到明面上，还在于他们已经将其训练得炉火纯青了。

截至2026年5月，Anthropic合入代码库的代码中，超过80%可以归因于Claude。而在2025年2月Claude Code发布之前，这个比例还只是低个位数。

这不是小幅提效，而是研发流程的结构性重构。

在公司发展的前三年，Anthropic工程师每天合入的代码量基本稳定。2025年之后，Claude开始自主编写和运行代码，曲线首次上扬；到了2026年，模型能在更长时间跨度上独立工作，斜率进一步陡升。到2026年第二季度，典型工程师每天合入的代码量已是2024年的8倍。

Anthropic坦承，代码行数不等于生产力，8倍的数字肯定高估了真实效率，AI完全可能制造更多需要回收的“代码债”。

另一个数据更值得审视：今年3月的内部调查中，130名研究人员的中位数受访者认为，在AI协助下自己的产出是没有AI时的4倍。这意味着Claude已经不再是“偶尔帮忙写段脚本”的外挂，而是在系统性重写工程师的工作流。

更关键的是，Claude跨越了“写代码”的边界，进入了质量控制环节。

过去一年，研究员纠正、打断、中途接管Claude任务的比率持续下降——哪怕是在最复杂、最开放的任务上。在最开放的任务难度档位上，Claude的成功率在2026年5月达到76%，6个月已经暴涨50个百分点。

目前，所有提交到Anthropic代码库的改动，都会先经过Claude的自动审查，排查bug和安全漏洞。回溯分析显示，如果早些启用这套自动审查，大约三分之一导致claude.ai线上事故的bug本可在上线前被拦截。

这件事的反转之处在于：写这些代码的人，已经是全球最懂AI系统的顶尖工程师；而现在，Claude不仅在替他们写代码，还在替他们抓错误。

正如Anthropic在博客中所言：“我们正在接近一个临界点，即模型编写的代码质量将与人类工程师相当，然后在某些领域超越他们。”

AI研发链条里最基础、最耗时的一环，已经开始闭环。

真正变快的，是实验循环

如果说写代码还只是第一层变化，那么更深层的颠覆，是Claude开始极大地压缩实验循环。

AI研究并不总是靠“灵光一现”。真正吞噬时间的，是大量重复性工作：改一段代码，跑一次实验，观察结果，定位瓶颈，再改一轮。

Anthropic每次发布新模型时，都会做一个固定测试：给Claude一段训练小型AI模型的代码，让它在保证正确性的前提下，尽可能优化运行速度。这本质上是对AI研究循环的微缩模拟。

2025年5月，Claude Opus 4做到了约3倍加速；到了2026年4月，Claude Mythos Preview直接干到了约52倍加速。作为对照，熟练的人类研究员通常需要4到8小时才能达到约4倍。

不要误读这个52倍，它不代表真实模型训练成本下降了52倍，仅限于该特定测试。但它释放的信号极强：在目标明确、反馈清晰、可反复试错的研究环节，Claude已经把时间压缩到了人类难以追上的数量级。

这也解释了Anthropic为何如此重视RSI。博客中直指核心：“递归自我改进不太可能以突然的‘顿悟’时刻发生……相反，我们预计它是一个持续、渐进的过程，AI逐渐接管更多研发任务。”

它不用每次都提出天才架构，只要能更快试错、更快排障、更快优化，研发飞轮就会被持续推高。

Anthropic还给了一个工程现场的案例：一次常规升级导致数万训练任务崩溃，工程师仅给Claude一段文字描述和集群权限，Claude便自主排查运行环境，揪出隐藏极深的调试标志并完成修复。

原本需人类两三天的工作，Claude只用了两小时。

Claude不只是更快地产出代码，而是在压缩“从问题出现到问题解决”的时间差。这才是前沿实验室真正关心的加速。

人类还在掌舵，但方向盘开始摇摆

Anthropic在文章中反复强调，人类目前仍然有一个明显优势：研究品味（Research Taste）。也就是判断哪些问题值得做，哪些结果可信，哪条路线值得继续，哪条路线应该放弃。

这也是AI研发中最难被自动化的一环。写代码可以评测，跑实验可以看结果，优化速度可以计时。但“下一步该做什么”，往往不是标准答案题。

不过，Anthropic也已经开始测试Claude在这个环节上的能力。

他们选取了真实研究会话中人类研究员曾经走弯路的129个节点，把走弯路之前的上下文交给不同版本的Claude，让模型判断下一步该怎么做。再由另一个能看到完整结局的Claude评估答案。

结果显示，2025年11月的Opus 4.5，有51%的概率给出比当时人类更好的下一步选择。到了2026年4月，Mythos Preview的比例提升到64%。

这个测试当然不能被夸大。样本本身就来自人类曾经做得不够好的节点，裁判也是模型，因此它不是严格意义上的人机公平竞赛。

但它也说明Claude涉及到到的不只是执行层，而是开始靠近研究判断层。这也是人类角色正在变化的地方。

过去，研究员亲自写代码、跑实验、分析结果、决定下一步。现在，越来越多执行工作可以交给模型，人类更像是在提出问题、设定边界、验证结果。

这听起来像是解放，但也意味着另一种压力：当执行成本大幅下降，真正稀缺的就变成判断力本身。Anthropic已经感受到了这种瓶颈。

Claude能更快地产生代码，但代码审查会变成新瓶颈；Claude能产出更多想法、工具和实验，但组织未必有足够能力消化它们。

瓶颈并不会消失，只会转移到下一个还没有被自动化的环节。这也是AI自我加速真正麻烦的地方。它不是把所有问题一次性解决，而是不断把压力推向人类仍然负责的那部分。

三种未来，核心问题只有一个

在这篇博客里，Anthropic推演了三种未来。但与其说是三种科幻剧本，不如说是三个不同程度的加速场景。

第一种，能力曲线开始变平。

也许现在看起来很陡的指数曲线，最后都会变成S曲线。也许“研究品味”无法靠规模化解决。也许真正的瓶颈不在模型，而在芯片、电力、数据中心和供应链。

如果这个场景发生，AI研发不会进入完全自我加速，社会也会获得更多适应时间。

但Anthropic并不认为这意味着风险消失。它举了Project Glasswing的例子：Mythos Preview在上线最初几周，就发现了全球关键系统中超过一万个高危和严重级软件漏洞。

需要说清楚的是，这些漏洞不是AI自我进化制造出来的，而是AI主动发现的。

这个例子想说明的是，即便模型能力停在今天，现有AI能力扩散出去，也已经足以让很多现实系统承压。网络安全的瓶颈可能不再是“找不到漏洞”，而是“修不过来”。

第二种，是Anthropic认为更可能的情况：AI继续加速研发，但人类仍然掌舵。

在这个场景里，AI大幅自动化研发流程，人类继续负责方向选择和最终判断。一个很小的团队，可以完成过去大组织才能承担的工作量。科学发现、药物研发、材料、能源，都可能因此被加速。

但同样的能力也会降低危险行动的门槛。更高效的代码生成、自动化实验和长时程Agent，不只会服务于科研，也可能服务于网络攻击、监控系统和个性化操纵。

更现实的问题是，组织能否消化这种加速。Anthropic已经看到，代码生成之后，审查成为瓶颈；想法生成之后，决策和筛选成为瓶颈。AI把一段流程变快，下一段流程就会被暴露出来。

第三种，才是完整意义上的递归自我改进。

也就是AI开始设计、训练、迭代自己的继任者。到了这个阶段，AI进步速度主要取决于算力供给，人类退到监督、验证和审核的位置。

Anthropic在这里的表述非常谨慎。它没有声称这一定会发生，也没有声称已经发生。但它承认，如果这一幕真的出现，今天的直觉可能不再可靠。因为模型中的偏差、失准和对齐问题，可能会在一代代自我构建中叠加放大，变得越来越难理解。

所以，这三种未来真正共同指向的问题，不是“AI什么时候觉醒”，而是人类还能不能在不断加速的研发链条中保持足够的理解、验证和干预能力。

听起来像治理，落地却是博弈

也正因为如此，Anthropic才会在文章最后提出：世界应该拥有一种选项，在必要时放缓甚至暂停前沿AI开发。

但它并没有把问题说得很天真。

Anthropic很清楚，如果只有谨慎的实验室放慢脚步，结果可能只是把领先位置让给更不谨慎的玩家。所以真正有效的暂停，必须是多个国家、多个前沿实验室，在相同条件下共同参与，并且能够相互验证。

这也是为什么，这套主张一出来，就很容易引发反感。

因为它听起来不像一句简单的安全呼吁，更像是一套现实的竞赛规则：要停可以，但必须大家一起停；要减速可以，但必须能确认别人也没有偷偷加速。

这里面当然有合理性。前沿AI不是某家公司自己关门就能解决的问题。只要技术竞赛存在，单方面“做好人”就很可能变成单方面退出牌桌。但这也正是大众不信任的来源。

当一家跑在最前面的公司开始讨论“暂停”，普通人很难不追问一句：这是在为安全负责，还是在为未来的规则制定抢位置？

更何况，Anthropic不是唯一一个在这个时间点发声的前沿公司。

就在本周，OpenAI也发布了关于前沿AI民主治理的蓝图，他们同样提到，当前系统中已经能看到RSI的早期迹象，也就是AI研发本身正在被AI加速；这种能力可能加剧开发者和国家之间的竞争压力，并带来现有机构难以应对的治理挑战。

Anthropic和OpenAI的表述不完全相同，落点也不同。一个强调多方可验证的减速机制，一个强调民主治理和国家级安全机构。但共同点很明显：它们都在把RSI从一个技术问题，推成一个治理问题。

而治理议题一旦成立，竞争的就不只是模型能力，还有规则制定权。

谁来定义什么是危险能力，谁来设计评估标准，谁来触发暂停机制，谁来验证其他玩家是否违规，谁就会在下一阶段的AI竞赛中拥有更大的话语权。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定