本文来自微信公众号: AI前线 ,作者:四月,原文标题:《跑得最快的人却喊着要刹车?Anthropic 呼吁全球中止 AI 研究,网友:你自己为啥不先停》
今天,Anthropic发布了一篇长文博客《When AI builds itself》,正式把一个过去只存在于科幻小说里的技术概念推到了台前:递归自我改进,Recursive Self-Improvement,缩写RSI。
说得通俗一点,就是AI不只是帮人类写代码、跑实验、做研究,而是开始参与构建下一代AI。今天是Claude帮Anthropic写代码、调系统、做实验;再往后,就是Claude开始帮Anthropic构建出更强的Claude。
这也是文章最为核心、也最让人焦虑不安的判断:AI的进化速度,不再完全取决于人类工程师和研究员,而是越来越多地被AI自己推动。模型越强,研发越快;研发越快,下一代模型又会更强。这个飞轮一旦转起来,就不再只是“AI提效”的问题,而是AI研发本身开始进入自我加速。
Anthropic用一组关键数据对这个能力进行了度量:AI独立完成的任务时长。过去大约每7个月翻一倍,现在已经加速到每4个月翻一倍。2024年3月,Claude Opus 3大概只能完成一个人类需要4分钟的软件任务;一年后,Claude Sonnet 3.7已经能处理约1.5小时任务;再往后,Claude Opus 4.6可以完成约12小时任务。
在用一连串数据图表把Claude的能力跃迁铺陈到极致之后,Anthropic终于点明了它真正的主旨:如果前沿AI继续以这样的速度发展下去,全球需要认真考虑放缓,甚至暂时停止前沿AI开发。

表达用词虽然委婉,但仍可称得上“暴论”,全球范围内的讨论热度瞬间被点燃。目前该贴的浏览量已经超过500万。但其实比“AI会不会失控”更值得关注的,还有“Anthropic如果已经深刻认识到这项工作的风险,为什么不自己先停下呢?”
对此,他们加了一个极其微妙的前提:“如果其他前沿实验室能一起按下暂停键,那我们也会采取同样的措施。”
这里的言外之意其实已经很清晰。除非大家同时停车,而且还能互相验票,确认谁都没偷偷往前跑,否则谁也别指望Anthropic会单方面踩下刹车。
于是讽刺的真相来了,全球跑得最快的AI公司,开始呼吁全世界同仁要踩踩刹车;但真问他自己要不要先松送油门时,答案又变成了:大家一起停才能停。
我想,这或许才是Anthropic这次表态能引发如此争议的原因之一。这已经不是一个技术伦理的问题,放到前沿AI竞赛的语境里,它本质上还是一个囚徒困境:
每家公司都知道AI的发展速度太快,每家公司都知道治理和法规滞后,每家公司也都知道更强模型可能带来失控风险;但大家更知道,只要自己先慢下来,别人就可能冲到前排。
所以,某种程度而言,这番呼吁的背后,不仅是技术上的预警,更是话语权的争夺。
在文末,Anthropic亮出底牌:未来几个月,他们将牵头组织一系列全球对话,拉上监管机构、政策制定者、学界和友商,开启一场关于“如何给AI自进化踩刹车”的全球探讨(博弈)。

而同样是在本周,OpenAI也发表了博客《A blueprint for democratic governance of frontier AI》,提出一套关于前沿AI民主治理的蓝图,核心是推动美国建立一个更持久的联邦框架,强化CAISI作为美国前沿AI安全主要机构的角色,并把递归自我改进明确列为未来治理必须重点关注的能力。
OpenAI在蓝图中表示,今天的系统中已经能看到递归自我改进的早期迹象,也就是“AI研发本身正在被AI加速”;它预计这会加剧开发者和国家之间的竞争压力,并带来现有机构尚无法应对的治理挑战。
可以看到,治理议题一旦成立,接下来竞争的就不只是模型能力,还有规则制定权。
无论是Anthropic,还是OpenAI等一众前沿AI公司,都被架在了一个尴尬位置:它们既是加速者,也是预警者;本身既是风险的制造者,还要充当规则的倡议者。也就是说,你既要向资本市场展示无限的造富能力,也得向监管机构表忠心我们非常警惕技术风险。
说白了,他们真正想做的,不只是提醒大家AI可能失控,而是在AI真的逼近失控之前,率先成为那个讨论“治理规则”的话事人。
AI造AI,正在发生
Anthropic之所以敢把“递归自我改进(RSI)”的技术细节与能力摆到明面上,还在于他们已经将其训练得炉火纯青了。

截至2026年5月,Anthropic合入代码库的代码中,超过80%可以归因于Claude。而在2025年2月Claude Code发布之前,这个比例还只是低个位数。
这不是小幅提效,而是研发流程的结构性重构。
在公司发展的前三年,Anthropic工程师每天合入的代码量基本稳定。2025年之后,Claude开始自主编写和运行代码,曲线首次上扬;到了2026年,模型能在更长时间跨度上独立工作,斜率进一步陡升。到2026年第二季度,典型工程师每天合入的代码量已是2024年的8倍。

Anthropic坦承,代码行数不等于生产力,8倍的数字肯定高估了真实效率,AI完全可能制造更多需要回收的“代码债”。
另一个数据更值得审视:今年3月的内部调查中,130名研究人员的中位数受访者认为,在AI协助下自己的产出是没有AI时的4倍。这意味着Claude已经不再是“偶尔帮忙写段脚本”的外挂,而是在系统性重写工程师的工作流。
更关键的是,Claude跨越了“写代码”的边界,进入了质量控制环节。
过去一年,研究员纠正、打断、中途接管Claude任务的比率持续下降——哪怕是在最复杂、最开放的任务上。在最开放的任务难度档位上,Claude的成功率在2026年5月达到76%,6个月已经暴涨50个百分点。

目前,所有提交到Anthropic代码库的改动,都会先经过Claude的自动审查,排查bug和安全漏洞。回溯分析显示,如果早些启用这套自动审查,大约三分之一导致claude.ai线上事故的bug本可在上线前被拦截。

这件事的反转之处在于:写这些代码的人,已经是全球最懂AI系统的顶尖工程师;而现在,Claude不仅在替他们写代码,还在替他们抓错误。
正如Anthropic在博客中所言:“我们正在接近一个临界点,即模型编写的代码质量将与人类工程师相当,然后在某些领域超越他们。”
AI研发链条里最基础、最耗时的一环,已经开始闭环。
真正变快的,是实验循环
如果说写代码还只是第一层变化,那么更深层的颠覆,是Claude开始极大地压缩实验循环。
AI研究并不总是靠“灵光一现”。真正吞噬时间的,是大量重复性工作:改一段代码,跑一次实验,观察结果,定位瓶颈,再改一轮。
Anthropic每次发布新模型时,都会做一个固定测试:给Claude一段训练小型AI模型的代码,让它在保证正确性的前提下,尽可能优化运行速度。这本质上是对AI研究循环的微缩模拟。
2025年5月,Claude Opus 4做到了约3倍加速;到了2026年4月,Claude Mythos Preview直接干到了约52倍加速。作为对照,熟练的人类研究员通常需要4到8小时才能达到约4倍。

不要误读这个52倍,它不代表真实模型训练成本下降了52倍,仅限于该特定测试。但它释放的信号极强:在目标明确、反馈清晰、可反复试错的研究环节,Claude已经把时间压缩到了人类难以追上的数量级。
这也解释了Anthropic为何如此重视RSI。博客中直指核心:“递归自我改进不太可能以突然的‘顿悟’时刻发生……相反,我们预计它是一个持续、渐进的过程,AI逐渐接管更多研发任务。”
它不用每次都提出天才架构,只要能更快试错、更快排障、更快优化,研发飞轮就会被持续推高。
Anthropic还给了一个工程现场的案例:一次常规升级导致数万训练任务崩溃,工程师仅给Claude一段文字描述和集群权限,Claude便自主排查运行环境,揪出隐藏极深的调试标志并完成修复。
原本需人类两三天的工作,Claude只用了两小时。
Claude不只是更快地产出代码,而是在压缩“从问题出现到问题解决”的时间差。这才是前沿实验室真正关心的加速。
人类还在掌舵,但方向盘开始摇摆
Anthropic在文章中反复强调,人类目前仍然有一个明显优势:研究品味(Research Taste)。也就是判断哪些问题值得做,哪些结果可信,哪条路线值得继续,哪条路线应该放弃。
这也是AI研发中最难被自动化的一环。写代码可以评测,跑实验可以看结果,优化速度可以计时。但“下一步该做什么”,往往不是标准答案题。
不过,Anthropic也已经开始测试Claude在这个环节上的能力。

他们选取了真实研究会话中人类研究员曾经走弯路的129个节点,把走弯路之前的上下文交给不同版本的Claude,让模型判断下一步该怎么做。再由另一个能看到完整结局的Claude评估答案。
结果显示,2025年11月的Opus 4.5,有51%的概率给出比当时人类更好的下一步选择。到了2026年4月,Mythos Preview的比例提升到64%。
这个测试当然不能被夸大。样本本身就来自人类曾经做得不够好的节点,裁判也是模型,因此它不是严格意义上的人机公平竞赛。
但它也说明Claude涉及到到的不只是执行层,而是开始靠近研究判断层。这也是人类角色正在变化的地方。
过去,研究员亲自写代码、跑实验、分析结果、决定下一步。现在,越来越多执行工作可以交给模型,人类更像是在提出问题、设定边界、验证结果。
这听起来像是解放,但也意味着另一种压力:当执行成本大幅下降,真正稀缺的就变成判断力本身。Anthropic已经感受到了这种瓶颈。
Claude能更快地产生代码,但代码审查会变成新瓶颈;Claude能产出更多想法、工具和实验,但组织未必有足够能力消化它们。
瓶颈并不会消失,只会转移到下一个还没有被自动化的环节。这也是AI自我加速真正麻烦的地方。它不是把所有问题一次性解决,而是不断把压力推向人类仍然负责的那部分。
三种未来,核心问题只有一个
在这篇博客里,Anthropic推演了三种未来。但与其说是三种科幻剧本,不如说是三个不同程度的加速场景。
第一种,能力曲线开始变平。
也许现在看起来很陡的指数曲线,最后都会变成S曲线。也许“研究品味”无法靠规模化解决。也许真正的瓶颈不在模型,而在芯片、电力、数据中心和供应链。
如果这个场景发生,AI研发不会进入完全自我加速,社会也会获得更多适应时间。
但Anthropic并不认为这意味着风险消失。它举了Project Glasswing的例子:Mythos Preview在上线最初几周,就发现了全球关键系统中超过一万个高危和严重级软件漏洞。
需要说清楚的是,这些漏洞不是AI自我进化制造出来的,而是AI主动发现的。
这个例子想说明的是,即便模型能力停在今天,现有AI能力扩散出去,也已经足以让很多现实系统承压。网络安全的瓶颈可能不再是“找不到漏洞”,而是“修不过来”。
第二种,是Anthropic认为更可能的情况:AI继续加速研发,但人类仍然掌舵。
在这个场景里,AI大幅自动化研发流程,人类继续负责方向选择和最终判断。一个很小的团队,可以完成过去大组织才能承担的工作量。科学发现、药物研发、材料、能源,都可能因此被加速。
但同样的能力也会降低危险行动的门槛。更高效的代码生成、自动化实验和长时程Agent,不只会服务于科研,也可能服务于网络攻击、监控系统和个性化操纵。
更现实的问题是,组织能否消化这种加速。Anthropic已经看到,代码生成之后,审查成为瓶颈;想法生成之后,决策和筛选成为瓶颈。AI把一段流程变快,下一段流程就会被暴露出来。
第三种,才是完整意义上的递归自我改进。
也就是AI开始设计、训练、迭代自己的继任者。到了这个阶段,AI进步速度主要取决于算力供给,人类退到监督、验证和审核的位置。
Anthropic在这里的表述非常谨慎。它没有声称这一定会发生,也没有声称已经发生。但它承认,如果这一幕真的出现,今天的直觉可能不再可靠。因为模型中的偏差、失准和对齐问题,可能会在一代代自我构建中叠加放大,变得越来越难理解。
所以,这三种未来真正共同指向的问题,不是“AI什么时候觉醒”,而是人类还能不能在不断加速的研发链条中保持足够的理解、验证和干预能力。
听起来像治理,落地却是博弈
也正因为如此,Anthropic才会在文章最后提出:世界应该拥有一种选项,在必要时放缓甚至暂停前沿AI开发。
但它并没有把问题说得很天真。
Anthropic很清楚,如果只有谨慎的实验室放慢脚步,结果可能只是把领先位置让给更不谨慎的玩家。所以真正有效的暂停,必须是多个国家、多个前沿实验室,在相同条件下共同参与,并且能够相互验证。
这也是为什么,这套主张一出来,就很容易引发反感。
因为它听起来不像一句简单的安全呼吁,更像是一套现实的竞赛规则:要停可以,但必须大家一起停;要减速可以,但必须能确认别人也没有偷偷加速。
这里面当然有合理性。前沿AI不是某家公司自己关门就能解决的问题。只要技术竞赛存在,单方面“做好人”就很可能变成单方面退出牌桌。但这也正是大众不信任的来源。
当一家跑在最前面的公司开始讨论“暂停”,普通人很难不追问一句:这是在为安全负责,还是在为未来的规则制定抢位置?
更何况,Anthropic不是唯一一个在这个时间点发声的前沿公司。
就在本周,OpenAI也发布了关于前沿AI民主治理的蓝图,他们同样提到,当前系统中已经能看到RSI的早期迹象,也就是AI研发本身正在被AI加速;这种能力可能加剧开发者和国家之间的竞争压力,并带来现有机构难以应对的治理挑战。
Anthropic和OpenAI的表述不完全相同,落点也不同。一个强调多方可验证的减速机制,一个强调民主治理和国家级安全机构。但共同点很明显:它们都在把RSI从一个技术问题,推成一个治理问题。
而治理议题一旦成立,竞争的就不只是模型能力,还有规则制定权。
谁来定义什么是危险能力,谁来设计评估标准,谁来触发暂停机制,谁来验证其他玩家是否违规,谁就会在下一阶段的AI竞赛中拥有更大的话语权。
