本文来自微信公众号: 扯氮集 ,作者:魏武挥二世,原文标题:《A社摁下了最新的模型 但这件事充满蹊跷》
一
大洋彼岸AI御三家之一,Anthropic,就简称a社吧,表示最新模型(Fable 5和Mythos 5)都不给访问了。
一开始是a社表示是依据美国政府的相关指令,拒绝外国使用。然后就扩展为全部人类都不能访问。后面这个然后似乎和美国政府相关指令无关,好像就是a社自己做出的决定。因为美帝政府的指令,其实很难操作,连a社自己都有外国员工,那咋弄弄。所以,索性全关了吧。
我今天看了一些媒体新闻和评论,感觉都在围绕所谓ai越狱——也就是绕过安全护栏让ai去执行一些“不好的”指令。mythos和fable能力太强,但安全护栏还不够强,所以,停一下。
老实讲,我是看得蛮疑惑的。
二
一周前,国内有一个科技媒体发过一篇文章,注意是一周前哦:6月6日。
Anthropic警告:最新模型Mythos已现"失控"迹象
文章跑上来就这么说:
2026年6月初,《华尔街日报》援引Anthropic内部一份未公开报告,扔下了一颗重磅炸弹:该公司最新前沿模型Mythos,已在内部测试中出现"无人干预下自我改进"的迹象。
所谓"自我改进",用大白话讲就是——AI自己在写代码优化自己,而且效果比人类工程师手动调参还要好。
Anthropic在报告中明确呼吁:全球应参考"核不扩散条约"模式,建立前沿AI研发的国际协调机制,对新一代模型的训练进行强制性暂缓与审查。
也就是在6月6日,根据这个科技媒体所述,在本月头上,a社就有一个内部未公开报告,说mythos有无人干预下自我改进的迹象。然后华尔街日报就此进行了报道。
这显然就不是说什么ai越狱,绕过安全护栏了。而是AI自己能进化了,很可怕,得停一停。
那么,这篇简中媒体报道准确吗?
三
我去wsj网站上做了一些搜索工作,得到一篇题为Anthropic Urges Global Pause in AI Development,Flags‘Self-Improvement’Risk(Anthropic敦促全球暂停AI开发,警示"自我改进"风险)的文章,发表于4日,是最接近该简中媒体所提及的。
在这篇报道中,有如下表述(中文是沉浸机翻):

这里的博客文章是带链接的,我点击了过去:

确实,a社在自己的博客里,发布了题为《when ai builds itself》的文章,非常长,链接地址是https://www.anthropic.com/institute/recursive-self-improvement。发布时间应该确实是wsj提到的本月4日。
我并不算特别仔细地阅读了这篇文章——有一些技术细节我确实也不大明所以——我的第一直观感受就是,a社的这篇博客文章,一直在夸耀自家的ai有多强。也就是说,when ai bulids itself这个标题,你不能从警惕性的角度去理解,而应该是从夸耀性的角度去理解:ai能改进自己的时候,你知道能多提升效率吗?
大段大段的秀肌肉之后,到了Possible futures这一节,a社给出了三种可能。第三种可能才是ai bulids itself,也并没有那么得悲观。接下来到了文末,小标题为What should we do?,画风就突变了。这一节不长,四五段吧,出于可以理解的原因,我并不想在这里张贴,有兴趣的自己寻摸着去看便是。
所以,就这篇博客文章本身的谋篇布局来看,并不是一篇主要在警示风险的文章,它的主题也不是围绕在wsj的标题“Anthropic敦促全球暂停AI开发,警示"自我改进"风险”。但你也不能说wsj在胡说八道,在冗长的博客文章里,a社也确实写下了这样的话,a社也确实有ai会自我改进的担忧。
四
a社在ai进路上,显得特别别扭,好赖话它一家全说了。一方面你经常会看到a社跑出来呼吁ai太可怕,要小心啊。一方面你又会看到它的新模型怎么怎么牛逼。以至于我一个在某领先国模公司里就职的朋友有次随手拍了一张照片给我看:
a社摁下新模型的公开使用,到底是基于对ai自我进化的担忧,还是基于对绕过ai安全防护栏的担忧,我是有点迷惑的。所以,我打算去问一下另外一个ai,咋回事。
一个神奇的事发生了。
五
询问gemini,它巴拉巴拉写了一段,我清晰地看到它提及了美国政府的指令,并表示原因在此。但显然没有写完,因为写了1,但没有2。
然后它就停住了,我以为是网络原因,就刷新了一下。然后我同样清晰地看到这样的字样:该对话已删除——可惜手不够快,没截屏。翻翻记录,确实,连问带答,全没了。
我不是很甘心,于是就又问了一遍。
gemini表示:
现有数据库针对“Mythos被停用的具体官方归因”信息不足,无法推导单一的确切物理干预动机。
高深莫测。
