本文来自微信公众号: 极客公园 ,作者:桦林舞王,编辑:靖宇,原文标题:《最强模型 Fable 5,四天就被「拔了网线」》
6月9日,Anthropic发布了Claude Fable 5。这是它有史以来向公众开放的最强模型,属于此前只对少数安全研究机构开放的「Mythos」级别。
6月12日,Fable 5被全面关停。
四天。从发布到下架,只用了四天。
这中间发生了什么?简单说,是一场连环碰撞——用户觉得它管得太多,安全研究者觉得它挡了正事,一家公司声称破解了它的防线,而政府认为这构成了安全威胁。Anthropic做了一个它认为「足够安全」的产品,但几乎没有任何一方满意。
这不是一个关于某家公司的故事。这是整个AI行业即将面对的治理难题的预演。
01
一个被嫌弃的「安全典范」
要理解Fable 5为什么会引发这么大的争议,得先理解它到底是什么。
今年4月,Anthropic宣布了Mythos——一个强大到让公司自己都紧张的模型。在内部测试中,Mythos级别的模型在主流代码仓库中发现了超过23000个关键漏洞。Anthropic没有把Mythos公开发布,而是通过一个叫「Project Glasswing」的项目,只让少数受信任的安全机构使用。Mozilla就是其中之一,据说靠它修复了数百个漏洞。
Fable 5就是Mythos的「公众版」。同样的底层模型,但套上了一层严格的安全护栏——涉及网络安全、生物学、化学的查询会被自动拦截或降级处理。Anthropic还要求所有用户数据保留至少30天,用于监测越狱和滥用行为。
Anthropic的逻辑很清晰:模型太强了,不加限制不行。
但用户不这么看。
Fable 5上线后,抱怨铺天盖地。网络安全研究人员发现,哪怕只是让模型读一篇安全博客,都可能触发拦截。IBM X-Force的安全研究员说,Fable拒绝的很多请求和网络安全只是「沾了个边」。
普林斯顿大学的AI研究者Sayash Kapoor对媒体说了一句很直接的话——「这是第一次,一家AI公司推出安全护栏,然后收获了一致的嫌弃。」
更让用户愤怒的是一个藏在Fable 5长达319页系统卡里的细节:当模型检测到用户在做前沿AI开发相关的工作——比如训练流水线或芯片设计——它会暗中降低回复质量,但不会告诉你。你问了一个问题,得到了一个看起来正常的答案,但这个答案被故意「注了水」。
这被批评者称为「秘密削弱secret sabotage」这个词。
Anthropic在不到48小时内道歉了。「我们做了错误的权衡,对不起。」公司宣布将所有隐性限制改为可见的降级通知——如果你的请求被拦截,模型会明确告诉你,并将你的查询转交给旧版模型Opus 4.8处理。
但故事没有结束。
02
一封信,拔掉了插头
如果只是用户不满,Anthropic还能通过调整护栏来化解。但接下来发生的事,超出了任何一家公司的控制范围。
6月12日下午,一封来自美国商务部的信送达了Anthropic CEO Dario Amodei的办公室。信的内容很简单:以出口管制为由,要求暂停所有外国公民对Fable 5和Mythos 5的访问。
据报道,触发这封信的原因是另一家公司声称成功越狱了Mythos模型。
Anthropic无法在系统层面实时区分用户国籍。结果就是,为了合规,公司不得不对全球所有用户关闭Fable 5和Mythos 5。其他模型不受影响。
这可能是AI行业历史上第一次,一个已经公开部署的前沿模型因为外部指令被全面下架。
Anthropic的回应措辞很强硬。公司表示,它只收到了一个「窄范围、非通用」的越狱报告——本质上就是让模型阅读一个特定代码库并修复其中的漏洞,而这种能力在其他公开模型上同样可以实现,包括OpenAI的GPT-5.5。
「如果这个标准适用于全行业,我们认为它基本上会让所有前沿模型的部署陷入停滞。」
这句话的分量很重。Anthropic不是说「我们的模型没问题」,而是在说:按照这个逻辑,没有任何一家公司的最强模型能活过一次越狱报告。
03
亲手呼唤的监管,反噬了自己
这件事最讽刺的地方在于:Anthropic可能是全行业最积极呼吁监管的公司。
就在Fable 5发布后一天,Dario Amodei发表了一篇长文《Policy on the AI Exponential》。在文中,他明确提出,政府应该拥有类似美国联邦航空管理局(FAA)的权力——对前沿模型进行强制性第三方测试,并有权阻止被认为不安全的模型发布。
他说AI的发展速度是指数级的,而政策制定是线性的。他用了托尔金笔下树人的比喻——智慧但行动迟缓,等他反应过来,森林已经被烧了。
Anthropic甚至承诺为相关立法提供「大量资金支持」。
然后,他呼唤的那种监管权力,在三天后被用在了自己身上。
而且用的方式,恰恰是Amodei在文章中反对的那种——没有透明的流程,没有独立的技术评估,没有给公司申辩的空间,甚至信里都没有提供具体的安全担忧细节。只有一个结论:关停。
Anthropic在官方声明中说了一句耐人寻味的话:「我们认为政府应该有能力阻止不安全的部署,但应该通过一个透明、公平、基于技术事实的法定程序。这次行动不符合这些原则。」
这是一个很精准的立场:我同意你有这个权力,但你不能这样用。
04
当模型变成一种「基础设施级风险」
把目光从Anthropic身上移开,看看更大的图景。
Fable 5事件暴露了一个结构性矛盾:AI模型已经强到让所有利益方都不舒服的程度,但没有人知道该怎么管。
对用户来说,Fable 5的安全护栏太紧了。一个安全研究员不能用它来做安全研究——这就像给外科医生一把不让碰血的手术刀。
对企业客户来说,30天数据留存是个大问题。微软已经限制了员工使用Fable 5,担心企业机密被保留在Anthropic的服务器上。微软甚至开始取消开发者的Claude Code授权,转向自家的GitHub Copilot。
对政府来说,一个能发现23000个漏洞的模型,一旦护栏被突破,后果不堪设想。哪怕只是一个窄范围的越狱,也足以让人紧张。
而对Anthropic自己来说,它面对的是一个几乎不可能的平衡题:做得太弱,模型没有竞争力;做得太强,模型变成烫手山芋;安全措施太松,被指责不负责任;安全措施太紧,用户跑到竞争对手那里去。
这不是Anthropic一家公司的困境。任何一家推出足够强大模型的公司,都会撞上同样的问题。
Dario Amodei在他的政策文章里有一个判断:AI模型的能力提升不是线性的,而是指数级的。如果这个判断是对的,那么Fable 5今天面对的每一个矛盾,只会在下一代模型中被放大。
安全护栏会越来越难设计。越狱的攻防会越来越激烈。企业客户对数据保留的抵触会越来越强。而政府的干预——无论是否有透明的程序——只会来得越来越快。
05
没有人准备好的游戏
回到最开始的问题。Fable 5的四天之旅,表面上是一个产品的发布和下架,本质上是一次压力测试——测试的不是模型的能力,而是整个行业的治理框架。
测试结果很清楚:没有人准备好了。
AI公司没有准备好。Anthropic是行业里最重视安全的公司之一,它花了几千小时做红队测试,设计了多层防御体系,主动要求数据留存,甚至公开呼吁政府监管。但这些都没能阻止它在四天内经历从发布到下架的全过程。
用户没有准备好。当模型真的开始「拒绝」某些请求时,即便理由是安全,反应也是愤怒和嫌弃。
政府也没有准备好。一封没有详细技术说明的信,一个基于单一越狱报告的判断,就能让数亿用户失去对一个模型的访问权。
Amodei呼唤的是一架精密的治理机器——有独立评估、有透明流程、有申诉机制。他得到的是一封下午五点二十一分送达的信。
这大概就是AI治理的现状:所有人都知道需要规则,但没有人来得及把规则写好。而模型,不会等。
