Fable到底有多强?为何仅72小时,就从发布到被禁用?
2026-06-15 13:01

Fable到底有多强?为何仅72小时,就从发布到被禁用?

本文来自微信公众号: 不会笑青年 ,作者:不会笑青年


Fable 5,号称一款全球最先进的AI模型,6月9日发布,6月10日被破解,6月12日遭遇国家级出口管制。


从发布到被美国政府紧急限制访问,只用了72个小时。


有意思的是,其开发公司Anthropic,号称整个AI行业里最喜欢谈安全、最强调风险控制的企业之一。


结果,最重视安全的人,却遭遇了最轰动的安全事故。


这件事背后,可能藏着AI时代一个越来越难回避的问题。


Fable 5,到底有多强?


要理解这场风波,得先知道Fable 5是什么。


简单来说,它并不是普通意义上的聊天机器人,而是Anthropic目前最强大模型能力的公开版本。


它还有一个“兄弟”模型,叫Mythos 5。


两者底层能力几乎一样。


区别在于,Mythos 5被锁进了保险柜,只开放给少数大型机构使用;而Fable 5则加装了一层安全系统后,面向公众开放。


为什么要这么做?


因为两个月前,Anthropic在测试Mythos时发现了一件让自己都吃惊的事情。


这个模型居然能够自主发现软件漏洞。


而且不是普通漏洞。


它不仅能找到漏洞,还能分析漏洞成因,设计攻击路径,甚至一步步写出利用程序。


从发现问题到完成攻击,整个过程几乎不需要人类指导。


最夸张的是,它甚至找到了一个沉睡了27年的老漏洞。


当时不少安全研究人员都被震动了。


因为这意味着,AI已经不只是“帮程序员写代码”,而是在某些领域开始接近顶级安全专家的能力。


Anthropic因此做出决定。


Mythos不能公开。


风险太大。


于是,他们想出了一个折中的方案。


把最强能力保留在内部,再给公众提供一个经过安全处理的版本。


这个版本就是Fable 5。


为什么72小时就翻车了?


Anthropic当时对自己的方案相当有信心。


他们做了上千小时红队测试,邀请外部研究人员反复攻击模型,最终认为已经足够安全。


但现实比预想来得快得多。


模型上线不到一天,知名红队研究者Pliny就宣布成功越狱。


所谓越狱,其实就是绕过模型原本设置的限制。


原本不该回答的问题,它开始回答了,原本被禁止输出的内容,它也能输出。


6月10日,Pliny在社交媒体发帖宣布攻破Fable 5的安全层,并附上截图:模型输出了x86 Linux系统栈缓冲区溢出的完整利用教程,关键还详细地令人发指!


几乎将Anthropic用来约束模型行为的全部内部规则被公开摊在了GitHub上。


这相当于考试答案还没发卷,就已经被贴到了网上。


很多人看到这里会觉得,是不是Anthropic技术不行?


其实问题没那么简单。


Fable 5的安全逻辑本身很聪明。


当用户提出涉及网络攻击、生物技术、化学合成等高风险问题时,系统不会直接拒绝,而是偷偷把请求转交给一个能力更弱的模型处理。


设计思路很合理。


既然强模型太危险,那就让弱模型回答。


能力上限本身就是安全边界。


可问题在于,人类并不是按规则出牌的。


研究人员发现,只要把危险问题拆成很多看似无害的小问题,分类系统就很难察觉。


比如单独询问某个化学反应原理,没有任何问题。


再问另一个反应条件,也很正常。


但当这些答案被拼接在一起时,就可能形成完整的敏感知识链条。


每块拼图都合法。


真正危险的是拼完整之后的画面。


而安全系统看到的,永远只是单独的拼图。


更棘手的是,多模型协作。


研究人员甚至让一个已经被破解的AI去辅助攻击另一个AI。


过去的安全测试,默认都是一个人面对一个模型。


现实世界里,却可能变成几个AI联手行动。


这已经超出了传统安全评估的范围。


真正值得关注的,不是一次越狱


很多人把这件事理解成一次普通的安全事故。


但如果仔细看,会发现真正令人不安的地方并不在于某个漏洞。


而在于一个事实开始越来越清晰。


AI能力提升的速度,正在超过人类控制能力提升的速度。


过去的软件出现漏洞,可以修补。


服务器被攻击,可以升级防火墙。


但AI的问题往往不是某个程序错误。


而是模型本身越来越聪明之后,自然产生的新能力。


Anthropic曾经认为,只要设计足够完善的安全框架,就能把这种能力关进笼子里。


结果发现,笼子本身可能并不存在。


当模型足够聪明时,它天然就会具备很多危险能力。


一个能够发现漏洞的模型,同时也能利用漏洞。


一个能够设计防御方案的模型,同样知道如何发动攻击。


能力和风险,本来就是同一枚硬币的两面。


你无法只保留其中一面。


更关键的是,很多能力并不是工程师刻意教给它的。


而是在推理能力达到某个阶段后,自然涌现出来的。


这意味着未来所有足够强大的模型,可能都会面临同样的问题。


今天是Anthropic。


明天可能是任何一家AI公司。


所以Fable 5的72小时,其实不只是一个产品事故。


它更像是一场提前到来的压力测试。


过去几年,整个行业都在讨论如何让AI变得更聪明。


现在,一个新的问题摆到了台前:


当AI越来越接近顶级专家水平时,人类究竟还有没有办法给它装上一个真正可靠的“刹车系统”?


更值得思考的是,如果最安全的公司都无法保证绝对安全,那么未来我们应该相信什么?


相信企业自律?技术补丁?监管力量?


或许答案都不完整。


Fable 5消失了。


但它留下的问题,才刚刚开始。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定