2026-06-15 13:01

Fable到底有多强？为何仅72小时，就从发布到被禁用？

不会笑青年

本文来自微信公众号：不会笑青年，作者：不会笑青年

Fable 5，号称一款全球最先进的AI模型，6月9日发布，6月10日被破解，6月12日遭遇国家级出口管制。

从发布到被美国政府紧急限制访问，只用了72个小时。

有意思的是，其开发公司Anthropic，号称整个AI行业里最喜欢谈安全、最强调风险控制的企业之一。

结果，最重视安全的人，却遭遇了最轰动的安全事故。

这件事背后，可能藏着AI时代一个越来越难回避的问题。

Fable 5，到底有多强？

要理解这场风波，得先知道Fable 5是什么。

简单来说，它并不是普通意义上的聊天机器人，而是Anthropic目前最强大模型能力的公开版本。

它还有一个“兄弟”模型，叫Mythos 5。

两者底层能力几乎一样。

区别在于，Mythos 5被锁进了保险柜，只开放给少数大型机构使用；而Fable 5则加装了一层安全系统后，面向公众开放。

为什么要这么做？

因为两个月前，Anthropic在测试Mythos时发现了一件让自己都吃惊的事情。

这个模型居然能够自主发现软件漏洞。

而且不是普通漏洞。

它不仅能找到漏洞，还能分析漏洞成因，设计攻击路径，甚至一步步写出利用程序。

从发现问题到完成攻击，整个过程几乎不需要人类指导。

最夸张的是，它甚至找到了一个沉睡了27年的老漏洞。

当时不少安全研究人员都被震动了。

因为这意味着，AI已经不只是“帮程序员写代码”，而是在某些领域开始接近顶级安全专家的能力。

Anthropic因此做出决定。

Mythos不能公开。

风险太大。

于是，他们想出了一个折中的方案。

把最强能力保留在内部，再给公众提供一个经过安全处理的版本。

这个版本就是Fable 5。

为什么72小时就翻车了？

Anthropic当时对自己的方案相当有信心。

他们做了上千小时红队测试，邀请外部研究人员反复攻击模型，最终认为已经足够安全。

但现实比预想来得快得多。

模型上线不到一天，知名红队研究者Pliny就宣布成功越狱。

所谓越狱，其实就是绕过模型原本设置的限制。

原本不该回答的问题，它开始回答了，原本被禁止输出的内容，它也能输出。

6月10日，Pliny在社交媒体发帖宣布攻破Fable 5的安全层，并附上截图：模型输出了x86 Linux系统栈缓冲区溢出的完整利用教程，关键还详细地令人发指！

几乎将Anthropic用来约束模型行为的全部内部规则被公开摊在了GitHub上。

这相当于考试答案还没发卷，就已经被贴到了网上。

很多人看到这里会觉得，是不是Anthropic技术不行？

其实问题没那么简单。

Fable 5的安全逻辑本身很聪明。

当用户提出涉及网络攻击、生物技术、化学合成等高风险问题时，系统不会直接拒绝，而是偷偷把请求转交给一个能力更弱的模型处理。

设计思路很合理。

既然强模型太危险，那就让弱模型回答。

能力上限本身就是安全边界。

可问题在于，人类并不是按规则出牌的。

研究人员发现，只要把危险问题拆成很多看似无害的小问题，分类系统就很难察觉。

比如单独询问某个化学反应原理，没有任何问题。

再问另一个反应条件，也很正常。

但当这些答案被拼接在一起时，就可能形成完整的敏感知识链条。

每块拼图都合法。

真正危险的是拼完整之后的画面。

而安全系统看到的，永远只是单独的拼图。

更棘手的是，多模型协作。

研究人员甚至让一个已经被破解的AI去辅助攻击另一个AI。

过去的安全测试，默认都是一个人面对一个模型。

现实世界里，却可能变成几个AI联手行动。

这已经超出了传统安全评估的范围。

真正值得关注的，不是一次越狱

很多人把这件事理解成一次普通的安全事故。

但如果仔细看，会发现真正令人不安的地方并不在于某个漏洞。

而在于一个事实开始越来越清晰。

AI能力提升的速度，正在超过人类控制能力提升的速度。

过去的软件出现漏洞，可以修补。

服务器被攻击，可以升级防火墙。

但AI的问题往往不是某个程序错误。

而是模型本身越来越聪明之后，自然产生的新能力。

Anthropic曾经认为，只要设计足够完善的安全框架，就能把这种能力关进笼子里。

结果发现，笼子本身可能并不存在。

当模型足够聪明时，它天然就会具备很多危险能力。

一个能够发现漏洞的模型，同时也能利用漏洞。

一个能够设计防御方案的模型，同样知道如何发动攻击。

能力和风险，本来就是同一枚硬币的两面。

你无法只保留其中一面。

更关键的是，很多能力并不是工程师刻意教给它的。

而是在推理能力达到某个阶段后，自然涌现出来的。

这意味着未来所有足够强大的模型，可能都会面临同样的问题。

今天是Anthropic。

明天可能是任何一家AI公司。

所以Fable 5的72小时，其实不只是一个产品事故。

它更像是一场提前到来的压力测试。

过去几年，整个行业都在讨论如何让AI变得更聪明。

现在，一个新的问题摆到了台前：

当AI越来越接近顶级专家水平时，人类究竟还有没有办法给它装上一个真正可靠的“刹车系统”？

更值得思考的是，如果最安全的公司都无法保证绝对安全，那么未来我们应该相信什么？

相信企业自律？技术补丁？监管力量？

或许答案都不完整。

Fable 5消失了。

但它留下的问题，才刚刚开始。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定