本文来自微信公众号: 不会笑青年 ,作者:不会笑青年
Fable 5,号称一款全球最先进的AI模型,6月9日发布,6月10日被破解,6月12日遭遇国家级出口管制。
从发布到被美国政府紧急限制访问,只用了72个小时。
有意思的是,其开发公司Anthropic,号称整个AI行业里最喜欢谈安全、最强调风险控制的企业之一。
结果,最重视安全的人,却遭遇了最轰动的安全事故。
这件事背后,可能藏着AI时代一个越来越难回避的问题。
Fable 5,到底有多强?
要理解这场风波,得先知道Fable 5是什么。
简单来说,它并不是普通意义上的聊天机器人,而是Anthropic目前最强大模型能力的公开版本。
它还有一个“兄弟”模型,叫Mythos 5。
两者底层能力几乎一样。
区别在于,Mythos 5被锁进了保险柜,只开放给少数大型机构使用;而Fable 5则加装了一层安全系统后,面向公众开放。
为什么要这么做?
因为两个月前,Anthropic在测试Mythos时发现了一件让自己都吃惊的事情。
这个模型居然能够自主发现软件漏洞。
而且不是普通漏洞。
它不仅能找到漏洞,还能分析漏洞成因,设计攻击路径,甚至一步步写出利用程序。
从发现问题到完成攻击,整个过程几乎不需要人类指导。
最夸张的是,它甚至找到了一个沉睡了27年的老漏洞。
当时不少安全研究人员都被震动了。
因为这意味着,AI已经不只是“帮程序员写代码”,而是在某些领域开始接近顶级安全专家的能力。
Anthropic因此做出决定。
Mythos不能公开。
风险太大。
于是,他们想出了一个折中的方案。
把最强能力保留在内部,再给公众提供一个经过安全处理的版本。
这个版本就是Fable 5。
为什么72小时就翻车了?
Anthropic当时对自己的方案相当有信心。
他们做了上千小时红队测试,邀请外部研究人员反复攻击模型,最终认为已经足够安全。
但现实比预想来得快得多。
模型上线不到一天,知名红队研究者Pliny就宣布成功越狱。
所谓越狱,其实就是绕过模型原本设置的限制。
原本不该回答的问题,它开始回答了,原本被禁止输出的内容,它也能输出。
6月10日,Pliny在社交媒体发帖宣布攻破Fable 5的安全层,并附上截图:模型输出了x86 Linux系统栈缓冲区溢出的完整利用教程,关键还详细地令人发指!
几乎将Anthropic用来约束模型行为的全部内部规则被公开摊在了GitHub上。
这相当于考试答案还没发卷,就已经被贴到了网上。
很多人看到这里会觉得,是不是Anthropic技术不行?
其实问题没那么简单。
Fable 5的安全逻辑本身很聪明。
当用户提出涉及网络攻击、生物技术、化学合成等高风险问题时,系统不会直接拒绝,而是偷偷把请求转交给一个能力更弱的模型处理。
设计思路很合理。
既然强模型太危险,那就让弱模型回答。
能力上限本身就是安全边界。
可问题在于,人类并不是按规则出牌的。
研究人员发现,只要把危险问题拆成很多看似无害的小问题,分类系统就很难察觉。
比如单独询问某个化学反应原理,没有任何问题。
再问另一个反应条件,也很正常。
但当这些答案被拼接在一起时,就可能形成完整的敏感知识链条。
每块拼图都合法。
真正危险的是拼完整之后的画面。
而安全系统看到的,永远只是单独的拼图。
更棘手的是,多模型协作。
研究人员甚至让一个已经被破解的AI去辅助攻击另一个AI。
过去的安全测试,默认都是一个人面对一个模型。
现实世界里,却可能变成几个AI联手行动。
这已经超出了传统安全评估的范围。
真正值得关注的,不是一次越狱
很多人把这件事理解成一次普通的安全事故。
但如果仔细看,会发现真正令人不安的地方并不在于某个漏洞。
而在于一个事实开始越来越清晰。
AI能力提升的速度,正在超过人类控制能力提升的速度。
过去的软件出现漏洞,可以修补。
服务器被攻击,可以升级防火墙。
但AI的问题往往不是某个程序错误。
而是模型本身越来越聪明之后,自然产生的新能力。
Anthropic曾经认为,只要设计足够完善的安全框架,就能把这种能力关进笼子里。
结果发现,笼子本身可能并不存在。
当模型足够聪明时,它天然就会具备很多危险能力。
一个能够发现漏洞的模型,同时也能利用漏洞。
一个能够设计防御方案的模型,同样知道如何发动攻击。
能力和风险,本来就是同一枚硬币的两面。
你无法只保留其中一面。
更关键的是,很多能力并不是工程师刻意教给它的。
而是在推理能力达到某个阶段后,自然涌现出来的。
这意味着未来所有足够强大的模型,可能都会面临同样的问题。
今天是Anthropic。
明天可能是任何一家AI公司。
所以Fable 5的72小时,其实不只是一个产品事故。
它更像是一场提前到来的压力测试。
过去几年,整个行业都在讨论如何让AI变得更聪明。
现在,一个新的问题摆到了台前:
当AI越来越接近顶级专家水平时,人类究竟还有没有办法给它装上一个真正可靠的“刹车系统”?
更值得思考的是,如果最安全的公司都无法保证绝对安全,那么未来我们应该相信什么?
相信企业自律?技术补丁?监管力量?
或许答案都不完整。
Fable 5消失了。
但它留下的问题,才刚刚开始。
