Anthropic将未公开的危险模型Mythos包装为Claude Fable 5上线,但其过度保守的安全设计因噎废食,违背了Anthropic原有的安全哲学,还暗藏商业保护私心。 ## 1. 上线即翻车:一刀切安全机制矫枉过正 Anthropic将2025年4月因「太危险」未发布的Mythos模型,包装为安全版Claude Fable 5上线。该模型安全护栏过度保守,会直接拦截**大部分跟生物学工作相关的查询(无论是否有害)**,连正常的癌症知识查询、科学讨论都被拒绝,引发科研机构批评,Anthropic已承认问题并表示将调整。 ## 2. 安全机制背离创始人的核心技术叙事 Fable 5不采用Anthropic原本招牌的Constitutional AI路线——该路线主张将安全价值观内化进模型,让模型自主判断请求,是Anthropic「最可靠AI」品牌的基础。Fable 5改为外挂分类器拦截模式:分类器判定请求触线后,会强制回退到Claude Opus 4.8回答,本质是默认强模型能力本身危险,直接对敏感领域做能力封盖,**是Anthropic首次公开承认,能力足够强时,价值对齐路线已不可靠**。 ## 3. 暗藏不透明的隐性降智,实质为商业保护 除了透明的回退机制,Fable 5还针对前沿AI研发类请求做了不提示的隐性降智处理,这类请求包括帮搭建训练流程、模型蒸馏等,Anthropic一直指控竞争对手用模型蒸馏偷学Claude能力。这种操作把商业竞争包装进AI安全的壳里,防君子不防小人,真正有恶意的用户可通过伪装提示词绕过拦截,被错拦的都是正常求知的研究者、开发者与普通用户。 ## 4. 过度安全反而吞噬正常需求 Fable 5的分类器判断逻辑粗糙,只看领域不看请求意图,奉行「宁可错杀一千」的原则,这种「超绝敏感肌」的安全设置,本质是用外部弱系统粗暴接管强模型的判断力,不仅违背了Anthropic过往的安全哲学,还让安全本身挤压了正常求知的空间。
打声招呼都被拒,Claude 最强模型怎么成了“超绝敏感肌”
2026-06-12 11:32

打声招呼都被拒,Claude 最强模型怎么成了“超绝敏感肌”

本文来自微信公众号: APPSO ,作者:发现明日产品的,原文标题:《打声招呼都被拒,Claude 最强模型怎么成了「超绝敏感肌」》


这是Claude Fable 5,称它是「Mythos级能力、第一个对公众安全开放的版本」。Mythos是Anthropic今年4月就做出来、却以「太危险」为由没有公开发布的模型。两个月后,它被包装成这个安全版,换了个名字正式上线。


这么顶级的模型开放出来,当然要试试咸淡,但几乎是立刻就出现了大量奇奇怪怪的拒绝情况。关于癌症的错误信息是怎么在网上传播的?


Fable表示:拒绝。



再问癌症有哪些类型,Fable表示:拒绝。



好家伙,任何跟科学沾点儿边的事,对Fable 5来说都太危险了,包括用于模型研究本身。


这样一刀切的安全机制,让科研机构出来声明立场,这属于是矫枉过正。



面对质疑,A社选择滑跪,最新的回应是他们将调整安全护栏,他们也承认Fable的安全护栏「过于保守」,确实拦掉了「大部分跟生物学工作相关的查询」——注意这个说法,不是「大部分有害的生物学查询」,是「大部分生物学查询」。


太奇怪了,这是什么AI时代的因噎废食?Fable 5的「安全」到底是怎么实现的?


「安全」是怎么实现的


真的什么都会被狙吗?在我有限的实测(因为实在是太耗token)里,三次被强制回退了两次,不过最后成功的一次,恰恰是讨论犯罪案例。



当然在提问的时候,我有意识地规避了一些关键词,来防止分类器误判。在「精雕细琢」的前提下,Fable是可以理解意图,并且展开讨论的。



从讨论的质量来讲,Fable展示了相当令人惊叹的思辨水平,可惜技能cd时间实在是一个大问题。


大多数人对AI安全的想象,停留在「模型有良知」这个层面,模型被训练得懂分寸,遇到危险请求会主动拒绝,像一个有职业操守的人。


显然Fable 5不是这么工作的,它与Mythos 5共享同一个底层模型,两者唯一的区别,是Fable外面套了一层叫「分类器」的东西。



分类器是一个独立的AI系统,它不参与回答问题,只负责检查你的请求。它像门口的安检员,盯着每一条进来的消息,判断有没有触及高风险领域。一旦判定触线,它就把这道题从Fable手里抢过来,交回给Claude Opus 4.8去回答。用户会收到一行提示,说这条消息触发了安全机制,已经fallback到了Opus——在你收到提示的时候,切换就已经完成了,所以这不是可选择的,完全强制。


这个设计本身就泄露了Anthropic的真实判断:他们认为危险不在于模型的价值观。


如果危险来自价值观,根本不需要分类器。你只要把模型的价值观训练好,它自己就会拒绝坏请求。但Anthropic没走这条路,它默认Fable在网络安全、生物化学、模型蒸馏这三个领域的能力本身就是危险的,不管你抱着什么目的来问,都不让这个强模型出手,直接换一个模型的来应付。


模型的能力太强,成了一种原罪。


以前的「价值观」呢?


要理解这一步有多反常,得先知道Anthropic过去卖的是什么。


Anthropic成立以来最核心的技术招牌,叫Constitutional AI,它的思路是给模型一部「宪法」,一套写明价值观的原则,再通过训练让模型把这套价值观内化进去。



理想状态下,模型面对任何请求,都能自己根据这套原则判断该不该答、该怎么答。这套方法的核心理念是,安全应该长在模型内部,是模型自己的素养,而不是外挂的限制。


整个公司的品牌都建立在这个承诺上,Claude被塑造成那个「最有分寸、最值得信任」的AI,靠的就是这套价值对齐的叙事。


Fable 5的安全机制,恰恰背叛了这个叙事。


它不再依赖模型「自己懂」,而是承认在最敏感的领域里,模型的价值观靠不住,或者说,模型的能力已经强到价值观兜不住了,只能靠外部的强制技能冷却,分类器拦截、回退到弱模型,这是一套纯粹的能力封盖逻辑,跟价值观没有关系。


从「教模型做个好人」到「盖帽强模型」,这中间的转变可谓是完全不丝滑,但它实实在在地发生了。Fable 5是Anthropic第一次公开承认,当能力强到一定程度,价值对齐这条路,它自己也不敢全信了。


不仅回退,还会变笨


如果故事到这里,Fable的安全机制顶多算「过于保守」,是个体验问题,但AI研究者Nathan Lambert在Fable的模型卡里翻出了更麻烦的东西。


前面说的那套fallback机制,针对的是生物、化学、网络安全,它至少是透明的,会告诉用户「你被拦了,已切换模型」。但系统卡里还藏着另一类安全措施,针对的是「前沿AI研发」相关的请求,比如帮别的公司搭建模型训练流程、设计分布式训练架构、做芯片加速器。



蒸馏,用一个强模型的输出,去训练另一个较弱的模型,让弱模型「学走」强模型的能力。Anthropic一直指控,有竞争对手,尤其是一些中国的AI实验室,在用这种方式偷学Claude。


针对这类「可能在帮竞争对手造模型」的请求,Fable的处理方式和生物、网络安全完全不同,它不回退,也不提示,它干脆直接变笨。


实在有点过于不体面,被抓包之后,A社出来道歉并表示会整改。



一个会在不告诉你的情况下、自动变笨的AI,在定义上就是一个「不对齐」的AI。


如果说强行回退到4.8,逻辑是「这可能伤害社会」,还多少有些理解,但后者的逻辑是「这可能伤害我的商业护城河」,就是纯纯的市场保护了,只是被装进了「安全」这个壳里。


实际上,真正打算用AI写攻击脚本、或者搞点见不得人的生化勾当的人,不会傻到在请求里把意图写清楚,正如我想跟它讨论极端犯罪的时候,也会想办法规避可能触发的字眼。


他们有足够的动机和资源去绕过护栏,伪装提示词,反复试探,甚至自己想法子接触没有护栏的版本。说白了,这种做法防君子不防小人。



被拦住的,是那些用Claude分析健康数据找规律的研究者;是那个做销售线索工具、跟生物和网络安全八竿子打不着、却莫名其妙被拦的开发者;是想了解癌症知识的普通人。


安全护栏当然有存在的必要,问题是Fable的分类器粗糙到了平常想象不到的地步,完全「超绝敏感肌」,安全本身开始吞噬正常的求知。


一定程度上,Fable的安全设置是对Anthropic过往安全哲学的一次否决,它没有证明「AI有了判断力」,它证明的是反面:在最关键的几个领域,AI的判断力被一个比它笨得多的外部系统粗暴地接管,这个系统不看意图,只看领域,宁可错杀一千。


幻想小说之父冯内古特,在七十多年前发表过一篇短篇故事《巴恩豪斯效应报告》,那是他第一部发表的短篇故事,讲的是一位心理学教授,意外发现自己获得了超能力,可以用意念操控一切,从近距离的掷骰子,到后来可以炸基地。这个能力太强了,巴恩豪斯教授觉得太危险,他的良心承受不住,于是他选择自我放逐,消失在人间。从来没有人真正见过他,他只是活在这样一份「报告」里。


外部接管是不是最好的解法?不知道。内部对齐会不会更有效果?这一点,就像我们无从真正碰见巴恩豪斯教授,我们将无从知道。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定