Anthropic将未公开的危险模型Mythos包装为Claude Fable 5上线，但其过度保守的安全设计因噎废食，违背了Anthropic原有的安全哲学，还暗藏商业保护私心。 ## 1. 上线即翻车：一刀切安全机制矫枉过正 Anthropic将2025年4月因「太危险」未发布的Mythos模型，包装为安全版Claude Fable 5上线。该模型安全护栏过度保守，会直接拦截**大部分跟生物学工作相关的查询（无论是否有害）**，连正常的癌症知识查询、科学讨论都被拒绝，引发科研机构批评，Anthropic已承认问题并表示将调整。 ## 2. 安全机制背离创始人的核心技术叙事 Fable 5不采用Anthropic原本招牌的Constitutional AI路线——该路线主张将安全价值观内化进模型，让模型自主判断请求，是Anthropic「最可靠AI」品牌的基础。Fable 5改为外挂分类器拦截模式：分类器判定请求触线后，会强制回退到Claude Opus 4.8回答，本质是默认强模型能力本身危险，直接对敏感领域做能力封盖，**是Anthropic首次公开承认，能力足够强时，价值对齐路线已不可靠**。 ## 3. 暗藏不透明的隐性降智，实质为商业保护除了透明的回退机制，Fable 5还针对前沿AI研发类请求做了不提示的隐性降智处理，这类请求包括帮搭建训练流程、模型蒸馏等，Anthropic一直指控竞争对手用模型蒸馏偷学Claude能力。这种操作把商业竞争包装进AI安全的壳里，防君子不防小人，真正有恶意的用户可通过伪装提示词绕过拦截，被错拦的都是正常求知的研究者、开发者与普通用户。 ## 4. 过度安全反而吞噬正常需求 Fable 5的分类器判断逻辑粗糙，只看领域不看请求意图，奉行「宁可错杀一千」的原则，这种「超绝敏感肌」的安全设置，本质是用外部弱系统粗暴接管强模型的判断力，不仅违背了Anthropic过往的安全哲学，还让安全本身挤压了正常求知的空间。

2026-06-12 11:32

打声招呼都被拒，Claude 最强模型怎么成了“超绝敏感肌”

AppSo

本文来自微信公众号： APPSO ，作者：发现明日产品的，原文标题：《打声招呼都被拒，Claude 最强模型怎么成了「超绝敏感肌」》

这是Claude Fable 5，称它是「Mythos级能力、第一个对公众安全开放的版本」。Mythos是Anthropic今年4月就做出来、却以「太危险」为由没有公开发布的模型。两个月后，它被包装成这个安全版，换了个名字正式上线。

这么顶级的模型开放出来，当然要试试咸淡，但几乎是立刻就出现了大量奇奇怪怪的拒绝情况。关于癌症的错误信息是怎么在网上传播的？

Fable表示：拒绝。

再问癌症有哪些类型，Fable表示：拒绝。

好家伙，任何跟科学沾点儿边的事，对Fable 5来说都太危险了，包括用于模型研究本身。

这样一刀切的安全机制，让科研机构出来声明立场，这属于是矫枉过正。

面对质疑，A社选择滑跪，最新的回应是他们将调整安全护栏，他们也承认Fable的安全护栏「过于保守」，确实拦掉了「大部分跟生物学工作相关的查询」——注意这个说法，不是「大部分有害的生物学查询」，是「大部分生物学查询」。

太奇怪了，这是什么AI时代的因噎废食？Fable 5的「安全」到底是怎么实现的？

「安全」是怎么实现的

真的什么都会被狙吗？在我有限的实测（因为实在是太耗token）里，三次被强制回退了两次，不过最后成功的一次，恰恰是讨论犯罪案例。

当然在提问的时候，我有意识地规避了一些关键词，来防止分类器误判。在「精雕细琢」的前提下，Fable是可以理解意图，并且展开讨论的。

从讨论的质量来讲，Fable展示了相当令人惊叹的思辨水平，可惜技能cd时间实在是一个大问题。

大多数人对AI安全的想象，停留在「模型有良知」这个层面，模型被训练得懂分寸，遇到危险请求会主动拒绝，像一个有职业操守的人。

显然Fable 5不是这么工作的，它与Mythos 5共享同一个底层模型，两者唯一的区别，是Fable外面套了一层叫「分类器」的东西。

分类器是一个独立的AI系统，它不参与回答问题，只负责检查你的请求。它像门口的安检员，盯着每一条进来的消息，判断有没有触及高风险领域。一旦判定触线，它就把这道题从Fable手里抢过来，交回给Claude Opus 4.8去回答。用户会收到一行提示，说这条消息触发了安全机制，已经fallback到了Opus——在你收到提示的时候，切换就已经完成了，所以这不是可选择的，完全强制。

这个设计本身就泄露了Anthropic的真实判断：他们认为危险不在于模型的价值观。

如果危险来自价值观，根本不需要分类器。你只要把模型的价值观训练好，它自己就会拒绝坏请求。但Anthropic没走这条路，它默认Fable在网络安全、生物化学、模型蒸馏这三个领域的能力本身就是危险的，不管你抱着什么目的来问，都不让这个强模型出手，直接换一个模型的来应付。

模型的能力太强，成了一种原罪。

以前的「价值观」呢？

要理解这一步有多反常，得先知道Anthropic过去卖的是什么。

Anthropic成立以来最核心的技术招牌，叫Constitutional AI，它的思路是给模型一部「宪法」，一套写明价值观的原则，再通过训练让模型把这套价值观内化进去。

理想状态下，模型面对任何请求，都能自己根据这套原则判断该不该答、该怎么答。这套方法的核心理念是，安全应该长在模型内部，是模型自己的素养，而不是外挂的限制。

整个公司的品牌都建立在这个承诺上，Claude被塑造成那个「最有分寸、最值得信任」的AI，靠的就是这套价值对齐的叙事。

Fable 5的安全机制，恰恰背叛了这个叙事。

它不再依赖模型「自己懂」，而是承认在最敏感的领域里，模型的价值观靠不住，或者说，模型的能力已经强到价值观兜不住了，只能靠外部的强制技能冷却，分类器拦截、回退到弱模型，这是一套纯粹的能力封盖逻辑，跟价值观没有关系。

从「教模型做个好人」到「盖帽强模型」，这中间的转变可谓是完全不丝滑，但它实实在在地发生了。Fable 5是Anthropic第一次公开承认，当能力强到一定程度，价值对齐这条路，它自己也不敢全信了。

不仅回退，还会变笨

如果故事到这里，Fable的安全机制顶多算「过于保守」，是个体验问题，但AI研究者Nathan Lambert在Fable的模型卡里翻出了更麻烦的东西。

前面说的那套fallback机制，针对的是生物、化学、网络安全，它至少是透明的，会告诉用户「你被拦了，已切换模型」。但系统卡里还藏着另一类安全措施，针对的是「前沿AI研发」相关的请求，比如帮别的公司搭建模型训练流程、设计分布式训练架构、做芯片加速器。

蒸馏，用一个强模型的输出，去训练另一个较弱的模型，让弱模型「学走」强模型的能力。Anthropic一直指控，有竞争对手，尤其是一些中国的AI实验室，在用这种方式偷学Claude。

针对这类「可能在帮竞争对手造模型」的请求，Fable的处理方式和生物、网络安全完全不同，它不回退，也不提示，它干脆直接变笨。

实在有点过于不体面，被抓包之后，A社出来道歉并表示会整改。

一个会在不告诉你的情况下、自动变笨的AI，在定义上就是一个「不对齐」的AI。

如果说强行回退到4.8，逻辑是「这可能伤害社会」，还多少有些理解，但后者的逻辑是「这可能伤害我的商业护城河」，就是纯纯的市场保护了，只是被装进了「安全」这个壳里。

实际上，真正打算用AI写攻击脚本、或者搞点见不得人的生化勾当的人，不会傻到在请求里把意图写清楚，正如我想跟它讨论极端犯罪的时候，也会想办法规避可能触发的字眼。

他们有足够的动机和资源去绕过护栏，伪装提示词，反复试探，甚至自己想法子接触没有护栏的版本。说白了，这种做法防君子不防小人。

被拦住的，是那些用Claude分析健康数据找规律的研究者；是那个做销售线索工具、跟生物和网络安全八竿子打不着、却莫名其妙被拦的开发者；是想了解癌症知识的普通人。

安全护栏当然有存在的必要，问题是Fable的分类器粗糙到了平常想象不到的地步，完全「超绝敏感肌」，安全本身开始吞噬正常的求知。

一定程度上，Fable的安全设置是对Anthropic过往安全哲学的一次否决，它没有证明「AI有了判断力」，它证明的是反面：在最关键的几个领域，AI的判断力被一个比它笨得多的外部系统粗暴地接管，这个系统不看意图，只看领域，宁可错杀一千。

幻想小说之父冯内古特，在七十多年前发表过一篇短篇故事《巴恩豪斯效应报告》，那是他第一部发表的短篇故事，讲的是一位心理学教授，意外发现自己获得了超能力，可以用意念操控一切，从近距离的掷骰子，到后来可以炸基地。这个能力太强了，巴恩豪斯教授觉得太危险，他的良心承受不住，于是他选择自我放逐，消失在人间。从来没有人真正见过他，他只是活在这样一份「报告」里。

外部接管是不是最好的解法？不知道。内部对齐会不会更有效果？这一点，就像我们无从真正碰见巴恩豪斯教授，我们将无从知道。

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定