本文来自微信公众号: 未尽研究 ,作者:未尽研究,原文标题:《Fable 5, Mythos 5, 还有Anthropic闷骚的安全政策》
一如既往,Anthropic还发布了厚厚的系统卡,这次长达319页,披露了一套更复杂、更隐蔽的安全安排:同一代模型能力,被拆分成不同可访问版本;更少受限的Mythos 5只开放给少数可信伙伴;面向公众和企业客户的Fable 5,则在网络安全、生物化学、模型蒸馏、前沿AI研发等领域设置了不同层级的限制。
其中一部分限制是可见的。比如,当用户提出高风险网络安全、生物化学或模型蒸馏相关请求时,系统可能触发安全分类器,把请求回退给能力较弱的模型,并告知用户发生了回退。这种做法虽然会影响体验,但至少逻辑清楚,Anthropic认为这些任务风险较高,所以不提供完整能力,或者只提供较弱模型的回答。
真正的问题出在另一部分,对于“前沿LLM开发”相关请求,Anthropic没有采用公开拒答,也没有明确告诉用户模型被降级,而是通过提示词修改(prompt modification)、引导向量(steering vectors)、参数高效微调(PEFT)等方式,在用户不可见的情况下限制模型的有效性。也就是说,用户以为自己正在调用最强的Claude,得到的却可能是被安全层暗中改写、削弱或引导后的回答。
曾担任白宫科技政策办公室顾问的鲍尔(Dean W.Ball),称之为“秘密破坏式安全政策(secret sabotage safety policy)”,它的重点不是模型自己偷偷作恶,而是一种“闷骚”:平台主动让模型在某些任务上变得不那么有用,同时不让用户知道这种变化发生了。

(相关不透明的安全条款,来源:Claude Fible 5/Claude Mythos 5系统卡)
外界批评首先集中在透明度问题上。AI安全当然需要边界,但边界应该是可见的。拒答是一种边界,用户知道模型不回答;明示回退也是一种边界,用户知道自己没有拿到完整能力。可是隐蔽限效改变了这件事的性质。它不是告诉用户“我不能帮你”,而是表面上继续回答,实际上降低帮助程度。对普通用户来说,这可能只是体验问题;对工程师、研究人员和企业客户来说,这会直接影响判断。一个回答不够好,到底是因为问题本身太难,还是模型能力有限,还是Anthropic的安全层在背后动了手脚?用户很难知道。
第二类批评,是它看起来具有明显的反竞争色彩。被限制的“前沿LLM开发”,并不只是危险武器、生物威胁或恶意网络攻击,而包括预训练流水线、分布式训练基础设施、机器学习加速器设计等内容。这些内容当然可能帮助别人训练更强模型,但它们同样也是正当科研、开源工程、企业内部AI基础设施建设和独立安全评估的一部分。问题在于,这些领域恰好也是Anthropic的竞争对手、开源社区和追赶者最需要模型帮助的地方。于是外界自然会问:这到底是在防止危险能力扩散,还是在用安全之名保护自己的领先地位?
第三类批评,是它会伤害AI安全本身。Anthropic长期以来的核心品牌就是安全,它也确实推动了很多有价值的安全实践。但如果安全政策变得过于复杂、过于黑箱,甚至让用户怀疑自己拿到的能力是否被暗中削弱,那么“安全”就不再只是信任来源,也会变成信任负担。鲍尔的批评之所以尖锐,正是因为他认为这种做法会削弱真正好的AI安全政策。未来,如果前沿实验室需要在危险能力评估、模型发布节奏、生物安全、网络安全等方面合作,社会和监管者必须相信这种合作是为了公共利益,而不是为了维护少数实验室的市场地位。Anthropic这次的做法,恰恰给了怀疑者一个口实,AI安全会不会只是垄断叙事的外衣?
更深一层看,Anthropic正在暴露一种新的AI供应链风险。过去我们谈供应链风险,通常想到的是芯片断供、云服务中断、API涨价、许可证变化、地缘政治制裁。但大模型进入企业之后,供应链风险不再只是能不能用,还包括你到底用到的是什么能力。
今天,Claude已经不是一个普通聊天机器人。它正在进入企业的编码、研究、合规、客服、数据分析、战略研究和安全运营流程。很多公司会把它接进内部工具链,让它参与软件开发、文档生成、漏洞分析、客户支持,甚至更复杂的决策辅助。这个时候,模型供应商就不再只是软件供应商,而是企业认知供应链的一部分。
认知供应链的风险更隐蔽。供应商不一定停服,不一定报错,也不一定明确拒绝,而是可能在某些主题、某些任务、某些场景中悄悄改变能力边界。对企业来说,这非常麻烦。因为企业流程讲究可预期、可审计、可复现。如果一个模型在不同任务上受到不可见干预,企业就很难把它作为稳定基础设施来管理。尤其是当这种干预发生在研发、模型训练、系统架构、网络安全等高价值场景时,它就不只是产品体验问题,而是供应商治理问题。
就在几个月前,Anthropic因为坚持自己的安全原则,被美国国防部认定为供应链风险企业,得到了广泛的同情与支持,但是,这次它自己可能真的对用户产生了供应链风险。
当然,Anthropic也有自己的难处。前沿模型确实可能加速危险能力扩散。一个足够强的AI,如果能帮助小团队搭建训练系统、优化分布式集群、设计模型架构、绕过安全评估,确实可能降低前沿能力扩散门槛。从这个角度看,Anthropic不可能简单地把所有能力无差别开放。它需要区分可信客户和普通用户,需要对高风险领域设置限制,也需要防止竞争性模型开发者违反服务条款,用Claude来训练或改进自己的前沿系统。
但这正是问题最微妙的地方,安全与垄断在前沿AI产业中天然纠缠。越是强大的模型,越有理由被限制;越是严格的限制,越可能保护领先者。安全逻辑说,不能让危险能力轻易扩散;竞争逻辑说,不能让领先公司以安全之名阻止后来者追赶。两者的理由都站得住。
如果Anthropic公开说:“我们不支持用Claude帮助开发竞争性前沿模型”,这是一条商业规则,用户可以接受或不接受。如果Anthropic公开说:“某些高风险AI研发请求会触发拒答或明示降级”,这是一条安全规则,用户也可以评估其合理性。真正危险的是,它把商业边界、安全边界和技术干预混在一起,并且让一部分干预不可见。这样一来,外界就很难判断:某一次模型变差,是因为公共安全,还是因为商业利益?
这对Anthropic的品牌是一次反噬。它过去依赖“安全”建立差异化,把自己塑造成一个更谨慎、更负责任、更值得信赖的AI公司。但安全如果玩得太花,太闷骚,就会从品牌资产变成品牌负债。用户可以接受一个模型有边界,但很难接受边界被隐藏。用户可以接受一个公司谨慎,但很难接受谨慎变成不可审计的黑箱权力。
企业客户接下来应该学到的教训也很直接,采购大模型,不能只看刷榜分数、上下文长度、编码能力和价格,还要看安全政策是否透明,能力降级是否可见,模型回退是否有日志,企业合同是否明确能力边界,供应商是否承诺政策变更通知,是否允许客户选择更透明的合规模式。更重要的是,关键流程不能完全依赖单一模型供应商。多模型架构、本地模型备份、开源模型替代、任务级审计,都将成为AI时代的新供应链管理。
Anthropic在反噬自己“安全第一”的声誉,正在把安全做成了用户难以感知、难以验证、难以追责的系统。AI安全最需要的是信任,而信任最需要的是透明。Anthropic如果不能把这条线重新划清楚,那么它越强调安全,外界越可能问一句:你到底是在保护用户,保护社会,还是在保护你自己?
--
参考:
https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf
https://www.anthropic.com/news/claude-fable-5-mythos-5
https://x.com/deanwball/status/2064665679307985244
