Anthropic的安全人设因内部文件泄露和RSP政策调整而崩塌，暴露了AI行业在资本压力、国家意志和基础安全实践间的深层矛盾。 ## 1. 安全承诺的弹性变形：从硬刹车到软着陆 - Anthropic删除RSP 3.0中“风险不可控则暂停训练”的硬条款，改为定期透明报告，首席科学家承认“单方面暂停训练无意义”。 - 估值3800亿美元的Anthropic面临OpenAI（8500亿+）等竞争压力，安全承诺让位于商业生存，反映行业囚徒困境。 ## 2. 军事合作底线战：国家意志VS安全红线 - 美国防部威胁解除Claude军事限制，Anthropic拒绝后被列为供应链风险企业，但通过诉讼赢得初步禁制令。 - 公司坚守“拒绝全自主武器”底线，但接受作战规划合作，暴露安全原则在现实博弈中的妥协性。 ## 3. 内部安全灯下黑：最强AI犯最低级错误 - 因CMS配置失误导致3000份内部文件泄露，含安全评估报告等敏感内容，讽刺其“安全第一”核心价值。 - 泄露文件警告“模型漏洞利用速度远超防御”，凸显安全实践与宣传的割裂。 ## 4. AI安全囚徒困境：好人为何活不下去 - 监管真空下，企业不敢单方面踩刹车，安全承诺沦为公关语言（如RSP 3.0的透明披露实为免责声明）。 - 行业悖论：当安全可被修改，其本质意义何在？Anthropic既抗争又不及格，成为行业缩影。

2026-03-28 15:17

当Anthropic的安全人设崩塌：一场被泄露戳穿的生存游戏

舒书

速览

本文来自微信公众号：青萍见，作者：舒书，头图来自：AI生成

过去两天，AI圈最魔幻的一幕出现了：以安全洁癖著称的Anthropic，因为一个连实习生都不该犯的CMS配置失误，让3000份内部文件在互联网上裸奔。

网络安全股应声暴跌，安全研究员们一边吃瓜一边炸锅——谁能想到，这家天天喊着“AI安全高于一切”的公司，自己的安全防线竟比纸糊的还脆？

但比这场低级泄露更讽刺的是，就在事发前一个月，Anthropic刚刚悄悄撕掉了自己最引以为傲的安全承诺。

新版《负责任扩展政策》（RSP 3.0）里，那个曾让OpenAI都显得不道德的“若风险不可控，就暂停训练”的硬条款，被悄无声息地删除了。

这不是技术调整，这是一场精心包装的人设崩塌。

一、从硬刹车到软着陆：安全承诺的弹性变形记

2023年，当Anthropic推出RSP时，整个行业都在鼓掌。

这是第一次，有AI公司敢公开说：“如果模型太危险，我们就不做了。”

当时的逻辑简单粗暴：设定危险阈值（比如能辅助研发生物武器），一旦触及，立刻暂停训练，直到安全措施到位。

这是一条死线，意味着安全优先级高于商业进度、融资节奏，甚至IPO窗口。

2026年2月，RSP 3.0来了。

那条死线没了。

取而代之的是“前沿安全路线图、风险报告、外部审查”——每3到6个月发布一次报告，由内部专家起草，独立评审，提交董事会。

官方说法很漂亮：“技术边界模糊，无法预设红线，所以转向透明披露。”

翻译过来就是：从做不到就不许动变成了边做边说。

更直白点：从硬刹车变成了软着陆。

首席科学家Jared Kaplan在接受采访时，直接道出了真相：

“如果竞争对手飞速前进，我们单方面承诺暂停训练没有意义。”

说白了就是：别人都在跑，我不能站着。

这不是技术判断，是生存判断。

在资本眼中，暂停训练等于暂停估值增长。对于一家估值3800亿美元、正被OpenAI（8500亿+）、Google、xAI围剿的公司，继续自我设限等于商业自杀。

从硬刹车到透明监控，中间差的不是技术认知，是囚徒困境下的生存本能。

二、军事合作的底线游戏：当国家意志撞上安全红线

如果说RSP 3.0的调整是主动妥协，那么军事合作的博弈，就是一场真正的底线战争。

Anthropic曾信誓旦旦：“拒绝参与全自主武器和国内大规模监控。”

这条红线划得比刀锋还利。

2026年2月24日，一把更锋利的刀架在了它的脖子上。

那一天，美国国防部长皮特·赫格塞斯当面向Anthropic CEO达里奥·阿莫迪下达了最后通牒：解除Claude模型的所有军事用途限制（包括进攻性网络行动），否则后果自负。

截止时间是2月27日17:01。

后果是什么？要么五角大楼动用《国防生产法》强制接管模型，要么将Anthropic列为供应链风险企业——这个标签通常用于敌对国家的公司，一旦贴上，Anthropic将失去所有国防承包商的商业联系。

这是一道选择题：放弃安全原则，或者放弃生存。

2月27日，最后期限到来。阿莫迪未能及时与五角大楼官员敲定最终条款。截止时间刚过14分钟，赫格塞斯宣布谈判破裂，将Anthropic正式列为供应链风险。

特朗普随后下令联邦机构停止使用Anthropic技术。

但故事没有在这里结束。

3月9日，Anthropic正式向加州联邦法院提起诉讼，指控美国政府的系列行动“前所未有且不合法”。

3月26日，法院作出裁定。加州北区联邦地区法院法官Rita Lin批准了Anthropic的初步禁制令申请，叫停了国防部的封杀令。

法庭文件显示，Anthropic提供了关键技术证据：其模型在部署于军方封闭环境后，公司本身无法远程控制——这一证据戳穿了五角大楼的安全风险指控。

Anthropic赢了。

至少这一回合。

拒绝全自主武器，宁可被制裁也不妥协。这条线，是它的底线。但问题是：底线能守多久？法院的裁定只是初步禁制令，不是终局。五角大楼可以换一种方式再来。而Anthropic的客户名单里，依然有国防部的名字——那些作战规划和情报分析的合作，依然在继续。

拒绝全自主武器，但接受作战规划。这条线划得清楚吗？还是说，它只是在更大的博弈里，选了一个自己能承受的战场？

这不是Anthropic的选择，是它没有选择——但它选择了抗争。

三、内部管理的灯下黑：最强安全AI，犯最低级错误

一个CMS配置失误，3000份文件裸奔。

这不是黑客攻击，不是系统漏洞，是最基础的权限设置问题——和AWS S3存储桶忘记关权限一样低级。

剑桥大学研究员验证了泄露材料的真实性：员工育儿假记录、CEO闭门峰会细节、甚至内部安全评估报告，全部暴露在互联网上。

最讽刺的是，泄露文件中有一句罕见的话：

“Mythos预示着即将到来的一波模型浪潮，届时模型将以远超防御者努力的速度来利用漏洞。”

措辞之重，不像市场部写的，更像造物主的恐惧清单。

一家正在打造史上最强网络安全AI的公司，被最基础的权限配置失误扒了个精光。

这种灯下黑的现象在科技史上屡见不鲜：苹果与FBI之争、微软补丁漏洞、Google内部数据泄露……每一家科技巨头都犯过类似的错误。

但Anthropic的不同在于：它的核心价值就是安全。

当一家以安全第一立身的公司，连自己的内部文件都保护不好，它凭什么保护用户？

四、AI安全的囚徒困境：当好人活不下去

泄露文件里那句“模型将以远超防御者努力的速度来利用漏洞”，像一把刀悬在AI从业者头顶。

而Dario Amodei在看到这份评估时，是什么心态？是兴奋、恐惧，还是两者皆有？

他拒绝全自主武器，但接受作战规划。这条线划得清楚吗？还是说，它只是在更大的博弈里，选了一个自己能承受的战场？

Anthropic不是唯一面临“安全vs商业”悖论的公司。

OpenAI的“宫斗”暴露了治理结构的脆弱：当非营利使命和商业利益冲突，决策权在谁手里？

Google的“慢”暴露了官僚流程的拖沓：有最多的人才和算力，却跑得最慢。

Anthropic的“泄露”暴露了安全流程的漏洞：当核心价值是“安全”，却连基础流程都做不好。

当模型能力越来越趋同——都用Transformer架构、都做RLHF对齐、都卷推理能力——决定谁能活下来的，不是谁算力最多，不是谁模型最强，而是谁的组织最扛造。

但更深的困境在于：当安全承诺在资本压力和国家意志面前被反复修改，这个行业的安全到底还有多少可信度？

RSP 3.0的变化，国防部的最后通牒，CMS的低级失误——这三件事拼在一起，勾勒出一个残酷的图景：

AI行业正在经历一场安全叙事的破产。

监管真空：政府没有建立统一的红线，导致企业不敢单方面踩刹车。

劣币驱逐良币：如果OpenAI和Google都在加速，Anthropic的道德洁癖反而成了竞争劣势。

公关化：安全正在从一种工程约束，变成一种公关语言。RSP 3.0的透明披露，本质上是在告诉资本市场：我们还在意安全，但请不要让我们真的停下。

首席科学家Jared Kaplan的那句话，应该被刻在每一家AI公司的会议室墙上：

“如果竞争对手飞速前进，我们单方面承诺暂停训练没有意义。”

翻译过来就是：除非所有人一起踩刹车，否则谁先停，谁先死。

这就是AI安全的最大悖论。在监管真空、竞争白热化的今天，没有一家公司敢做唯一的好人。

每个修改都有合理的解释。技术边界确实在模糊，监管环境确实在变化，商业竞争确实在加速。但问题是：当安全承诺可以被修改，它还是承诺吗？当人类在回路中成为免责声明，安全还有意义吗？

结语：AI时代的护城河，不是算力，是诚实

Anthropic的泄露事件，最终会被修复。

CMS权限会被重新设置，泄露的文件会从互联网上消失，网络安全股会涨回来，RSP 3.0会继续执行。

但那个问题会一直存在：

当一家以安全第一立身的公司，在资本压力和国家意志面前，一次次被逼到墙角，它还能守住多少底线？

Anthropic用被制裁、被列为供应链风险、失去巨额国防合同的代价，守住了拒绝全自主武器这条线。但这条线能守多久？五角大楼会换一种方式再来吗？

答案从来不是模型更强、算力更大。

答案是：把最基本的流程做好，把最基础的承诺守住。

这是Anthropic给整个AI行业上的一课。

也是最难的一课。因为在这一课里，Anthropic自己，既是那个抗争的学生，也是那个不及格的学生。

本文来自微信公众号：青萍见，作者：舒书

AI原生产品日报频道: 前沿科技

舒书

青萍之末创始人，组织战略顾问

认证作者

已在虎嗅发表 7 篇文章

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定