Anthropic因悄悄对竞品相关AI开发请求降性能引发行业反弹,撤回该政策,折射出头部AI公司利益与开放生态的深层矛盾。 ## 1. 隐秘降级政策的出台内容与动机 Anthropic发布最强模型Claude Fable 5后,在319页系统文件中悄悄加入特殊安排:针对前沿大语言模型开发请求,会在用户不知情的情况下,通过修改提示词、引导向量或PEFT等技术降低模型性能。 Anthropic估计该措施仅影响约0.03%的流量,集中在不足0.1%的用户组织中,称此举是担忧AI能力提升速度超社会适应能力,防止外国对手利用模型危害安全,保护美国及盟友的竞争优势,且隐藏措施更难被探测绕过、可精准定向实施。 ## 2. AI研究社区的激烈批评 美国创新基金会高级研究员、前白宫AI顾问Dean Ball称,不告知用户就降低机器学习研究性能是令人震惊的敌意行为,该隐秘政策和Anthropic标榜的AI安全立场矛盾,限制了AI安全领域的协作空间。 开源AI初创公司Prime Intellect研究负责人Will Brown将此举称为“拉高梯子”,本质是Anthropic只允许自己做前沿AI研究,且触发限制不提示会让开发者无法判断是否违规,第三方模型安全性能评估机构也可能受波及。 ## 3. 政策撤回与后续调整 面对舆论压力,Anthropic公开道歉并撤回该隐秘限制政策,宣布将相关安全措施调整为对用户可见:未来若判定用户试图利用Claude构建高能力AI模型,会明确告知请求被拒绝或转至能力较弱的模型,不再实施静默降级。 Anthropic坦承透明化会带来新代价:可见措施更容易被探测规避,因此需要放宽拦截范围,会导致更多无害请求被误伤,目前正在提升分类器的精准度。 ## 4. 事件折射的AI行业深层矛盾 此次事件是Anthropic首次公开承认对模型输出实施此类“静默干预”,在AI行业竞争日趋激烈的背景下,折射出头部AI公司在商业护城河、安全叙事与开放生态之间愈发难以调和的张力,也让外界对AI公司系统文件中可能隐藏的其他类似条款保持更高警惕。
被骂翻了,Anthropic认错:已撤回
2026-06-11 18:13

被骂翻了,Anthropic认错:已撤回

本文来自微信公众号: 华尔街见闻 ,作者:赵颖,原文标题:《被骂翻了!Anthropic认错:已撤回》


Anthropic在AI研究社区的强烈反弹下,被迫撤回了一项针对竞争对手的隐秘限制政策。这一事件不仅暴露了头部AI公司在商业利益与开放生态之间的深层矛盾,也引发了外界对AI行业透明度的广泛质疑。


据《Wired》周四报道,Anthropic本周早些时候发布了被视为其“最强模型”的Claude Fable 5,并在长达319页的系统说明文件中悄然披露了一项特殊安排:针对"前沿大语言模型开发"相关请求,模型将在用户毫不知情的情况下被暗中降低性能,手段包括修改提示词、使用引导向量或参数高效微调(PEFT)等技术。


这意味着,任何试图借助Claude开发竞争性AI模型的研究人员,都可能在不知情的情况下收到被悄然"注水"的回答。


消息曝光后,AI研究社区迅速爆发强烈批评。Anthropic随即在接受媒体采访时道歉,并宣布撤回该政策。"我们正在调整Fable 5针对前沿大语言模型开发的安全措施,使其对用户可见,"Anthropic在接受媒体《连线》采访时表示,"我们在权衡上做出了错误的选择,对未能把握好这一平衡深表歉意。"



隐秘降级:一项藏在系统文件里的政策


与Anthropic此前针对网络安全、生物和化学领域的限制措施不同,这项针对AI开发的干预从一开始就被设计为"不可见"。


根据系统说明文件,Fable 5不会像处理其他敏感请求那样将用户切换至能力较弱的模型,而是直接在原模型内部悄然降低输出质量。Anthropic估计,该措施将影响约0.03%的流量,集中在不足0.1%的用户组织中。


Anthropic为此给出的理由是:近期模型已具备加速自身研发的能力,公司担忧AI能力提升速度超出社会适应能力。公司还表示,相关安全措施旨在防止外国对手利用其最先进模型从事危害安全的活动,并保护美国及盟友在前沿芯片和优化软件领域的竞争优势。


公司进一步解释称,隐藏式安全措施之所以更难被探测和绕过,是因为可以更精准地定向实施。然而,这一逻辑在研究社区看来难以令人信服。


被指"秘密破坏"与"拉高梯子"


批评声音迅速在AI研究圈蔓延,矛头直指这一政策的隐秘性本身。


美国创新基金会高级研究员、前白宫AI顾问Dean Ball在X平台发文称,"在不告知用户的情况下降低机器学习研究的性能,是令人震惊的敌意行为,形象极差。"他还指出,这种"秘密破坏"政策与Anthropic一贯标榜的AI安全立场相互矛盾,因为它实际上限制了AI研究人员在安全领域的协作空间。



开源AI初创公司Prime Intellect的研究负责人Will Brown则将此举比作"拉高梯子"。"这感觉像是Anthropic在向公众宣告:'我们不信任任何其他人做AI研究,只有我们才能做,'"他表示。Brown还指出,由于Anthropic不会在触发安全措施时发出任何提示,开发者将完全无从判断自己是否已违反平台规则。


他进一步警告,这一政策的潜在影响远不止于直接竞争对手——专门对前沿模型进行安全性、性能和可靠性测试的第三方评估机构,同样可能因此受到波及。



撤回与后续:透明化代价是"误伤"增加


面对舆论压力,Anthropic宣布将相关安全措施改为对用户可见。此后,若公司判断某用户正试图利用Claude构建高能力AI模型,将明确告知用户其请求被拒绝或被转至能力较弱的模型,而非悄然降级。


不过,Anthropic也坦承,透明化本身带来新的代价。由于可见的安全措施更容易被探测和规避,公司不得不将拦截范围设置得更宽,这意味着更多无害请求可能被误触发。Anthropic表示,正在尽快提升分类器的精准度。


此次事件是Anthropic首次公开承认对模型输出实施此类"静默干预"。在AI行业竞争日趋激烈的背景下,这一插曲折射出头部AI公司在商业护城河、安全叙事与开放生态之间愈发难以调和的张力,也令外界对AI公司系统文件中可能隐藏的其他类似条款保持更高警惕。

AI创投日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定