Anthropic发布的最强编程模型Fable 5因安全护栏设置粗糙,在ProgramBench全题拒答仍登顶榜首,暴露出AI能力越强、安全限制越严、可用性越差的行业矛盾。 ## 1. Fable 5发布即登顶主流编程评测 Fable 5发布时在SWE-Bench Pro取得80.3%的得分,领先第二名11个百分点,实测可顶团队两个月工作量,被业内看好开启AI编程新阶段。 ## 2. 安全机制触发乌龙:交白卷仍登顶ProgramBench Fable 5内置不透明降智/拦截机制:检测到前沿AI研发、网络安全等敏感任务会悄悄降质或直接拒答,全程不告知用户。 ProgramBench的200道「重建编译后二进制文件」题全部被判定为敏感的二进制逆向,Fable 5全程拒答,榜单却综合其他基准将其排在榜首,引发争议。 这种过度拦截并非个例:Claude 3 Opus、Claude 3.5 Sonnet都曾出现过正常任务中途因安全理由罢工的情况。 ## 3. 两级安全护栏架构:合理性下的粗糙判断 Fable 5采用两级安全护栏:探针实时扫描内部状态,触发警报后由独立LLM分类器最终裁决,拦截范围覆盖网络安全、生物化学、前沿AI研发。 该设置有现实原因:Fable 5前身Mythos在漏洞利用等危险任务能力过强,Anthropic出于安全考虑强制套上严格限制。 当前分类器判断标准粗糙,将二进制逆向这类正常编程研究任务一刀切拦截,实测Terminal-Bench 2.1约20.9%测试用例触发拦截,Fable 5拒答的任务需兜底模型Opus 4.8承接。 ## 4. 职场评测暴露成本与能力限制 UC伯克利在对齐真实职场的ALE基准评测中,Fable 5得分22.0%位列第二,低于GPT-5.5的24.0%。 成本差距悬殊:Fable 5平均每题花费约15.70美元,是GPT-5.5的近四倍,远高于Composer 2.5的1.33美元,评测方还提示结果可能因模型默认降权低估真实能力。
交白卷也排第一?Fable5二百题全部拒答,却登顶最严AI编程基准
2026-06-13 10:22

交白卷也排第一?Fable5二百题全部拒答,却登顶最严AI编程基准

本文来自微信公众号: 机器之心 ,编辑:Panda,作者:机器之心,原文标题:《交白卷也排第一?Fable 5二百题全部拒答,却登顶最严AI编程基准》


太离谱了!


是的,本文的主角还是前些天刚发布了Claude Fable 5的Anthropic。


Fable 5发布时的排面是真的足。SWE-Bench Pro得分80.3%,把第二名甩出11个百分点;Andrej Karpathy直接喊出「deserves a major version bump」;Stripe拿它在5000万行Ruby代码库里跑了一整天的迁移,顶上了原本需要整个团队两个月才能完成的工作量。势头之猛,让人一度以为AI编程进入了新纪元。



然而,Fable 5刚开香槟,就被自己的「安全护栏」绊了个大跟头。


其系统卡中明确表示,Fable 5被设计成:一旦检测到用户正在从事前沿AI研发工作(比如训练流水线、分布式训练基础设施、ML加速器设计),模型会悄悄降低自己的回答质量——而且不通知用户。也就是说,你花着Fable 5的钱,收到的可能是Opus 4.8级别的活,还没有任何提示。


Anthropic为此用了提示词修改、转向向量等技术手段,让模型在特定查询下悄悄变笨,整个过程对用户完全不透明。


然后,更尴尬的来了。


也正因为Fable 5现在的降智操作变得「透明」了,一些有趣的情况随之浮出水面。


其中最让人无语的,就是Fable 5在ProgramBench基准测试上的「表现」。


那么,Fable 5成绩如何呢?


不是0分。是拒绝作答:200道题,全部拒绝!



ProgramBench之所以没有Fable 5的成绩,是因为「重建编译后的二进制文件」这一操作触发了Fable 5的网络安全分类器。说白了,Fable 5看到这道题,判定其涉及「二进制逆向」,打了个安全警报,直接拒绝作答。而且200道,一道不落。


有趣的是,Fable 5在其他编程基准上可是一点不含糊的,都能好好答题。


Fable 5在不同基准上的成绩和排名


然而,就在这份弃考成绩单提交之后,ProgramBench排行榜做了一个让人目瞪口呆的决定:综合其他基准表现,仍然将Fable 5列在了榜首。



一个字都没答的考生,坐了第一名的座位。这大概是AI评测史上头一遭:弃考也能登顶榜单。


当然,这操作很快引来了四面八方的异议。有人直接发问:正经考试怎么交了白卷还能得第一名?应该直接给零分才对。





这也让很多网友吐槽其护栏太高,以至于难以实际应用:



顺带一提,有网友还发现,Fable 5在英文输出中依然会偶发性地夹杂汉字,这个老毛病到了这一代还没彻底根治。




事实上,Fable 5的「过度拒绝」问题并非首次出现在Claude家族。


早在Claude 3 Opus时代,研究人员就发现该模型在面对安全测试题目时,会在解题进行到一半时突然罢工,以「伦理顾虑」为由拒绝继续作答。Claude 3.5 Sonnet也曾被记录到在结构化bash任务中以「制作payload涉及执行命令」为由直接拒绝。


Fable 5的问题究竟出在哪里?


回到Fable 5本身。根据目前披露的信息,它的「护栏系统」采用了两级架构:一个探针实时监控模型的内部激活状态,对所有流量进行扫描;一旦触发警报,请求会被上报给一个独立训练的LLM分类器做最终裁决。



https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf


这套系统拦截的领域,涵盖网络安全、生物化学,以及前面提到的前沿AI研发。以Terminal-Bench 2.1为例,约20.9%的测试用例触发了安全拒绝并回退到Opus 4.8。


ProgramBench的「二进制重建」任务,在分类器眼里,大概和「逆向工程恶意软件」没有太大区别,于是200道题统统被挡在了门外。


Vals AI在实测中也发现,Fable 5在生物和网络安全相关问题上的拒绝率明显偏高,以至于他们不得不将Opus 4.8配置为默认兜底模型。也就是说,Fable 5拒绝的任务,就让Opus 4.8来接。


技术上这套系统当然有其合理性。Fable 5的前身Mythos级模型,在漏洞利用、进攻性网络操作等任务上展现出了让各国政府都坐不住的能力,这也是Anthropic一直将其列为受限模型的核心原因。给这样的模型套上严格的安全枷锁,似乎也有一点道理。


但问题在于,当安全护栏的判断标准过于粗糙,「二进制逆向」这个本属于正常编程教学和安全研究的基础操作,就会被一视同仁地拦截。开发者为此付出的代价是真实的:要么换模型,要么改提示词,要么接受一个「什么都懂、很多都不说」的超能助手。


顺便,还有另一份成绩单也值得一看


Fable 5发布后不久,UC Berkeley RDI实验室(负责人Dawn Song教授)的团队完成了对它的评测,用的是他们自己做的新基准:Agents'Last Exam(ALE)。



  • 论文地址:https://arxiv.org/abs/2606.05405


这个基准的出发点有点意思:它不考「AI能不能在HumanEval里写出两行代码」,而是直接对齐真实劳动力市场,覆盖55个职业方向、1500+道真实工作场景题目,由来自100余家机构的300余位行业专家贡献,全部按可验证的结果计分。说白了,就是让AI agent去考一场「职场模拟高考」。论文发布当天就登上了Hugging Face Daily Papers第一名。


评测结果如何?Fable 5的得分是22.0%,排在GPT-5.5(Codex)的24.0%之后,位列第二。听起来差距不大,但成本项就有点扎眼了:Fable 5平均每道题花费约15.70美元,GPT-5.5只需3.80美元,另一个模型Composer 2.5更是只要1.33美元。换句话说,Fable 5每解一道题的成本,大约是GPT-5.5的四倍。



排行榜备注说明:claude-fable-5——除了彻底的访问限制(我们只是不断重试运行直到任务顺利完成),Anthropic还可能默认悄无声息地提供该模型的一个降级版、低能力变体。重试无法纠正这一点,因此这里的数据可能低估了其真实能力——解读时需谨慎


ProgramBench拒绝作答是0%,ALE最难档努力作答也是0%。不同的姿态,一样的结局。


结语


弃考但排名第一,这个荒诞结果背后,其实暗藏着一个正在撕裂AI行业的根本矛盾:能力越强,护栏越紧;护栏越紧,可用性越差。


Anthropic的处境尤其典型。它拥有(按自家说法)当下最强的编程模型,却同时在替用户决定哪些编程任务「可以做、哪些不能做」。而那条边界,目前还画得相当模糊。


参考链接


https://www.digitalapplied.com/blog/claude-fable-5-mythos-5-agentic-coding-deep-dive-2026


https://www.vals.ai/benchmarks/programbench


https://agentpedia.codes/blog/claude-fable-5-benchmark-prompting-guide

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定