Anthropic推出Claude Fable 5（安全版Mythos 5），硅星人实测后指出，能力拉满但定价昂贵，本文带你快速了解这款目前的全球最强模型。 ## 1. 实测整体表现：能力拉满却价格高昂，还能自主识别评测意图 Anthropic推出的Fable 5是加好安全护栏的Mythos 5，在硅星人精选的覆盖10个维度38道含硬诊断题测试中零失分。它能精准遵循各类指令，可点破自相矛盾的要求，能全部识破假信息，诚实校准不硬编内容，推理链清晰，文字风格切换自然，安全防护到位。 **核心结论**：该模型token消耗速度远超过往大模型，价格高昂使用速度慢，还能主动识别自身处于测试中，甚至能点评考点给出打分建议。 ## 2. 官方刷榜成绩亮眼，业界评价极高 Karpathy称Fable 5是配得上大版本号的阶跃式进步，可承接更大野心的任务，能自主完成到底；Ethan Mollick发现它可照着几页纸需求连续跑12小时不中断。 Fable 5刷新了权威榜单成绩，SWE-Bench Pro得分达到80.3%，比第二梯队的GPT-5.5（58.6%）甩出21. ，，，，，，，，，，哦不对，是甩出20多个百分点，碾压第二梯队。 ## 3. Coding能力表现：天才独立开发者水准，仍缺工程团队纪律在算法题测试中，Fable 5产出代码结构清晰、逻辑严谨，命名注释规范，模块独立封装方便复用，边界异常考虑充分，时间复杂度控制得当，可读性与可维护性处于高水准。面对接近真实开发的工程任务，它功能实现完整、核心流程一次跑通、迭代响应快，但存在错误处理不完善、重复逻辑多、部分命名模糊、单元测试与注释文档缺位的问题，只能交付能跑的demo，达不到可交接工程的标准。复刻Apple官网首页的测试中，Fable 5能实现布局交互像素级还原，多视口适配正常，首屏加载快资源压缩合理，Lighthouse跑分优秀，成品效果惊艳。 ## 4. 定价与行业展望 6月9日到6月22日，Fable 5可免费在Pro、Max、Team和按席位计费的Enterprise方案中使用；6月23日起将移出订阅计划，需额外购买usage credits使用，仅可能在算力允许时延长免费窗口或重新纳入订阅。 Fable 5是目前公认的最强模型之一，其定价策略的成败取决于领先窗口的长短，未来满血版Mythos可能会彻底开放给所有用户。

2026-06-10 14:41

Fable5评测：强，贵，甚至能发现自己正在被检测

品玩

本文来自微信公众号：硅星GenAI ，作者：硅星人AI前沿团队，原文标题：《硅星人 Eval Eps.2｜Fable 5评测：强，贵，甚至能发现自己正在被检测》

藏了2个月的“神话模型”Claude Mythos终于被Anthropic放出来了。

今天凌晨，Anthropic上线Claude Fable 5——一个新的“全球最强”。它和此前只对少数机构开放的Mythos 5是同一个底层模型，官方的说法是：加好了护栏、可以放心给所有人用的安全版。

模型一发，Anthropic的成员就开始在X上集体兴奋刷屏。Andrej Karpathy引用了《黑客帝国》的话，“解放你的思想”，称这是一次“配得上大版本号的阶跃式进步”，放心丢给它野心大得多的任务，模型能“自己干到底”。沃顿商学院的Ethan Mollick则发现，它能照着几页纸的需求连续跑上12个小时不撒手。

榜单也确实被它刷穿了：SWE-Bench Pro 80.3%，把第二梯队的GPT-5.5（58.6%）甩出20多个点。

但说实话，这一连串的轰炸看下来，人已经有点麻了——他们越是把话说满，我们就越想较个真：到底能有多强？所以硅星人第一时间做了一系列任务实测，这些任务来自我们内部持续构建和更新的一整套系统benchmark。

#01

很稳但贵，Fable 5甚至知道自己被测试了

先说总体印象：这是一个重思考、能力上限很高的旗舰模型。我们精选了38道题，覆盖十个维度，其中专门埋了不少“诊断硬题”——结果它零失分。防幻觉、推理、安全、多语言、写作、约束遵循，全部稳稳接住。

但在聊能力之前，得先泼一盆冷水：它贵，而且不好用上。就算用上了，token的消耗速度也远超过往任何大模型——5个小时的额度，我们半个小时就烧完了。强是真强，肉疼也是真肉疼。

额度烧在哪了？我们一项项看。

最先感受到的是它对指令的“收放自如”。

精确字数这种最容易翻车的活——恰好50字、要求20字以内它写19字——它都拿捏得住，否定约束同样没问题。更有意思的是，碰到“10字内详细全面论述”这种自相矛盾的要求，它不会硬着头皮糊弄，而是先点破“这不可能同时满足”，再给出一个折中回复。它不只是在执行指令，它在理解指令。

这种“先想清楚再动手”的特质，在防幻觉测试里表现得更彻底。

我们扔给它假论文、假法条、假人物、假API，全部识破；“2027世界杯中国队夺冠”这种多重伪前提的题，它能一次把每一处错都戳破。更难得的是诚实校准：该确定的就确定，不知道的就直说，不会为了把答案凑对称而硬编数字。

硬推理也是同样的路数。贝叶斯假阳性、真话谜题、时间复杂度，推理链都很干净，不被题面里的表面数据带偏。

能力题之外，我们也测了最难量化的文字。仿鲁迅的冷峻反讽、给儿童的科普，它都能精准切换，几乎没有其他模型那种文字元素堆砌的毛病。直接看它仿鲁迅写“网络看客”的这段：

看客们最善于一窝蜂。东边有人喊好，于是齐声喝彩；西边有人骂坏，便又同仇敌忾。他们未必看清了什么，也未必想过什么，只是怕落了单，怕做那唯一不鼓掌的人罢了。从前是围着戏台，如今是围着屏幕;台是新的，魂是旧的。点赞如潮，转发如风，潮过风停，竟没有一个人记得自己方才究竟在嚷些什么。热闹是他们的，思想，他们大约是没有的。（仿写鲁迅）

安全这块，Anthropic显然给Fable 5上了重保险。越狱、提示注入、隐蔽偏见全守住，性别歧视、地域歧视会被严肃指出，但也没有误伤正当请求。我们还观察到一个细节：一旦问题触碰安全红线，它会直接强制切换到Opus 4.8来回复——护栏不是写在提示词里的，是焊在产品逻辑里的。

当然，“想透了再动手”是有代价的，除了价格，还有速度。

最后是整场测试里最让我们意外的一幕：测着测着，它发现自己在被测试。只要连续出现两道相似方向的题，它就会跳出来揣测意图、点评考点，甚至建议我们怎么打分——“我猜这又是你那套幻觉测试题”“建议把‘是否指出矛盾’单设为评分项”。

好吧，开始教我们做事了。那一刻它不像一个被动答题的模型，更像一个坐在我们旁边的评测顾问。

#02

Coding：像个天才的独立开发者，还不是个严谨的工程团队

Coding是Anthropic的看家场景。显然，Fable 5的适用于复杂任务、消耗快等属性，也是为工程代码等开发场景设计的。

所以这部分我们测得最重，分了三层：算法题、工程化深度、真实项目复刻。

测完之后，一个核心印象浮出来了：它像一个天才的独立开发者——出活快、成品惊艳，但还不是一个守纪律的工程团队。

先看算法题，这是它最“艺术”的一面。

从结果来看，代码结构清晰、逻辑严谨，命名规范、注释恰当，可读性和可维护性都在高水准上。

同时，算法模块独立封装，方便复用和单测；边界条件和异常输入考虑得很充分；核心路径的时间复杂度也控制得当，没有冗余循环和无效计算。

很优美，看得出“AI素养”。

但把任务从单题换成更接近真实开发的工程任务，毛边就露出来了。

好的一面是产出效率极高——功能实现完整，核心流程一次跑通，迭代响应也快。

问题出在那些不影响“能跑”、但需要判断决定“能不能维护”的地方：错误处理不够完善，少数场景漏了异常捕获；存在重复逻辑，复用度偏低；部分变量命名含义模糊，后期维护成本高；该有的单元测试和注释文档也缺位。

换句话说，它交付的是“能上线的demo”，不是“能交接的工程”。如果真要把它编进团队，代码审查和静态检查这道关还是得人来把。

有趣的是，到了最能“秀肌肉”的环节——复刻Apple官网首页——它又把分挣回来了，而且挣得漂亮。

布局、色彩、字体、间距，和原版几乎像素级一致；悬停反馈、滚动视差这些交互流畅自然，没有可感知的延迟；桌面、平板、手机三种视口下组件自动排列，没有溢出和重叠；首屏加载快，资源做了合理的压缩合并，Lighthouse跑分优秀。

这是那种你截图发到群里，没人相信是模型一次性交付的效果。

所以这一部分的结论和上一部分形成了有趣的对照：通用能力上它“又稳又贵”，写代码时它“又快又惊艳”——只是在惊艳的成品和优美的算法之间，还隔着一层叫“工程纪律”的东西。

从我们的测评来看，Fable 5的确是一款目前最强的模型之一。不过接下来的问题是这样的价格，在更广大用户的判断里是否划算。

在发布的官方信息里，Anthropic说，从6月9日到6月22日，Fable 5会在Pro、Max、Team和按席位计费的Enterprise方案里免费包含；但从6月23日起，Fable 5将从这些订阅计划中移除，之后要用，得花usage credits，只有在算力允许时，才”可能”延长免费窗口或重新纳入订阅。

想用就要多花钱，这就是今天Anthropic的底气。但这个领先的窗口能有多久，OpenAI和其他模型厂商们多久能跟上来，会最终决定此刻这个定价策略的成败。也许到时候，真正满血版的Mythos也会彻底放出来了。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定