Anthropic发布Claude Sonnet 5,其性能接近Opus 4.8、价格更低,定位为日常高频agent工作流的主力模型。 ## 1. 核心性能:多项指标接近Claude Opus 4.8 - 核心能力提升显著:SWE-bench Pro编码得分63.2%(Sonnet 4.6为58.1%,Opus 4.8为69.2%);不开工具的Humanity’s Last Exam推理得分43.2%(Sonnet 4.6为34.6%,Opus 4.8为49.8%),开工具后达57.4%,已非常接近Opus 4.8;OSWorld-Verified计算机使用得分81.2%(Sonnet 4.6为78.5%,Opus 4.8为83.4%),Agentic搜索任务表现也接近Opus 4.8。 - 第三方榜单验证:Artificial Analysis Intelligence榜单中Sonnet 5 max得53分,与GPT-5.5 high同档;CursorBench 3.1中Sonnet 5得57%(Sonnet 4.6为49%),high default版本得分已接近Opus 4.8 high。 ## 2. 定价成本:标价更低,实际成本受场景影响 - 标准定价为Opus 4.8的60%,2026年8月31日前促销价为每百万输入token 2美元、每百万输出token 10美元,约为Opus 4.8的40%,官方称迁移后实际成本大致持平。 - 实际案例对比:构建单一HTML登录页面任务中,Sonnet 5总成本3.36美元、耗时2分11秒,Opus 4.8总成本20.66美元、耗时20分15秒,Sonnet 5更省钱快速;但按单位智能任务成本计算,Sonnet 5 max单任务成本2.29美元,高于Opus 4.8 max的1.80美元,**实际成本受输出量、推理量等因素影响,不能仅看API单价**。 ## 3. 产品配置与全平台覆盖 - 默认支持1M token上下文窗口,适配agent长任务保留过程状态的需求,启用了更新分词器,相同文本会切分更多token。 - 已全平台上线,成为默认主力模型:Claude Free/Pro已默认切换,各类企业用户均可使用,覆盖Claude API、主流云平台等全渠道,同时上调了速率限制适配token消耗。 ## 4. 安全表现与产品定位 - 安全性能优于Sonnet 4.6:更擅长拒绝恶意请求、抵御提示注入劫持,幻觉率和谄媚倾向更低,但失准行为率仍略高于Opus 4.8。 - 定位清晰:将agentic能力下放到中端价位模型,**对成本敏感、需要执行多步任务的团队,它将成为新默认选项;高难度准确率要求的任务,Opus 4.8仍是首选**。
Claude Sonnet5发布,性能接近Opus4.8,价格只有60%
2026-07-01 08:34

Claude Sonnet5发布,性能接近Opus4.8,价格只有60%

本文来自微信公众号: 夕小瑶科技说 ,作者:夕小瑶编辑部,原文标题:《Claude Sonnet 5 发布,性能接近 Opus 4.8,价格只有60%》


Anthropic又发新模型了,Claude Sonnet 5。


Sonnet系列里最强的agentic model,也是新一代主力模型。


按照Anthropic的定位,Sonnet 5面向的是日常高频工作流,主打编码、工具调用、浏览器/终端使用、规划、知识工作。



老规矩,先看下模型表现。


Sonnet 5比Sonnet 4.6提升明显,很多指标已经贴近Opus 4.8。



在agentic coding上,Sonnet 5的SWE-bench Pro得分是63.2%,高于Sonnet 4.6的58.1%,距离Opus 4.8的69.2%还有差距。


多学科推理也有明显提升。


Humanity’s Last Exam不用工具时,Sonnet 5是43.2%,Sonnet 4.6是34.6%,Opus 4.8是49.8%。


开工具之后,Sonnet 5直接到57.4%,已经非常接近Opus 4.8。


计算机使用能力也有进步。


OSWorld-Verified上,Sonnet 5是81.2%,Sonnet 4.6是78.5%,Opus 4.8是83.4%。


同时,单任务成本Sonnet 5的曲线已经贴近Opus 4.8,API价格更低的情况下,Sonnet 5或可以作为Opus 4.8的替代选项。



这对应浏览器、桌面、终端这类操作场景。对AI agent来说,这类能力比普通聊天重要得多。


Agentic search搜索任务下,Sonnet 5在high/xhigh/max档,也是接近Opus 4.8的表现。在部分effort档位上,Sonnet 5用更低成本拿到接近Opus 4.8的效果。



再看第三方榜单。


Artificial Analysis Intelligence榜单排名结果里,Claude Sonnet 5 max得分53。


这个分数和GPT-5.5 high同档,低于Claude Opus 4.8 high、GPT-5.5 xhigh、Claude Opus 4.7 max。



Cursor官方宣布,Claude Sonnet 5现在已经在Cursor中可用。


同时他们给了一组CursorBench 3.1数据,Sonnet 5是57%,Sonnet 4.6是49%,相比Sonnet 4.6是明显升级。


Sonnet 5 high default的位置,在CursorBench 3.1上已经接近Opus 4.8 high,但平均单任务成本更低。



Sonnet 5的标准价格是Opus 4.8的60%,发布初期还有更低的优惠价。


2026年8月31日前,Sonnet 5的价格为每百万输入token 2美元、每百万输出token 10美元,约为Opus 4.8的40%。



有推特网友跑了一个对比case,通过CLI在UltraCode模式下运行了Opus 4.8和Sonnet 5两个模型,任务是给Sonnet 5构建一个单一HTML登录页面。


效果明显Opus 4.8更胜一筹,但是Sonnet 5速度更快、花费更少。


Claude Sonnet 5:


  • tokens使用量:20.9k输入,14.2k输出


  • 总成本:3.36美元


  • 耗时:2分11秒


Claude Opus 4.8 Ultracode:


  • tokens使用量:96.3k输入,73.8k输出


  • 总费用:20.66美元


  • 经过的时间:20分15秒


但是另一组数据表现相反。


按Cost per Intelligence Index Task算,Claude Sonnet 5 max单任务成本是2.29美元,Claude Opus 4.8 max是1.80美元,GPT-5.5 xhigh是1.03美元,GLM-5.2 max是0.48美元。



这说明一件事,不能只看API单价。


Sonnet 5的标价低于Opus 4.8,但在具体benchmark任务里,实际成本还会受输出量、推理量、缓存和调用方式影响。


这次Sonnet 5也是全平台上线,直接被推成主力默认模型。


Claude Free和Claude Pro用户默认模型会切到Sonnet 5。


Max、Team、Enterprise用户也能用。


Anthropic同步上调了Chat、Cowork、Claude Code与Claude Platform的速率限制,以适配更高effort等级带来的token消耗。


另外,Claude API、Claude Platform on AWS、Amazon Bedrock新Messages API、Google Cloud、Microsoft Foundry preview等平台都可以使用,基本覆盖现在主要的企业和云平台渠道。


开发者侧,Claude Code和Claude Platform API都支持Sonnet 5。


上下文窗口也直接拉满。


Sonnet 5默认支持1M token context window。


这对agent任务很关键。长任务里不只是要塞很多资料,还要保留过程状态,比如改过哪些文件、跑过哪些命令、哪些方案已经失败、用户补充过什么限制。


需要注意的是,Sonnet 5启用了更新后的分词器(tokenizer),同样的文本会被切成更多token。


Anthropic也表示促销价的设计意图,是让从4.6迁移到5的实际成本「大致持平」。


安全方面,Anthropic的安全评估显示,Sonnet 5整体优于Sonnet 4.6:


在代理安全方面,它更善于拒绝恶意请求、抵御提示注入(prompt injection)中的劫持企图,幻觉率与谄媚(sycophancy)倾向也更低。



在覆盖广泛失准行为的自动化行为审计中,Sonnet 5的总体得分更「安全」。不过相比能力更强的Opus 4.8与Claude Mythos Preview,它在该项评估上的失准行为率仍略高一些。


Sonnet 5的定位很清晰,让agentic能力从必须上贵模型变成中端模型即可。


对成本敏感、又需要稳定执行多步任务的团队,它大概率会成为新的默认选项;而真正吃准确率的高难任务,Opus 4.8仍是首选。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定