本文作者实测了Anthropic刚发布的Claude Opus 4.8,分享了该模型的更新特性、各能力表现与使用体验,以及行业近况。 ## 1. 行业背景与模型基础信息 Anthropic刚完成650亿美元融资,估值逼近一万亿人民币,距离Opus 4.7上线仅42天就快速推出Opus 4.8,市场普遍认为是受GPT-5.5和Codex的竞争压力驱动。 Claude Opus 4.8最大上下文、输出长度、知识库时间、定价均和Opus 4.7一致,基于Opus 4.7基模微调,按照Claude网页端仅保留两代模型的传统,旧版Opus 4.6已被替换下线。 ## 2. 核心能力表现与基准测试结果 Opus 4.8各项跑分均较前代小幅提升,仅在Agent开发能力基准Terminal-Bench 2.1上仍落后于GPT-5.5,侧面印证GPT-5.5的开发能力实力强劲。 代码开发能力提升明显:优化了隐瞒代码瑕疵的问题,代码瑕疵蒙混过关的概率比上一代降低约4倍,实测偷懒不良率可达到0%,审查代码更全面细致,错误率和幻觉率明显降低。 内容创作能力较Opus 4.7有进步,但仍远不如Opus 4.6,AI刻板痕迹重,作者原适配Opus 4.6的内容工作流需要全部重构。 ## 3. 核心更新特性梳理 - 全用户开放思考强度调整:所有套餐(含免费用户)都可在模型选择旁调整从Low到Max的努力等级,搭配自适应思考使用即可,满足不同场景需求。 - 精准度提升但主动性减弱:模型更遵循指令,指哪打哪,对专业开发者更友好,但不会主动完成额外需求,对普通用户的需求表达能力要求更高。 - 快速模式降价升级:速度维持为标准版的2.5倍,价格从原标准版的6倍降至2倍,当前定价为每百万输入10美元、每百万输出50美元,算力成本优化明显。 - 新增Claude Code动态工作流:可让模型自动编排脚本,拉起数十上百个子Agent并行处理复杂大任务,完成后自验再交付结果,可通过指令触发或调整至特殊努力等级Ultracode自动启用。 ## 4. 作者体验与后续爆料 作者作为开发者比较认可Opus 4.8,认为开发体验有明显提升,但对内容创作领域被替换的Opus 4.6感到可惜。 Anthropic还有比Opus智能等级更高的新模型Mythos,预计几周内就会向所有客户开放,作者将继续跟进测试。
实测Claude Opus4.8,这可能是第一个不会偷懒的模型。
2026-05-29 06:29

实测Claude Opus4.8,这可能是第一个不会偷懒的模型。

本文来自微信公众号: 数字生命卡兹克 ,作者:数字生命卡兹克,原文标题:《实测Claude Opus 4.8,这可能是第一个不会偷懒的模型。》


大半夜的,刚准备早睡一下。



除此之外,又发了另一个消息。



完成了新一轮650亿美元的融资,估值逼近一万亿美元。。。


前有港股智谱7000亿市值,后有Anthropic估值7万亿人民币。


果然AI行业的造富神话,比鬼故事还要鬼故事。


但是说实话,距离4月17号Opus 4.7上线,仅仅才过去42天,一个半月,又一个新模型扔出来,在Cluade的发布历史上,从来没有过。


看来确实GPT-5.5和Codex给的压力确实太大了,Opus 4.7的口碑确实把自己也给拉完了,所以没办法,要最快速度把Opus 4.8拉出来救火,要不然真的可能被Codex偷家偷疯了。


在模型的本身参数比如最大上下文、输出长度、知识库时间啥的,跟Opus 4.7几乎是一样。



价格也没变,$5/M输入、$25/M输出。


所以基本上用的也是Opus 4.7的基模上直接又调了一下。


然后,我就反应过来了一件事,我靠,你Opus 4.8上了,你不会要把我的Opus 4.6给顶掉了吧。


因为Opus 4.5在内容创作上是我觉得的巅峰,Opus比Opus 4.7差了一点,但是我觉得还能用,而Opus 4.7是我完全觉得不可用的状态。


按照claude在过去网页端只保留两代模型的优良传统,Opus 4.6可能会被顶掉。


我抱着进展的心情一看。



Claude我干你大爷。


行吧,只能接受,说不定Opus 4.8,在内容创作上更好呢?(虽然我几乎不对这个事情抱有期待了。)


说回Claude Opus 4.8。



不废话,先看跑分截图吧。



跑分我真的不想多聊了,很没劲,反正就是赢学。


数字又高了一点,大概就是这样。


唯一一个在上面穷尽洪荒之力还是没跑过GPT-5.5的类别,是Terminal-Bench 2.1。


这玩意是一个Agentic基准,大概就是用来评估Agent在真实命令行环境里干活的能力,考的就是把模型直接扔进一个沙盒终端里,让它自己去查文件、敲命令、看报错、调试等等,看看能不能跨多个步骤把一个任务做完。



这个是在Claude口径里,唯一一个跑不过GPT-5.5的,而且这个还挺要命的。


因为Terminal-Bench基本代表着Agent开发能力的最高峰,穷尽了洪荒之力也没干过GPT-5.5,那这过两天GPT-5.6出来,那还玩个屁啊。


这也从侧面说明了,GPT-5.5的开发能力,是真的强。。。


然后再说一说这次更新的一些特性。


1.思考强度给所有人开放


这次4.8上线,同时把一个叫effort(努力程度)的控制,开放给所有人了,也就是你在Chat模式下,也可以调整模型的努力程度了,所有套餐都有,免费用户也有。


Claude Code和Cowork用户对这个东西肯定很熟悉。


位置就在模型选择那个地方旁边。



上面那个从Low到Max,就是努力等级。


下面那个自适应思考记得别关,还是开着,组合起来用就行。


我自己其实常年喜欢默认开着Extra,然后开大活就上Max的,因为Opus 4.7只有自适应思考,不是很好用,Opus 4.8终于给弄回来了。


2.变得更精确但也更不主动了


Opus 4.8更新以后,有一个明显的感觉,就是它更加的精确了,有一点GPT-5.5的感觉,指哪打哪。


更加的遵循你的指令,这确实对于专业的开发者来说,是件好事。


但是同时也带来一个弊端,就是他的主动性,会变弱。


就是你让它干A,它现在就只干A,绝不会自作主张觉得诶你这意思是不是顺便也想要B然后把B也顺带手给你办了。


我自己现在就遇到了,晚上测试的时候,习惯性的没跟它说一定要去看线上数据不要只看本地代码,但是在Opus 4.6和4.7的时候,他们都还是会主动的去用我的skill连接线上服务器,看生产环境的数据的,但是Opus 4.8却两次都没主动去看,给我的方案,都是基于本地的,这反而给我带来了一些麻烦,重新调整了一下文档和记忆,才好一点。


对于一个设计好了自己Harness的环境的专业开发者,我觉得会感觉到非常得劲,那其实能感觉到,它的错误率和幻觉率,都在降低,很精准。


但是如果把这个群体,推衍到整个Vibe Coding群体,我其实绝对,不一定是个好事。


我们视频组同事今晚在用Opus 4.8来测他们的用Skill来做视频动效的工作流,发现效果反而变差的,有一个很形象的描述就是。



而且你能明显的感觉到,更加自信,在过程中跟你确认的时刻变少了。


比如这个,优化方案出来,直接不确认,直接就自己干了。



因为我们其实很多非专业者,在用AI的时候,是靠着AI的主动性去往前走的,就是真的有的时候会用习惯了那种你懂我意思的爽感。


你含含糊糊扔一句话过去,它就能猜到你心里那个完整的需求,然后问你是不是,在帮你直接搞出来,这种被理解的感觉,其实还挺上头的。


当然这个爽感,是有代价的,就是模型的主观性太强,代价就是不可控。


它猜对了你舒服,它猜错了呢,它就拿着一个你压根没提的需求,吭哧吭哧给你干一堆活,最后还得你来擦屁股,这种出发点是好的但是结果是拉的,在长时Agent任务中,尤其要命。


所以,未来再跟Opus 4.8协同的时候,可能需要,对大家需求表达能力,要求的更高了。


3.变得更加诚实了


这个点更上面有点像,也是Anthropic自己拎出来放在博客核心位置的点。



过去大家一定遇到过,就比如说Claude帮你写个功能,它噼里啪啦给你写了一大段,然后特别自信地跟你说,搞定了,没问题,可以跑了。


你信了,你一跑,你才发现,另一个地方崩了。


你回去问它,它又特别自信地说,哦抱歉,问题找到了,对不去我没有发现,我再改一下,这下绝对没问题了。


你又信了,你又跑,然后你又报错了。


很多时候经常会出现。


你要知道,它每一次都那么斩钉截铁,每一次都那么言之凿凿,但每一次,它其实自己心里也没底,AI,很多时候,只是被训练得看起来很有把握而已,这个毛病,几乎是所有大模型的通病。


这次Opus 4.8,就在这个问题上做了重点的优化。


官方公告对外说的数字是,4.8让自己写的代码里的瑕疵蒙混过关的概率,比上一代低了大概4倍。


我又去翻了下这次Opus 4.8的系统卡。


然后发现了更牛逼的东西。



在偷懒这个问题上,Opus 4.8,好像是唯一一个,能做到0%不良率的模型。


在我夜里几个小时的测试与开发中,我也能感觉到,这是真的不偷懒啊,思考的是真细啊。。。


之前有次都给我干生气了。


Opus 4.8明显靠谱很多,非常详细的在全面审查我的代码,找尽可能需要优化的地方。



我同事的反馈也是这样。



基本上大家的感觉都差不多。


Opus 4.8在开发上总体的感觉,是有大进步的。


4.创作能力


同样的Skill,同样的创作,比Opus 4.7是有进步的,但是依然比不上Opus 4.6。


比如我把我我之前写的AI时代的6个人才特质给抽离出来了,让Opus 4.8用我的写作Skill去写,写出来的一些句子,是这样的。


Opus 4.6+我的Skill是绝对不会写出这种话的,不是XX、而是XX,这是明确的禁用词,直接给我改成不再是来去规避,真的是耍小聪明。


还有那个奇怪的比喻,为什么要把靠谱特质的人,比喻成“高速运转的机器里那点润滑油”,我是真的有点不理解,这是有什么奇怪的癖好吗。


还有这段,非要把一个人,给比喻成一个物化的锚???



还有模型奇妙的大段的无意义的排比,把所谓的AI味的禁忌都犯了个遍。


让它根据《流浪地球2》的故事,续写一个新的地下城的1000字的小故事。


写的也挺刻板印象的。



比4.7好,但是确实没好多少。


整体的人机味还都挺重的。


5.其他更新


这次Opus 4.8还迭代了下快速模型,官方叫fast mode。


之前其实就有,你再Claude Code里输入/fast就有。



只是之前是Opus 4.7的fast就是比较贵,2.5倍的速度,但是是6倍的价格。


普通版本价格一直是百万输入5美元、百万输出25美元,然后Opus 4.7 fast模式的价格是输入30美元、输出150美元。


但是这次做了一个还不错的升级,速度直接达到了标准版的2.5倍的速度,价格却只有之前版本fast的三分之一,降到了输入10美元,输出50美元。


从标准版的6倍价格,变成了标准版的2倍价格,但是速度没变。


也能侧面看出来马斯克的算力确实是给到位了,Claude一下子就财大气粗了。


然后还有一个东西,也挺有意思的,是Claude Code的dynamic workflows功能。


翻译过来叫动态工作流。



大概作用就是,让Claude自己写一套编排脚本,在一次任务里,一口气拉起几十个、甚至上百个子agent并行开干,干完它还会先自己验一遍,确认


没问题了,然后把结果交给你。


原话是:“有些问题过于庞大,单次单代理处理难以胜任,尤其是在复杂、遗留的代码库中:跨整个服务的缺陷排查、涉及数百个文件的迁移、或是在最终决策前需要从多角度进行压力测试的方案。动态工作流能够端到端地处理所有这些任务。”


触发方式有两种。


第一种是直接跟Claude Code说,创建一个动态工作流balbalbala。


第二种是,把努力级别调整成一个特殊的选项Ultracode,这个设置会自己会将努力级别调至xhigh,同时让Claude自动判断何时使用工作流来处理你的任务。



这次Opus 4.8的更新总结,大概就是这样。


我自己还是比较喜欢的,因为在开发上确实有不错的加成,整体确实变好用了。


但是在创作上,我还是有点失落的,因为把我的Opus 4.6给顶掉了。。。


未来为了适配Opus 4.8,可能我们的很多跟内容相关的Prompt和Skill全都得重写了,因为这玩意牵扯的东西太多了,调研、历史文献撰写、分镜撰写、特效生成啥的,全都是内容。。。


就很烦,好不容易都在Opus 4.6上跑通了,又得全部重新来。


哎。


哦对了,Anthropic这次还留了个更大的钩子。


除了Opus这条线,它们手里那个还攥了很久的,比Opus智能还要更高一档的新模型,代号Mythos,说是过几周,就能给所有客户用上了。


到时候,我想看看这个号称最牛逼的模型。


到底是个什么光景。


AI啊,真好玩。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP