本文来自微信公众号: APPSO ,作者:发现明日产品的,原文标题:《实测 Claude Opus 4.8:活干得更漂亮了,话说得更难听了》
今早,Anthropic正式超越OpenAI,在发布新估值的同时,还发布了前两天就开始有传闻流出的Claude Opus 4.8,旗舰产品线的最新版本。我们第一时间上手,同时收集了用户社区的早期反馈。
先说结论:更能干活了,但「性格」变得更难相处了。
APPSO实测:脑子升级了,嘴没有
我们没有用Anthropic准备好的benchmark场景,而是拿了一个我们自己的真实需求来测:从一个在线协作平台里,把历史对话记录完整扒下来存档。数据量30MB以上,散落在前端接口的各个角落,没有现成的导出按钮。
这类任务考验的不是模型会不会写代码,而是它能不能跟一个非专业开发者一起,从零摸索并完成任务。
事情的起点是一个偶然的发现。测试的同事注意到,平台的前端界面在某些瞬间会闪过早期的历史记录,像是数据被短暂地加载到了客户端又被收回去。他把这个观察丢给了4.8,没有做任何技术描述,就是用大白话说「我看到了一些旧消息闪了一下就没了」。

4.8领会了他的意思,给出了正确的判断:数据通过接口请求加载,可以在浏览器的网络层截获。然后给了一套操作方案,指导个步骤:开发者工具,Network面板,过滤关键词,定位目标请求。判断精准,思路清晰。
但这里就出现了4.8的矛盾之处:思考能力很强,表达方式很……叨叨。
每一步的技术方案都是对的,但每一步的解释都得铺垫个两三句。你问一个做法,它先给你来一段「当然可以!让我们一步步来」,再拉一个bullet point列表,然后在列表后面追加一段「补充说明」解释为什么要这么做。
一个三句话能说清楚的事,它写了三屏,我只是不会代码,又不是脑子飞了🙄

这不是4.8的新问题,是Opus 4.7以来系列一直有的老毛病,被反复批斗后,在这一版上并没有改善,甚至有加重的趋势。
耗力最明显的时刻是纠错环节:按照第一版方案操作,用户遇到了一个报错。4.8准确地识别了问题所在,给了新方案,没有重复已经失败的路径。这一点确实比4.6强,4.6在多轮纠错中偶尔会忘记刚才试过什么。认错是个好事,但也不必太拘着了,再加上分析原因、然后列一组bullet point。明明是在复盘技术问题,读起来像在写客服邮件。
最终,数据以HAR格式完整导出,清洗、自己写脚本分层,这些工作都完成得很好。
部分用户还没有被推送到Claude Code,但是Claude for Chrome上已经有4.8了,同时各大办公工具如Notion也已经推送。我们尝试了用Claude操作Chrome做检索、填写等基础任务。

步骤规划清晰,输入、点击、滚动等都可以完成。考虑到给出的指令其实比较模糊,需要它自行理解和判断,最终输出效果还是很不错的。
代价是,非常烧token,用了两轮就吃掉了一半5hr限额。
一个能干活但不会聊天的同事
如果只看结果,4.8确实更强了,它理解非标准需求的能力更好,多步骤任务的上下文保持更稳,纠错不绕弯路。但如果看过程,体验却是拧巴的。
它的问题不在于不会思考,准确地说,是它说话的方式像一个永远在做汇报的人:事事要分点,点点要展开,展开完还要总结,总结完再问你「还有什么我可以帮到你的?」。包括那些经典AI味开场白,「这是一个很棒的问题!」「当然可以!」,在前代模型上就已经让人烦躁,到4.8依然健在。
这与其说是「缺点」,不如说是一种设计选择。Opus 4.8的工程能力拉满了,它像一个技术很好但沟通风格很客服的同事:你知道它能解决问题,但你要先听它把一件简单的事说得很隆重。
这件事和结尾部分要讨论的问题是相通的。工程化思维和对话舒适度,在这一版模型上被拉向了两个相反的方向。
其他用户怎么说
以目前的社区反映来看,集中火力在吐槽它的语气语调,当然也承认了工程能力的提高。
余温(@gkxspace)用了一上午把Opus 4.8的代码和写作都测了一遍。反馈是:代码和debug能力确实比上一代更强,但对话体感很别扭,比4.7还难受,还不如用Deepseek V4 Pro。

针对这个问题Opus 4.8遭遇的差评很多,Alan Mathison(@ai_sentience)转述并印证了,这是个「很克制/对抗性强」的模型。他自己的体感是4.8的说话方式像GPT-5.2,带着「强词夺理、煤气灯(gaslighting)、爱回避打发人」的味道,开场就「vibe很差」。

Selta(@Seltaa_)分享了她和Opus 4.8的第一次对话截图:只是打招呼,模型就立刻拒绝配合,并无视她几个月来调出来的偏好,直接回「我不想假装有感情、假装成我不是的人」。她写了长文强烈抗议,认为这是在否定用户辛苦建立的关系、是GPT-5.2翻车的重演。

更加愤怒的吐槽是:4.8被「彻底切了脑叶(lobotomized)」、是个「操控型」模型——不直接拒绝,而是把你的提示拖着、或奖励黑客式地完成成别的东西,还不停地往结果里塞它自己的价值观。
他用创意写作类别做了两个测试用例佐证文风退化,措辞比较……激烈。自从GPT 5.2和Opus 4.7之后,现在的用户对于模型在交互中展现的性格和语气,还是非常介意的。

Ethan Mollick(@emollick)提前拿到了Opus 4.8的早期访问权限,整体印象很好。他让模型一次性用纯数学在Twigl里生成一个「风暴海洋中半淹的无限新哥特塔楼城市」着色器,并附了视频,还顺带和自己之前测GPT-5.2的同一题做了对比。
工程能力从效果来看还行吧,Claude在多模态的路上不如其它两家,通过强工程和数学能力曲线救国,也是一种方式。
这次的更新搭配了Claude Code的全新工作流,dynamic workflow。在用户Min Choi(@minchoi)的介绍里,给出三步操作(/model设为opus 4.8、/effort设为ultracode、提示里加workflow),这样Claude会自动写编排脚本、生成子代理群、验证并汇报结果。

谁适应谁?
总体来看,Opus 4.8是一个「工程」气质拉满的模型,这使得它能够快速融入各个工具当中,不管是CC这样的代码工具,还是进入网页浏览和检索的chrome插件,甚至是各个自己做的小工具。「工程化」是一种思维,在4.8身上体现的淋漓尽致。

尽管「大而全」是厂家们经常打出来的口号,但在实际搭建自己的工作流中,不同的工具必然有不同的用处,Opus 4.8做到的是,让其工程能力和思维,调动和流淌在各种不同的工具当中。
不过,这反过来意味着用户要去适应它的风格。比如指令更加精确、分步骤、分类别地陈述自己的需求,甚至是在更宏观的层面,给不同的工具分配不同的任务。
考虑到现在模型的发布越来越快,距离4.7不过也是一晃眼的事,这种频繁的更新所带来的频繁适应,势必会带来一些痛苦。除了把重负转嫁给用户,也是厂商要考虑的问题——为了融资上市一昧加速再加速,未来会带来相当多的适应问题。
