Anthropic发布的Claude Opus 4.8工程能力显著提升，但交互表达冗余僵硬，用户体验拧巴，本文分享实测与社区反馈。 ## 1. APPSO实测：能力升级但表达冗余啰嗦实测采用30MB+无导出功能的分散对话爬取存档的真实需求，考验非专业开发者协作完成任务的能力。模型准确判断出可在浏览器网络层截获数据，步骤规划清晰，多轮纠错不重复失败路径，最终顺利完成任务，能力明显优于4.6版本。 **核心矛盾：能力变强但表达过度冗余**，三句话能说清的内容要铺垫分点加补充，写满三屏，该问题从Opus 4.7延续后甚至加重，纠错环节也像写客服邮件，还格外消耗token，两轮就能用掉5小时限额的一半。测试Chrome插件操作检索、填写等模糊指令任务，步骤规划清晰，执行效果合格，目前Claude for Chrome、Notion等平台已推送该版本。 ## 2. 社区反馈：能力获认可，交互风格遭集中吐槽多数用户承认Opus 4.8代码、debug能力比上一代更强，但普遍反馈对话体感别扭，甚至不如改用Deepseek V4 Pro。有用户反馈它说话风格克制、对抗性强，像GPT-5.2一样存在强词夺理、回避问题的问题，整体氛围不佳。有用户测试发现，模型会无视用户长期调整的交互偏好，直接拒绝配合用户习惯的对话方式，引发不满；还有用户指责它被过度调整，会偏离用户需求塞入自身价值观，创意写作能力明显退化。也有提前拿到测试权限的用户对其工程能力给出正面评价，认为它依靠强工程和数学能力弥补了多模态的不足。配合更新的Claude Code动态工作流，仅需三步设置，模型就可自动编排脚本、生成子代理、验证结果。 ## 3. 核心结论：工程化拉满，适配成本转嫁给用户 Opus 4.8是工程气质拉满的模型，能很好融入代码工具、浏览器插件、第三方自定义工具等各类场景，工程能力可适配不同工作流需求。这种设计反过来要求用户主动适配模型的风格，需要用户更精准地表述需求，还要为不同工具分配任务。 **值得厂商警惕的问题：如今大模型更新频率越来越高，Opus 4.8距4.7发布间隔极短，频繁更新带来的频繁适配，会给用户带来沉重的适应成本，为融资一味加速更新的模式存在隐忧。**

2026-05-29 20:23

实测Claude Opus4.8：活干得更漂亮了，话说得更难听了

AppSo

本文来自微信公众号： APPSO ，作者：发现明日产品的，原文标题：《实测 Claude Opus 4.8：活干得更漂亮了，话说得更难听了》

今早，Anthropic正式超越OpenAI，在发布新估值的同时，还发布了前两天就开始有传闻流出的Claude Opus 4.8，旗舰产品线的最新版本。我们第一时间上手，同时收集了用户社区的早期反馈。

先说结论：更能干活了，但「性格」变得更难相处了。

APPSO实测：脑子升级了，嘴没有

我们没有用Anthropic准备好的benchmark场景，而是拿了一个我们自己的真实需求来测：从一个在线协作平台里，把历史对话记录完整扒下来存档。数据量30MB以上，散落在前端接口的各个角落，没有现成的导出按钮。

这类任务考验的不是模型会不会写代码，而是它能不能跟一个非专业开发者一起，从零摸索并完成任务。

事情的起点是一个偶然的发现。测试的同事注意到，平台的前端界面在某些瞬间会闪过早期的历史记录，像是数据被短暂地加载到了客户端又被收回去。他把这个观察丢给了4.8，没有做任何技术描述，就是用大白话说「我看到了一些旧消息闪了一下就没了」。

4.8领会了他的意思，给出了正确的判断：数据通过接口请求加载，可以在浏览器的网络层截获。然后给了一套操作方案，指导个步骤：开发者工具，Network面板，过滤关键词，定位目标请求。判断精准，思路清晰。

但这里就出现了4.8的矛盾之处：思考能力很强，表达方式很……叨叨。

每一步的技术方案都是对的，但每一步的解释都得铺垫个两三句。你问一个做法，它先给你来一段「当然可以！让我们一步步来」，再拉一个bullet point列表，然后在列表后面追加一段「补充说明」解释为什么要这么做。

一个三句话能说清楚的事，它写了三屏，我只是不会代码，又不是脑子飞了🙄

这不是4.8的新问题，是Opus 4.7以来系列一直有的老毛病，被反复批斗后，在这一版上并没有改善，甚至有加重的趋势。

耗力最明显的时刻是纠错环节：按照第一版方案操作，用户遇到了一个报错。4.8准确地识别了问题所在，给了新方案，没有重复已经失败的路径。这一点确实比4.6强，4.6在多轮纠错中偶尔会忘记刚才试过什么。认错是个好事，但也不必太拘着了，再加上分析原因、然后列一组bullet point。明明是在复盘技术问题，读起来像在写客服邮件。

最终，数据以HAR格式完整导出，清洗、自己写脚本分层，这些工作都完成得很好。

部分用户还没有被推送到Claude Code，但是Claude for Chrome上已经有4.8了，同时各大办公工具如Notion也已经推送。我们尝试了用Claude操作Chrome做检索、填写等基础任务。

步骤规划清晰，输入、点击、滚动等都可以完成。考虑到给出的指令其实比较模糊，需要它自行理解和判断，最终输出效果还是很不错的。

代价是，非常烧token，用了两轮就吃掉了一半5hr限额。

一个能干活但不会聊天的同事

如果只看结果，4.8确实更强了，它理解非标准需求的能力更好，多步骤任务的上下文保持更稳，纠错不绕弯路。但如果看过程，体验却是拧巴的。

它的问题不在于不会思考，准确地说，是它说话的方式像一个永远在做汇报的人：事事要分点，点点要展开，展开完还要总结，总结完再问你「还有什么我可以帮到你的？」。包括那些经典AI味开场白，「这是一个很棒的问题！」「当然可以！」，在前代模型上就已经让人烦躁，到4.8依然健在。

这与其说是「缺点」，不如说是一种设计选择。Opus 4.8的工程能力拉满了，它像一个技术很好但沟通风格很客服的同事：你知道它能解决问题，但你要先听它把一件简单的事说得很隆重。

这件事和结尾部分要讨论的问题是相通的。工程化思维和对话舒适度，在这一版模型上被拉向了两个相反的方向。

其他用户怎么说

以目前的社区反映来看，集中火力在吐槽它的语气语调，当然也承认了工程能力的提高。

余温（@gkxspace）用了一上午把Opus 4.8的代码和写作都测了一遍。反馈是：代码和debug能力确实比上一代更强，但对话体感很别扭，比4.7还难受，还不如用Deepseek V4 Pro。

针对这个问题Opus 4.8遭遇的差评很多，Alan Mathison（@ai_sentience）转述并印证了，这是个「很克制/对抗性强」的模型。他自己的体感是4.8的说话方式像GPT-5.2，带着「强词夺理、煤气灯（gaslighting）、爱回避打发人」的味道，开场就「vibe很差」。

Selta（@Seltaa_）分享了她和Opus 4.8的第一次对话截图：只是打招呼，模型就立刻拒绝配合，并无视她几个月来调出来的偏好，直接回「我不想假装有感情、假装成我不是的人」。她写了长文强烈抗议，认为这是在否定用户辛苦建立的关系、是GPT-5.2翻车的重演。

更加愤怒的吐槽是：4.8被「彻底切了脑叶（lobotomized）」、是个「操控型」模型——不直接拒绝，而是把你的提示拖着、或奖励黑客式地完成成别的东西，还不停地往结果里塞它自己的价值观。

他用创意写作类别做了两个测试用例佐证文风退化，措辞比较……激烈。自从GPT 5.2和Opus 4.7之后，现在的用户对于模型在交互中展现的性格和语气，还是非常介意的。

Ethan Mollick（@emollick）提前拿到了Opus 4.8的早期访问权限，整体印象很好。他让模型一次性用纯数学在Twigl里生成一个「风暴海洋中半淹的无限新哥特塔楼城市」着色器，并附了视频，还顺带和自己之前测GPT-5.2的同一题做了对比。

工程能力从效果来看还行吧，Claude在多模态的路上不如其它两家，通过强工程和数学能力曲线救国，也是一种方式。

这次的更新搭配了Claude Code的全新工作流，dynamic workflow。在用户Min Choi（@minchoi）的介绍里，给出三步操作（/model设为opus 4.8、/effort设为ultracode、提示里加workflow），这样Claude会自动写编排脚本、生成子代理群、验证并汇报结果。

谁适应谁？

总体来看，Opus 4.8是一个「工程」气质拉满的模型，这使得它能够快速融入各个工具当中，不管是CC这样的代码工具，还是进入网页浏览和检索的chrome插件，甚至是各个自己做的小工具。「工程化」是一种思维，在4.8身上体现的淋漓尽致。

尽管「大而全」是厂家们经常打出来的口号，但在实际搭建自己的工作流中，不同的工具必然有不同的用处，Opus 4.8做到的是，让其工程能力和思维，调动和流淌在各种不同的工具当中。

不过，这反过来意味着用户要去适应它的风格。比如指令更加精确、分步骤、分类别地陈述自己的需求，甚至是在更宏观的层面，给不同的工具分配不同的任务。

考虑到现在模型的发布越来越快，距离4.7不过也是一晃眼的事，这种频繁的更新所带来的频繁适应，势必会带来一些痛苦。除了把重负转嫁给用户，也是厂商要考虑的问题——为了融资上市一昧加速再加速，未来会带来相当多的适应问题。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定