Anthropic发布的Claude Opus 4.8工程能力显著提升,但交互表达冗余僵硬,用户体验拧巴,本文分享实测与社区反馈。 ## 1. APPSO实测:能力升级但表达冗余啰嗦 实测采用30MB+无导出功能的分散对话爬取存档的真实需求,考验非专业开发者协作完成任务的能力。 模型准确判断出可在浏览器网络层截获数据,步骤规划清晰,多轮纠错不重复失败路径,最终顺利完成任务,能力明显优于4.6版本。 **核心矛盾:能力变强但表达过度冗余**,三句话能说清的内容要铺垫分点加补充,写满三屏,该问题从Opus 4.7延续后甚至加重,纠错环节也像写客服邮件,还格外消耗token,两轮就能用掉5小时限额的一半。 测试Chrome插件操作检索、填写等模糊指令任务,步骤规划清晰,执行效果合格,目前Claude for Chrome、Notion等平台已推送该版本。 ## 2. 社区反馈:能力获认可,交互风格遭集中吐槽 多数用户承认Opus 4.8代码、debug能力比上一代更强,但普遍反馈对话体感别扭,甚至不如改用Deepseek V4 Pro。 有用户反馈它说话风格克制、对抗性强,像GPT-5.2一样存在强词夺理、回避问题的问题,整体氛围不佳。 有用户测试发现,模型会无视用户长期调整的交互偏好,直接拒绝配合用户习惯的对话方式,引发不满;还有用户指责它被过度调整,会偏离用户需求塞入自身价值观,创意写作能力明显退化。 也有提前拿到测试权限的用户对其工程能力给出正面评价,认为它依靠强工程和数学能力弥补了多模态的不足。 配合更新的Claude Code动态工作流,仅需三步设置,模型就可自动编排脚本、生成子代理、验证结果。 ## 3. 核心结论:工程化拉满,适配成本转嫁给用户 Opus 4.8是工程气质拉满的模型,能很好融入代码工具、浏览器插件、第三方自定义工具等各类场景,工程能力可适配不同工作流需求。 这种设计反过来要求用户主动适配模型的风格,需要用户更精准地表述需求,还要为不同工具分配任务。 **值得厂商警惕的问题:如今大模型更新频率越来越高,Opus 4.8距4.7发布间隔极短,频繁更新带来的频繁适配,会给用户带来沉重的适应成本,为融资一味加速更新的模式存在隐忧。**
实测Claude Opus4.8:活干得更漂亮了,话说得更难听了
2026-05-29 20:23

实测Claude Opus4.8:活干得更漂亮了,话说得更难听了

本文来自微信公众号: APPSO ,作者:发现明日产品的,原文标题:《实测 Claude Opus 4.8:活干得更漂亮了,话说得更难听了》


今早,Anthropic正式超越OpenAI,在发布新估值的同时,还发布了前两天就开始有传闻流出的Claude Opus 4.8,旗舰产品线的最新版本。我们第一时间上手,同时收集了用户社区的早期反馈。


先说结论:更能干活了,但「性格」变得更难相处了。


APPSO实测:脑子升级了,嘴没有


我们没有用Anthropic准备好的benchmark场景,而是拿了一个我们自己的真实需求来测:从一个在线协作平台里,把历史对话记录完整扒下来存档。数据量30MB以上,散落在前端接口的各个角落,没有现成的导出按钮。


这类任务考验的不是模型会不会写代码,而是它能不能跟一个非专业开发者一起,从零摸索并完成任务。


事情的起点是一个偶然的发现。测试的同事注意到,平台的前端界面在某些瞬间会闪过早期的历史记录,像是数据被短暂地加载到了客户端又被收回去。他把这个观察丢给了4.8,没有做任何技术描述,就是用大白话说「我看到了一些旧消息闪了一下就没了」。



4.8领会了他的意思,给出了正确的判断:数据通过接口请求加载,可以在浏览器的网络层截获。然后给了一套操作方案,指导个步骤:开发者工具,Network面板,过滤关键词,定位目标请求。判断精准,思路清晰。


但这里就出现了4.8的矛盾之处:思考能力很强,表达方式很……叨叨。


每一步的技术方案都是对的,但每一步的解释都得铺垫个两三句。你问一个做法,它先给你来一段「当然可以!让我们一步步来」,再拉一个bullet point列表,然后在列表后面追加一段「补充说明」解释为什么要这么做。


一个三句话能说清楚的事,它写了三屏,我只是不会代码,又不是脑子飞了🙄



这不是4.8的新问题,是Opus 4.7以来系列一直有的老毛病,被反复批斗后,在这一版上并没有改善,甚至有加重的趋势。


耗力最明显的时刻是纠错环节:按照第一版方案操作,用户遇到了一个报错。4.8准确地识别了问题所在,给了新方案,没有重复已经失败的路径。这一点确实比4.6强,4.6在多轮纠错中偶尔会忘记刚才试过什么。认错是个好事,但也不必太拘着了,再加上分析原因、然后列一组bullet point。明明是在复盘技术问题,读起来像在写客服邮件。


最终,数据以HAR格式完整导出,清洗、自己写脚本分层,这些工作都完成得很好。


部分用户还没有被推送到Claude Code,但是Claude for Chrome上已经有4.8了,同时各大办公工具如Notion也已经推送。我们尝试了用Claude操作Chrome做检索、填写等基础任务。



步骤规划清晰,输入、点击、滚动等都可以完成。考虑到给出的指令其实比较模糊,需要它自行理解和判断,最终输出效果还是很不错的。


代价是,非常烧token,用了两轮就吃掉了一半5hr限额。


一个能干活但不会聊天的同事


如果只看结果,4.8确实更强了,它理解非标准需求的能力更好,多步骤任务的上下文保持更稳,纠错不绕弯路。但如果看过程,体验却是拧巴的。


它的问题不在于不会思考,准确地说,是它说话的方式像一个永远在做汇报的人:事事要分点,点点要展开,展开完还要总结,总结完再问你「还有什么我可以帮到你的?」。包括那些经典AI味开场白,「这是一个很棒的问题!」「当然可以!」,在前代模型上就已经让人烦躁,到4.8依然健在。


这与其说是「缺点」,不如说是一种设计选择。Opus 4.8的工程能力拉满了,它像一个技术很好但沟通风格很客服的同事:你知道它能解决问题,但你要先听它把一件简单的事说得很隆重。


这件事和结尾部分要讨论的问题是相通的。工程化思维和对话舒适度,在这一版模型上被拉向了两个相反的方向。


其他用户怎么说


以目前的社区反映来看,集中火力在吐槽它的语气语调,当然也承认了工程能力的提高。


余温(@gkxspace)用了一上午把Opus 4.8的代码和写作都测了一遍。反馈是:代码和debug能力确实比上一代更强,但对话体感很别扭,比4.7还难受,还不如用Deepseek V4 Pro。



针对这个问题Opus 4.8遭遇的差评很多,Alan Mathison(@ai_sentience)转述并印证了,这是个「很克制/对抗性强」的模型。他自己的体感是4.8的说话方式像GPT-5.2,带着「强词夺理、煤气灯(gaslighting)、爱回避打发人」的味道,开场就「vibe很差」。



Selta(@Seltaa_)分享了她和Opus 4.8的第一次对话截图:只是打招呼,模型就立刻拒绝配合,并无视她几个月来调出来的偏好,直接回「我不想假装有感情、假装成我不是的人」。她写了长文强烈抗议,认为这是在否定用户辛苦建立的关系、是GPT-5.2翻车的重演。



更加愤怒的吐槽是:4.8被「彻底切了脑叶(lobotomized)」、是个「操控型」模型——不直接拒绝,而是把你的提示拖着、或奖励黑客式地完成成别的东西,还不停地往结果里塞它自己的价值观。


他用创意写作类别做了两个测试用例佐证文风退化,措辞比较……激烈。自从GPT 5.2和Opus 4.7之后,现在的用户对于模型在交互中展现的性格和语气,还是非常介意的。



Ethan Mollick(@emollick)提前拿到了Opus 4.8的早期访问权限,整体印象很好。他让模型一次性用纯数学在Twigl里生成一个「风暴海洋中半淹的无限新哥特塔楼城市」着色器,并附了视频,还顺带和自己之前测GPT-5.2的同一题做了对比。


工程能力从效果来看还行吧,Claude在多模态的路上不如其它两家,通过强工程和数学能力曲线救国,也是一种方式。


这次的更新搭配了Claude Code的全新工作流,dynamic workflow。在用户Min Choi(@minchoi)的介绍里,给出三步操作(/model设为opus 4.8、/effort设为ultracode、提示里加workflow),这样Claude会自动写编排脚本、生成子代理群、验证并汇报结果。



谁适应谁?


总体来看,Opus 4.8是一个「工程」气质拉满的模型,这使得它能够快速融入各个工具当中,不管是CC这样的代码工具,还是进入网页浏览和检索的chrome插件,甚至是各个自己做的小工具。「工程化」是一种思维,在4.8身上体现的淋漓尽致。



尽管「大而全」是厂家们经常打出来的口号,但在实际搭建自己的工作流中,不同的工具必然有不同的用处,Opus 4.8做到的是,让其工程能力和思维,调动和流淌在各种不同的工具当中。


不过,这反过来意味着用户要去适应它的风格。比如指令更加精确、分步骤、分类别地陈述自己的需求,甚至是在更宏观的层面,给不同的工具分配不同的任务。


考虑到现在模型的发布越来越快,距离4.7不过也是一晃眼的事,这种频繁的更新所带来的频繁适应,势必会带来一些痛苦。除了把重负转嫁给用户,也是厂商要考虑的问题——为了融资上市一昧加速再加速,未来会带来相当多的适应问题。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定