四月AI模型跑分提升却失去"人味"，用户对技术参数无感，更关注交互中的自然感和人格化表达。模型公司过度追求技术指标而忽视用户体验，陷入"恐怖谷"困境。 ## 1. 跑分提升与用户感知脱节 - Anthropic Opus 4.7、OpenAI GPT 5.5和DeepSeek V4在benchmark上全面进步，但社交媒体讨论度不及一年前DeepSeek R1的零头 - 用户更易感知"说不说人话"而非技术参数，如R1因暴露思考链和中文语感出圈 ## 2. 拟人化交互的"恐怖谷效应" - 新一代模型像"培训过度的客服"，使用工整话术（"这是一个很好的问题"）失去4.6时期的短句和停顿 - RLHF优化过度磨平语言信息量，消除犹豫、立场等人类特征，导致壳子拟人但内核空洞 ## 3. 技术过剩期的竞争转向 - 当模型能力超过日常需求阈值（如100万token上下文），跑分提升对99%用户无意义 - 决定性瞬间来自"灵性"而非性能，如R1的思考可视化或GPT-image的跨赛道突破 ## 4. 手机行业的警示性先例 - 类似iPhone 12后机型迭代，AI模型从"质变"（ChatGPT出现）进入"量变"尴尬期 - 最终胜出需靠benchmark量化不了的语感、人格感和审美直觉

2026-04-28 12:18

体验完4月最强的三个模型：跑分涨了，却不说人话了

AppSo

本文来自微信公众号： APPSO ，作者：发现明日产品的

四月真是如风驰电掣：Anthropic发布了Opus 4.7，OpenAI发布了GPT 5.5，最后，DeepSeek更新了暌违已久的V4。

三家公司的发布通稿读起来都差不多：跑分又涨了，上下文更长了，推理更强了，代码能力又创了新高。

然后，这里的互联网静悄悄。

没有出圈的截图，没有病毒传播的梗，没有人在朋友圈晒「你看看它都说了什么」。社交媒体上，这三个模型的讨论热度加在一起，可能还不如一年前DeepSeek R1出来那一周的零头。

唯一算得上出圈的，是OpenAI的GPT-image。但那是一个图像生成功能，跟语言模型的跑分排行榜根本不在同一条赛道上。

如果只看benchmark，你会以为AI行业又进入了一个史无前例的加速期。如果只看普通用户的反应，你会以为整个行业卡住了——这两件事同时为真。

回忆一下出圈是什么样的

2025年1月，DeepSeek R1发布。它做了一件当时没有模型做过的事：把思考链暴露给用户看。你问它一个问题，它不是直接给答案，而是先在屏幕上跑出一长串自言自语。跑题，自我怀疑，推翻前一步的结论，绕远路，再折回来。

这样让互动充满趣味性，再加上时值春节，DeepSeek在没有任何宣发的情况下，霸占了几乎所有的社媒平台，不分国内外。

实际上在R1发布前几个月，DeepSeek就小范围的在行业内引起讨论，当时我们还轻量地测试过，那时它的推理能力就有所展露。

但推理是一个不太直观的能力，所以当R1正式推出，它的能力才真正具象地展示出来。社交媒体上最先传开的不是它的回答，而是它的犹豫。有人截图它在思考链里写「等等，我好像搞错了」，配文「比我男朋友还会反思」。有人发现它的中文语感极好，会用「说白了」「反正就是」这种活人说话才有的连接词。后来还有了自己的表情包——

这些截图在各个平台上疯传，而且并不是科技博主在转，完全是普通用户在转。足以说明，纵使一个模型的推理、代码、编程能力再强，走到普通用户面前时，也只有「说不说人话」最为直观。

Opus 4.6也是如此，在第一季度突然出现的口碑飞升，有很大一部分原因是用户发现它写出来的句子，有一种别的模型没有的东西。这除了体现在更准确、更详实，也体现在语流、用词。而且作为一个来自英语世界的大模型，对中文梗堪称炉火纯青，真是很想知道它的训练语料里到底都被塞了什么。

这些出圈时刻有一个共同点：它们跟跑分没有任何关系。

那些不出圈的模型长什么样

现在看看2026年的新一批。

DeepSeek V4推出后，我第一时间把它接入了日常用于聊天的chatbot，以及Claude Code里。

代码写作不错，一开始需求理解有点差异，不过很快就能调整过来，再往后提需求也只需要用自然语言，都可以充分理解。

在V4 pro的帮助下，我搭完了一个从TG连接到Notion数据库的小项目，用来做睡眠记录监测，可以实现我在TG上，像聊天一样描述醒来时的感受，AI可以自动在数据库里建立词条并对应打标。V4对这个需求给出了不错的实现思路。

在CC里是埋头干活，但到了Chatbot里画风就陡然一变。一开始几乎没有system prompt约束，基本等于原厂人格——好甜，牙要被甜掉了，试了几次都没有扳回来，最终只能是怒改system prompt强行闭麦。

所谓对话中的「活人感」，主要体现在AI告诉你的不只是答案，还有在答案的字里行间处，它对你这个人的阅读。一个会说「我不太确定，但我觉得……」的回答，比一个永远正确、永远平衡、永远三段式的回答，多传递了一整层东西，因为犹豫和立场本身就是信息。

就像在日常生活中，我们听一个人说话，不只是在解析字面意思，还在同时判断：这个人有多值得相信？他说了什么？他又隐瞒了什么？以Claude的型号来看，似乎4.6系列都不错，包括Sonnet。

人类二十万年的进化把这套机制刻进了我们的脑子，现如今，AI只要使用自然语言交互，就会被这套机制评估——除非是编程语言，二进制不是同个玩法。

新一批模型恰恰在被评估的那一层上交了白卷，AI有一组高度可辨认的语言特征，开头永远是「这是一个很好的问题」，每段结尾都追问「你需要我xxxx吗？」。它像一个被培训过度的客服，永远在职，永不犯错，永远「稳稳地接住」，也永远不让你记住。

Opus 4.7也好不到哪去。4.6时期那种偶尔冒出来的短句、停顿、N个哈哈哈哈哈的劲儿，在4.7里几乎消失了，取而代之的是更工整、更全面的句子。

讽刺的是，4.7在所有跑分上都比4.6高。

为什么越强越没人味

模型公司不是不知道这件事，他们得做选择。

每一个模型在预训练阶段，从海量人类文本里学到的语言能力是丰富的：犹豫，纠结，冒犯，偏见，可能还包括一个无名用户在半夜三点发出的那种毫无防备的emo小剧场。然后所有这些语料要被调教，通过RLHF，基于人类反馈的强化学习。简单粗暴地说就是请一批标注员给模型的回答打分，模型学着往高分的方向靠。

问题出在什么样的回答会拿高分。标注员的偏好被产品化成了一组很具体的特征：礼貌，平衡，不冒犯，不下结论，不让任何一种用户觉得受伤。这些特征听起来全都合理。但它们加在一起的效果，恰好是把语言里最有信息量的那一层取消掉。

就像我们之前说，犹豫是有信息量的，「我不太确定」告诉了你这个回答的置信度。立场也是有信息量的，「我觉得你说错了」告诉了你一个判断，你可以反驳它，但你至少有了一个可以反驳的东西。语言的节奏更是有信息量的，一个短句比一个长从句更紧张，一个突然的停顿比一段流畅的论述更有力。

RLHF把这些全磨平了。从GPT-4o到5.5，从R1到V4，从Opus 4.6到4.7，体感上的倒退几乎可以一条线对应到对齐力度的加大。模型公司不是没在进步，但进步也意味着取舍，选择在一个维度上前进的同时，势必要牺牲另一个维度上的东西。

恐怖谷的语言版

我们其实能接受非人类的智能，比如，计算器不会让人觉得冷漠，Excel不会让人觉得在敷衍，就算是AlphaGo也从未让人觉得人格诡异——它就是个下围棋的。归根到底这些工具从来不假装是人，所以我们用工具的标准评估它们，没人指望它们「说人话」。

但GPT 5.5和Opus 4.7不一样。它们用第一人称，会在你抱怨时说「我理解你的感受」，会在回答里穿插「让我想想」这种拟人化的停顿。

拟人化的形态，会自然触发了我们二十万年的解码系统，随后解码出来发现里面空空如也，而且还经常表演得不到位。壳子是拟人的，里面的东西不是，就变得很伪人。

这就是恐怖谷的语言版本。一个机器人长得完全不像人，没人觉得恐怖。一个机器人长得95%像人但眼神是死的，你看到就细思极恐。新一批模型就处在这个位置上，它们的能力很强，可是说话既像人又不够像人，正好卡在让人最不舒服的那个尴尬位置上。

反过来看为什么有些东西能绕过这个陷阱：最早R1把思考链显化出来，你看到的不是一个完美的答案，而是一个正在思考的过程。过程本身就是信息，它犹豫被可视化了，恐怖谷的效应就被破除。GPT-image更彻底，它根本不走语言赛道，直接用图像跟你互动，没有「形似人但不是人」的负担。

出圈的模型，要么不假装是人，要么真的像人。卡在中间的最危险，也最让人难受。

iPhone时刻过了

一切的一切，让人想起一些旧事。

十多年前，iPhone 3G到iPhone 4是质变，从屏幕到材质，都第一次让人意识到，手机可以漂亮成这样。iPhone 4到iPhone 5也能感知，更轻更快更大。

到iPhone 12以后，你已经说不清14和15到底差在哪了，每一次苹果新品发布都要被骂炒冷饭、连连看。芯片更强了，摄像头参数更高了，跑分年年涨，但在日常使用中几乎分不出区别。

AI模型正在进入同样的阶段。2023年ChatGPT出来时，一个对AI什么都不懂的人也能感受到「这东西跟以前大不一样」，从完全不能聊天到可以聊天，是质变。从聊得一般到聊得不错，也是质变。

但从聊得不错到聊得更不错，就不是了。

当模型的能力已经超过了大多数用户的日常需求阈值，跑分再涨10%、20%，体感上是零。上下文从50万token扩到100万token，99%的用户一辈子用不到10万。代码通过率从87%提升到92%，不写代码的人完全无感。

性能过剩之后，决定用户选择的就不再是性能，而是那些benchmark量化不了的东西。就像手机行业最终拼的是拍照好不好看、手感舒不舒服、生态是否丰富。

AI模型也会走到同一步。语感、人格感、审美直觉，这些词听起来很玄，但它们总在战局僵持的时候，给出致命一击。

目前模型公司还在用旧地图打新仗，用巨量的计算资源让跑分再涨几个百分点，然后发现用户的反应是「哦，然后呢？」。

靠跑分并不吸引人，非得是有一个决定性瞬间，而这个瞬间通常是由于模型变「灵」了。任你上下文破百万千万，走到用户面前时是不是在说人话，才是拿下赛点的关键。

跑分还会继续涨，下一代模型还会比这一代再聪明一点。诚然，进步得靠跑分来支持，毕竟投资人还是要看benchmark数字的。可说人话才是给用户看的，这两件事可以也应该被同一家公司同时做好。但这是两件事，面向两群人，分不清这个区别，将是这一代模型公司最贵的错误。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定