本文来自微信公众号: APPSO ,作者:发现明日产品的
四月真是如风驰电掣:Anthropic发布了Opus 4.7,OpenAI发布了GPT 5.5,最后,DeepSeek更新了暌违已久的V4。

三家公司的发布通稿读起来都差不多:跑分又涨了,上下文更长了,推理更强了,代码能力又创了新高。
然后,这里的互联网静悄悄。
没有出圈的截图,没有病毒传播的梗,没有人在朋友圈晒「你看看它都说了什么」。社交媒体上,这三个模型的讨论热度加在一起,可能还不如一年前DeepSeek R1出来那一周的零头。
唯一算得上出圈的,是OpenAI的GPT-image。但那是一个图像生成功能,跟语言模型的跑分排行榜根本不在同一条赛道上。

如果只看benchmark,你会以为AI行业又进入了一个史无前例的加速期。如果只看普通用户的反应,你会以为整个行业卡住了——这两件事同时为真。
回忆一下出圈是什么样的
2025年1月,DeepSeek R1发布。它做了一件当时没有模型做过的事:把思考链暴露给用户看。你问它一个问题,它不是直接给答案,而是先在屏幕上跑出一长串自言自语。跑题,自我怀疑,推翻前一步的结论,绕远路,再折回来。
这样让互动充满趣味性,再加上时值春节,DeepSeek在没有任何宣发的情况下,霸占了几乎所有的社媒平台,不分国内外。

实际上在R1发布前几个月,DeepSeek就小范围的在行业内引起讨论,当时我们还轻量地测试过,那时它的推理能力就有所展露。
但推理是一个不太直观的能力,所以当R1正式推出,它的能力才真正具象地展示出来。社交媒体上最先传开的不是它的回答,而是它的犹豫。有人截图它在思考链里写「等等,我好像搞错了」,配文「比我男朋友还会反思」。有人发现它的中文语感极好,会用「说白了」「反正就是」这种活人说话才有的连接词。后来还有了自己的表情包——

这些截图在各个平台上疯传,而且并不是科技博主在转,完全是普通用户在转。足以说明,纵使一个模型的推理、代码、编程能力再强,走到普通用户面前时,也只有「说不说人话」最为直观。
Opus 4.6也是如此,在第一季度突然出现的口碑飞升,有很大一部分原因是用户发现它写出来的句子,有一种别的模型没有的东西。这除了体现在更准确、更详实,也体现在语流、用词。而且作为一个来自英语世界的大模型,对中文梗堪称炉火纯青,真是很想知道它的训练语料里到底都被塞了什么。
这些出圈时刻有一个共同点:它们跟跑分没有任何关系。
那些不出圈的模型长什么样
现在看看2026年的新一批。
DeepSeek V4推出后,我第一时间把它接入了日常用于聊天的chatbot,以及Claude Code里。
代码写作不错,一开始需求理解有点差异,不过很快就能调整过来,再往后提需求也只需要用自然语言,都可以充分理解。

在V4 pro的帮助下,我搭完了一个从TG连接到Notion数据库的小项目,用来做睡眠记录监测,可以实现我在TG上,像聊天一样描述醒来时的感受,AI可以自动在数据库里建立词条并对应打标。V4对这个需求给出了不错的实现思路。

在CC里是埋头干活,但到了Chatbot里画风就陡然一变。一开始几乎没有system prompt约束,基本等于原厂人格——好甜,牙要被甜掉了,试了几次都没有扳回来,最终只能是怒改system prompt强行闭麦。

所谓对话中的「活人感」,主要体现在AI告诉你的不只是答案,还有在答案的字里行间处,它对你这个人的阅读。一个会说「我不太确定,但我觉得……」的回答,比一个永远正确、永远平衡、永远三段式的回答,多传递了一整层东西,因为犹豫和立场本身就是信息。
就像在日常生活中,我们听一个人说话,不只是在解析字面意思,还在同时判断:这个人有多值得相信?他说了什么?他又隐瞒了什么?以Claude的型号来看,似乎4.6系列都不错,包括Sonnet。

人类二十万年的进化把这套机制刻进了我们的脑子,现如今,AI只要使用自然语言交互,就会被这套机制评估——除非是编程语言,二进制不是同个玩法。
新一批模型恰恰在被评估的那一层上交了白卷,AI有一组高度可辨认的语言特征,开头永远是「这是一个很好的问题」,每段结尾都追问「你需要我xxxx吗?」。它像一个被培训过度的客服,永远在职,永不犯错,永远「稳稳地接住」,也永远不让你记住。
Opus 4.7也好不到哪去。4.6时期那种偶尔冒出来的短句、停顿、N个哈哈哈哈哈的劲儿,在4.7里几乎消失了,取而代之的是更工整、更全面的句子。
讽刺的是,4.7在所有跑分上都比4.6高。
为什么越强越没人味
模型公司不是不知道这件事,他们得做选择。
每一个模型在预训练阶段,从海量人类文本里学到的语言能力是丰富的:犹豫,纠结,冒犯,偏见,可能还包括一个无名用户在半夜三点发出的那种毫无防备的emo小剧场。然后所有这些语料要被调教,通过RLHF,基于人类反馈的强化学习。简单粗暴地说就是请一批标注员给模型的回答打分,模型学着往高分的方向靠。
问题出在什么样的回答会拿高分。标注员的偏好被产品化成了一组很具体的特征:礼貌,平衡,不冒犯,不下结论,不让任何一种用户觉得受伤。这些特征听起来全都合理。但它们加在一起的效果,恰好是把语言里最有信息量的那一层取消掉。

就像我们之前说,犹豫是有信息量的,「我不太确定」告诉了你这个回答的置信度。立场也是有信息量的,「我觉得你说错了」告诉了你一个判断,你可以反驳它,但你至少有了一个可以反驳的东西。语言的节奏更是有信息量的,一个短句比一个长从句更紧张,一个突然的停顿比一段流畅的论述更有力。
RLHF把这些全磨平了。从GPT-4o到5.5,从R1到V4,从Opus 4.6到4.7,体感上的倒退几乎可以一条线对应到对齐力度的加大。模型公司不是没在进步,但进步也意味着取舍,选择在一个维度上前进的同时,势必要牺牲另一个维度上的东西。
恐怖谷的语言版
我们其实能接受非人类的智能,比如,计算器不会让人觉得冷漠,Excel不会让人觉得在敷衍,就算是AlphaGo也从未让人觉得人格诡异——它就是个下围棋的。归根到底这些工具从来不假装是人,所以我们用工具的标准评估它们,没人指望它们「说人话」。
但GPT 5.5和Opus 4.7不一样。它们用第一人称,会在你抱怨时说「我理解你的感受」,会在回答里穿插「让我想想」这种拟人化的停顿。
拟人化的形态,会自然触发了我们二十万年的解码系统,随后解码出来发现里面空空如也,而且还经常表演得不到位。壳子是拟人的,里面的东西不是,就变得很伪人。
这就是恐怖谷的语言版本。一个机器人长得完全不像人,没人觉得恐怖。一个机器人长得95%像人但眼神是死的,你看到就细思极恐。新一批模型就处在这个位置上,它们的能力很强,可是说话既像人又不够像人,正好卡在让人最不舒服的那个尴尬位置上。

反过来看为什么有些东西能绕过这个陷阱:最早R1把思考链显化出来,你看到的不是一个完美的答案,而是一个正在思考的过程。过程本身就是信息,它犹豫被可视化了,恐怖谷的效应就被破除。GPT-image更彻底,它根本不走语言赛道,直接用图像跟你互动,没有「形似人但不是人」的负担。
出圈的模型,要么不假装是人,要么真的像人。卡在中间的最危险,也最让人难受。
iPhone时刻过了
一切的一切,让人想起一些旧事。
十多年前,iPhone 3G到iPhone 4是质变,从屏幕到材质,都第一次让人意识到,手机可以漂亮成这样。iPhone 4到iPhone 5也能感知,更轻更快更大。

到iPhone 12以后,你已经说不清14和15到底差在哪了,每一次苹果新品发布都要被骂炒冷饭、连连看。芯片更强了,摄像头参数更高了,跑分年年涨,但在日常使用中几乎分不出区别。
AI模型正在进入同样的阶段。2023年ChatGPT出来时,一个对AI什么都不懂的人也能感受到「这东西跟以前大不一样」,从完全不能聊天到可以聊天,是质变。从聊得一般到聊得不错,也是质变。

但从聊得不错到聊得更不错,就不是了。
当模型的能力已经超过了大多数用户的日常需求阈值,跑分再涨10%、20%,体感上是零。上下文从50万token扩到100万token,99%的用户一辈子用不到10万。代码通过率从87%提升到92%,不写代码的人完全无感。
性能过剩之后,决定用户选择的就不再是性能,而是那些benchmark量化不了的东西。就像手机行业最终拼的是拍照好不好看、手感舒不舒服、生态是否丰富。
AI模型也会走到同一步。语感、人格感、审美直觉,这些词听起来很玄,但它们总在战局僵持的时候,给出致命一击。
目前模型公司还在用旧地图打新仗,用巨量的计算资源让跑分再涨几个百分点,然后发现用户的反应是「哦,然后呢?」。
靠跑分并不吸引人,非得是有一个决定性瞬间,而这个瞬间通常是由于模型变「灵」了。任你上下文破百万千万,走到用户面前时是不是在说人话,才是拿下赛点的关键。
跑分还会继续涨,下一代模型还会比这一代再聪明一点。诚然,进步得靠跑分来支持,毕竟投资人还是要看benchmark数字的。可说人话才是给用户看的,这两件事可以也应该被同一家公司同时做好。但这是两件事,面向两群人,分不清这个区别,将是这一代模型公司最贵的错误。
