本文来自微信公众号: APPSO ,作者:发现明日产品的,原文标题:《35 天,成了 AI 模型的斩杀线》
上个月你刚花20美元订阅了ChatGPT Plus,转头这个月朋友圈就被「Claude秒杀一切」刷屏,再过一个月可能又换成「Gemini吊打一切」。
看着每月的账单,你难免开始怀疑人生:这AI会员,开不完,真的开不完?
这并非你的错觉,知名大模型竞技场LMArena.ai分析了自2023年年中以来的模型排名榜单,撕开大模型行业最残酷的一面:

排名第一的模型平均只能保持约35天的领先地位,通常情况下会在5个月内跌出前五名,在7个月内跌出前十名。
而曾经一战封神的榜首模型OpenAI o1目前排在第56位,Claude 3 Opus更是跌到了第139位。

虽然LMArena.ai的这份榜单本身可能存在注水空间,但这种剧烈洗牌依然反映了AI模型过气速度之快,35天正在成为顶级AI模型的「斩杀线」。
亿级投流,换不来AI用户的「回头率」
过去两年,你一定有看到过互联网上流传的这张梗图。

去年年初还是ChatGPT独领风骚,随后DeepSeek、Claude轮番坐庄,如今Gemini又异军突起。无论2025还是2026年,影响用户选择模型最核心的因素依旧是性能至上。
用户的选择从来纯粹,哪款模型好用、顺手,便会坚定不移地投向其怀抱,不得不承认的是,现在的AI用户,从一开始就没有忠诚可言。
比如Sora 2刚发布时被吹捧为短视频的降维打击,5天内下载量破百万,但a16z合伙人Olivia Moore抛出的数据却显示,用户的30天留存率仅1%,60天直接归零。

如果把视野转回国内,大模型战火叙事同样残酷:AI应用月投流规模动辄千万甚至十亿级,但除了尝到初期的流量甜头,用户留存率同样惨不忍睹。
而这种「始乱终弃」的现象绕不开因AI热潮催生的「FOMO」心理——大量所谓的AI游客只是为了跟上潮流、探索新鲜工具,但在体验过后转身离开。
深究根源,多数AI产品至今未能搭建起留住用户的闭环。
在过去的SaaS行业,「因X而来,因Y而留」是奉为圭臬的增长逻辑。就像有人最初用Canva做社交海报,但后来却被品牌素材包、模板库和团队协作功能绑住,成为长期用户。亦或者很多人第一次点开微信视频号,就是因为朋友圈、群聊里的一次顺手转发。
内容本身未必惊艳,但它被包裹在熟人关系之中。你可以不关心视频讲了什么,但很难对谁转了这条、谁在下面留言视而不见。点赞除了给创作者,也是为了维持关系的连接。
但这套逻辑在多数AI产品身上彻底失灵。
最典型的就是Sora 2,即便能生成真假难辨的视频,但若没有原生社区支撑用户分享、互动、收获反馈,它终究只是个孤立工具——没除了极少数专业人士,大多数普通用户往往缺乏长期使用的需求。
除此之外,重度用户的使用逻辑也在发生变化。
英伟达CEO黄仁勋就曾在公开场合分享自己的AI使用秘籍:从不依赖单一模型,而是将同一个问题同时抛给多个AI,让它们互相参考、交叉验证,以此提升回答质量与可信度。
这背后的逻辑不难理解:当下没有哪个模型能赢家通吃,不同模型各有优势。时至今日,ChatGPT已不再是AI唯一入口,用Claude写长文本、Gemini写代码、多模型协作取长补短才是常态。
尤为关键的是,巨头们早已手握成熟的生态闭环,只需将AI能力无缝嵌入其中,便能坐享生态红利。
Google手握一整套已经被验证过二十年的入口体系,能够将Gemini能够无缝嵌入YouTube、Workspace办公套件,更深度绑定Chrome、地图等核心流量入口,同时开放API拉拢海量开发者。
这种润物细无声的渠道分发,能够让Gemini轻松收割海量的普通用户与企业客户,也让ChatGPT用户反复摇摆。
面对用户使用意图薄弱、迁移成本近乎为零的困境,OpenAI为代表的初创厂商一方面不断加筑功能防线:绑定生态厂商合作,推出AI Office、AI浏览器、AI群聊等产品。
用Sam Altman的话说,这是为了发挥AI最大生产力,一切都值得用AI重做一遍,但换个角度看,这也是入口焦虑下的被动选择。
另一方面,OpenAI也在C端加码押注「个性化记忆」与情商——允许用户让模型跨会话记住写作风格、专业术语等偏好,还能手动编辑记忆库;针对心理咨询等场景优化语气,本质上就是希望通过个性化功能和「情感绑定」来抬高用户迁移门槛。
但这些煞费苦心的防御招式,短时间终究还是难以逆转用户流失的大趋势。当产品端的突破变得举步维艰,于是也有许多厂商将目光投向了更「省时省力」的赛道——在衡量行业性能地位的榜单上动起了歪脑筋。
「我可以随时换,我也应该随时换」
前文提到的35天斩杀线,核心是参考LMArena反映的行业趋势,但需要指出的是,即便是这份被视作相对权威的评测榜单,本身也暗藏不少猫腻。
Meta此前被曝出的刷榜行为,直接扯下了这份权威榜单的遮羞布。
发布Llama 4前,Meta私下测试了27个变体版本,却只将分数最高的」特供版「公之于众,靠着这套玩法,Llama 4一度霸榜。但当面向公众的正式版发布后,排名瞬间从第2名暴跌至第32名,滤镜破碎一览无余。
榜单的评测机制本身也存在不少问题,其理论上是这么运作的:用户输入提示,比较两个AI回应,然后选出更好的一个。实际情况却是:随机网民匆匆扫一眼,用两秒钟点击他们感觉还不错的选项。
Surge AI在《LMArena is a cancer on AI》一文中曾指出,竞技场中52%的对决判定存在错误,大众投票更偏爱回答冗长、排版华丽甚至带表情包的「显眼包」。
很多时候,AI只要自信地胡说八道,就能轻松击败诚实却枯燥的对手。
当刷榜作弊成为AI行业的潜规则,用户对模型的信任也在不断被透支。再加上模型们隔三差五出现的「降智」更新,用户对「榜一大哥」的祛魅,显然也只是时间问题。
而开源与低价的崛起,则进一步冲击了行业格局。
微软基于内部数据的研究显示,DeepSeek R1极大推动了全球大多数地区的AI普及,在白俄罗斯拿下56%的份额,古巴49%、俄罗斯43%,即便是埃塞俄比亚和津巴布韦,份额也分别达到18%和17%。

图片来自金融时报
原因并不复杂,甚至可以说相当朴素:价格屠夫。
对于绝大多数人来说,免费模型已经覆盖了大多数日常需求,用户就会很自然地进入另一种心态:我可以随时换,我也应该随时换。对于开发者而言,即便OpenAI等巨头多次大幅降价,其每Token收费依旧遥遥领先于DeepSeek。
此外,开发者还基于Qwen、DeepSeek等开源模型,针对教育、医疗等细分场景做轻量化微调,诞生了一批「小而美」的垂直模型。它们虽在通用榜单分数不高,但特定场景表现远超闭源巨头,进一步瓦解了头部模型的话语权。
在这样的背景下,那些卡在中间地带的AI玩家反而最为尴尬:既不够强,也不够便宜,却还寄希望于刷榜、讲故事维持存在感。在「35天生死线」面前,他们几乎没有回旋空间。
等待他们的结局,便只有迟早被斩杀。
