国产大模型DeepSeek与小米MiMo先后将Pro档API价格对齐压低至成本线,打破原有定价逻辑,推动行业进入成本与生态竞争新阶段。 ## 1. 小米MiMo跟进DeepSeek完成大模型API价格对齐 5月22日DeepSeek宣布V4-Pro的2.5折优惠永久生效,调价后输入缓存命中0.025元/百万tokens、输入缓存未命中3元/百万tokens、输出6元/百万tokens。五天后小米MiMo-V2.5系列API永久降价,最高降幅99%,取消上下文窗口分档计价,Pro档三个核心定价与DeepSeek V4-Pro完全一致,有效期内用户额度也已统一重置。本次降价是小米在100T Token创作者激励计划发放完毕后,承接Agent框架与应用开发者生态的动作。 ## 2. 大模型API定价逻辑切换:从能力溢价转向成本约束 过去大模型API按模型能力定价,模型越接近闭源前沿水平定价越高;本次降价标志着新定价逻辑成型,模型服务定价开始受单次推理成本约束,价格战延伸至推理框架、缓存系统与集群调度能力竞争。小米披露其通过多级缓存工程优化,将KV Cache数据搬运量降至优化前的近七分之一,可缓存token数量提升近5倍,这类后台优化是厂商长期维持低价的基础。 ## 3. 低价重构下游应用逻辑:降低长上下文复杂任务落地门槛 调价后缓存命中价仅0.025元/百万tokens,直接压低了代码助手、企业知识库、Agent工作流等多轮重复调用场景的持续运行成本。小米取消上下文窗口分档计价,直接降低了长上下文任务的使用门槛,这对开发者而言比单纯降价更关键。对比全球定价体系:OpenAI GPT-5.5 Pro API定价为输入30美元/百万tokens、输出180美元/百万tokens,调价后国产Pro档模型价格已低出不止一个数量级,开始对全球大模型API价格体系形成压力。 ## 4. 价格战倒逼产业分工,推动大模型走向基础设施化 未来企业采购会从选单个最强模型,转向按任务风险层级路由模型:高风险任务仍选择高价合规模型,高频重复低风险任务会更多使用低价模型,企业最终会采购多模型路由系统而非单个模型,模型竞争变为单位任务成本、稳定性、吞吐等能力的综合竞争。实际部署中低价不等于真实总成本低,缓存命中率、服务稳定性等因素都会影响实际成本,本轮价格战的核心是厂商能否在低价下保持可用、稳定与可规模化。国产大模型已从能力溢价阶段进入成本约束阶段,后续会倒逼更多厂商回应价格差异的合理性;中国大模型走低成本规模化落地路线,正逐步将大模型推理服务做成普惠基础设施,竞争核心是用更低成本支撑更大规模应用生态,当前已进入“谁能以真实成本支撑低价”的新阶段。
小米MiMo降价99%跟进DeepSeek,国产大模型杀入"成本线"
2026-05-27 19:37

小米MiMo降价99%跟进DeepSeek,国产大模型杀入"成本线"

本文来自微信公众号: 观网财经 ,作者:陈济深


5月27日,雷军在微博转发了小米MiMo-V2.5系列API降价的消息。


按照小米MiMo官方公告,MiMo-V2.5系列API从当天零时起永久降价,最高降幅达99%,同时不再按照上下文窗口长度分档计价。Token Plan计费体系也同步调整,同等价格下用量提升至原来的5至8倍,仍在有效期内的用户额度被统一重置。


雷军在转发中强调,这次价格调整"最高降幅达到99%,不再区分上下文窗口"。



99%的降幅当然足够醒目。但更值得注意的是,MiMo-V2.5-Pro调价后的三项核心价格:输入缓存命中0.025元/百万tokens,输入缓存未命中3元/百万tokens,输出6元/百万tokens。


这三个数字,与五天前DeepSeek刚刚确定为长期价格的V4-Pro完全一致。



DeepSeek V4系列于4月25日上线,V4-Pro首发定价为输入缓存命中1元/百万tokens。上线次日,DeepSeek即宣布全系API输入缓存命中价格降至首发价的十分之一,V4-Pro同时叠加2.5折限时优惠,优惠后缓存命中价格降至0.025元/百万tokens。这一优惠原定于5月5日结束,后延至5月31日。5月22日晚间,DeepSeek宣布2.5折优惠不再限时,永久生效。一个月内连续调价,也让DeepSeek V4-Pro的"原价"更像是一个短暂存在过的参照物。


DeepSeek官方价格页显示,V4-Pro在5月31日优惠活动结束后,将正式调整为原定价的1/4。调价后,V4-Pro输入缓存命中价格为0.025元/百万tokens,输入缓存未命中为3元/百万tokens,输出为6元/百万tokens。


也就是说,小米MiMo此次并不是简单降价,而是将其Pro档模型价格,直接对齐到了DeepSeek刚刚打出的价格基准上。


这使得此次降价超出了常规促销的范畴。


值得注意的是,小米此次降价也发生在MiMo上一轮开发者激励结束之后。官方公告显示,自4月28日启动的100T Token创作者激励计划,已于5月26日提前发放完毕。对MiMo而言,永久降价和Token Plan额度重置,不只是降低开发者尝鲜门槛,也是在免费Token红利结束后,继续承接Agent框架和应用开发者生态。


过去大模型API更接近"能力溢价"定价。模型越接近闭源前沿模型,越能在代码、推理、长上下文、Agent等场景中证明能力,厂商就越有理由维持更高价格。


但DeepSeek和小米MiMo这两次降价,显示出另一套定价逻辑正在浮出水面:模型服务不再只按"能力有多强"定价,也开始受到"单次推理成本能压到多低"的约束。


这背后是推理系统效率的持续优化。小米MiMo在公告中解释称,技术团队基于SGLang HiCache完整支持SWA,将KV Cache在GPU显存、CPU内存、SSD等多级存储之间的数据搬运量降至优化前的近七分之一,可缓存token数量提升至近5倍,并通过专家并行、输入长度分桶等方式提升集群吞吐。


也正是这些看似后台的工程优化,决定了厂商是否有能力长期维持低价。大模型API价格战已经不只是模型参数和榜单能力的竞争,而是延伸到推理框架、缓存系统和集群资源调度能力的竞争。能否在高并发、长上下文和多轮调用下持续压低单token服务成本,正在成为厂商基础设施能力的一部分。


尤其是缓存命中价。


0.025元/百万tokens并不是所有输入的价格,而是请求前缀命中Prompt Cache之后的价格。但对于代码助手、企业知识库、客服系统、文档审核和Agent工作流而言,大量调用都包含重复上下文:系统提示词、工具说明、历史轨迹、检索片段、代码仓库背景,会在多轮任务中反复出现。


过去,长上下文和多步Agent之所以难以大规模部署,一个重要原因就是持续调用成本过高。当缓存命中价格被压到0.025元/百万tokens,真正被重估的不是一次问答,而是复杂任务连续运行的成本。


这也是小米取消上下文长度分档的意义所在。


此前,MiMo-V2系列按照256K以内和256K至1M上下文窗口分档计价,长窗口输入成本明显更高。此次V2.5系列降价后,MiMo不再区分上下文窗口长度,相当于直接降低了长上下文任务的使用门槛。


对开发者来说,这比单纯"便宜一点"更关键。Agent、代码助手和企业知识库真正消耗成本的地方,恰恰不是短问短答,而是长上下文、连续调用和多轮任务。


放到全球价格体系中,这一差异更加明显。OpenAI此前披露,GPT-5.5 Pro API定价为输入30美元/百万tokens、输出180美元/百万tokens。相比之下,DeepSeek V4-Pro和MiMo-V2.5-Pro调价后,即便不计算0.025元的缓存命中价,仅以缓存未命中输入3元、输出6元计算,价格也已经低出不止一个数量级。


这意味着,国产模型的低价不再只是"平替"叙事,而是开始对全球大模型API的价格体系形成压力。


这种压力最终会传导到企业采购方式。


未来企业不会只问"哪个模型最强",而会更关注"什么任务该用什么模型"。高风险的法律、金融、关键代码审查和重大经营决策,仍可能交给更贵、更稳、更有合规保障的模型;但客服初筛、批量摘要、内部知识库问答、代码初稿、文档整理等高频、重复、低风险任务,则会更多被路由到低价模型。


换句话说,企业买的可能不再是单个模型,而是一套路由系统。


这种趋势已经在海外企业实践中出现。Airbnb CEO Brian Chesky此前表示,其客服AI由13个模型组成,并在很大程度上依赖通义千问,原因是"更好更便宜"。当企业开始把不同模型放进同一套生产系统,模型竞争就不再只是榜单分数竞争,而是单位任务成本、稳定性、吞吐、延迟和合规能力的综合竞争。


当然,低价并不等于真实总成本一定低。


0.025元只对应缓存命中输入。实际部署中,企业还要看缓存命中率、首token延迟、并发限制、服务稳定性、长上下文吞吐、第三方平台加价以及数据合规成本。如果业务场景高度动态、上下文频繁变化,或者服务在高峰期无法稳定承载,价格表上的低价未必能完全转化为生产环境里的低成本。


因此,这轮价格战的关键不只是"谁更便宜",而是大模型厂商能否在低价下保持可用、稳定和可规模化。


更具意味的是,据彭博社等媒体报道,DeepSeek近期正推进约700亿元人民币融资,潜在投前估值约450亿美元,梁文锋向投资者强调的仍是开源模型和AGI目标,而非短期商业化。如果这一融资进展最终落地,V4-Pro永久降价也更像是一种长期生态策略,而不是阶段性促销。


DeepSeek先把限时优惠变成长期价格,小米MiMo随后将Pro档价格直接对齐。两家公司共同释放出的信号是:国产大模型API正在从能力溢价阶段,进入成本约束阶段。


后续压力将传导给更多模型厂商。


如果同等能力区间的模型已经可以把缓存命中输入压到0.025元/百万tokens,那么价格更高的模型就必须回答一个更直接的问题:它贵出来的部分,究竟来自更强能力、更高稳定性、更好合规,还是仅仅来自过去的定价惯性?


从更大的产业格局看,这也是中国大模型路线的一个典型切面:不只追求单点最强模型,而是通过低成本、高频迭代和开放调用,把模型能力尽快压进真实应用场景。


当海外前沿模型仍维持高价策略时,中国厂商正在把大模型推理服务做成更接近基础设施的东西。价格战只是表象,真正竞争的是谁能用更低成本支撑更大规模的应用生态。


大模型价格战没有结束。它只是从"谁敢降价",进入了"谁能用真实成本支撑低价"的新阶段。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP