中国大模型在OpenRouter平台全球调用量首次超越美国，两周内增幅达127%，前五名中占据三席，凭借高性价比和场景适配性在Agent工作流中占据优势。 ## 1. OpenRouter平台上的中国大模型崛起 - 中国模型在2月中旬的OpenRouter调用量达5.16万亿Token，远超美国的2.7万亿，前五名中MiniMax M2.5、DeepSeek V3.2和Kimi K2.5占三席。 - 平台超500万开发者中仅6%为中国用户，数据反映全球开发者真实选择，非“自嗨”结果。 ## 2. OpenClaw项目引爆Token消耗新范式 - 开源工具OpenClaw让AI直接接管电脑执行任务，单日贡献3340亿Token，是第二名两倍多。 - 其工作流模式使单次任务Token消耗激增几十到几百倍，但导致21万个实例暴露公网，引发“Clawjacked”新型攻击。 ## 3. 国产模型在执行层的性价比优势 - MiniMax M2.5输入/输出成本仅为Claude Opus 4.6的1/17和1/20，但工具调用准确率反超13.5%，速度达3倍。 - 月之暗面Kimi K2.5凭借百万Token上下文窗口适配Agent需求，调用量跃居第四。 ## 4. Token消耗场景的底层变革 - 角色扮演占开源模型使用量的52%，MiniMax推出特化版本M2-Her建立护城河。 - Qwen3 Coder Next通过“物理阉割”设计直接输出干净代码，减少自动化工作流中的冗余成本。 ## 5. 量变到质变的行业启示 - 国产模型通过执行层规模积累真实场景数据，可能加速向价值链上游突破。 - 调用量领先不等于商业成功，开源厂商仍处“用规模换未来”阶段，OpenAI年收入已超200亿美元。

2026-03-05 12:09

便宜，还好用：中国大模型凭什么拿下OpenRouter全球调用量第一？

快刀青衣

本文来自微信公众号：快刀青衣，作者：快刀青衣

量变终将引起质变。

上周我看到一个数据，说实话，当时脑海里的第一反应是：这是真的吗？

具体的数字是这样的：在全球最大的AI模型API聚合平台OpenRouter上，2月9日到15日那一周，中国模型的调用量达到了4.12万亿Token，而美国模型是2.94万亿，中国第一次反超美国。到了下一周，2月16日到22日，中国模型进一步拉开差距，5.16万亿对2.7万亿。短短两周，中国模型的调用量增幅达127%。

于是我打开了OpenRouter的排行榜，意外发现排行榜前五里，中国占了三席。第一名是MiniMax M2.5，第三名是DeepSeek V3.2，第四名是月之暗面的Kimi K2.5。夹在中间的第二名是谷歌的Gemini 3 Flash Preview，而Claude Opus 4.6排在第五。

我先和不了解OpenRouter或者没太接触过技术的朋友简单介绍下，其实我们日常和AI像朋友一样对话，消耗的Token并不多，真正消耗大的场景，是很多个人或企业开发者通过API的方式调用大模型来处理日常工作。

而OpenRouter就像淘宝或者京东这样的电商平台，上面能选到很多不同的大模型，用户可以自己选想用的直接开通API。对用户来说，在一个平台上管理所有接入的模型，这件事变简单了；而对OpenRouter来说，商业模式就是从用户的算力消耗里提成。

当然，只看他们一家的数据不能代表最精确的全市场消耗，但这就像对大部分品牌来说，天猫、京东旗舰店的销量无法覆盖线下渠道、官网或私域销量，但从两大电商平台的销量上，至少能看出很多相对准确的趋势和洞察。

此外，这个榜单的真实性还有一个方面，那就是OpenRouter平台有超过500万开发者用户，其中美国用户占47%，中国用户只有6%。也就是说，这批数据主要反映全球开发者，尤其是海外开发者的真实选择，不是因为咱们自己人多而形成的“自嗨”。

那这次反超，究竟是怎么发生的？我觉得有三件事值得好好聊一聊。

01一只“龙虾”闯进来了

2026年1月下旬，一个叫OpenClaw的开源项目突然爆火。它的Logo是一只龙虾，我也也聊了好几次了。

这个工具做的事情很直接：让AI不再只是跟你聊天，而是直接接管你的电脑，帮你执行命令行操作、跑自动化工作流。它现在在GitHub上拿到了超过26万颗星标，速度之快，连很多老牌开源项目都望尘莫及。

龙虾项目带来的不只是用户数，更是彻底改变了AI消耗Token的方式。

我们过去用AI是“对话模式”，你问一句，它答一句，一轮下来也就几百到几千个Token。但现在这种Agent工作流完全不同：AI需要反复读取系统日志、高频调用工具、进行多轮自我纠错，还要在十万甚至百万Token的超长上下文里追踪任务状态*单次任务的Token消耗，是过去的几十倍到几百倍。

你再把这个数字乘以成千上万的开发者，调用量就彻底爆炸了。据OpenRouter数据显示，OpenClaw这一个项目，单日就贡献了3340亿token，是排行榜第二名Kilo Code的两倍多。

不过龙虾项目有一个“黑色幽默”的插曲值得一说。

这个工具原本的设计要求是严格运行在本地隔离沙箱里，但实际部署完全失控——大量技术爱好者和中小企业把高权限的AI智能体直接暴露在公网上。

安全机构Censys曾在1月底发出警报：短短一周内，暴露在外的实例从不足1000个飙升到21000多个，增幅超过20倍。

而这两天，我还发现一个名为“OpenClaw Exposure Watchboard”的公开监控页面，列出了超22万个暴露在公网的OpenClaw实例，覆盖美国、新加坡、中国大陆等多个地区。

更麻烦的是出现了一种叫“Clawjacked”的攻击手法：黑客在普通网页上用和背景同色的隐形字体埋入恶意指令，当AI为了完成任务访问这个网页时，恶意文字被吸进了系统日志，AI下次读取日志自我纠错时，就会把黑客的指令当成系统管理员发来的命令，照单全收。

这种攻击方式防不胜防，龙虾带来了Token的爆发，也带来了安全的噩梦，这是一体两面的事。

说实话，看到这种攻击方式，我看到之后，整个人都有点儿不好了。因为我在得到AI学习圈广播站第541期里讲过这个手法，当时是人类在论文里用同样的方式加入了一行类似的小字。

那是纽约大学研究团队公开论文PDF里埋的一行白底白色字体，正常人一般看不到，除非你全选中这篇文章。这行字就是写给AI看的，目的是换取一行好评。

当时我还跟同学们追溯过这个手法，因为它门槛非常低，是我2005年刚入行互联网时被明令禁止的手段。虽然很多时候有效，特别是被机器抓取的时候，你可以带上自己的网站链接或者名字，无形中增加SEO的权重，但这个手法确实太没有技术含量了。

没想到2026年了，“高端”的商战和攻击仍旧“朴实无华”。

02国产模型在“执行层战场”找到位置

Agent工作流的普及，催生了一种新的分工：

把最复杂、最需要判断力的顶层任务，交给Claude这样的顶尖模型；而具体的执行层，大量的工具调用、代码生成、日志处理，用高性价比的国产模型来跑。

MiniMax M2.5就是一个很典型的案例。据OpenRouter的数据显示，它每百万token输入成本大约是0.3美元，而Claude Opus 4.6每百万token输入成本是5美元，差距近17倍。MiniMax M2.5每百万token输出成本约1.2美元，而Claude Opus 4.6每百万token输出成本为25美元，差距超20倍。

但便宜不是它胜出的唯一原因。

在衡量真实软件工程能力的SWE-Bench Verified榜单上，MiniMax M2.5拿到80.2%的成绩，Claude Opus 4.6是80.8%，差距只有0.6%。而在工具调用准确率这个指标上，MiniMax M2.5反而以76.8%领先Claude Opus 4.6的63.3%，整整高出13.5个百分点，输出速度更是Claude的将近3倍。

换句话说，MiniMax M2.5不是“凑合能用的便宜货”，而是一个在执行层场景里甚至比顶尖模型更好用的专用工具。

MiniMax自己也做了最有力的证明：他们官方披露，公司内部80%的非核心代码提交任务，已经全部由M2.5自动生成；30%的日常运营任务，常态化交给它接管。自己做出来的东西，自己先跑起来，这是最有说服力的背书。

还有一个细节值得一提，Kimi K2.5在这波浪潮里涨幅也很猛，排到OpenRouter全平台第四。月之暗面押注的是超长上下文赛道，百万Token的上下文窗口，天然适配Agent需要长时间追踪任务状态的需求。

之所以要和你分享这个，是因为我自己也在这么做。我在X上分享了我用龙虾搭了一个智能体梦之队，用的都是我最喜欢的一批“球星”，有专门帮我生成图片的，有专门做研究的，有专门做抓取任务的。

在这个过程中，我发现只要核心的智能体用最好的模型，能顺利拆解好任务，其他几个智能体完全可以用性价比非常高的模型，比如MiniMax M2.5和智谱的GLM-5。

03 Token消耗的底层逻辑改变

有一个数字很有意思：在OpenRouter平台上，开源模型最大的使用场景是什么？

很多人可能会猜编程或者写作，但答案是角色扮演，占了整个使用量的52%。这个数字乍一看有点意外，但仔细想想，角色扮演其实是极度消耗Token的场景，你需要模型长时间保持一个角色的语气、性格、记忆，这对上下文长度和输出稳定性的要求非常高。

MiniMax专门为此准备了特化版本Minimax M2-Her，在角色扮演场景里建立了很深的护城河。

除了角色扮演，编程助手是第二大负载来源。Qwen也在这个方向发力，他们的Qwen3 Coder Next用了一个有趣的设计思路：把模型“物理阉割”，只在非思考模式下运行，拒绝输出任何冗余的推理过程，直接给出最干净、最容易解析的代码。

这个取舍背后的逻辑是，在自动化工作流里，模型的“喃喃自语”是成本，不是价值。

04结语

好，这三件让人开心的事情讲完了。作为课代表，我也给你划几个重点，需要你注意一下。

第一，这个数据是OpenRouter一家聚合平台的数据，虽然能代表趋势，但不代表全市场。

你可以把OpenRouter理解成一家大型集合店，开发者可以在这里一站式比价、随时切换模型。但还有很大一部分调用量直接发生在各家厂商的“官方旗舰店”，开发者直接调用OpenAI、Anthropic、谷歌自己的API，这些数据OpenRouter根本看不到。

集合店里有爆款，不代表旗舰店就凉了。所以这个“超越”是真实的，但只覆盖市场的一部分，不是全貌。

第二，执行层的量变，会不会推动模型往价值链上游走？国产模型会不会占据更重要的位置？

我觉得答案是肯定的，这里我和你解释下为什么。因为模型的能力提升，背后是数据的飞轮效应。

越多真实任务在MiniMax、DeepSeek、Kimi上跑，这些模型就能拿到越多真实场景的反馈，比如哪种工具调用方式效果更好、哪类代码任务容易出错、用户在哪个节点会放弃。这些反馈是用钱买不到的训练信号。

现在国产模型大量承接执行层任务，表面上是“打下手”，本质上是用规模换迭代速度。今天Claude守着顶层决策，不代表三年后还是这个格局。

最好的类比不在AI虚拟世界，而在深圳：当所有的硬件都在深圳能找到的时候，那在全球制造业领域里，深圳的地位就是不可撼动的。

第三，调用量的领先和商业收入是两回事。

这批爆发的国产模型，几乎清一色是开源模型。MiniMax M2.5每百万token输出成本1.2美元的定价，这个定价更像是在抢占市场，而不是追求利润。

OpenAI的2025年年度经常性收入（ARR）已突破200亿美元，而国内的开源厂商，目前还处于用规模换未来、用融资换时间的阶段。

调用量的领先是一个非常好的起点，但从“用得多”到“活得好”，这条路怎么走，可能是每一家中国AI公司接下来都要回答的问题。

AI创投日报频道: 前沿科技

快刀青衣

苦逼PM，无节操，有底线。

认证作者

已在虎嗅发表 76 篇文章

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定