本文来自微信公众号: 刘言飞语 ,作者:刘飞Lufy,原文标题:《聊聊 Token 出海的生意经:模型开源给世界,中国赚什么?》
本周末有一条AI新闻挺有意思,跟大家聊聊。
AI编程工具Cursor在3月19日发布了新模型Composer 2,官网上写的是「自有模型」。
Cursor是目前全球最火的AI编程工具,本质上是一个深度集成了AI能力的VS Code修改版(国内类似的是字节的TRAE)。从2024年10月Composer 1发布以来,外界就一直怀疑它的模型是套壳的,但找不到证据。
这次证据来了。发布不到24小时,一位开发者@fynnso想了个巧妙的办法:自己架一台服务器充当模型接口,然后在本地Cursor里把模型地址指向自己的服务器。这样Cursor发出的请求就暴露了:模型ID是kimi-k2p5-rl-0317-s515-fast。
Composer 2的底座,是月之暗面的Kimi K2.5。
截图传开后,Cursor第一时间堵了漏洞,但没什么用了。马斯克也转发确认。

Cursor的一位负责人最终回应,承认使用了K2.5,但强调是通过合作伙伴Fireworks AI获得的合法授权。Kimi官方也确认了这条授权链。从法律层面看,Cursor并没有侵权。
关于这件事的讨论其实很多了,但我想聊另一个视角。
2
过去两年,AI领域有一条暗线。
2023年,国内AI创业的主流姿态是拿Meta的Llama做微调。那时候行业的共识是「落后硅谷两个世代」。
2024年5月,DeepSeek发布了V2。这家从量化基金幻方孵化出来的公司,用MoE(混合专家模型)和MLA(多模态学习架构)两项技术把模型的调用成本大幅压低。MoE的逻辑我在之前的DeepSeek小传里写过,简单说就是不让大模型当全才,而是让它成为一个专家团,需要谁就唤醒谁。MLA则大幅降低了内存占用,显存压力比传统架构降低了67%-90%。
当时大家对DeepSeek的印象主要还是「便宜」。到12月V3发布,叠加了FP8低精度训练等新技术,官方披露的完整训练成本是557.6万美元,大约是Meta Llama 3.1训练成本的十分之一,性能却跟GPT-4基本持平。
然后是2025年1月,R1发布。
R1为什么重要,我在小传里也讲过。最核心的一点:它用纯强化学习(pure RL)达到了OpenAI o1的推理水平,不需要人工标注的题库,不需要有监督的微调,让模型自己跟自己博弈,自己评估什么是好的答案。这不是「我用更少的钱做了你做过的事」,而是「我走了一条没人走过的路」。
R1之后,OpenAI的奥特曼从最初暗讽DeepSeek「只是复制已知工作」,到后来承认「DeepSeek的出现改变了过去几年OpenAI遥遥领先的情况」。Meta据报道成立了多个专项小组拆解DeepSeek的方法。
这是第一波。
第二波来自Kimi。2026年1月底,K2.5发布。万亿参数的MoE模型,原生多模态,在代码生成、视觉理解和Agent工具调用上表现都不错。关键是它开源了,采用Modified MIT协议。
发布后不久,K2.5在OpenRouter(一个全球开发者用来选择和调用AI模型的聚合平台)的调用量冲到了第一名,排在Gemini 3 Flash和Claude Sonnet 4.5前面。当然,当时K2.5在OpenClaw生态里可以免费调用,这对调用量的拉动作用不小。
三年前,国内公司拿着Llama做微调。现在,硅谷的头部工具拿着K2.5做微调。这个变化的速度,超出了大多数人的预期。也是我们很多人之前没想到的。
3
讲到这里就要说到一个更基础的问题了:开源模型的「供应链」到底是什么?
大多数人对「开源」的理解停留在:免费下载,自己用。会认为DeepSeek和Kimi的价值就是「帮家人们把价格打下来了」。
首先,这当然没错,但真实的商业世界里,开源模型的流转路径远不止于此。
以Cursor这个案例为例,完整的链条是这样的:
Kimi开源K2.5→硅谷的推理服务商Fireworks AI获得授权,做托管、微调和强化学习训练→Fireworks AI转授权给Cursor→Cursor包装成Composer 2提供给全球开发者。
中间每一层都有技术服务、有授权协议、有商业利益分配。这依然是商业行为,不是公益行为。
作为商业行为,开源模型的供应链正在像过去实体制造领域的中国供应链一样,在全球产生影响。
一件优衣库的衣服,从纱线到面料到成衣,供应链也在中国。新能源汽车的电池、光伏组件、稀土加工,全球市场对中国供应链的依赖程度很深。
这种依赖的形成是靠几十年积累出来的成本优势、工程能力和规模效应。全球品牌选择中国供应链,跟喜欢跟谁交朋友关系不大,还是一笔经济账,即同样的品质,成本更低;同样的成本,交付更快。
AI领域正在出现一个结构上有些类似的现象,原材料不是钢铁和棉花,是模型权重和推理算力。全球的AI应用层公司开始选择中国的开源模型做底座,驱动力也很朴素,就是好用,便宜。
其实在科技领域是有知名的先例的:Android。Google开源AOSP,高通做芯片适配,三星华为做设备定制,运营商做渠道。用户手里拿到的是一台三星手机,但操作系统的底层逻辑、API规范和生态标准是Google定义的。供应链上每一层都在赚钱,定义底座的那一层,话语权也相当大。
当然这还只是一个可能的方向,不是既成事实。还有很远的路要走。
4
说到AI供应链,自然就要提到2026年开年的第一个AI大火的领域,养龙虾。
OpenClaw是一个开源Agent框架,奥地利开发者Peter Steinberger的作品。龙虾需要一个大脑,或者说需要喂养饲料。OpenClaw本身是框架,不提供模型,用户得自己选。【可以参考我之前的这篇:关于OpenClaw,到底是谁养了虾,虾又会养谁】
K2.5成了OpenClaw官方推荐的主力模型。大厂跟进,字节的ArkClaw、腾讯的QClaw、智谱的AutoClaw、MiniMax的MaxClaw、阿里的CoPaw……2026年3月密集上线。其中底层调用量最大的模型里就包括了K2.5、DeepSeek、Qwen系列、MiniMax。开源模型持续占据了token流量的主流。
这条链路跟实体供应链也有一些相似之处。富士康给苹果代工,也给华为代工,也给小米代工。谁的手机卖得好,富士康都赚钱,因为它在供应链的位置足够底层。
如果说Cursor事件暴露的是B端供应链里的故事,龙虾生态展示的是C端供应链里的故事。两条链路指向同一个事实:底座模型的位置,越来越像基础设施了。
从龙虾也能看得出,基础设施的叙事也逐步变成现实。token即未来AI时代的水电煤。
这个「水电煤」的市场到底有多大?有一组数据可以参考。
据华泰柏瑞基金的统计,中国整体日均Token消耗从2024年初的大约1000亿,到2025年年中突破30万亿,2026年2月已经到了180万亿的量级。龙虾这类Agent应用每天全天候运行,消耗的Token量比过去的Chatbot对话高出几个数量级。
3月16日,阿里宣布成立Alibaba Token Hub(ATH)事业群,跟电商、云智能并列,由CEO吴泳铭直接带队。整个事业群围绕一件事:创造Token、输送Token、应用Token。通义实验室造模型,MaaS业务线搭平台,千问做C端,新成立的悟空事业部做B端。
Token这个词以前只在技术社区里用,现在被一家万亿市值的公司拿来命名核心事业群。
如果Token真的在变成AI时代的水电煤,那谁能稳定、低成本地提供大量Token,谁就在这个生态里有位置。开源模型在这件事上有天然优势:部署灵活、成本可控、不依赖单一供应商。DeepSeek和Kimi这类把成本打下来同时保持性能的开源模型,就相当于这个市场里的低成本发电厂。他们会是这个市场里非常重要的一类玩家。
5
为什么中国的开源模型会受欢迎?
Cloudflare做过实测,在Workers AI平台上用K2.5替代其他模型,推理成本降低了77%。Cursor自己披露的数据也说明了选择逻辑:Composer 2性能略低于GPT-5.4,但生成速度更快,成本最低。对一家年化收入20亿美元的公司来说,这笔账很好算。
再看龙虾生态。K2.5在OpenRouter的定价大约是每百万输入token 0.5美元、输出2.8美元。Claude Sonnet 4.5是3美元和15美元。差六到七倍。龙虾的使用场景是高频调用,一个复杂任务可能要跑上百步甚至上千步。在这种场景下,六倍的成本差异不是「省一点」的问题,是「能不能供养它跑得起来」的问题。
这跟DeepSeek当年打下来的价格基础一脉相承。V3把每百万token的价格打到了人民币个位数,R1更是把推理模型的价格拉到了OpenAI o1的几十分之一。当时我写DeepSeek小传的时候提过,任何一个市场里出现这样的价差,都会引起剧烈震荡。2.6万块钱的手机现在只卖1000块钱,试想这种冲击力。
光便宜恐怕也不行。
DeepSeek用那个价格提供的,是跟行业顶尖产品同等水平的服务。K2.5也是一样,Cursor的Composer 2在Cursor自己官方的测试CursorBench上的得分超过了Claude Opus 4.6,而它的底座就是K2.5。
这听起来似乎在说K2.5比Claude更强,当然也不能这么说。毕竟跟多数人用ChatBot的体感应该是不一样的。
Cursor副总裁Lee Robinson在回应中提到,最终模型只有大约1/4的算力来自底座,剩下3/4是Cursor自己做的继续预训练和大规模强化学习。
联合创始人Aman Sanger进一步解释,团队在多个底座上做了评估,K2.5在编程相关的指标上表现最强,然后在此基础上做了针对编程场景的继续预训练(调整任务分布和能力侧重)和4倍算力的强化学习训练。经过这些处理之后,Composer 2在各项benchmark上的表现跟原始的K2.5「已经非常不同了」。
换句话说,Cursor选K2.5不是因为它「比Claude聪明」,而是因为它作为底座在编程方向上的潜力最好,经过大量定向训练之后能达到很高的性价比,能接近顶尖闭源模型,但成本低得多。
这其实也是整个开源生态的价值所在:不需要从零训练一个千亿参数的模型,拿一个强底座做垂直场景的深度优化,就能在特定任务上跟闭源巨头打得有来有回。Cursor不是唯一这么做的,Cognition的Windsurf也采用了类似路径。


DeepSeek在成本端打开的空间,K2.5在Agent和代码两个关键场景里进一步延伸了,构成了中国AI供应链的基本叙事。Kimi的K2.5发布后得到了极高的关注,20天收入超过2025全年。海外收入首次反超国内。三个月内估值从43亿美元涨到180亿。
说到估值,有一个对比值得想想。
Cursor的新一轮融资传言估值500亿美元。它的估值历程是:2023年10月5000万,2024年8月4亿,12月26亿,2025年11月293亿。火箭式增长。
支撑这个增长的叙事很重要,「我们有自己的模型研发能力」。Composer 1和Composer 2都在强化这个故事。
而提供底座的Kimi,估值180亿美元,大约是Cursor目标估值的三分之一。放在供应链的语境里看,这就好比一个品牌商的市值是核心供应商的三倍,但品牌商的产品核心来自这个供应商。不是说这个比例一定不合理,Cursor的产品力、用户粘性和商业模式确实有自身的价值,但至少说明市场对「底座」和「壳」的定价,可能还存在一些认知上的时间差。
类似的情况不止Cursor一家。前段时间很火的Manus,主打AI Agent,也没有自己的底层模型,完全依赖第三方。就因为产品和场景受到认同,被Meta开出了20亿的价码。
更值得关注的是横向对比。Kimi 180亿美元,大约是OpenAI的2%,Anthropic的不到10%。DeepSeek目前没有公开融资,梁文锋用幻方的资金自给自足,84%的控股几乎没被稀释。这种独立性让他可以不受投资人压力,专注长期研究。
这两家公司的底层技术输出正在被全球使用,它们的市场定价,还在被「全球AI基础设施提供商」这个身份重估。
不过也有一种完全不同的看法:模型层最终会变成大宗商品(commodity),真正的价值在离用户更近的应用层和数据层。按照这个逻辑,Cursor的估值恰恰反映了它离用户更近、离钱更近。两种判断都有各自的道理,现在下结论可能为时过早。
6
为什么小公司也有做模型的技术机会呢?
3月中旬,杨植麟受黄仁勋邀请在英伟达GTC大会演讲,是唯一受邀的中国大模型公司代表。他讲的是Kimi团队刚发表的论文《Attention Residuals》。

这篇论文的切入点很有意思。残差连接是深度学习领域从2015年ResNet提出后就一直沿用的基础架构组件,10年来几乎没人质疑它。大多数团队选择在注意力机制、MoE这些上层模块上做优化,Kimi在尝试从最底层的默认配置去找空间。
马斯克和Karpathy都点赞了这篇文章。而论文的一作是一个17岁的高中生。
除了Attention Residuals,Kimi还开源了MuonClip(替代用了11年的Adam优化器)和Kimi Linear(线性注意力方案)。杨植麟在GTC上把这些统称为Scaling Ladder,即通过严谨的规模化实验,从那些看似已经定型的基础技术里,找到新的改进空间。
把DeepSeek和Kimi放在一起看,能看到一个互补的格局。DeepSeek的贡献主要在训练方法论层面,pure RL重新定义了推理模型怎么训练,MoE和MLA的极致工程把训练成本压到了行业的十分之一。Kimi的贡献主要在网络架构的基础组件层面,从残差连接到优化器到注意力机制,在最底层做创新。
这两类工作有一个共同特点:它们都不是在跑分榜上争排名,而是在做范式层面的事情。梁文锋说过,很多人以为AI就是大力出奇迹,但真正的突破往往来自更巧妙的方法,而不是更多的资源。杨植麟在GTC上也表达了类似的意思:10年前做研究主要靠发表新想法,但缺乏严谨的大规模实验来验证。现在有了充足的计算资源和Scaling Ladder方法论,能够更严格地从那些看似「已经定型」的技术里找到改进空间。
这跟国内很多大厂做模型的路径有些不同。大厂的资源更充裕,产品线也更丰富,但核心动作往往是围绕自己的业务做集成和优化。在「回到第一性原理去挑战底层假设」这件事上,受限于业务压力和组织惯性,大厂很难给出足够的空间和耐心。
回到供应链的类比。实体制造业的供应链里,真正有持久话语权的不是组装厂,而是定义核心零部件和技术标准的那一层:台积电的先进制程,高通的基带芯片,ARM的指令集架构。AI的供应链也一样,如果底座模型不只是「好用又便宜」,还在输出底层的技术组件和方法论,那它在供应链里的位置就不只是一个供应商,而更接近基础设施和标准制定者了。
当然,这还只是一个趋势,远没有到可以下结论的程度。
7
最后说几句开源的未来。
开源不是一件轻松的事。它需要几个条件同时满足:技术上得有足够强的模型,开源出去才有人用;商业上得忍得住短期让利的「亏损期」;战略上不能被价格战和短期竞争带偏。
比如MiniMax的最新模型M2.7已经转闭源了,权重不再公开。
前不久千问发生的事也一定程度说明了开源面临的挑战。3月初,阿里千问的技术负责人林俊旸宣布离职,主流的说法是,技术理想和公司战略KPI之间存在不可调和的冲突。
Meta方面,围绕Llama 4的测试和路线出现了内部争议,据报道Meta下一代模型可能转向闭源。大厂做开源,似乎总会遇到同样的问题:短期里,管理层很难看到开源的直接收益;长期里,开源团队很难按大厂的节奏汇报成果。
即便有了商业闭环,开源模型的窗口期仍然有很多不确定因素。地缘政治在收紧,DeepSeek已经在一些国家被限制使用,美国有参议员公开呼吁加强对华AI管制。
竞争对手也在发力,OpenAI在加速推出新模型。投资人的耐心也有限,不是每个股东都能接受「先让全世界免费用,长期再赚钱」这种延迟满足的逻辑。
如果未来更多的模型公司转向闭源,那些已经依赖上中国开源模型的全球应用层公司和开发者,就需要重新找方案了。
那么无论是Cursor和龙虾对Kimi模型的调用,还是去年的DeepSeek的震惊全球,中国开源模型到底意味着什么呢?
讨论时,很容易走向两个极端。一边有人带着民族情绪说赢麻了,一边可能从纯技术视角判断并没有新的范式因此不过如此。开源模型自然有其场景价值,也有其局限和问题。真正的未来,是技术+商业+产品不断迭代变化中发生的。
目前能看到的是,全球AI的基础设施正在从「美国提供模型,全世界做应用」的单一结构,慢慢变成一个参与方更多、层次更复杂的供应链体系。DeepSeek和Kimi为代表的中国开源模型,是这个变化里的重要变量。但也只是变量之一。
这个过程才刚刚开始。也期待AI供应链能跑出不同的技术竞争力,正如很多全球知名的智能硬件品牌,也是珠三角供应链水平的外溢一样。
而这些更便宜、性能在持续追平的开源模型正在支撑很多主流编程工具和Agent框架。
对于我们这些普通从业者、开发者、内容生产者来说,最实际的收获可能就是:我们能更便宜地用上更多的AI产品。
就说到这里,希望有启发~
