中国开源AI模型(如DeepSeek、Kimi)通过技术突破和成本优势,正成为全球AI供应链的关键底座,推动从硅谷工具到Agent生态的广泛采用,同时重塑基础设施层与应用层的价值分配格局。 --- ## 1. 开源模型的技术突破与成本优势 - **DeepSeek**通过MoE、MLA技术将训练成本降至Llama 3.1的1/10(557.6万美元),R1模型用纯强化学习实现OpenAI o1同级推理能力。 - **Kimi K2.5**开源后成为OpenRouter调用量第一的模型,万亿参数MoE架构在代码生成和Agent场景表现突出,推理成本比Claude低6-7倍(0.5美元/百万输入token)。 - 关键结论:中国模型从"追赶者"变为"定义者",通过底层创新(如Attention Residuals论文)挑战技术范式。 --- ## 2. 全球AI供应链的"中国底座"现象 - **B端案例**:Cursor套壳Kimi K2.5的Composer 2模型,性能接近GPT-5.4但成本更低,支撑其500亿美元估值(Kimi估值180亿)。 - **C端生态**:OpenClaw等Agent框架依赖K2.5、DeepSeek等中国模型,日均Token消耗从2024年1000亿飙升至2026年180万亿。 - 类比实体供应链:模型权重和推理算力成为新"原材料",类似Android开源生态的分层价值分配。 --- ## 3. 基础设施层与应用层的估值博弈 - **估值倒挂**:Cursor(应用层)估值达底座供应商Kimi的2.8倍,反映市场对"离钱近"场景的偏好。 - **两种路径争议**:模型层可能成为大宗商品,或通过技术标准(如ARM指令集)保持话语权。 - 数据支撑:阿里成立Token Hub事业群,将Token定位为"AI时代水电煤"。 --- ## 4. 开源战略的挑战与不确定性 - **商业矛盾**:MiniMax M2.7转闭源,阿里千问技术负责人因开源冲突离职,Meta或放弃Llama开源路线。 - **地缘风险**:DeepSeek已在部分国家受限,美国推动对华AI管制。 - 核心矛盾:短期让利与长期基础设施话语权的平衡。 --- ## 5. 未来趋势:多元化的AI供应链体系 - 全球AI从"美国供模型"转向多层级供应链,中国开源模型成为关键变量。 - 开发者红利:低成本模型推动AI工具普及(如Cloudflare实测K2.5降本77%)。 - 类比智能硬件:技术外溢可能催生新商业模式,但竞争窗口期有限。
聊聊Token 出海的生意经:模型开源给世界,中国赚什么?
2026-03-26 12:21

聊聊Token 出海的生意经:模型开源给世界,中国赚什么?

本文来自微信公众号: 刘言飞语 ,作者:刘飞Lufy,原文标题:《聊聊 Token 出海的生意经:模型开源给世界,中国赚什么?》


本周末有一条AI新闻挺有意思,跟大家聊聊。


AI编程工具Cursor在3月19日发布了新模型Composer 2,官网上写的是「自有模型」。


Cursor是目前全球最火的AI编程工具,本质上是一个深度集成了AI能力的VS Code修改版(国内类似的是字节的TRAE)。从2024年10月Composer 1发布以来,外界就一直怀疑它的模型是套壳的,但找不到证据。


这次证据来了。发布不到24小时,一位开发者@fynnso想了个巧妙的办法:自己架一台服务器充当模型接口,然后在本地Cursor里把模型地址指向自己的服务器。这样Cursor发出的请求就暴露了:模型ID是kimi-k2p5-rl-0317-s515-fast。


Composer 2的底座,是月之暗面的Kimi K2.5。


截图传开后,Cursor第一时间堵了漏洞,但没什么用了。马斯克也转发确认。



Cursor的一位负责人最终回应,承认使用了K2.5,但强调是通过合作伙伴Fireworks AI获得的合法授权。Kimi官方也确认了这条授权链。从法律层面看,Cursor并没有侵权。


关于这件事的讨论其实很多了,但我想聊另一个视角。


2


过去两年,AI领域有一条暗线。


2023年,国内AI创业的主流姿态是拿Meta的Llama做微调。那时候行业的共识是「落后硅谷两个世代」。


2024年5月,DeepSeek发布了V2。这家从量化基金幻方孵化出来的公司,用MoE(混合专家模型)和MLA(多模态学习架构)两项技术把模型的调用成本大幅压低。MoE的逻辑我在之前的DeepSeek小传里写过,简单说就是不让大模型当全才,而是让它成为一个专家团,需要谁就唤醒谁。MLA则大幅降低了内存占用,显存压力比传统架构降低了67%-90%。


当时大家对DeepSeek的印象主要还是「便宜」。到12月V3发布,叠加了FP8低精度训练等新技术,官方披露的完整训练成本是557.6万美元,大约是Meta Llama 3.1训练成本的十分之一,性能却跟GPT-4基本持平。


然后是2025年1月,R1发布。


R1为什么重要,我在小传里也讲过。最核心的一点:它用纯强化学习(pure RL)达到了OpenAI o1的推理水平,不需要人工标注的题库,不需要有监督的微调,让模型自己跟自己博弈,自己评估什么是好的答案。这不是「我用更少的钱做了你做过的事」,而是「我走了一条没人走过的路」。


R1之后,OpenAI的奥特曼从最初暗讽DeepSeek「只是复制已知工作」,到后来承认「DeepSeek的出现改变了过去几年OpenAI遥遥领先的情况」。Meta据报道成立了多个专项小组拆解DeepSeek的方法。


这是第一波。


第二波来自Kimi。2026年1月底,K2.5发布。万亿参数的MoE模型,原生多模态,在代码生成、视觉理解和Agent工具调用上表现都不错。关键是它开源了,采用Modified MIT协议。


发布后不久,K2.5在OpenRouter(一个全球开发者用来选择和调用AI模型的聚合平台)的调用量冲到了第一名,排在Gemini 3 Flash和Claude Sonnet 4.5前面。当然,当时K2.5在OpenClaw生态里可以免费调用,这对调用量的拉动作用不小。


三年前,国内公司拿着Llama做微调。现在,硅谷的头部工具拿着K2.5做微调。这个变化的速度,超出了大多数人的预期。也是我们很多人之前没想到的。


3


讲到这里就要说到一个更基础的问题了:开源模型的「供应链」到底是什么?


大多数人对「开源」的理解停留在:免费下载,自己用。会认为DeepSeek和Kimi的价值就是「帮家人们把价格打下来了」。


首先,这当然没错,但真实的商业世界里,开源模型的流转路径远不止于此。


以Cursor这个案例为例,完整的链条是这样的:


Kimi开源K2.5→硅谷的推理服务商Fireworks AI获得授权,做托管、微调和强化学习训练→Fireworks AI转授权给Cursor→Cursor包装成Composer 2提供给全球开发者。


中间每一层都有技术服务、有授权协议、有商业利益分配。这依然是商业行为,不是公益行为。


作为商业行为,开源模型的供应链正在像过去实体制造领域的中国供应链一样,在全球产生影响。


一件优衣库的衣服,从纱线到面料到成衣,供应链也在中国。新能源汽车的电池、光伏组件、稀土加工,全球市场对中国供应链的依赖程度很深。


这种依赖的形成是靠几十年积累出来的成本优势、工程能力和规模效应。全球品牌选择中国供应链,跟喜欢跟谁交朋友关系不大,还是一笔经济账,即同样的品质,成本更低;同样的成本,交付更快。


AI领域正在出现一个结构上有些类似的现象,原材料不是钢铁和棉花,是模型权重和推理算力。全球的AI应用层公司开始选择中国的开源模型做底座,驱动力也很朴素,就是好用,便宜。


其实在科技领域是有知名的先例的:Android。Google开源AOSP,高通做芯片适配,三星华为做设备定制,运营商做渠道。用户手里拿到的是一台三星手机,但操作系统的底层逻辑、API规范和生态标准是Google定义的。供应链上每一层都在赚钱,定义底座的那一层,话语权也相当大。


当然这还只是一个可能的方向,不是既成事实。还有很远的路要走。


4


说到AI供应链,自然就要提到2026年开年的第一个AI大火的领域,养龙虾。


OpenClaw是一个开源Agent框架,奥地利开发者Peter Steinberger的作品。龙虾需要一个大脑,或者说需要喂养饲料。OpenClaw本身是框架,不提供模型,用户得自己选。【可以参考我之前的这篇:关于OpenClaw,到底是谁养了虾,虾又会养谁】


K2.5成了OpenClaw官方推荐的主力模型。大厂跟进,字节的ArkClaw、腾讯的QClaw、智谱的AutoClaw、MiniMax的MaxClaw、阿里的CoPaw……2026年3月密集上线。其中底层调用量最大的模型里就包括了K2.5、DeepSeek、Qwen系列、MiniMax。开源模型持续占据了token流量的主流。


这条链路跟实体供应链也有一些相似之处。富士康给苹果代工,也给华为代工,也给小米代工。谁的手机卖得好,富士康都赚钱,因为它在供应链的位置足够底层。


如果说Cursor事件暴露的是B端供应链里的故事,龙虾生态展示的是C端供应链里的故事。两条链路指向同一个事实:底座模型的位置,越来越像基础设施了。


从龙虾也能看得出,基础设施的叙事也逐步变成现实。token即未来AI时代的水电煤。


这个「水电煤」的市场到底有多大?有一组数据可以参考。


据华泰柏瑞基金的统计,中国整体日均Token消耗从2024年初的大约1000亿,到2025年年中突破30万亿,2026年2月已经到了180万亿的量级。龙虾这类Agent应用每天全天候运行,消耗的Token量比过去的Chatbot对话高出几个数量级。


3月16日,阿里宣布成立Alibaba Token Hub(ATH)事业群,跟电商、云智能并列,由CEO吴泳铭直接带队。整个事业群围绕一件事:创造Token、输送Token、应用Token。通义实验室造模型,MaaS业务线搭平台,千问做C端,新成立的悟空事业部做B端。


Token这个词以前只在技术社区里用,现在被一家万亿市值的公司拿来命名核心事业群。


如果Token真的在变成AI时代的水电煤,那谁能稳定、低成本地提供大量Token,谁就在这个生态里有位置。开源模型在这件事上有天然优势:部署灵活、成本可控、不依赖单一供应商。DeepSeek和Kimi这类把成本打下来同时保持性能的开源模型,就相当于这个市场里的低成本发电厂。他们会是这个市场里非常重要的一类玩家。


5


为什么中国的开源模型会受欢迎?


Cloudflare做过实测,在Workers AI平台上用K2.5替代其他模型,推理成本降低了77%。Cursor自己披露的数据也说明了选择逻辑:Composer 2性能略低于GPT-5.4,但生成速度更快,成本最低。对一家年化收入20亿美元的公司来说,这笔账很好算。


再看龙虾生态。K2.5在OpenRouter的定价大约是每百万输入token 0.5美元、输出2.8美元。Claude Sonnet 4.5是3美元和15美元。差六到七倍。龙虾的使用场景是高频调用,一个复杂任务可能要跑上百步甚至上千步。在这种场景下,六倍的成本差异不是「省一点」的问题,是「能不能供养它跑得起来」的问题。


这跟DeepSeek当年打下来的价格基础一脉相承。V3把每百万token的价格打到了人民币个位数,R1更是把推理模型的价格拉到了OpenAI o1的几十分之一。当时我写DeepSeek小传的时候提过,任何一个市场里出现这样的价差,都会引起剧烈震荡。2.6万块钱的手机现在只卖1000块钱,试想这种冲击力。


光便宜恐怕也不行。


DeepSeek用那个价格提供的,是跟行业顶尖产品同等水平的服务。K2.5也是一样,Cursor的Composer 2在Cursor自己官方的测试CursorBench上的得分超过了Claude Opus 4.6,而它的底座就是K2.5。


这听起来似乎在说K2.5比Claude更强,当然也不能这么说。毕竟跟多数人用ChatBot的体感应该是不一样的。


Cursor副总裁Lee Robinson在回应中提到,最终模型只有大约1/4的算力来自底座,剩下3/4是Cursor自己做的继续预训练和大规模强化学习。


联合创始人Aman Sanger进一步解释,团队在多个底座上做了评估,K2.5在编程相关的指标上表现最强,然后在此基础上做了针对编程场景的继续预训练(调整任务分布和能力侧重)和4倍算力的强化学习训练。经过这些处理之后,Composer 2在各项benchmark上的表现跟原始的K2.5「已经非常不同了」。


换句话说,Cursor选K2.5不是因为它「比Claude聪明」,而是因为它作为底座在编程方向上的潜力最好,经过大量定向训练之后能达到很高的性价比,能接近顶尖闭源模型,但成本低得多。


这其实也是整个开源生态的价值所在:不需要从零训练一个千亿参数的模型,拿一个强底座做垂直场景的深度优化,就能在特定任务上跟闭源巨头打得有来有回。Cursor不是唯一这么做的,Cognition的Windsurf也采用了类似路径。




DeepSeek在成本端打开的空间,K2.5在Agent和代码两个关键场景里进一步延伸了,构成了中国AI供应链的基本叙事。Kimi的K2.5发布后得到了极高的关注,20天收入超过2025全年。海外收入首次反超国内。三个月内估值从43亿美元涨到180亿。


说到估值,有一个对比值得想想。


Cursor的新一轮融资传言估值500亿美元。它的估值历程是:2023年10月5000万,2024年8月4亿,12月26亿,2025年11月293亿。火箭式增长。


支撑这个增长的叙事很重要,「我们有自己的模型研发能力」。Composer 1和Composer 2都在强化这个故事。


而提供底座的Kimi,估值180亿美元,大约是Cursor目标估值的三分之一。放在供应链的语境里看,这就好比一个品牌商的市值是核心供应商的三倍,但品牌商的产品核心来自这个供应商。不是说这个比例一定不合理,Cursor的产品力、用户粘性和商业模式确实有自身的价值,但至少说明市场对「底座」和「壳」的定价,可能还存在一些认知上的时间差。


类似的情况不止Cursor一家。前段时间很火的Manus,主打AI Agent,也没有自己的底层模型,完全依赖第三方。就因为产品和场景受到认同,被Meta开出了20亿的价码。


更值得关注的是横向对比。Kimi 180亿美元,大约是OpenAI的2%,Anthropic的不到10%。DeepSeek目前没有公开融资,梁文锋用幻方的资金自给自足,84%的控股几乎没被稀释。这种独立性让他可以不受投资人压力,专注长期研究。


这两家公司的底层技术输出正在被全球使用,它们的市场定价,还在被「全球AI基础设施提供商」这个身份重估。


不过也有一种完全不同的看法:模型层最终会变成大宗商品(commodity),真正的价值在离用户更近的应用层和数据层。按照这个逻辑,Cursor的估值恰恰反映了它离用户更近、离钱更近。两种判断都有各自的道理,现在下结论可能为时过早。


6


为什么小公司也有做模型的技术机会呢?


3月中旬,杨植麟受黄仁勋邀请在英伟达GTC大会演讲,是唯一受邀的中国大模型公司代表。他讲的是Kimi团队刚发表的论文《Attention Residuals》。



这篇论文的切入点很有意思。残差连接是深度学习领域从2015年ResNet提出后就一直沿用的基础架构组件,10年来几乎没人质疑它。大多数团队选择在注意力机制、MoE这些上层模块上做优化,Kimi在尝试从最底层的默认配置去找空间。


马斯克和Karpathy都点赞了这篇文章。而论文的一作是一个17岁的高中生。


除了Attention Residuals,Kimi还开源了MuonClip(替代用了11年的Adam优化器)和Kimi Linear(线性注意力方案)。杨植麟在GTC上把这些统称为Scaling Ladder,即通过严谨的规模化实验,从那些看似已经定型的基础技术里,找到新的改进空间。


把DeepSeek和Kimi放在一起看,能看到一个互补的格局。DeepSeek的贡献主要在训练方法论层面,pure RL重新定义了推理模型怎么训练,MoE和MLA的极致工程把训练成本压到了行业的十分之一。Kimi的贡献主要在网络架构的基础组件层面,从残差连接到优化器到注意力机制,在最底层做创新。


这两类工作有一个共同特点:它们都不是在跑分榜上争排名,而是在做范式层面的事情。梁文锋说过,很多人以为AI就是大力出奇迹,但真正的突破往往来自更巧妙的方法,而不是更多的资源。杨植麟在GTC上也表达了类似的意思:10年前做研究主要靠发表新想法,但缺乏严谨的大规模实验来验证。现在有了充足的计算资源和Scaling Ladder方法论,能够更严格地从那些看似「已经定型」的技术里找到改进空间。


这跟国内很多大厂做模型的路径有些不同。大厂的资源更充裕,产品线也更丰富,但核心动作往往是围绕自己的业务做集成和优化。在「回到第一性原理去挑战底层假设」这件事上,受限于业务压力和组织惯性,大厂很难给出足够的空间和耐心。


回到供应链的类比。实体制造业的供应链里,真正有持久话语权的不是组装厂,而是定义核心零部件和技术标准的那一层:台积电的先进制程,高通的基带芯片,ARM的指令集架构。AI的供应链也一样,如果底座模型不只是「好用又便宜」,还在输出底层的技术组件和方法论,那它在供应链里的位置就不只是一个供应商,而更接近基础设施和标准制定者了。


当然,这还只是一个趋势,远没有到可以下结论的程度。


7


最后说几句开源的未来。


开源不是一件轻松的事。它需要几个条件同时满足:技术上得有足够强的模型,开源出去才有人用;商业上得忍得住短期让利的「亏损期」;战略上不能被价格战和短期竞争带偏。


比如MiniMax的最新模型M2.7已经转闭源了,权重不再公开。


前不久千问发生的事也一定程度说明了开源面临的挑战。3月初,阿里千问的技术负责人林俊旸宣布离职,主流的说法是,技术理想和公司战略KPI之间存在不可调和的冲突。


Meta方面,围绕Llama 4的测试和路线出现了内部争议,据报道Meta下一代模型可能转向闭源。大厂做开源,似乎总会遇到同样的问题:短期里,管理层很难看到开源的直接收益;长期里,开源团队很难按大厂的节奏汇报成果。


即便有了商业闭环,开源模型的窗口期仍然有很多不确定因素。地缘政治在收紧,DeepSeek已经在一些国家被限制使用,美国有参议员公开呼吁加强对华AI管制。


竞争对手也在发力,OpenAI在加速推出新模型。投资人的耐心也有限,不是每个股东都能接受「先让全世界免费用,长期再赚钱」这种延迟满足的逻辑。


如果未来更多的模型公司转向闭源,那些已经依赖上中国开源模型的全球应用层公司和开发者,就需要重新找方案了。


那么无论是Cursor和龙虾对Kimi模型的调用,还是去年的DeepSeek的震惊全球,中国开源模型到底意味着什么呢?


讨论时,很容易走向两个极端。一边有人带着民族情绪说赢麻了,一边可能从纯技术视角判断并没有新的范式因此不过如此。开源模型自然有其场景价值,也有其局限和问题。真正的未来,是技术+商业+产品不断迭代变化中发生的。


目前能看到的是,全球AI的基础设施正在从「美国提供模型,全世界做应用」的单一结构,慢慢变成一个参与方更多、层次更复杂的供应链体系。DeepSeek和Kimi为代表的中国开源模型,是这个变化里的重要变量。但也只是变量之一。


这个过程才刚刚开始。也期待AI供应链能跑出不同的技术竞争力,正如很多全球知名的智能硬件品牌,也是珠三角供应链水平的外溢一样。


而这些更便宜、性能在持续追平的开源模型正在支撑很多主流编程工具和Agent框架。


对于我们这些普通从业者、开发者、内容生产者来说,最实际的收获可能就是:我们能更便宜地用上更多的AI产品。


就说到这里,希望有启发~

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定