本文来自微信公众号: 星海情报局 ,作者:星海老局
1956年,美国商人麦克莱恩发明了集装箱。
在集装箱之前,货物出口靠的是人力散装,一件一件靠叉车、吊机搬运,一船要装卸好几天,运输成本里有一半是装卸费。集装箱的出现,让这一切变了——任何货物,只要装进箱子,就能被任何港口的吊车装卸,被任何货轮运输,被任何买家接收。
简单的发明,却带来了非凡的效益:它让全球贸易的摩擦成本大幅下降,当中国成为“世界工厂”后,中国产能借着集装箱渗透到了全球的每一个角落。
七十年后,一个新的“集装箱”出现了,而这个新的“集装箱”叫Token。
Token是大语言模型处理文字的最小单位,大致相当于半个中文字。但它的意义不在于这个技术定义,而在于它做到了和集装箱一样的事:把原本难以计量、难以交易的东西——智能服务——装进了一个标准化的容器。
一个问题、一段代码、一篇文章,背后消耗了多少算力,全部可以用Token来计量、定价、交易。就像集装箱让任何货物都能被吊车装卸,Token让任何智能服务都能被API调用、被计费、被出口。
中国第一次有机会大规模出口脑力,而不是体力、矿产、能源。美国人掀起了这场AI浪潮,定义了规则,炒高了价格,却没想到,Token这门生意的霸主,正在悄悄换人。

Token:智能时代的标准化集装箱
Token,翻译过来叫词元,是大语言模型处理文本的最小单位。
「我喜欢吃苹果」,对人类来说是一个完整的句子。对AI来说,它是「我」「喜欢」「吃」「苹果」四个Token。英文更复杂,「ChatGPT」会被拆成「Chat」「G」「PT」三个Token。
这种拆分看起来琐碎,但它让智能服务第一次变得可以量化,可以被公平地计算,就像集装箱一般,Token让任何智能服务都能被计量、被交易、被出口。
一个印度的创业者,打开电脑,调用DeepSeek的API,让它帮他写一段Python代码。他等了不到一秒,代码出现了。他付了几分钱,关上电脑。
这个动作很简单,但背后发生的事情却改写了游戏规则:他的请求通过光纤传到了中国某个数据中心,数百块GPU同时启动,开始逐字生成那段代码。
每生成一个字,就要消耗若干Token,而每个Token背后,却是真实的电力消耗。甘肃的风电、青海的光伏、云南的水电,在这一刻以Token的形式,打包跨越国境,变成印度程序员眼前的一行代码。
中印之间没有特高压输电线路,但中国的电力,却实实在在被国外消费了。
这就是Token出口的本质:数据中心烧电,GPU运算,产出Token,卖给全球用户。电力和算力被隐形地打包进每一个Token,随着API调用流向世界各地。买家买到的是智能服务,但他们实际上消费的,是中国的电力、算力和工程师的智识积累。
这个机制有一个关键的特性:它不需要买家在地理上靠近中国,不需要铺设任何物理管道,只需要一根网线。这是传统电力出口永远做不到的事。
中国电力之强大,天下人所共知,2025年,中国光伏装机突破3.15亿千瓦,占全国新增发电装机的57%。
但装机越快,消纳越难,全国新能源消纳监测预警中心的数据显示:2025年上半年,全国光伏弃电率升至6.6%,风电弃电率5.7%,比2024年同期几乎翻倍。
西部省份的困境尤其严重:2025年1月至11月,西藏光伏发电利用率仅65.8%,甘肃89.6%,青海83.5%,西藏风电利用率更只有69.3%。大量可再生能源发出来,却没有地方消纳,白白浪费。
其实浪费了都算好的,带来的电网波动才是真的难顶。
面对这些过剩的电,最直觉的想法是:直接出口出去不就行了?
嘿嘿,想法不错,但现实没那么简单。
电不能装箱,不能储存,只能靠实体电网点对点输送。中国西部弃风弃光最严重的地方——西藏、甘肃、内蒙古——偏偏与电网基础设施最薄弱的国家接壤,放眼中国周围,基本上没几个国家拥有全国性的靠谱电网。
云南通过21条输电线路与越南、缅甸、老挝联网,十三五期间累计跨境交易电量176亿千瓦时——相比中国每年数万亿千瓦时的总发电量,这个数字几乎可以忽略不计。
再说了,人家穷国也是有主权的,没有人愿意让本国电力依赖邻国供应,即便愿意把灵魂卖给东大,一度电出口也就五毛钱左右,扣除损耗和交易成本,根本赚不到几个钱。
因此,传统电力出口的天花板清晰可见,而且几乎无解。
但是,如果我们能把电力换个皮,那情况就好办得多了。
这就是Token的出口——不需要物理电网,不受电力主权约束,价格不被大宗商品市场锚定。这是一条真正可以规模化的新路。
数据中心对电价敏感、对位置不敏感——光纤可以跨越千山万水。西藏、甘肃、青海的过剩绿电,可以通过数据中心转化为Token,出口到全球。
这一点,在ToC的市场上尤其意义重大——Toc的意义在于它是最敏感的风向标。中国个人用户的AI使用习惯正在发生结构性转变:从「问答」转向「干活」。编程、写作、长文档处理,每一类场景的Token消耗都远高于简单对话。加上深度推理模式的普及,单个用户单次调用的Token量在快速膨胀——业界把这个现象称为「Token通胀」。
数字印证了这个趋势。国家数据局数据显示,2024年初中国日均Token消耗量为1000亿,到2025年6月底已突破30万亿,一年半时间增长了300倍。2025年上半年,中国公有云大模型调用总量达到537万亿Token,较2024年全年增长近400%。这个增速,远超任何一个传统行业的成长曲线。土壤已经肥沃,种子正在发芽。
中国的澎湃电力,正在套上Token外皮,被国内外市场无形却又疯狂购买。

卖Token,是一门暴利生意
其实,“电力换皮出口”这事儿,中国早有先例。
中国是全球最大的电解铝生产国,但铝土矿本身大量依赖进口——几内亚、澳大利亚、印度尼西亚的矿石,漂洋过海运到中国,在西南、西北的电解铝工厂里,经过高耗电的冶炼工序,变成铝锭,再出口到全球。
矿石是进口的,铝锭是出口的,而最耗电的那个环节,留在了国内。
也就是说,中国出口的铝锭里,有相当一部分是电力在换皮出售。只是,这种方式增值倍数不高,一度电变成铝锭,大约只能增值2到3倍。
生产1吨电解铝,行业平均耗电约13500度,也就是说1度电大约能炼出73克铝。铝锭目前的市场价大约是每吨2万元,73克铝价值约1.46元。而这1度电,买入价不过0.3到0.4元。
粗算下来,1度电通过炼铝增值了3到5倍。
多晶硅也是同样的逻辑,而且更为典型。
生产1吨多晶硅,综合电耗约57000度,也就是说1度电大约能生产17.5克多晶硅。目前多晶硅现货价格约在4万元每吨,17.5克价值约0.7元。同样1度电的买入价约0.3到0.35元,炼出多晶硅后增值约2倍。
看起来比电解铝还低,但这是因为多晶硅行业目前严重过剩,2022年高点的时候,17.5克多晶硅可是能卖5元以上的,可以增值10倍。
但是如果你把电力换皮成Token卖出去,那情况可就完全不同了。
H100 GPU在推理场景下,每Token约消耗0.39焦耳,一度电则是360万焦耳,理论上可产出约920万Token,考虑到散热、网络、冗余等损耗,保守估算一度电实际产出约550万Token。
Token卖多少钱?DeepSeek输出定价每百万Token约2元,OpenAI的GPT-4o定价每百万Token约70元。
一度电直接出口,卖0.5元,炼成铝锭卖出去是1.5元,而喂给数据中心跑推理,按DeepSeek的定价,能卖出约11元,是直接卖电的22倍。
更重要的是,铝锭和多晶硅的工艺早已固定,早就碰到天花板了,但AI还年轻。
Token,是中国迄今为止电力增值效率最高的出口形态。
甚至,这看似暴利的“22倍”系数,还是我们厂商竞争过于激烈、主动压价的结果,不是能力天花板。
DeepSeek在打市场、抢份额,定价是战略选择。DeepSeek-V3的训练成本仅约3900万元,用的是H800芯片——国产模型的真实成本,比这个定价还要低得多。即使把价格压到OpenAI的1/20,中国模型依然有利润空间。这就是便宜背后的底气。

为什么中国只能卖22倍,美国能卖785倍
说完了中国这边的账,再看看美国那边的账。
如果说中国Token出口是暴利,那么美国Token的出口则堪称是“无本万利”——Deepseek用一度电转化出的Token可以卖11元,如果换成OpenAI的定价,同样则能卖约385元,增值倍数来到了恐怖的“785倍”。
22倍和785倍之间,差着一个数量级。
为什么中国模型的定价,只有美国模型的1/20到1/30?
最直接的原因是品牌溢价缺失。
这就好比同样是矿泉水,农夫山泉卖2块,依云卖30块,不是因为依云的水分子更高级,而是因为它卖的是阿尔卑斯山泉这个故事。
OpenAI也是同样的道理——它卖的不只是Token,卖的是全球最强AI这个认知。这个认知本身值钱,而且能让人愿意为之多付钱。
Claude Sonnet输出定价每百万Token约105元,MiniMax M2.5只要约8元,相差13倍。
用户愿意为Claude买单,不只是因为Claude测试结果优异,还因为他们相信Claude确实更好——你怎么样是一回事,领导怎么看你,是另外一回事。
中国模型厂商目前还处于农夫山泉的阶段,价格透明、童叟无欺,但品牌故事还没讲出来。
其次是模型能力的差距。
DeepSeek在数学、编程的基准测试上已经追平甚至超越OpenAI,但基准测试是考场,生产环境是战场。
在实际的企业应用里,稳定性、指令遵循的精确度、边缘情况的处理才是核心。实际的能力差距,直接影响定价天花板——你能解决别人解决不了的问题,才有资格开更高的价。中国模型目前还在追赶高端场景,这个差距缩小一分,定价空间就能打开一分。
第三,则是生态和信任的缺失。
企业客户选AI供应商,就像选银行,不只看利率,还要看这家银行会不会突然倒闭、出了问题有没有人接电话。
OpenAI和微软Azure背后有完整的企业服务体系——SLA保障、合规支持、技术文档、售后响应,这套东西是多年积累下来的信任背书。中国模型在工程能力上完全不输,但这套售后体系还在建设中。

毕竟,欧美在SaaS这块可是玩儿了几十年的,熟练程度和在珠三角找五金厂一个感觉。
最后还有一道隐形的压力:地缘政治折扣。
简单说就是,很多客户想用但不敢用,或者用了也要压价,因为心里有顾虑——今天能调的API,明天会不会被自己国家的监管叫停?美国联邦机构禁用DeepSeek,德国要求下架,这些新闻每出一条,都会让潜在客户的决策再迟疑一下。迟疑折算成价格,就是折扣。
四个原因叠加,形成了一种结构性的定价压制。
22倍是现在的成绩,不是终点。但从22倍走向更高,靠的不是更猛的降价,而是品牌、能力、生态、信任一点一点地积累。
短期内,最明显的障碍是西方封禁,欧美对中国高科技的打压始终没停过,这是咱们早就有的心理预期——今天一个法案,明天一个禁令,早就虱子多了不嫌咬了。
但说实话,这些封禁更像是在门口立了个牌子,而不是真的堵死了路。
中国Token出口的主战场从来不是西方发达国家,而是印度、东南亚、拉美、中东——也就是全球南方。DeepSeek在印度、东南亚的扩张没有受到太大影响。封禁反而帮中国模型做了广告:被美国封杀的产品,一定有点东西。
真正危险的,其实是内部问题——国内模型厂商,也开始价格战了。
2024年,字节豆包报价低到每千Token不到0.006元,阿里通义千问GPT-4级主力模型降价97%,智谱把上一代GLM-4-Plus砍了90%。这场价格战打得像菜市场收摊前甩卖,赢得了用户,却亏掉了利润,压缩了再投资能力。
好在2025年情况开始逆转:智谱GLM-5发布当天宣布涨价30%,Kimi K2.5发布不到一个月,海外收入首次超过国内。涨价能成功,说明需求是真实的,市场在成熟。但价格战留下的诸多后遗症却需要时间消化。
长期来看,有两个结构性问题悬在中国AI的头顶。
第一是算力天花板。
芯片禁令不会消失,美国必然会管得越来越严。DeepSeek用H800训练出了顶级模型,这是一次了不起的工程奇迹,但奇迹不能当战略。就像一支球队赢了一场经典战役,不代表它永远能以少胜多。下一代模型如果需要十万张H100,而中国只能拿到性能打折的替代品,训练成本优势就会被侵蚀。
不过,现在情况应该好了不少,老黄这次来国内拜访一圈,结果好像一张H200都没卖出去。
第二个长期问题是数据本地化压力。
各国对数据主权的限制也在越发收紧,欧盟的GDPR、印度数据本地化法案、中东的合规要求,都在往同一个方向推。
目前中国Token出口依赖的是纯境外API调用模式,一旦各国要求数据不能出境,就得在当地建数据中心。可若是在本地建中心,那么土地、电力、运维全部按当地标准来,成本结构就完全变了,也就不那么“便宜”了。
因此,Token出口的终极形态,可能不是简单的API调用,而是中国技术加本地部署——这对商业模式和运营能力,都是更高的要求。
不论如何,还是要感谢美国AI——感谢他们用真金白银和大喇叭宣传,帮中国找到了电力出口的正确姿势。
OpenAI、Anthropic把Token价格锚定在高位,教育了市场,激活了需求,却让更多企业用不起。中国模型以1/20的价格提供80%的能力,填补了这块空白。
从卖电到卖Token,中国完成了从体力活到脑力活的跃迁——不需要密集劳动、不需要污染环境、不需要物理电网,不受地缘政治的电力主权约束,价格也不再被大宗商品市场锚定,这是一条真正意义上可以规模化的新路。
美国负责把Token价格炒上去,中国负责把Token价格打下来,“西数东算”的博弈,才刚刚开始。
