本文分析AI算力从租GPU转向卖Token的产业分工变化,梳理两类新模式的优劣势,给出赛道投资观察与方向提示。 ## 1. AI算力服务为何从租GPU转向卖Token 传统GPU算力租赁是产业早期资源稀缺阶段的产物,随着AI从训练转向大规模推理,其局限性逐渐暴露。 它是固定租金的设备出租模式,难以分享下游AI应用爆发的增长红利,且极易陷入同质化价格战,利润空间被持续压缩。 对大模型公司和互联网大厂而言,自研全栈推理体系资本开支重、运营复杂度高,有外包非核心环节的分工需求,催生了按Token消耗收费的新模式。 ## 2. Token工厂模式的吸引力与核心风险 Token工厂是AI时代的推理产能代工厂,拥有重资产硬件底座,直接承接推理任务生产Token,按Token消耗收费甚至可与模型方分成。 它同时满足上下游需求:上游模型厂商可外包推理产能专注研发,下游客户无需介入部署调优即可通过API获取稳定服务,自身收入随调用量增长,部分披露业务毛利率显著高于传统算力租赁。 Token工厂的核心竞争力不是GPU储量,而是模型压缩量化、推理引擎优化、并行调度等工程能力——比拼的是同等硬件条件下能否产出更多低成本Token。 该模式并非天然高壁垒生意:推理优化的领先是动态的,容易被通用方案追平;头部客户本身也是技术公司,长期外采需求存在不确定性。 最终能否获得良好资本回报,核心取决于产能利用率、折旧周期与定价权,仅高毛利率不足以支撑高回报。 ## 3. Token运营平台的价值与发展不确定性 Token运营平台解决AI模型的流通问题,核心是整合分散的多模型资源,为企业和开发者提供统一调用入口,核心价值是降低接入门槛、保障服务稳定性、通过智能路由匹配效果与成本的最优解。 它属于轻资产模式,收入来自上游价格的服务溢价,长期价值依赖平台效应与客户粘性,类似AI时代的流量调度中心。 该赛道护城河尚未完全验证:B端客户多已绑定云厂商,会优先选择云厂商自带的MaaS平台,独立平台只有提供云厂商做不到的增量价值才能存活,否则容易被云厂商功能吸收。现阶段更适合作为期权型机会观察。 ## 4. 产业变化的深层意义与值得跟踪的方向 AI产业正在发生三个核心转变:从“卖资源”转向“卖结果”,竞争核心从资源占有转向效率与交付能力;从“大厂全包”转向专业化分工,整体产业效率会得到提升;从“概念驱动”转向商业闭环驱动,更看重可持续的收入、模式与利润。 当前赛道值得跟踪四类玩家:一是深度嵌入客户核心流程、绑定非自研模型的稳定合作型Token工厂;二是本身拥有应用入口与客户基础,能形成场景闭环的垂直领域公司;三是能在特定芯片、模型、场景把效率做到极致的推理优化技术公司;四是能提供云厂商之外增量价值、形成统一调度能力的平台型Token运营商。 ## 5. 赛道投资的核心提醒 该赛道发展仍受多重约束:核心算力供给紧张可能拖慢扩张计划,产业成熟后难免价格竞争,当前的技术领先多是阶段性优势,容易被开源生态追平。 要警惕概念先行,做算力不代表能做好Token工厂,聚合接口不代表能做成Token运营平台,中间隔着客户、交付、运营等实打实的能力门槛。 投资层面需关注两个容易忽略的核心问题:Token工厂是重资产强投入生意,高毛利率不等于高资本回报,要重点关注长期ROIC、自由现金流;同时要关注定价权,缺乏定价权的玩家很难长期吃到厚利。 最终赚得最稳的,未必是Token工厂本身,也可能依然是卖HBM、光模块的上游关键基础设施厂商。
当AI从租GPU走向卖Token,谁会赚到真正的钱?
原创2026-05-18 14:06

当AI从租GPU走向卖Token,谁会赚到真正的钱?

出品 | 妙投APP

作者 | 张博

编辑 | 丁萍

头图 | AI生图


过去两年,AI产业最耀眼的主角是大模型,随后市场的目光迅速转向“算力”——谁有GPU、谁有机房、谁能更快把服务器架起来,似乎谁就站在了浪潮前排。

 

但任何产业往前走一步,底层逻辑都会变一层。

 

如果说训练大模型更像“造发动机”,那么今天越来越重要的推理服务,更像是让汽车真正跑上路。模型再强,如果不能被稳定、低成本、大规模地调用,就很难真正进入企业、进入场景、进入日常生活。

 

而推理本质上是一种持续性的算力消耗。用户每一次提问、每一次生成内容,背后都会消耗Token。随着AI应用规模越来越大,行业真正比拼的,也不再只是“有没有GPU”,而是谁能更低成本、更稳定地生产和调度Token。

 

也正因为如此,AI算力服务正在发生一场重要变化:过去主流是“算力租赁”,说白了就是租GPU、租服务器;而现在,新的角色开始浮出水面——Token工厂与Token运营平台。

 

这两个词听起来新,但如果换成更通俗的话,其实不难理解。所谓Token工厂,就是专门“生产AI输出能力”的工厂,它不只是把机器租给你,而是直接把模型跑起来,按实际输出量收费。所谓Token运营平台,则像AI时代的“模型中转站”或“统一入口”,把不同模型、不同服务商整合起来,让企业和开发者更方便地调用。

 

如果说过去卖的是“铲子”,那么现在越来越多公司想卖的,是“挖出来的矿”;如果说过去比的是“谁有机器”,那么现在比的,是“谁能用同样的机器,产出更多、更便宜、更稳定的智能服务”。

 

这背后,不只是新概念,而是AI产业分工开始深化的信号。更现实的问题是:从卖GPU到卖Token,AI推理服务到底是不是一门更好的生意?

 

AI算力服务为何要发生变化?


因为 “租算力”开始不够用了。

 

任何新产业在早期,都会经历一个“资源稀缺”的阶段。AI也一样。前两年,大家最关心的是有没有高端GPU,能不能拿到英伟达的卡,能不能尽快把集群搭起来。

 

于是,“算力租赁”成了一个很热的生意:有资源的人把GPU服务器租出去,客户按月、按年付费。这个模式在产业早期成立,因为当时最稀缺的是“资源本身”。

 

但随着AI从训练走向推理,这种模式的局限开始暴露。

 

首先,它更像“出租设备”,而不是“交付结果”。客户租的是GPU,不是最终的AI能力。就像租了一台机器,至于机器最后做出多少产品、赚了多少钱,和出租方关系不大。这意味着,哪怕下游AI应用突然爆发,算力租赁方也很难真正分享到增长红利,收入通常是固定的,弹性有限。

 

其次,它容易陷入同质化竞争。如果大家做的都是“谁有卡、谁便宜、谁交付快”,那么这门生意最终很容易走向价格战,利润空间会被持续压缩。

 

更重要的是,对大模型公司和互联网大厂来说,自己扛着全部推理体系越来越重。今天的大模型服务,已经不是“把模型部署上去”这么简单,它背后要解决的是机房、电力、散热、网络、存储、调度、模型优化、延迟控制、稳定性保障、成本管理等一整套复杂问题。

 

对很多大厂来说,算力投入已经不只是技术问题,更是财务问题、组织问题,甚至是风险问题。资本开支太重,运营太复杂,合规要求又越来越高,企业自然会想:有没有一种方式,可以既拿到推理能力,又不用自己事事亲力亲为?

 

这就像制造业发展到一定阶段,品牌商会把部分生产环节外包给更专业的工厂。AI产业也正在出现类似的分工。于是,问题不再只是“有没有算力”,而是谁能更高效、更稳定、更低成本地把模型能力转化成Token,并持续交付给应用和客户?

 

而这里真正的变化还不只是“服务外包”,更在于计价方式变了,收入逻辑也就变了。

 

Token工厂有何吸引力?

 

所谓Token工厂,本质上是一种新的推理服务模式。它有重资产底座——机房、服务器、集群、电力、网络;但它不只是把这些硬件租出去,而是直接承接模型推理任务,生产Token,并按Token消耗收费,甚至和模型方按收入分成。

 

如果用制造业做类比,它有点像AI时代的“代工厂”;如果用能源行业做类比,它也有点像“炼油厂”——真正决定价值的,不只是有没有原料,而是能不能高效率地加工出有价值的产出。

 

为什么这个模式更有吸引力?

 

因为它同时满足了上下游两端的需求。对上游模型厂商来说,可以把一部分推理产能外包出去,自己更专注于模型研发和应用生态;对下游客户来说,不需要自己深度介入复杂的部署和调优,只要通过标准API调用,就能拿到稳定的AI服务。

 

对Token工厂自己来说,收入不再是固定租金,而是和下游调用量相关,如果AI应用越来越普及,Token消耗越来越多,它就有机会分享到更大的增长空间。

 

这也是为什么,一些公司披露的Token工厂业务毛利率,会显著高于传统算力租赁。传统租赁更像资源生意,而Token工厂更接近“资源+工程优化+服务交付”的复合型生意。

 

当然,很多人第一反应会觉得,Token工厂的壁垒在于“卡多”。但真正往下看,未必如此。因为在推理时代,更关键的问题不是“有没有卡”,而是在同样的卡、同样的电、同样的机房条件下,谁能产出更多Token?

 

这背后拼的是一整套工程能力,比如模型压缩和量化能力、推理引擎优化能力、模型与芯片的适配能力、并行调度和资源利用率、自动扩缩容和稳定性保障。全球市场上,推理优化团队越来越受到重视,原因就在这里。因为它们做的事情,本质上是在降低单位Token成本。而谁能把成本做低,谁就更有可能在未来的竞争中活下来。

 

不过,从投资角度看,Token工厂真正需要回答的,已经不只是“有没有效率优势”,而是这种效率优势能持续多久。

 

这是一个不能回避的问题。因为推理优化并不是某一家公司的专利,英伟达、模型厂商、开源社区都在快速推进相关工具和框架。今天靠工程优化拿到的领先,明天可能就会被更成熟的通用方案迅速缩小。换句话说,这种壁垒更像动态领先,而不是静态护城河。

 

另一个值得警惕的地方,是客户关系的双重性。表面上看,绑定字节、阿里、腾讯这样的头部客户当然是优势;但反过来看,这些客户本身也是最强的技术公司。

 

它们今天向外采购Token工厂服务,可能是因为当下需要补充波峰算力、优化组织效率、转移部分资本开支;可一旦自身推理成本降得足够低,或者内部体系更成熟,外部工厂还能拿到多大的长期价值,就需要重新评估。

 

所以,Token工厂确实是一种更先进的产业分工,但这并不意味着它天然就是一门高壁垒、高回报的生意。从投资上看,它更像“AI时代的重资产基础设施”——收入看得见,订单也可能看得见,但最后能不能沉淀为高回报,还要看产能利用率、折旧周期、持续再投资压力,以及最关键的:它到底有没有定价权。

 

如果上游模型厂商持续降价,下游客户又越来越强势,那么Token工厂即便能保持较高毛利率,也未必一定能创造足够好的资本回报。这一点,远比单纯讨论毛利率更值得重视。


Token运营平台的价值在哪?

 

如果说Token工厂解决的是“生产问题”,那么Token运营平台解决的就是“流通问题”。

 

今天的AI模型越来越多,不同模型有不同能力、不同价格、不同接口。对于开发者和企业来说,真正麻烦的往往不是“没有模型可用”,而是“模型太多、接口太散、服务不够稳定”。

 

于是,Token运营平台的价值开始出现。它做的事情,可以用一句很通俗的话概括:把复杂的模型世界,变成一个更简单、更好用的服务入口。

 

这类平台真正的价值,不只是“聚合”,而在于三件事:降低接入门槛;提供稳定性保障;做智能路由,让不同任务匹配不同模型,在效果和成本之间找到最优解。

 

所以,Token运营平台并不只是“中间商”,它更像AI时代的“流量调度中心”。从商业模式看,这类平台通常比较轻资产,收入主要来自在上游价格基础上的服务溢价。它的长期价值,不在于赚多少差价,而在于能不能形成平台效应和客户粘性。

 

但这里同样存在一个容易被忽略的问题:谁才是企业客户真正的入口?

 

在很多B端场景里,企业本来就已经深度绑定某一家云厂商。它的账户体系、数据体系、运维体系、合规体系,往往都建立在云平台之上。对于这类客户来说,模型调用天然会优先选择云厂商自己的MaaS平台,而不是再额外引入一个独立的Token运营商。

 

这意味着,独立Token运营平台想要成立,必须提供云厂商做不到、或者暂时做不好的独特价值。比如更强的跨云调度能力、更极致的故障切换能力,或者在跨模型调用中形成真正的数据飞轮和使用粘性。否则,它很容易被云厂商的功能所吸收,最后只剩下一层很薄的通道价值。

 

所以,至少在现阶段,Token运营平台更像一个想象空间很大、但真正护城河还没有完全跑出来的赛道。它有机会成为入口,但也很容易停留在工具层;它有机会做成平台,但也可能最终只是云厂商功能的一部分。

 

这也是为什么,从投资角度看,Token运营平台更适合被当作一种“期权型机会”来观察,而不是轻易当作已经被验证的核心基础设施。


这场变化为什么仍然值得重视?

 

如果只把Token工厂和Token运营看成两个新概念,意义并不大。真正值得重视的是,它们反映出AI产业正在发生三个深层变化。

 

第一,从“卖资源”走向“卖结果”。过去卖的是算力本身,未来卖的是模型输出能力。这意味着产业竞争的核心,从资源占有,转向效率和交付能力。

 

第二,从“大厂全包”走向“专业分工”。模型厂商不可能永远把所有事情都自己做完。当产业成熟,专业化分工一定会出现。有人专注模型,有人专注Token生产,有人专注Token分发,这反而会提高整个产业的效率。

 

第三,从“概念驱动”走向“商业闭环驱动”。前几年,很多AI故事讲的是想象空间。但真正决定企业价值的,最终还是能不能形成可持续收入、可复制模式和可验证利润。

 

从这个意义上说,Token工厂和Token运营不是概念的延伸,而是商业化更进一步的体现。只是,站在投资视角看,还需要多补一句:新分工不等于新护城河,商业模式升级也不自动等于资本回报升级。

 

哪些方向更值得跟踪?

 

如果保留一点投资研究视角,那么这个赛道值得看的,不只是“谁先提概念”,而是谁更接近真实落地。

 

一类是绑定头部客户的Token工厂。这类公司如果已经和互联网大厂、模型厂商形成稳定合作,那么它们的业务确定性会更强。但真正更值得重视的,往往不是服务于最强自研模型体系的“补充性外采”,而是那些深度绑定了非自研模型、或者在长期合作中已经嵌入客户核心流程的玩家。

 

一类是有垂直场景闭环的公司。比如在AI Coding、企业服务、智能营销等领域,本身就有应用入口和客户基础的企业。如果它们把场景与推理服务结合起来,往往更容易形成持续的Token消耗和商业闭环。

 

还有一类是专注推理优化的技术型公司。这类公司不一定最显眼,但如果能在特定芯片、特定模型、特定场景上把效率做到极致,未来可能拥有很强的议价能力。当然,这里同样要警惕:技术优势如果不能持续演进,就可能很快被开源生态追平。

 

最后,是具备平台属性的Token运营商。它们的关键看点,不是接入多少模型,而是能不能形成统一入口、稳定服务和智能调度能力。更重要的是,它们必须证明自己提供的是云厂商之外的增量价值,而不是一个迟早会被整合掉的中间层。

 

最后,越是新赛道,越要看清它真正的门槛。

 

Token工厂和Token运营的确代表了一种值得重视的新趋势,但这并不意味着这条路会一帆风顺。

 

最先摆在眼前的,还是算力本身的约束。AI推理服务说到底,仍然建立在高端芯片、稳定集群和持续供给之上。如果核心算力资源持续紧张,或者供应链再度收紧,那么很多看上去很美的扩张计划,最后都可能慢下来。

 

与此同时,这个行业未来也很难避免价格竞争。模型越来越多,服务越来越丰富,价格下行几乎是技术产业成熟过程中的常见现象。一旦价格不断下探,企业比拼的就不再是谁讲得更动听,而是谁能把成本控制得更低、把效率做得更高。

 

还有一个不能忽视的变量,是技术进步本身。今天一些公司看起来领先,往往是因为它们在推理优化、模型部署和调度方面走在前面。但AI行业变化太快,很多领先优势都可能在开源工具和通用框架快速演进后被缩短。所以,今天的壁垒,更像是阶段性的领先,而不是一劳永逸的护城河。

 

比这些更需要小心的,是概念先行。每当一个新赛道受到关注,市场上总会出现一些“听起来很像、实际上还差得很远”的公司。做算力,不一定就能做好Token工厂;能聚合接口,也不等于就能成为真正的Token运营平台。这中间隔着的,不只是技术,更是客户、交付、调度、稳定性和长期运营能力。

 

如果再往投资层面多看一眼,还要补上两个经常被忽略的问题:一个是资本回报。Token工厂看上去毛利率不低,但它本质上仍然是重资产、强投入的生意。高毛利并不必然等于高回报,真正需要看的,是长期ROIC、自由现金流,以及高折旧能否被持续增长覆盖。另一个是定价权。如果上游模型厂商越来越强势,下游客户又越来越会压价,那么夹在中间的Token工厂未必能长期吃到最厚的一层利润。

 

所以,对这个新赛道最好的理解方式,不是急着判断谁会成为明星,而是先分清:哪些公司是真正在做能力建设,哪些公司只是借概念讲故事。因为真正能穿越周期的,从来不是最早喊口号的人,而是最早把能力做扎实的人。

 

而对投资者来说,也许还要再记住一句更冷静的话:在这场“卖Token”的热潮里,最终赚得最稳的,未必是Token工厂本身,也可能依然是那些卖HBM、光模块和关键基础设施的“铲子商”

文章标题:当AI从租GPU走向卖Token,谁会赚到真正的钱?

文章链接:https://www.huxiu.com/article/4859215.html

阅读原文:当AI从租GPU走向卖Token,谁会赚到真正的钱?_虎嗅网
频道: 金融财经
本内容未经允许不得转载。授权事宜请联系 hezuo@huxiu.com。
正在改变与想要改变世界的人,都在虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定