中国算力并非简单过剩,核心矛盾是高质量有效算力不足、低效率闲置,需补算力组织能力而非拼建设规模。 ## 1. 算力并非过剩,矛盾是有效供给不足 摩根大通所谓中国80%数据中心闲置的说法混淆了普通数据中心与AI智算中心,并不严谨。行业公开数据显示,全国智算中心平均算力使用率约30%,西部某千卡智算中心上架率不足50%、已上架利用率不到30%,年运营超3000万元。当前中国算力的真实局面是**高质量有效算力不足,低效率算力消化不掉**:头部云企、运营商的高端AI算力仍持续紧张,大量新建地方智算中心因需求 mismatch 存在明显低利用率问题。 ## 2. 国产算力核心瓶颈在工程生态而非单点芯片 受芯片出口管制影响,国内智算建设普遍转向国产GPU/NPU,但多数国产芯片的问题不是不能跑模型,而是难以达到CUDA生态的工程效率。CUDA已形成成熟的开发工具、优化库与开发者习惯,将研发、迁移等成本控制在企业可接受范围;国产芯片仅完成硬件上架,尚未形成企业愿意长期使用的完整工程体系,导致账面积累不少算力却少有人大规模采用。 ## 3. 需求结构转变,原有智算规划已错位 2023-2024年各地智算建设锚定大模型训练需求,但当前市场需求已发生结构性转折:行业意识到多数企业不需要从零训练大模型,真实需求集中在调用、微调、推理与私有化交付。政策也明确要求训练中心化、推理分布化,推理算力需要靠近用户保障低时延;**过去训练能力决定模型上限,未来推理成本决定商业化下限**,按训练逻辑规划的大量智算中心,已跟不上需求转移的节奏。 ## 4. 算力地产化风险积聚,核心要补组织能力 不少地方将智算中心当作产业资产,靠投资、补贴推动建设,形成「资产先行、负载滞后」的错位,即先建项目抢指标再找客户,**算力地产化风险正在积聚**。当前中国AI基建已从拼规模进入拼效率阶段,核心矛盾从「有没有算力」转为「能不能有效组织算力」,大量割裂的本地智算容易形成算力孤岛。未来竞争将从比机房、土地转向比拼调度能力、生态与客户体系,头部云厂商和运营商或将成为整合者,智算中心会分化为枢纽节点、行业服务节点或沦为沉没资产;**真正稀缺的从来不是GPU,而是把GPU转化为生产力的组织能力**。
中国算力过剩是个伪命题,但比它更危险的事正在发生
2026-07-01 11:33

中国算力过剩是个伪命题,但比它更危险的事正在发生

本文来自微信公众号: 心智观察所 ,作者:心智观察所


摩根大通一份报告里的一句话,最近在国内AI圈子里传开了。


这份名为《Beyond the Benchmarks》的报告提到,有数据估算中国多达80%的数据中心可能处于闲置状态。这个数字太扎眼了,很多人读完就直接跳到结论:中国的AI算力,是不是建多了?


但稍微追问一步就会发现,这个结论下得太快了。数据中心和AI算力中心不是一回事。前者涵盖了传统IDC托管、云计算、超算中心和近两年专门为大模型训练建设的智算中心,把这些完全不同类型的基础设施利用率搅在一个锅里煮,再端出一个统一数字,本身就不严谨。


但这不意味着这个数字毫无意义。它更像一根刺,扎在了一个敏感的位置上。真正值得追问的问题不是中国有没有算力,而是为什么一边还在缺高端算力,另一边已经出现了部分智算中心空转。这才是当前中国AI基础设施最值得讨论的矛盾。


到底闲了多少?


《科技日报》曾报道过一个典型案例:西部某城一个千卡规模智算中心,上架率不足50%,已上架服务器实际利用率不到30%,而年运营成本超过3000万元。


浪潮人工智能研究院的测算更直接:全国智算中心平均算力使用率约30%。路透社也有信源估计部分数据中心利用率在20%到30%之间,原因包括地方建设过快、项目远离真实需求、不同芯片和软件架构难以统一调度。


这些公开信源指向的趋势是一致的:部分地方智算中心低利用率已经不是传闻,而是正在被反复验证的行业现象。


不过在引用这些数据之前,有一件事必须先搞清楚:说利用率低的时候,说的到底是哪种利用率?业内至少存在五种不同口径。上架率看的是机柜里有没有装进设备;开机率看的是设备装好之后是不是持续运转;GPU利用率看的是芯片跑起来之后负载高不高;有效训练利用率看的是模型训练的实际吞吐有多少被通信等待、故障恢复和checkpoint吞掉了;商业利用率则看这些算力有没有变成真实订单和现金流。


不同尺子量出来的数字天然有差异。但无论哪把尺子,它们指向的方向是一致的:中国AI算力的账面规模在增长,有效供给远没有跟上。


纸面算力和有效算力之间的鸿沟


地方在宣传智算中心的时候喜欢强调投资额、机柜数、卡的数量和理论峰值算力。这些数据当然有意义,但它们呈现的只是硬件采购的规模,不是系统产出的能力。


大模型训练不是简单的堆卡,它是一项系统工程,对集群互联、网络带宽、存储系统、任务调度、框架兼容和通信损耗都有很高要求。一个1000卡但互联带宽不足、调度系统粗糙的集群,实际效率可能还不如一个200卡的精调集群。这就是纸面算力和有效算力之间的本质差别——前者看理论峰值,后者看实际吞吐;前者靠投资堆得出来,后者必须靠技术、生态和运营一步步打磨出来。


去年10月,宁夏银川闽宁双智算中心主体结构封顶


所以中国的算力局面不能用简单的过剩或不足来概括。阿里云、腾讯云、字节、华为云和三大运营商核心AI集群的高端算力仍然紧张,高端芯片、成熟生态、稳定集群仍然是稀缺资源。但大量新建的地方智算中心,尤其是客户基础薄弱、技术选型失准、软件生态欠缺的那一批,低利用率是切实存在的问题。更准确的说法是:高质量有效算力不足,低效率算力消化不掉。


国产算力的真正瓶颈在生态


芯片出口管制之下,大量智算中心建设转向国产GPU和NPU。方向当然没问题,但国产算力遇到的挑战不能简单理解为芯片能不能跑模型。很多国产芯片不是不能运行,问题在于能不能以接近CUDA生态的工程效率运行。


CUDA在AI计算领域已是事实上的工程标准。围绕它形成了PyTorch、cuDNN、NCCL和一整套开发工具、优化库与工程师习惯。这套生态的价值不仅仅是性能,更重要的是它把研发成本、迁移成本、调试成本和运维不确定性压到了企业可以接受的水平。


企业客户要算一笔现实账:模型迁移需要多久,算子优化谁来做,框架适配谁负责,性能损耗谁承担,工程团队要重新学多少东西,总研发成本会不会反而高于省下来的算力成本。芯片装进机房不等于算力进入生产系统,服务器点亮不等于客户的业务跑起来了。硬件上架只是第一步,把它变成企业愿意长期使用的工程体系,才是真正难啃的骨头。


这也解释了为什么有些智算中心账面上有算力,客户却不愿意大规模采用。不是完全不能用,而是可用和好用之间还隔着一段路。所以国产算力的挑战不是单点芯片性能,而是整个工程生态的挑战。硬件上架只完成了第一步,真正难的是把这套体系变成开发者和企业愿意长期押注的生产工具。


训练和推理的天平正在倾斜


2023到2024年各地争建智算中心时,市场的想象力锚定在大模型训练上。当时的逻辑很清晰:模型越大、训练越贵,谁有万卡集群谁就掐住AI产业入口。


但这个逻辑正在被修正。头部公司当然还会继续训练更强的模型,变化在于市场开始重新评估训练的投入产出比。DeepSeek之后,行业越来越清楚地意识到不是所有企业都需要从零训练超级大模型,大量企业的真实需求是调用、微调、推理、私有化交付和行业Agent。


这带来了一个结构性的需求转折。训练算力可以集中在电价低、绿电资源丰富的西部枢纽,但推理算力必须靠近用户和业务场景。工信部2026年发布的实施意见明确提出城域算力1毫秒时延圈和枢纽—区域—边缘三级协同,政策意图很清楚:AI算力不能只停留在远端大集群,未来的方向是训练中心化、推理分布化。


换个角度来理解这件事:AI正在从一次性研发投入变成持续运营成本。训练大模型是阶段性的,但推理是不间断的——每天响应海量请求消耗的是持续不断的token。商业化最终要落到每百万token的成本上。过去训练能力决定模型上限,未来推理成本决定商业化下限。按训练逻辑规划的智算中心,正面对一个尴尬的现实:市场需求已经移动了,基础设施还留在原地。


当算力变成地产


很多地方热衷投资智算中心,因为它不只是技术项目,更是一种地方产业资产。智算中心可以作为数字基础设施项目立项,进入国资平台的资产负债表,承接政策性资金和银行授信,充当招商引资名片,未来还可能和REITs、算力券、算力交易挂钩。


一旦项目的驱动力不完全来自真实需求,而是由投资、融资、补贴和产业基金共同推动,就容易出现一种错位——资产先行,负载滞后。先把项目建起来,先把指标报上去,先把产业名片做出来,再慢慢找客户。


传统基建或许等得起,但AI算力等不起。硬件折旧快、模型迭代快、芯片更新快、客户需求变化也快。全国已投运和在建规划的智算中心项目合计超过500个,2025年仅公开招投标中亿元以上的相关项目就超过222个。当越来越多的地方用基建思路理解算力,算力地产化的风险就在悄然积聚。传统基建最怕不建,AI基建最怕建错。


从建算力到组织算力


中国AI产业的核心矛盾正在转换,从有没有算力,变成算力能不能被有效组织起来。如果各地各建一套系统,用不同芯片、接口、云平台和计费方式,最终就会形成大量割裂的算力孤岛。


这正是全国一体化算力网要解决的问题。2023年底五部门联合发文给出了框架,2026年政府工作报告首次将算电协同写入新基建工程。工信部数据显示全国已建成42个万卡级智算集群,8大枢纽节点智算规模超过全国总量的80%。但真正需要流动的不是算力本身,像水电一样搬运算力在物理上不现实,真正流动的是数据、任务、模型和调度指令。


还有一个长期被低估的变量:电力。2025年全国算力中心总用电量达到1700亿千瓦时,中国信通院测算高情景下2030年可能超过7000亿千瓦时。没有稳定、低碳、可调度的电力支撑,算力成本就降不下来,AI应用就很难规模化。算力竞争的下一阶段,比的不仅是谁有GPU,也是谁能把算力、网络和电力一体组织起来。


未来竞争很可能从地产化竞争转向云化竞争,从比谁有机房、土地、电价,转向比谁有调度能力、SLA保障、API生态和客户体系。运营商和头部云厂商可能成为最终整合者。地方智算中心如果不能接入更大的调度网络,变成标准化、可计费、可调用的服务节点,就容易沦为孤岛资产。


分水岭已经到了


回到最初那个数字。80%闲置不能直接当结论,但它指向的问题是真实的:中国AI算力建设已经从拼规模进入拼效率的新阶段。过去的指标是投资额、机柜数和万卡集群数量,未来真正应该看的是GPU利用率、有效训练吞吐、推理时延、单位token成本和客户结构是否健康。


未来智算中心会走向明确的分化。一部分成为国家级算力枢纽;一部分转型为行业推理节点和企业服务平台;一部分被整合进更大的调度网络;还有一部分如果既没有客户也没有生态,可能会长期低利用直到成为沉没资产。


这不是中国AI基建的失败。中国在光伏、新能源车和锂电池上都走过类似的路径:产能大干快上、结构性过剩、一轮整合出清,最终留下有效率有生态的产能。但AI算力不同于光伏面板,它同时涉及芯片、网络、电力、云平台、软件生态和商业运营。中国第一次面对一种需要把制造能力、能源能力、通信能力和软件能力全部整合在一起的基础设施类型。


过去两年,中国在补算力的硬件缺口。接下来真正要补的,是组织算力的能力。怎么把分散在全国各地的算力、数据、模型、网络和电力,编织成一个低成本、高效率、可持续运行的系统。


真正稀缺的,从来不是GPU本身,而是把GPU变成生产力的能力。这可能是中国AI产业进入下一阶段的真正分水岭。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定