当前AI行业普遍喊缺算力，但实际上大量AI芯片处于闲置浪费状态，本文拆解结构性问题，提出算力产出最大化的行业新方向。 ## 1 行业现状：巨量采购下的巨量算力浪费根据相关行业统计，前沿AI实验室GPU利用率不足10%，75%的企业峰值负载下GPU利用率仍低于70%，有判断称95%的AI基础设施开支被浪费。 OpenAI算力两年暴增17倍，全球巨头砸重金抢芯片，却出现算力采购速度远高于消耗速度的情况，类似九十年代电信泡沫中95%铺设好的暗光纤从未被使用。 ## 2 结构性卡壳：GPU大量时间在无效空转 AI训练中GPU有30%-65%的时间因存储IO速度跟不上计算速度，处于等待数据的「数据饥饿」闲置状态。即便GPU处于深层空闲状态仍会大量耗电，GPU数据中心40%总功耗来自GPU本身，闲置GPU产生了大量无产出的无效能耗。通用监控指标无法反映真实能效，很多显示的高利用率包含大量数据搬运、等待通信等无效计算，实际训练速度远低于预期。 ## 3 效率破局：算力产出最大化成为新方向目前顶尖团队优化后的模型浮点运算利用率（MFU）最高为60%-70%，若普通团队将利用率从10%提升至60%，无需额外投入即可将有效算力扩大6倍。这一发展路径和云计算行业类似：物理服务器利用率从早年的10%-15%，经虚拟化、容器化技术提升至如今的60%-70%，催生了万亿美元产业。当前AI算力正处于类似2005年服务器市场的效率转型拐点，按使用量计费的模式普及、环境成本压力，都在倒逼行业提升算力利用率。 ## 4 范式转移：AI竞赛从拼规模转向拼效率 AI竞赛原本以资本囤卡拼规模为核心，现在护城河正转向「从同等算力榨取更多产出」，前者是资本消耗战，后者是依赖技术理解的工程精密战。 AI算力已经走到基础设施效率革命的拐点，未来AI时代的核心问题将从「能制造多少算力」转向「已有多少算力真正用于产生智能」。

2026-06-27 18:40

都在说缺算力，90%的AI芯片却被“浪费”了？

极客公园

速览

本文来自微信公众号：极客公园，作者：宇航猿，编辑：靖宇，头图来自：AI生成

当你正Vibe Coding嗨到不行，或者跑着的项目突然停摆，打开CLI工具一看，“你的额度已用完”字样出现时，心态不崩是不可能的。

你还别问，问AI公司就是“缺算力”。

但事情真的如此吗？

Epoch AI的分析师估算，到2025年底，OpenAI等效拥有的算力约相当于170万块H100。这个数字在2023年是10万块，2024年是40万块——两年暴增17倍。英伟达市值突破3万亿美元，全球科技巨头每个季度砸下数百亿美元抢购芯片。一切看起来都指向同一个叙事：算力就是AI的石油，谁囤得多，谁就赢。

每家AI公司都在砸重金囤卡囤算力，怎么可能差我那点额度？！

在播客Latent Space的一期节目里，AI基础设施公司AMP的创始人Anjney Midha说：“像xAI这样的前沿实验室，GPU利用率可能不到10%——这只是真正问题的冰山一角。”

我做了一次简单的换算。MFU（Model Flops Utilization，模型浮点运算利用率）是衡量GPU算力真正用于模型计算的指标。如果你花5亿美元买了一个GPU集群，MFU只有10%，意味着你实际获得的有效算力相当于只花了5000万美元。剩下4.5亿美元的算力，在空转。

说不通的地方在于，这些是全世界最聪明的工程团队，花着全世界最昂贵的预算，建造全世界最先进的计算集群——然后让90%的算力闲着。

这不是某家小公司的管理失误，这是一个结构性的行业秘密。

一、巨量采购，巨量浪费

让我把这个反差拆解得更具体一些。

Epoch AI的分析师Josh You在一份被广泛引用的报告中写道：“前沿实验室尚未使用大部分AI算力。”他追踪了主要实验室的算力增长曲线，发现一个令人不安的模式——算力的采购速度远远超过了算力的消耗速度。大量计算资源处于“储备”或“闲置”状态，像是被囤积的战略物资，而非正在燃烧的燃料。

这不是前沿实验室独有的问题。

Fujitsu在其2024年发布的《AI基础设施状态报告》中引用了一组更刺眼的数据：超过75%的企业在峰值负载下，GPU利用率仍低于70%。注意，这是“峰值”——也就是说，在最忙的时候，四分之三的企业连七成算力都用不满。

VentureBeat基于类似数据做了一个更激进的判断：“95%的AI基础设施开支被浪费了。”

我试着把这些数字转化为具体的金钱损失。一块H100的云实例每小时收费30到50美元。假设一个企业运行着20块GPU的小型集群，利用率只有20%——这在行业中已经算不错了——那么每年因闲置而浪费的计算成本约为20万美元。对于拥有数万块GPU的前沿实验室来说，这个数字要乘以几个数量级。

这让我想起了一段被遗忘的历史。

1990年代末，美国电信行业经历了一场疯狂的光纤铺设热潮。WorldCom、Global Crossing、Level 3等公司在地下埋设了数百万英里的光纤电缆，投入了超过千亿美元。但到了2001年泡沫破裂时，行业发现一个惊人的事实：铺设的光纤中，超过95%是所谓的“暗光纤”（dark fiber）——从未被点亮，从未承载过任何数据。它们安静地躺在地下，像是埋葬了一个时代的雄心。

这和今天AI行业买了GPU却让它们空转，是不是同一个故事的不同版本？

但这里有一个关键的区别。暗光纤的问题主要是需求侧的——当时根本没有那么多数据需要传输。而GPU闲置的问题更复杂，因为算力需求明明就在那里。每家实验室都在抱怨算力不够用，每个研究者都在排队等GPU。

供给和需求都存在，中间到底卡在了哪里？

二、GPU 65%的时间在等待

我曾经天真地以为，GPU利用率低是因为工作负载不够。后来我去读了一些基础设施层面的技术分析，才意识到问题完全不是这样。

GPU不是一头只要喂食就会干活的野兽。它更像一位挑剔的米其林大厨——食材的品质、上菜的节奏、厨房的动线，任何一个环节出问题，它都会停下来等。

aixenergy的一项研究揭示了一个令我吃惊的数字：在AI训练过程中，GPU有30%到65%的时间处于闲置状态。不是因为没有任务分配给它，而是因为数据还没准备好。

这就是所谓的“数据饥饿”问题。

训练一个大模型需要海量数据，这些数据需要经过清洗、标注、分词、打包等一系列预处理步骤，然后从存储系统加载到GPU的显存中。GPU的计算速度是以每秒万亿次浮点运算（TFLOPS）来衡量的，但存储系统的IO速度远远跟不上这个节奏。结果就像一条高速公路上，收费站的吞吐量决定了实际车流量——不管你把公路修到几十车道宽，收费站一次只能过两辆车，后面全在堵。

但故事还没完。我在arXiv上找到一篇关于GPU能耗的论文，它揭示了一个更隐蔽的问题：即使GPU进入了所谓的“深层空闲状态”（deep idle），它仍然在大量耗电。Epoch AI的数据显示，GPU数据中心的总功耗中，约40%直接来自GPU本身。这意味着那些等待数据的GPU不仅没在干活，还在烧电，而且烧的是不小的量。

这就像一辆法拉利堵在早高峰的环路上：引擎空转，油在烧，但车没动。而你还在为这辆车支付每小时50美元的租金。

还有一个更微妙的陷阱。那篇arXiv论文指出，目前行业通用的监控指标“集群级SM利用率”，其实并不能有效反映真实能效。SM（Streaming Multiprocessor，流式多处理器）是GPU内部的计算单元。即便监控面板显示SM利用率看起来正常，实际上很多计算周期在做“假工作”——数据搬运、内存同步、等待通信，而非真正的模型计算。

这解释了一个我之前困惑的现象：为什么有些团队报告“GPU利用率70%”，但训练速度却远低于预期。因为那70%里面，可能只有一半在做有效计算，剩下的在做后勤。峰值负载利用率就像公司的“最佳季度营收”——它是真的，但它不代表常态。用它来衡量效率，就像用你跑得最快的那一次百米成绩，来评估你的日常通勤速度。

当问题出在结构而非规模上时，堆量不仅不能解决问题，反而会让浪费等比放大。

三、当“用好算力”变成一门新学科

如果问题是结构性的，那解法也必须是结构性的。这正是Anjney Midha在那期播客中提出的核心命题。他用了一个词：“outputmaxxing”——产出最大化。

这个词初听像硅谷的又一个流行语，但Midha给出的基准线让我意识到，它指向的是一个严肃的工程问题。他说：“我认为目前最佳实践者的MFU，大概在60%到70%之间。”

60%到70%。这是全世界最顶尖的团队、最优化的代码、最精心调校的基础设施所能达到的上限。而行业均值连这个数字的零头都不到。

这个差距意味着什么？意味着对于大多数AI公司来说，如果能把利用率从10%提升到60%，等同于在不多花一分钱的情况下，把有效算力扩大了6倍。不需要抢购更多GPU，不需要建更多数据中心，不需要和英伟达打价格战——只需要把已经买来的东西真正用起来。

这和云计算行业走过的一条几乎一模一样的路。2000年代初期，企业的物理服务器平均利用率只有10%到15%。每台服务器运行一个应用，剩余的算力全部闲置。然后VMware带来了虚拟化技术，把多个虚拟机塞进同一台物理服务器里。再后来Docker带来了容器化，进一步压缩了资源开销。

到今天，云服务器的利用率普遍达到60%到70%。

从10-15%到60-70%。这个跃迁花了大约15年，催生了一个万亿美元的云计算产业，彻底改变了软件的构建和部署方式。AI算力现在站在的位置，看起来就是2005年的服务器市场——知道问题在哪里，但系统性的解决方案还在酝酿中。

商业模式的变迁，正在加速这个转型。早期的AI基础设施市场流行“固定费用许可”和“捆绑Token”模式——企业预付一大笔钱，买下一定量的算力配额，用不完也不退。这种模式天然鼓励浪费，因为边际成本为零，没有人有动力去优化利用率。

VentureBeat的分析指出，随着行业逐渐转向按使用量计费，闲置基础设施的成本压力，正在从“被忽略的背景噪音”变成“生产阶段的紧急事项”。

当每一个空转的GPU周期，都直接对应着账单上的一个数字时，“产出最大化”就不再是一个技术理想，而是一个财务命令。

与此同时，环境成本也在倒逼效率革命。

Towards Data Science的分析指出，多数GPU的闲置意味着全球AI计算的碳排放中，有相当一部分是“无效排放”——它们没有产出任何智能，只是把电变成了热。GPU数据中心40%的功耗来自GPU本身，而其中大量消耗在空转和深层空闲状态上。这不仅仅是钱的问题，更是资源和环境的问题。

Fujitsu在2024年发布了一份技术白皮书，标题直截了当：“最大化GPU利用率”。DevZero、Prodia、Mirantis等一批基础设施公司也纷纷发文探讨“为何80%的GPU闲置”以及各自的优化策略。这种行业范围内的集体焦虑，本身就是一个信号——问题已经大到没人能继续假装看不见了。

人们忽略了一件重要的事，在AI竞赛的叙事中，“规模”一直是唯一的主角。谁拥有最多的GPU、谁训练了最大的模型、谁花了最多的钱——这些是头条新闻的素材。但效率从来不是头条。没有人会写“某公司把GPU利用率从15%提升到50%”的新闻，尽管从实际产出来看，这可能比多买10万块GPU更有价值。

Midha的“产出最大化”之所以值得认真对待，是因为它暗示了一个范式转移：

AI竞赛的护城河正在从“谁能买到更多算力”转向“谁能从同样的算力中榨取更多智能”。前者是一场资本的消耗战，后者是一场工程的精密战。前者的上限取决于你的银行账户和英伟达的产能，后者的上限取决于你对计算物理学、分布式系统和数据工程的理解深度。

这不是一个渐进式的优化问题，也是一门新学科的诞生。

每一次基础设施革命似乎都遵循相同的剧本：先是疯狂建设，然后发现大部分产能在浪费，接着一批新的公司和技术出现，专门解决“如何用好已经建好的东西”。铁路时代如此，电力时代如此，互联网时代如此，云计算时代如此。AI算力走到了这条弧线的拐点上。

但这一次有一个有意思的不同。之前每一次效率革命，优化的对象都是相对“笨”的资源——蒸汽、电力、带宽、服务器周期。而这一次，我们试图优化的资源本身，正在被用来创造某种形式的智能。当你把一块GPU从空转状态“唤醒”，让它真正参与模型训练时，你增加的不仅仅是利用率百分比——你增加的是这个世界上正在思考的硅基大脑的数量。

也许，AI时代最重要的问题从来不是“我们能制造多少算力”，而是“我们已经拥有的算力中，有多少真正在思考”。

AI原生产品日报频道: 前沿科技

极客公园

追踪你最不可错过的科技圈。

认证作者

已在虎嗅发表 1013 篇文章

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定