AI infra并非只是采购GPU搭建集群，而是覆盖多环节的完整系统工程，本文拆解其价值、结构与入行路径，纠正认知偏差。 ## 1. AI infra的认知纠正：不止于GPU，是万亿规模的全栈系统工程全球AI基础设施支出预计2029年将超过1万亿美金，目前已经从实验室算力转向产业级供应链，加速服务器到2029年将占AI基础设施硬件支出的95%以上。 AI infra是覆盖算力硬件、互连网络、存储、软件栈、编排调度、可观测性、MLOps、安全治理、成本优化的一整套系统工程，全栈协同的重要性远超单点硬件性能。哪怕是顶级AI从业者如李沐，采购不到一千张H100搭建集群，也遇到了供电不稳定、光纤通信故障、网络架构不合理等各类非GPU本身的问题，验证了系统工程的复杂性。 ## 2. AI infra的行业格局：从单芯片竞争转向全栈竞争，推理成为架构主导 AI infra厂商分为四层：以NVIDIA、AMD为核心的通用GPU与机架系统层、云厂商自研加速器层、云平台与托管AI服务层、开源社区与基金会层，行业重心已从单芯片竞赛转向全栈竞争。当前推理已经从训练的附属环节，转变为架构设计的主导，行业核心评价指标从理论浮点峰值转向tokens/s、单位token成本、延迟、弹性扩缩，AI infra也从「造火箭」转向「运营工厂」，更看重长期可承受的总拥有成本（TCO）。 AI infra当前的发展阶段类似1880年代的电力行业，已经过了「替换蒸汽机装发电机」的初期阶段，正在快速重构整体系统设计，同时已经延伸出能源、监管、主权、供应链等非技术维度的问题。 ## 3. AI infra的生态策略：平衡开放标准与必要锁定 AI infra存在多维度的生态锁定：硬件层面会绑定CUDA等软件栈，云平台层面会绑定训练流水线，编译器、模型格式、团队习惯都会形成锁定，迁移成本极高。实操的稳妥策略不是追求全链路厂商中立，而是在可移植层尽量采用开放标准（如Kubernetes、OpenTelemetry），只在核心业务杠杆环节接受必要锁定，平衡生态红利与迁移成本。 ## 4. AI infra的入行路径：优先做深主线，真实故障经验最有价值进入AI infra不建议过早追求一站式全家桶平台，推荐优先选一条主线做深，目前最落地的有四条路线： 1. 云原生平台加SRE路线：适合有K8s运维背景的从业者，目标是三个月搭好GPU集群与基础告警，积累事故复盘经验，考取KCNA/CKA认证敲开行业大门。 2. 推理工程加LLMOps路线：当前最热门的方向，目标是搞懂量化、batching、KV缓存优化，联动优化单位token成本、GPU利用率与P95延迟，产出benchmark报告就是最强背书。 3. 分布式训练加性能路线：适合深耕底层平台的从业者，目标是定位并解决数据加载、通信、显存、检查点四类常见瓶颈，可借助NVIDIA DLI官方课程学习。 4. 国产栈加自主可控路线：面向中国市场需求，适配国产硬件软件栈，满足合规与供应链安全要求，当前优先级持续提升。 AI infra领域最稀缺的是处理真实故障的判断力，而非论文知识或工具背诵，亲手解决问题、产出可验证结果的作品集，远比重度包装的简历更有竞争力。

2026-05-23 20:07

AI Infra不是买GPU搞集群，一万亿美金教会我的事

歪睿老哥©

速览

本文来自微信公众号：歪睿老哥，作者：歪睿老哥

前两天跟一个做投资的朋友吃饭。

聊到AI，他突然一脸认真地看着我，说现在大家都在追AI infra这个赛道，动辄多少亿美金的盘子，让我给他讲讲到底什么是AI infra。

我说你觉得呢。

他想了半天，跟我说，AI infra不就是买GPU搞集群嘛。

这话听着刺耳，但说实话，一年前我自己可能也是这么想的。

AI infra，不就是几块H100搭个集群跑训练嘛，有什么难的。

后来真系统性地翻了一圈这个方向，看了不少资料，也跟一些做平台的朋友聊了聊，才发现这个认知偏差，大概值一万亿美金。

是真的。

我看到的最近的数据是这样的。

2025年第四季度，全球AI基础设施支出大概900亿美金。

到2026年，预计到4870亿。

2029年，超过1万亿美金。1万亿。

而且不是什么风口吹起来的泡沫数。

NVIDIA 2025财年第四季度，光数据中心收入就356亿美金，同比增长93%。

整个行业已经从「实验室算力」变成了「产业级供给链」。

你去看看IDC的报告就知道了，加速服务器到2029年会占服务器类AI基础设施支出的95%以上，中国已经是全球第二大市场。

太特么夸张了。

所以我就想，那AI infra到底是什么，如果真的不只是GPU？

我自己的理解是这么一句话。

AI infra不是「几张GPU加一个训练脚本」，而是覆盖算力硬件、互连网络、存储、训练与推理软件栈、编排调度、可观测性、MLOps、安全治理、成本优化的一整套系统工程。

你光有GPU真的没用。

更快更强的卡，如果没有NVLink或者InfiniBand配合，没有热数据层、检查点机制、队列治理和可观测性，很难转化成业务价值。

这个行业这两年最重要的一个变化就是，全栈协同比单点最强更重要。

厂商们已经发现，瓶颈往往不在芯片本身，而在互连、在存储、在编译器、在调度。

听着像套话对吧。

我举个例子你就懂了。

想象你建了一个超算中心，买了最新最贵的GPU，兴高采烈跑大模型训练。

结果第一天发现，数据加载跟不上GPU的胃口，GPU闲着等数据，利用率不到30%。查了一下发现是存储IOPS不够，扩了存储花了十几万。

第二天发现，跨节点的通信慢了，NCCL在那等网卡，利用率又掉到50%。

升级了网络又花了几十万。

第三天发现，频繁OOM，checkpoint写不进去，磁盘满了。

第四天发现，训练总算能跑了，但推理的时候延迟高得吓人，得重新搭推理栈。

这一圈搞下来，你会发现每一个瓶颈点都不是GPU本身的问题，而是整个系统里最短的那块板。

你解决完一个，下一个就会出现。这就是系统工程最残酷的地方。

它不会因为你买了一大堆最贵的零件就自动变好。

你可能觉得这是我瞎编的。真不是。

李沐知道吧，亚马逊首席科学家，深度学习那本花书的作者之一。他之前写了一篇文章，讲他创业之后搞GPU集群的经历，我读完真的是一边笑一边叹气。

故事是这样的。他有了钱，第一件事就是去买GPU。问了一圈供应商，统一回复是H100交货得一年以后了。灵机一动，直接给老黄写邮件。老黄秒回，说来看下。一个小时后，超微的CEO直接打电话过来了。多付了些钱，插了个队，二十天拿到了机器。很荣幸早早的吃到了螃蟹。

然后螃蟹吃到怀疑人生。

遇到了各种匪夷所思的bug。GPU供电不足导致不稳定，后来靠超微工程师直接修改BIOS代码打上补丁。光纤的切开角度不对，导致通讯不稳定，从头排查。NVIDIA官方推荐的网络布局不是最优的，他们自己重新做了一个方案，后来NVIDIA自己也采用了这个方案。

他至今都不理解。他就买了不到一千张卡，算小买家。但遇到的这些问题，难道大买家没遇到过吗，为啥需要他来debug？

更离谱的是，他们同时还租了同样多的H100。租的也一样是各种bug，GPU每天都出问题，甚至怀疑是不是这个云上就他们一个吃螃蟹的。后来看到Llama 3的技术报告，说他们改用H100后，训练一次模型被打断几百次。沐神表示，对字里行间的痛苦，很是共情。

你看，买卡买到要直接给CEO级别的写邮件。用卡用到要改BIOS打供电补丁。连光纤都要自己排查切割角度。网络架构搞到NVIDIA反过来抄你的方案。租卡也一样不断被bug打断，训练一次模型被打断几百次。

连李沐这种级别的玩家都这样。那你说AI infra到底是什么复杂度？

他还分享了一个很有信息量的对比。

如果自建和租卡比，租三年成本和自建成本差不多。租卡的好处是省心。

自建的好处有两个，

一是NVIDIA如果持续领先，它能控制价格使得GPU保值；

二是自建的数据存储成本低。存储需要跟GPU离得近，不管大云还是小GPU云，存储价格都高。

一次模型训练用几TB空间存checkpoint很正常，训练数据存储是10PB起跳。如果用AWS S3，10PB一年两百万美金。

这钱用来自建，可以上100PB。

所以这个选择本身就是一个infra问题。

整体拆分一下，一个正经的AI基础设施，大概需要多少东西呢。

先看硬件层。

CPU负责控制面、数据预处理和调度。GPU负责通用高密度矩阵计算。TPU或自研ASIC在特定软件栈下追求更高性价比。FPGA在低延迟和边缘场景里还有自己的价值。

然后是显存，HBM3、HBM3e，带宽从3.35TB/s到4.8TB/s。然后是存储，NVMe、并行文件系统、对象存储。

然后是互连网络，NVLink、InfiniBand、RoCE。你光理清楚这些硬件的搭配关系就能折腾好一阵子。

再看平台层。Kubernetes或者Slurm负责调度和编排。容器运行时、镜像管理、配额和租户隔离。训练框架这块，PyTorch生态讲实话已经是事实标准了，加上DeepSpeed的ZeRO和检查点机制。推理这块是过去两年变化最大的，vLLM对KV Cache和吞吐的优化，TensorRT-LLM和Triton对NVIDIA栈的深度绑定，KServe在K8s原生部署上的统一。

然后是数据层。Spark做批处理ETL，Kafka做流式总线，Iceberg做湖仓表格式管理。如果你做推荐或者风控场景，还有特征平台，Feast或者Hopsworks，要保证训练和服务之间的一致性。你别小看这一层，很多团队训练跑着跑着发现效果不对，查了半天是训练数据和推理数据的特征不一致，一个大学问。

运营层更是大头。可观测性正在向OpenTelemetry这个标准收敛。MLOps有MLflow做实验跟踪和模型注册。CI-CD有Argo CD和GitLab。安全合规有IAM、密钥管理、审计、NIST AI RMF框架。成本治理有FinOps。

你数数看，这有多少个组件。

而且它们不是独立的，是要配合的。一个组件出问题，整条链路就卡住了。这就是为什么现在做AI infra的人越来越强调系统化视角，而不是一个个单点去堆。

回到赛道本身。

厂商格局上，可以分成几层来看。

最上面一层，自然是以NVIDIA为核心的通用GPU与机架系统。H100已经是上一代了，H200把HBM从80GB翻到了141GB，带宽从3.35TB/s提到了4.8TB/s，在大上下文、长序列推理上优势明显，Llama2 70B推理最高能有28%的提升。AMD是主要的替代者，MI300X那192GB的HBM确实能打。

再下来一层，是云厂商自研的加速器，Google的TPU和AWS的Trainium，Trainium2官方称比P5e和P5en有30%到40%更好的price-performance。

然后才是云平台与托管AI服务，AWS的SageMaker HyperPod、Google Vertex AI、微软的Azure AI。

最底层，是开源社区与基金会，CNCF、PyTorch Foundation、Linux Foundation和MLCommons。

行业的事实重心，已经从「单芯片竞赛」转向了「芯片加互连加编译器加运行时加调度加成本治理」的全面栈竞争。

你说卷不卷？？？

还有一个角度我聊着聊着自己都觉得有意思。过去两年，推理不再是训练后面的附属环节了。

过去大家最关心的是训练，能训出模型就是胜利，训练能力就是一切。

但现在，推理已经开始主导架构设计。

厂商们越来越强调的不是TFLOPS，不是理论峰值，而是tokens/s、cost per token、延迟和弹性扩缩。

NVIDIA自己都在反复强调lowest token cost，而不是peak compute。

这个转变很重要。

因为说到底，AI infra从「造火箭」变成了「运营工厂」。

你想想看。你要考虑的不是发射一次能飞多高，而是每天能稳定产多少、成本多少、故障了怎么恢复。

不是能不能训出来，而是能不能长期以可接受的TCO运行。如果你没有FinOps、配额、队列治理和性能基线，团队很容易把预算烧在低利用率和重复试验上。

说到这，我想聊聊一个我自己觉得很有意思的类比。

回头看历史，AI infra现在这个阶段，特别像1880年代的电力。

那时候爱迪生的直流电和特斯拉的交流电在打架，工厂主们知道电是未来，但不知道怎么用。

他们一开始把电当成蒸汽机的替代品，在工厂里装一个巨大的发电机，通过天轴和皮带把所有机器连起来。

后来才发现，真正改变生产效率的，不是把蒸汽机换成电动机，而是重新设计整个工厂的布局。

让每一台机器都有自己的电动机，生产线按流程而不是按动力源来排布。

这个转变花了大概三十年。

AI infra现在就是在经历同样的事。大家已经过了「装个发电机就能跑」的阶段，开始意识到需要重新设计整个「工厂」。只是这次压缩到三五年，而且涉及的成本是人家的三十倍。

你想想看。一个超大规模GPU集群的用电量已经堪比一个小型城市。

国际能源署IEA的预测是数据中心用电到2030年会翻倍以上，达到945TWh。

2025年已经增长了17%。这已经不是技术问题，是能源问题了。

Google在这方面的做法挺实在的，他们按流域风险评估冷却方案，把可持续性写成了数据中心设计的公开原则。

一个AI infra的问题，聊着聊着聊到了能源，聊到了地球，聊到了水资源。

这就是我之前说的那种感觉，好的技术话题，总是聊着聊着就到更大的文化层面去了。它不是孤立的。

那说到法规和主权约束。

这个就更绕不开了。

在欧盟，有EU AI Act，一套非常严格的人工智能监管框架。

在中国，面向境内公众提供生成式AI服务，需要关注《生成式人工智能服务管理暂行办法》以及备案、标识等要求。

在美国，NIST AI RMF提供了风险治理框架。先进计算和AI芯片的出口与供应链，现在也受BIS规则影响。

也就是说，AI infra从来不是纯技术问题，它天然带有法律、主权和供应链属性。

我记得以前看一篇文章讲到一件事，一个做AI infra的工程师说，他每天思考的问题排优先级，排在第一位的不是「能不能再快10%」，而是「万一整个集群断电了，我的checkpoint能不能扛得住」。

这个排序本身就说明一切了。

这又引出一个问题。生态锁定。

锁定既可能来自硬件。

你买了1000块H100，你的整个推理栈就绑在CUDA和TensorRT上。想切AMD的ROCm？切不动。需要从零开始做性能验证和算子适配。

锁定也可能来自云平台。你的训练流水线完全构建在SageMaker上，想迁到Vertex AI？可能比换GPU还难。

锁定还可能来自编译器、模型格式、可观测性体系，甚至是团队习惯。

所以行动上最稳妥的策略，一般不是在每一层都追求厂商中立。

那是不现实的。而是在可移植的层面尽量保持开放标准。

Kubernetes、OpenTelemetry、MLflow、Iceberg这些，换哪个厂商都能用。

在最能带来业务杠杆的层面，谨慎接受必要的锁定。

这样既能吃到生态红利，也能降低迁移代价。

好，那核心问题来了。如果你真的想进入AI infra这个行业，或者你的团队已经在搞AI infra了，该从哪下手？

我自己看下来，有一条非常明确的感觉。不要过早追求全家桶平台，先选一条主线做深做透。

市面上有太多所谓的「一站式AI平台」了。装完一看，功能全有，但每一个都用不起来。还不如先把一条线跑通，跑通了再横向扩展。

根据我翻的资料和跟行业里朋友聊的，最现实的四条路线是这样的。

第一条，云原生平台加SRE路线。用Kubernetes搭一个GPU集群，接入Prometheus和OpenTelemetry，能发布并回滚一个KServe或vLLM服务，能跑一个完整的训练推理pipeline。三个月内完成一个GPU集群搭建和基础告警体系。六个月内积累一份事故复盘文档。一到三年内拿下KCNA或者CKA认证，能够主导平台升级和迁移。这条路线对已经有运维或者K8s背景的人来说，上手门槛相对最低，而且证书能帮你敲开门。

第二条，推理工程加LLMOps路线。跑通vLLM或者KServe，做吞吐和延迟的benchmark，真正搞懂量化怎么做、batching怎么调、KV cache怎么优化。目标是把cost per token、GPU利用率、P95延迟联动起来做优化。三个月内出一份公开的benchmark报告。这条现在是最热的，因为推理正在成为主导场景。如果你能在一段时间内把vLLM的吞吐调优翻倍，这个signal比你想象的强很多，面试的时候直接甩报告就行了。

第三条，分布式训练加性能路线。用PyTorch加DeepSpeed或者Ray在两到八卡规模上做微调、做检查点恢复、做profile。然后进阶到跨节点RDMA、拓扑调优、容错训练。目标是能解释并且优化dataloader、通信、显存、checkpoint四类瓶颈。这条路线对技术深度的要求最高，适合想做平台底层或者专职性能优化的朋友。NVIDIA DLI也提供了不少相关的课程，可以去看看。

第四条，国产栈加自主可控路线。在阿里云PAI、华为昇腾CANN加MindSpore、或者百度飞桨上跑通分布式训练和推理。交付兼顾性能、合规和本地生态适配的平台。对于中国市场导向的团队，这条的优先级越来越高。出口管制和合规要求不是纸面上的东西，是真的在影响供应链的。今年很多团队提前囤卡、加速国产测试就是这个原因。

你看，这四条线，没一条是让你先去读论文的。

说实话，这也是我看了这么多资料之后最大的感受。

AI infra这个行业，最稀缺的能力不是你会不会背NCCL的八股，不是你会不会写training script，而是你有没有亲手把训练卡死、推理打爆、磁盘打满、再把它们一个个都救回来的经验。

能把「学习」尽快变成「成本可见、性能可测、故障可复现」的作品集，比什么简历都管用。

有个做AI infra的朋友给我讲一个观点。

面试的时候，如果一个人跟我说他读过多少论文，参加过多少培训班，我可能只会点点头。但如果他跟我说，上次把训练跑OOM了，是怎么看nvidia-smi发现显存泄漏的，怎么用PyTorch profiler定位到是某个算子的实现问题，怎么用checkpoint把实验救了回来，然后为了不再出事，自己给团队搭了一套告警和自动恢复的策略。

这个故事讲完，我深刻认为他说的太对了。

因为前者是知识，后者是判断力。

而判断力才是AI infra这个领域最有复利的东西。它来自你亲手处理过足够多的真实故障，来自你把系统、硬件、网络、数据、平台、运维、成本和治理真正放到同一张工程账上算过。

回到文章的开头。

很多朋友可能觉得AI infra离自己很远，是那些大厂、顶级研究机构才需要关心的事。但我觉得不是。每个在用AI的人，其实都在和AI infra打交道。

你用ChatGPT的时候，那个token生成速度、那个能否在高峰期访问、那个会不会断连，背后都是一整套基础设施在支撑。

你买了几张卡跑LoRA微调，你要搭环境、配CUDA、处理OOM、考虑电费，那你就是就是一个小型的桶装数据中心。

你以为你只是用一下AI工具，其实背后都是AI infra了，只是你自己没意识到。

所以我越来越觉得，这块东西其实挺值得被更多人理解的。

最后给你们分享一段话。我在翻资料的时候看到的，原文来自CNCF的Cloud Native AI白皮书，但我觉得它说得特别好。

AI infra不是更大的DevOps，也不是更底层的ML工程，而是把系统、硬件、网络、数据、平台、运维、成本和治理真正压到同一张工程账上的行业。

我觉得这个判断特别准。

进入某个这个行业，最有价值的能力将不是你会某个具体的工具，而是你能跨层做取舍，并且能用数据证明你的取舍是正确的。

这大概就是未来三到五年最稀缺、也最有复利的能力。

好，今天就聊到这儿。

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP