AI infra并非只是采购GPU搭建集群,而是覆盖多环节的完整系统工程,本文拆解其价值、结构与入行路径,纠正认知偏差。 ## 1. AI infra的认知纠正:不止于GPU,是万亿规模的全栈系统工程 全球AI基础设施支出预计2029年将超过1万亿美金,目前已经从实验室算力转向产业级供应链,加速服务器到2029年将占AI基础设施硬件支出的95%以上。 AI infra是覆盖算力硬件、互连网络、存储、软件栈、编排调度、可观测性、MLOps、安全治理、成本优化的一整套系统工程,全栈协同的重要性远超单点硬件性能。 哪怕是顶级AI从业者如李沐,采购不到一千张H100搭建集群,也遇到了供电不稳定、光纤通信故障、网络架构不合理等各类非GPU本身的问题,验证了系统工程的复杂性。 ## 2. AI infra的行业格局:从单芯片竞争转向全栈竞争,推理成为架构主导 AI infra厂商分为四层:以NVIDIA、AMD为核心的通用GPU与机架系统层、云厂商自研加速器层、云平台与托管AI服务层、开源社区与基金会层,行业重心已从单芯片竞赛转向全栈竞争。 当前推理已经从训练的附属环节,转变为架构设计的主导,行业核心评价指标从理论浮点峰值转向tokens/s、单位token成本、延迟、弹性扩缩,AI infra也从「造火箭」转向「运营工厂」,更看重长期可承受的总拥有成本(TCO)。 AI infra当前的发展阶段类似1880年代的电力行业,已经过了「替换蒸汽机装发电机」的初期阶段,正在快速重构整体系统设计,同时已经延伸出能源、监管、主权、供应链等非技术维度的问题。 ## 3. AI infra的生态策略:平衡开放标准与必要锁定 AI infra存在多维度的生态锁定:硬件层面会绑定CUDA等软件栈,云平台层面会绑定训练流水线,编译器、模型格式、团队习惯都会形成锁定,迁移成本极高。 实操的稳妥策略不是追求全链路厂商中立,而是在可移植层尽量采用开放标准(如Kubernetes、OpenTelemetry),只在核心业务杠杆环节接受必要锁定,平衡生态红利与迁移成本。 ## 4. AI infra的入行路径:优先做深主线,真实故障经验最有价值 进入AI infra不建议过早追求一站式全家桶平台,推荐优先选一条主线做深,目前最落地的有四条路线: 1. 云原生平台加SRE路线:适合有K8s运维背景的从业者,目标是三个月搭好GPU集群与基础告警,积累事故复盘经验,考取KCNA/CKA认证敲开行业大门。 2. 推理工程加LLMOps路线:当前最热门的方向,目标是搞懂量化、batching、KV缓存优化,联动优化单位token成本、GPU利用率与P95延迟,产出benchmark报告就是最强背书。 3. 分布式训练加性能路线:适合深耕底层平台的从业者,目标是定位并解决数据加载、通信、显存、检查点四类常见瓶颈,可借助NVIDIA DLI官方课程学习。 4. 国产栈加自主可控路线:面向中国市场需求,适配国产硬件软件栈,满足合规与供应链安全要求,当前优先级持续提升。 AI infra领域最稀缺的是处理真实故障的判断力,而非论文知识或工具背诵,亲手解决问题、产出可验证结果的作品集,远比重度包装的简历更有竞争力。
AI Infra不是买GPU搞集群,一万亿美金教会我的事
2026-05-23 20:07

AI Infra不是买GPU搞集群,一万亿美金教会我的事

本文来自微信公众号: 歪睿老哥 ,作者:歪睿老哥


前两天跟一个做投资的朋友吃饭。


聊到AI,他突然一脸认真地看着我,说现在大家都在追AI infra这个赛道,动辄多少亿美金的盘子,让我给他讲讲到底什么是AI infra。


我说你觉得呢。


他想了半天,跟我说,AI infra不就是买GPU搞集群嘛。


这话听着刺耳,但说实话,一年前我自己可能也是这么想的。


AI infra,不就是几块H100搭个集群跑训练嘛,有什么难的。


后来真系统性地翻了一圈这个方向,看了不少资料,也跟一些做平台的朋友聊了聊,才发现这个认知偏差,大概值一万亿美金。


是真的。


我看到的最近的数据是这样的。


2025年第四季度,全球AI基础设施支出大概900亿美金。


到2026年,预计到4870亿。


2029年,超过1万亿美金。1万亿。


而且不是什么风口吹起来的泡沫数。


NVIDIA 2025财年第四季度,光数据中心收入就356亿美金,同比增长93%。


整个行业已经从「实验室算力」变成了「产业级供给链」。


你去看看IDC的报告就知道了,加速服务器到2029年会占服务器类AI基础设施支出的95%以上,中国已经是全球第二大市场。


太特么夸张了。


所以我就想,那AI infra到底是什么,如果真的不只是GPU?


我自己的理解是这么一句话。


AI infra不是「几张GPU加一个训练脚本」,而是覆盖算力硬件、互连网络、存储、训练与推理软件栈、编排调度、可观测性、MLOps、安全治理、成本优化的一整套系统工程。



你光有GPU真的没用。


更快更强的卡,如果没有NVLink或者InfiniBand配合,没有热数据层、检查点机制、队列治理和可观测性,很难转化成业务价值。


这个行业这两年最重要的一个变化就是,全栈协同比单点最强更重要。


厂商们已经发现,瓶颈往往不在芯片本身,而在互连、在存储、在编译器、在调度。


听着像套话对吧。


我举个例子你就懂了。


想象你建了一个超算中心,买了最新最贵的GPU,兴高采烈跑大模型训练。


结果第一天发现,数据加载跟不上GPU的胃口,GPU闲着等数据,利用率不到30%。查了一下发现是存储IOPS不够,扩了存储花了十几万。


第二天发现,跨节点的通信慢了,NCCL在那等网卡,利用率又掉到50%。


升级了网络又花了几十万。


第三天发现,频繁OOM,checkpoint写不进去,磁盘满了。


第四天发现,训练总算能跑了,但推理的时候延迟高得吓人,得重新搭推理栈。


这一圈搞下来,你会发现每一个瓶颈点都不是GPU本身的问题,而是整个系统里最短的那块板。


你解决完一个,下一个就会出现。这就是系统工程最残酷的地方。


它不会因为你买了一大堆最贵的零件就自动变好。


你可能觉得这是我瞎编的。真不是。


李沐知道吧,亚马逊首席科学家,深度学习那本花书的作者之一。他之前写了一篇文章,讲他创业之后搞GPU集群的经历,我读完真的是一边笑一边叹气。


故事是这样的。他有了钱,第一件事就是去买GPU。问了一圈供应商,统一回复是H100交货得一年以后了。灵机一动,直接给老黄写邮件。老黄秒回,说来看下。一个小时后,超微的CEO直接打电话过来了。多付了些钱,插了个队,二十天拿到了机器。很荣幸早早的吃到了螃蟹。


然后螃蟹吃到怀疑人生。


遇到了各种匪夷所思的bug。GPU供电不足导致不稳定,后来靠超微工程师直接修改BIOS代码打上补丁。光纤的切开角度不对,导致通讯不稳定,从头排查。NVIDIA官方推荐的网络布局不是最优的,他们自己重新做了一个方案,后来NVIDIA自己也采用了这个方案。


他至今都不理解。他就买了不到一千张卡,算小买家。但遇到的这些问题,难道大买家没遇到过吗,为啥需要他来debug?


更离谱的是,他们同时还租了同样多的H100。租的也一样是各种bug,GPU每天都出问题,甚至怀疑是不是这个云上就他们一个吃螃蟹的。后来看到Llama 3的技术报告,说他们改用H100后,训练一次模型被打断几百次。沐神表示,对字里行间的痛苦,很是共情。


你看,买卡买到要直接给CEO级别的写邮件。用卡用到要改BIOS打供电补丁。连光纤都要自己排查切割角度。网络架构搞到NVIDIA反过来抄你的方案。租卡也一样不断被bug打断,训练一次模型被打断几百次。


连李沐这种级别的玩家都这样。那你说AI infra到底是什么复杂度?


他还分享了一个很有信息量的对比。


如果自建和租卡比,租三年成本和自建成本差不多。租卡的好处是省心。


自建的好处有两个,


一是NVIDIA如果持续领先,它能控制价格使得GPU保值;


二是自建的数据存储成本低。存储需要跟GPU离得近,不管大云还是小GPU云,存储价格都高。


一次模型训练用几TB空间存checkpoint很正常,训练数据存储是10PB起跳。如果用AWS S3,10PB一年两百万美金。


这钱用来自建,可以上100PB。


所以这个选择本身就是一个infra问题。


整体拆分一下,一个正经的AI基础设施,大概需要多少东西呢。


先看硬件层。


CPU负责控制面、数据预处理和调度。GPU负责通用高密度矩阵计算。TPU或自研ASIC在特定软件栈下追求更高性价比。FPGA在低延迟和边缘场景里还有自己的价值。


然后是显存,HBM3、HBM3e,带宽从3.35TB/s到4.8TB/s。然后是存储,NVMe、并行文件系统、对象存储。


然后是互连网络,NVLink、InfiniBand、RoCE。你光理清楚这些硬件的搭配关系就能折腾好一阵子。



再看平台层。Kubernetes或者Slurm负责调度和编排。容器运行时、镜像管理、配额和租户隔离。训练框架这块,PyTorch生态讲实话已经是事实标准了,加上DeepSpeed的ZeRO和检查点机制。推理这块是过去两年变化最大的,vLLM对KV Cache和吞吐的优化,TensorRT-LLM和Triton对NVIDIA栈的深度绑定,KServe在K8s原生部署上的统一。


然后是数据层。Spark做批处理ETL,Kafka做流式总线,Iceberg做湖仓表格式管理。如果你做推荐或者风控场景,还有特征平台,Feast或者Hopsworks,要保证训练和服务之间的一致性。你别小看这一层,很多团队训练跑着跑着发现效果不对,查了半天是训练数据和推理数据的特征不一致,一个大学问。



运营层更是大头。可观测性正在向OpenTelemetry这个标准收敛。MLOps有MLflow做实验跟踪和模型注册。CI-CD有Argo CD和GitLab。安全合规有IAM、密钥管理、审计、NIST AI RMF框架。成本治理有FinOps。



你数数看,这有多少个组件。


而且它们不是独立的,是要配合的。一个组件出问题,整条链路就卡住了。这就是为什么现在做AI infra的人越来越强调系统化视角,而不是一个个单点去堆。


回到赛道本身。


厂商格局上,可以分成几层来看。


最上面一层,自然是以NVIDIA为核心的通用GPU与机架系统。H100已经是上一代了,H200把HBM从80GB翻到了141GB,带宽从3.35TB/s提到了4.8TB/s,在大上下文、长序列推理上优势明显,Llama2 70B推理最高能有28%的提升。AMD是主要的替代者,MI300X那192GB的HBM确实能打。


再下来一层,是云厂商自研的加速器,Google的TPU和AWS的Trainium,Trainium2官方称比P5e和P5en有30%到40%更好的price-performance。


然后才是云平台与托管AI服务,AWS的SageMaker HyperPod、Google Vertex AI、微软的Azure AI。


最底层,是开源社区与基金会,CNCF、PyTorch Foundation、Linux Foundation和MLCommons。


行业的事实重心,已经从「单芯片竞赛」转向了「芯片加互连加编译器加运行时加调度加成本治理」的全面栈竞争。


你说卷不卷???


还有一个角度我聊着聊着自己都觉得有意思。过去两年,推理不再是训练后面的附属环节了。


过去大家最关心的是训练,能训出模型就是胜利,训练能力就是一切。


但现在,推理已经开始主导架构设计。


厂商们越来越强调的不是TFLOPS,不是理论峰值,而是tokens/s、cost per token、延迟和弹性扩缩。


NVIDIA自己都在反复强调lowest token cost,而不是peak compute。


这个转变很重要。


因为说到底,AI infra从「造火箭」变成了「运营工厂」。


你想想看。你要考虑的不是发射一次能飞多高,而是每天能稳定产多少、成本多少、故障了怎么恢复。


不是能不能训出来,而是能不能长期以可接受的TCO运行。如果你没有FinOps、配额、队列治理和性能基线,团队很容易把预算烧在低利用率和重复试验上。


说到这,我想聊聊一个我自己觉得很有意思的类比。


回头看历史,AI infra现在这个阶段,特别像1880年代的电力。


那时候爱迪生的直流电和特斯拉的交流电在打架,工厂主们知道电是未来,但不知道怎么用。


他们一开始把电当成蒸汽机的替代品,在工厂里装一个巨大的发电机,通过天轴和皮带把所有机器连起来。


后来才发现,真正改变生产效率的,不是把蒸汽机换成电动机,而是重新设计整个工厂的布局。


让每一台机器都有自己的电动机,生产线按流程而不是按动力源来排布。


这个转变花了大概三十年。


AI infra现在就是在经历同样的事。大家已经过了「装个发电机就能跑」的阶段,开始意识到需要重新设计整个「工厂」。只是这次压缩到三五年,而且涉及的成本是人家的三十倍。


你想想看。一个超大规模GPU集群的用电量已经堪比一个小型城市。


国际能源署IEA的预测是数据中心用电到2030年会翻倍以上,达到945TWh。


2025年已经增长了17%。这已经不是技术问题,是能源问题了。


Google在这方面的做法挺实在的,他们按流域风险评估冷却方案,把可持续性写成了数据中心设计的公开原则。


一个AI infra的问题,聊着聊着聊到了能源,聊到了地球,聊到了水资源。


这就是我之前说的那种感觉,好的技术话题,总是聊着聊着就到更大的文化层面去了。它不是孤立的。


那说到法规和主权约束。


这个就更绕不开了。


在欧盟,有EU AI Act,一套非常严格的人工智能监管框架。


在中国,面向境内公众提供生成式AI服务,需要关注《生成式人工智能服务管理暂行办法》以及备案、标识等要求。


在美国,NIST AI RMF提供了风险治理框架。先进计算和AI芯片的出口与供应链,现在也受BIS规则影响。


也就是说,AI infra从来不是纯技术问题,它天然带有法律、主权和供应链属性。


我记得以前看一篇文章讲到一件事,一个做AI infra的工程师说,他每天思考的问题排优先级,排在第一位的不是「能不能再快10%」,而是「万一整个集群断电了,我的checkpoint能不能扛得住」。


这个排序本身就说明一切了。


这又引出一个问题。生态锁定。


锁定既可能来自硬件。


你买了1000块H100,你的整个推理栈就绑在CUDA和TensorRT上。想切AMD的ROCm?切不动。需要从零开始做性能验证和算子适配。


锁定也可能来自云平台。你的训练流水线完全构建在SageMaker上,想迁到Vertex AI?可能比换GPU还难。


锁定还可能来自编译器、模型格式、可观测性体系,甚至是团队习惯。


所以行动上最稳妥的策略,一般不是在每一层都追求厂商中立。


那是不现实的。而是在可移植的层面尽量保持开放标准。


Kubernetes、OpenTelemetry、MLflow、Iceberg这些,换哪个厂商都能用。


在最能带来业务杠杆的层面,谨慎接受必要的锁定。


这样既能吃到生态红利,也能降低迁移代价。


好,那核心问题来了。如果你真的想进入AI infra这个行业,或者你的团队已经在搞AI infra了,该从哪下手?


我自己看下来,有一条非常明确的感觉。不要过早追求全家桶平台,先选一条主线做深做透。


市面上有太多所谓的「一站式AI平台」了。装完一看,功能全有,但每一个都用不起来。还不如先把一条线跑通,跑通了再横向扩展。


根据我翻的资料和跟行业里朋友聊的,最现实的四条路线是这样的。


第一条,云原生平台加SRE路线。用Kubernetes搭一个GPU集群,接入Prometheus和OpenTelemetry,能发布并回滚一个KServe或vLLM服务,能跑一个完整的训练推理pipeline。三个月内完成一个GPU集群搭建和基础告警体系。六个月内积累一份事故复盘文档。一到三年内拿下KCNA或者CKA认证,能够主导平台升级和迁移。这条路线对已经有运维或者K8s背景的人来说,上手门槛相对最低,而且证书能帮你敲开门。


第二条,推理工程加LLMOps路线。跑通vLLM或者KServe,做吞吐和延迟的benchmark,真正搞懂量化怎么做、batching怎么调、KV cache怎么优化。目标是把cost per token、GPU利用率、P95延迟联动起来做优化。三个月内出一份公开的benchmark报告。这条现在是最热的,因为推理正在成为主导场景。如果你能在一段时间内把vLLM的吞吐调优翻倍,这个signal比你想象的强很多,面试的时候直接甩报告就行了。


第三条,分布式训练加性能路线。用PyTorch加DeepSpeed或者Ray在两到八卡规模上做微调、做检查点恢复、做profile。然后进阶到跨节点RDMA、拓扑调优、容错训练。目标是能解释并且优化dataloader、通信、显存、checkpoint四类瓶颈。这条路线对技术深度的要求最高,适合想做平台底层或者专职性能优化的朋友。NVIDIA DLI也提供了不少相关的课程,可以去看看。


第四条,国产栈加自主可控路线。在阿里云PAI、华为昇腾CANN加MindSpore、或者百度飞桨上跑通分布式训练和推理。交付兼顾性能、合规和本地生态适配的平台。对于中国市场导向的团队,这条的优先级越来越高。出口管制和合规要求不是纸面上的东西,是真的在影响供应链的。今年很多团队提前囤卡、加速国产测试就是这个原因。


你看,这四条线,没一条是让你先去读论文的。


说实话,这也是我看了这么多资料之后最大的感受。


AI infra这个行业,最稀缺的能力不是你会不会背NCCL的八股,不是你会不会写training script,而是你有没有亲手把训练卡死、推理打爆、磁盘打满、再把它们一个个都救回来的经验。


能把「学习」尽快变成「成本可见、性能可测、故障可复现」的作品集,比什么简历都管用。


有个做AI infra的朋友给我讲一个观点。


面试的时候,如果一个人跟我说他读过多少论文,参加过多少培训班,我可能只会点点头。但如果他跟我说,上次把训练跑OOM了,是怎么看nvidia-smi发现显存泄漏的,怎么用PyTorch profiler定位到是某个算子的实现问题,怎么用checkpoint把实验救了回来,然后为了不再出事,自己给团队搭了一套告警和自动恢复的策略。


这个故事讲完,我深刻认为他说的太对了。


因为前者是知识,后者是判断力。


而判断力才是AI infra这个领域最有复利的东西。它来自你亲手处理过足够多的真实故障,来自你把系统、硬件、网络、数据、平台、运维、成本和治理真正放到同一张工程账上算过。


回到文章的开头。


很多朋友可能觉得AI infra离自己很远,是那些大厂、顶级研究机构才需要关心的事。但我觉得不是。每个在用AI的人,其实都在和AI infra打交道。


你用ChatGPT的时候,那个token生成速度、那个能否在高峰期访问、那个会不会断连,背后都是一整套基础设施在支撑。


你买了几张卡跑LoRA微调,你要搭环境、配CUDA、处理OOM、考虑电费,那你就是就是一个小型的桶装数据中心。


你以为你只是用一下AI工具,其实背后都是AI infra了,只是你自己没意识到。


所以我越来越觉得,这块东西其实挺值得被更多人理解的。


最后给你们分享一段话。我在翻资料的时候看到的,原文来自CNCF的Cloud Native AI白皮书,但我觉得它说得特别好。


AI infra不是更大的DevOps,也不是更底层的ML工程,而是把系统、硬件、网络、数据、平台、运维、成本和治理真正压到同一张工程账上的行业。


我觉得这个判断特别准。


进入某个这个行业,最有价值的能力将不是你会某个具体的工具,而是你能跨层做取舍,并且能用数据证明你的取舍是正确的。


这大概就是未来三到五年最稀缺、也最有复利的能力。


好,今天就聊到这儿。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP