本文来自微信公众号: AI超维度 ,作者:索罗
6月1日,中国台北流行音乐中心。英伟达CEO黄仁勋站在一排液冷机架前面,宣布新一代AI服务器平台Vera Rubin正式进入量产。
他用两个小时讲了一件事:AI正在进入一个新阶段。
过去两年,大多数人接触到的AI是聊天机器人:你输入一个问题,AI生成一段回答,一轮结束。黄仁勋说,这个阶段已经翻篇了。下一个阶段叫Agentic AI:AI不再只是回答问题,而是能够自己拆解任务、制定计划、调用工具、观察结果、修正方向,像一个有执行力的助手一样完成实际工作。他把这叫做"有用的AI已经到来"。
这个转变对芯片提出了完全不同的要求。训练一个大模型,需要的是蛮力——尽可能多的算力、尽可能大的内存、尽可能快的互联,把海量数据灌进去算上几个月。GPU就是为这种任务设计的,英伟达靠它拿下了全球超过八成的AI训练市场。但Agent不是训练。Agent在执行任务时需要反复调用模型、快速生成回答、实时响应结果,对速度和延迟的要求远比训练苛刻。芯片的瓶颈从"算得够不够快"变成了"回答吐得够不够快"。
黄仁勋把Vera Rubin称为"英伟达史上最宏大的工程项目"。在台上那排机架里,真正值得注意的不是GPU本身变得多强。是机柜里第一次出现了一个过去从未有过的变化:GPU旁边,多了一颗芯片。
生成回答是一个词一个词往外吐的,速度瓶颈不在算力,在数据搬运。多出来的那颗芯片,接手的就是这一步——用一种完全不同的架构。
Decode的代价
大模型推理分两步。第一步叫Prefill:模型把用户输入的内容一口气读完,并行处理,生成一份对输入的"理解记录"(技术上叫KV cache,记录模型对每个输入词的理解,后面每生成一个新词都要参考它)。这一步是大规模并行计算,GPU的主场。第二步叫Decode:基于这份记录,模型开始一个词一个词地生成回答,每个新词都会更新记录,供下一个词使用。
Prefill vs Decode
问题出在decode。
同一块GPU跑同一个模型,prefill阶段的利用率可以到90%以上,到了decode阶段骤降到20-40%。
Prefill一次性并行处理大量输入Token,每读一批数据就做大量计算,GPU的并行算力能够充分发挥。Decode不一样:在低批次的交互场景下(比如一个用户在等ChatGPT回答),每生成一个Token,GPU都要把整个模型的权重从显存(HBM)读一遍,但对这些数据做的计算量很小。打个比方:相当于请了一支400人的施工队,每次只给他们搬一块砖的活——399个人站着等。GPU大部分晶体管花在了计算核心上,但decode阶段这些核心大面积空转,等待数据从显存搬过来。
批处理可以缓解——多个用户的请求共享一次权重读取,摊薄带宽压力。推测解码(Speculative Decoding)也已经是生产系统的标配,用小模型快速生成候选Token、大模型并行验证,本质上用额外计算换更少的内存读取。但这些都是在GPU架构的框架内做优化。根本的错配没有变:GPU的架构为"大量计算、少量数据搬运"的负载而生,decode在延迟敏感的场景下恰恰相反。英伟达前Groq首席技术官Mark Heaps在GTC 2026上的说法很直接:GPU的多核架构需要把指令发到片外内存再回来,数据往返是瓶颈。
这还只是架构层面的问题。造芯片需要HBM、台积电和CoWoS封装——2026年AI产业链最紧的三个环节。HBM产能被三星、SK海力士和美光三家控制,美光已经卖光了全年的AI内存合同。台积电的先进制程产线被英伟达、AMD、苹果、高通挤得满满当当,排队以年计。CoWoS封装更紧,台积电CEO魏哲家亲口说过"产能极其紧张,到2026年都是卖完的",月产能翻了近4倍仍然不够。每一块AI GPU,不管是英伟达的Rubin还是AMD的MI400,都要过这三道关。
英伟达对此的回应是把推理拆成两半:GPU继续做它擅长的prefill,decode中延迟敏感的部分交给一颗专用芯片。从GPU的角度看,这是它第一次正式承认自己需要一个搭档。
GPU+HBM vs LPU+SRAM数据路径对比
这颗专用芯片就是LPU(专为大模型推理设计的处理器),全称Language Processing Unit(语言处理单元),用途很明确:尽可能快、尽可能稳地把Token吐出来。它不用HBM,用的是SRAM,一种直接刻在芯片内部的存储单元,数据不出芯片就能读取,速度是外挂HBM的几十倍,占用容量却小得多:一整个机柜256颗LPU加起来才128GB,而一块英伟达GPU单卡就有288GB。
英伟达给自己找到的搭档芯片,正是这套由256颗LPU芯片组成的机架级推理加速器Groq 3 LPX。它来自一家折腾了十年的公司Groq。
一家折腾了十年的公司
Groq的创始人Jonathan Ross之前在谷歌参与设计了TPU(谷歌的AI专用芯片),2016年出来创业。他要做的事情在当时看来相当不合群:不做训练,只做推理;不用HBM,只用片上SRAM。第一代LPU用格芯(GlobalFoundries)14nm工艺造出来——在竞品普遍跑台积电7nm的年代,制程落后一到两代,但验证了架构的可行性。
然后是漫长的等待。训练时代,市场只关心谁的算力卡更猛,没人在乎推理延迟。Groq拿着一颗只能做推理的芯片,找不到足够大的客户。直到2024年初,Groq开放了一个免费demo,跑Llama和Mixtral开源模型,速度快到让人觉得延迟消失了,在开发者社区迅速传开。但出圈之后又沉寂了。外界不太知道的原因是:Groq的第二代LPU,单颗芯片没问题,但芯片之间的高速互联没跑到设计速度:几百颗芯片组不成系统,整代产品无法量产。第一代验证了架构可行,第二代卡在了怎么把它们连起来。创始团队手里有一个被证明能跑的方案,但造不出一颗能上生产线的芯片。
直到2025年平安夜,英伟达花200亿美元签下了Groq的技术和核心团队。四个月后,Groq的芯片就出现在了Vera Rubin的机柜里。
回过头看,这笔交易的逻辑很清楚。Groq只能做decode,没法独立部署,但英伟达正好有GPU做prefill。Groq的芯片互联问题在英伟达的工程资源下被修复了,LP30(Groq第三代LPU芯片)跳过了失败的第二代直接量产。而英伟达自家的GPU decode方案Rubin CPX又被证明不如Groq的SRAM路线。双方都拿到了自己缺的东西。
LP30
LP30是这笔交易产出的第一颗芯片。
它是一颗接近单次光刻能做出的最大面积的单片芯片——不需要先进封装,不需要HBM。芯片面积的一半给了500MB片上SRAM,另一半是提供1.2 PFLOPS FP8算力的矩阵乘法核心。对比英伟达Rubin GPU的35 PFLOPS(FP4),LP30的算力远低于GPU。但这不是它的竞争维度。LP30竞争的是延迟和确定性,不是峰值算力。
256颗LP30组成一个LPX机柜,合计128GB SRAM,片上带宽40PB/s——Rubin GPU的HBM带宽约22TB/s,差了三个数量级。数据在芯片内部流动,不用等外部内存,相当于数据通道从四车道变成了四千车道。编译阶段就把执行路径全部定死,运行时没有调度、没有排队、没有资源争用。结果是:每个Token的生成时间几乎一样长,不会突然某个词卡一下,这对需要环环相扣的Agent任务链来说,这种可预测性是刚需。
LP30不用HBM——SRAM和计算核心一起刻在标准逻辑晶圆上,不需要额外的内存堆叠和封装。LP30不用台积电——三星代工SF4工艺,三星奥斯汀工厂制造,全美国本土供应链。LP30不需要CoWoS——没有HBM堆叠要连接,没有interposer要铺,封装走常规流程。卡住所有AI GPU的三个瓶颈,LP30一个都不碰。当前两代LPU是英伟达体系内的纯增量产能:不和自家GPU抢台积电产线,不抢HBM配额,不抢CoWoS封装。这个窗口不是永久的,再下一代LP40计划回到台积电、加上新型存储,纯增量的优势会随之收窄。但至少在当前这一代,英伟达拥有了一条和GPU完全不竞争的推理产能。
两颗芯片怎么配合
一颗decode专用芯片不能自己跑模型,它需要和GPU配合。英伟达给Vera Rubin平台设计的推理架构叫AFD(Attention-FFN Disaggregation),做的就是这件事。
大模型的每一层由两种计算组成:attention(注意力机制)和FFN(前馈网络)。每生成一个Token,这两种计算交替执行。AFD的做法是把它们拆开,分别交给最擅长的芯片。
attention是"有状态的"。它需要动态加载KV cache——前面提到的那份"理解记录",内容和大小随每一轮对话变化,加载模式不可预测。这类动态工作负载是GPU的强项:HBM容量大(Rubin GPU单卡288GB),能装下大规模KV cache;GPU的并行核心擅长处理变长、变模式的数据。
FFN是"无状态的"。它的计算只取决于当前Token的输入,模式固定,每次执行的路径完全一样——正好匹配LPU的确定性架构和片上带宽优势。
AFD架构Token“乒乓“式来回传递
Token在GPU和LPU之间"乒乓"式来回传递。一个40层的模型,每生成一个Token需要40次GPU-LPU往返:GPU算完attention把结果传给LPU,LPU算完FFN把结果传回GPU,进入下一层。英伟达的Dynamo软件用微批次重叠通信和计算来隐藏延迟:当LPU在处理第N层的FFN时,GPU已经在准备第N+1层的attention数据。
英伟达声称,搭配Vera Rubin GPU使用后,在万亿参数模型、百万Token上下文的场景下,每兆瓦推理吞吐量提升35倍,每Token成本降低10倍。
英伟达官方技术文档有一个表述:当推理速度逼近每用户每秒1000个Token,AI系统就从"对话节奏"切换到"思考速度计算"——持续推理、持续响应、实时协作。黄仁勋在台北讲的也是同一个意思:过去的电脑等人,人点击、打字、等结果。Agent时代的电脑不等人,你说出意图,AI自己规划、执行、交付。
GPU+LPU的双芯片系统,就是2026年下一代GPU的真实形态。
这个双芯片架构改变的不只是芯片设计。如果按英伟达建议的3:1 GPU/LPU部署比例,每部署一个GPU推理机架,旁边要配一个LPX机架。推理部署从"一种机架"变成了"两种机架"。
2026年的数据中心有一个被业内称为"金螺丝"的问题——几百万美元的AI服务器,所有零件都齐了,但GPU分配不到,整台机架就是一堆昂贵的废铁。LPX机架不受GPU供应链的制约。推理算力的扩张可以和GPU产能脱钩——训练端仍然被卡脖子,但推理端的金螺丝被解除了。AMD的MI系列、谷歌的TPU、AWS的Trainium都走台积电+CoWoS+HBM路线,没有任何一家竞争对手拥有第二条独立的推理供应链。这不是技术优势,是结构性优势——它来自英伟达收编Groq这个特定决策,而非GPU架构本身。
不只英伟达
英伟达用200亿和一颗LPU,补上了GPU在推理链条中的短板。
这件事的意义已经足够大。但如果放到更大的背景里看,它只是2026年AI芯片行业发生的两件同类事件中的一件。
2026年1月14日,在英伟达签下Groq协议仅仅三周后,OpenAI和Cerebras签下了超过100亿美元的推理算力合同。
Cerebras走的是一条和Groq完全不同、但同样激进的路线:把一整片300mm硅晶圆直接做成一颗芯片。普通芯片从晶圆上切出几百颗小芯片分别封装,Cerebras不切——整片晶圆就是一颗芯片,46,225平方毫米,比英伟达最大的GPU大56倍,4万亿晶体管,90万个AI计算核心。
它解决的问题和Groq不同:Groq的SRAM解决的是decode延迟,Cerebras的思路是把尽可能多的计算和存储塞进同一片超大芯片里,让数据在片内流动,从根本上减少跨芯片通信的开销。
Sam Altman本人是Cerebras的投资人,OpenAI一度考虑过直接收购它。
全球最大的GPU公司和全球最大的AI模型公司,在几周之内分别做了同一件事:花巨资引入一颗不是GPU的芯片,专门解决推理中GPU干不好的那一环。
那么OpenAI用Cerebras的晶圆级芯片解决的是什么?这是另一个故事了。
