本文介绍AI进入Agentic AI阶段后,英伟达拆分推理任务,引入Groq LPU补全GPU短板,重构AI芯片推理架构。 ## 1. Agentic AI新阶段暴露GPU架构缺陷 AI已从聊天机器人阶段进入能自主完成任务的**Agentic AI新阶段**,推理对速度、延迟要求远高于训练,芯片瓶颈从“算得够不够快”变成“回答吐得够不够快”。 大模型推理分为Prefill(GPU可实现90%以上利用率,充分发挥并行算力优势)和Decode两步;延迟敏感场景下,Decode每生成一个Token仅需少量计算,却需要重复读取模型权重,导致GPU利用率骤降至20%-40%,多数计算核心空转,架构错配问题无法在GPU框架内彻底解决。 同时,AI GPU产能受限于HBM、台积电先进制程、CoWoS封装三个紧俏环节,三者产能均已提前售罄,供不应求问题短期内无法缓解。 ## 2. 折腾十年:Groq LPU最终落入英伟达 2016年,前谷歌TPU设计师Jonathan Ross创办Groq,坚持做纯推理专用芯片,采用片上SRAM而非外挂HBM的架构,制程落后情况下验证了架构可行性。 2024年Groq的低延迟推理demo出圈,但第二代LPU因芯片互联问题无法量产,2025年平安夜英伟达以200亿美元收购Groq技术与核心团队,修复互联问题后推出第三代LP30芯片。 ## 3. LP30:不碰三大产能瓶颈的增量推理方案 LP30是接近单次光刻最大面积的单片芯片,无需先进封装与HBM,一半面积分配500MB片上SRAM,另一半提供1.2 PFLOPS FP8算力;256颗LP30组成的LPX机柜,总片上带宽达40PB/s,是英伟达Rubin GPU HBM带宽的近2000倍。 LP30主打低延迟与确定性,数据无需访问片外内存,每个Token生成时间稳定,满足Agent任务链刚需;它由三星SF4工艺代工,无需HBM与CoWoS封装,完全不抢占英伟达GPU的台积电产能、HBM配额与CoWoS封装资源,是纯增量推理产能。 ## 4. 拆分推理:双芯片架构重构AI推理供给 英伟达采用AFD架构拆分推理任务:将动态、可变负载的attention交给GPU处理,把固定模式的无状态FFN交给LPU处理,Token通过“乒乓”传递+微批次重叠通信隐藏往返延迟。 实测显示,该架构在万亿参数模型、百万Token上下文场景下,每兆瓦推理吞吐量提升35倍,单Token成本降低10倍,实现“思考速度计算”的Agent运行要求。 双芯片架构让推理算力扩张脱离GPU产能制约,形成竞争对手不具备的结构性供给优势,近期OpenAI也引入非GPU的Cerebras晶圆级芯片解决推理问题,成为行业同类探索的另一分支。
一颗折腾了十年的芯片
2026-06-10 13:20

一颗折腾了十年的芯片

本文来自微信公众号: AI超维度 ,作者:索罗


6月1日,中国台北流行音乐中心。英伟达CEO黄仁勋站在一排液冷机架前面,宣布新一代AI服务器平台Vera Rubin正式进入量产。


他用两个小时讲了一件事:AI正在进入一个新阶段。


过去两年,大多数人接触到的AI是聊天机器人:你输入一个问题,AI生成一段回答,一轮结束。黄仁勋说,这个阶段已经翻篇了。下一个阶段叫Agentic AI:AI不再只是回答问题,而是能够自己拆解任务、制定计划、调用工具、观察结果、修正方向,像一个有执行力的助手一样完成实际工作。他把这叫做"有用的AI已经到来"。


这个转变对芯片提出了完全不同的要求。训练一个大模型,需要的是蛮力——尽可能多的算力、尽可能大的内存、尽可能快的互联,把海量数据灌进去算上几个月。GPU就是为这种任务设计的,英伟达靠它拿下了全球超过八成的AI训练市场。但Agent不是训练。Agent在执行任务时需要反复调用模型、快速生成回答、实时响应结果,对速度和延迟的要求远比训练苛刻。芯片的瓶颈从"算得够不够快"变成了"回答吐得够不够快"。


黄仁勋把Vera Rubin称为"英伟达史上最宏大的工程项目"。在台上那排机架里,真正值得注意的不是GPU本身变得多强。是机柜里第一次出现了一个过去从未有过的变化:GPU旁边,多了一颗芯片。


生成回答是一个词一个词往外吐的,速度瓶颈不在算力,在数据搬运。多出来的那颗芯片,接手的就是这一步——用一种完全不同的架构。


Decode的代价


大模型推理分两步。第一步叫Prefill:模型把用户输入的内容一口气读完,并行处理,生成一份对输入的"理解记录"(技术上叫KV cache,记录模型对每个输入词的理解,后面每生成一个新词都要参考它)。这一步是大规模并行计算,GPU的主场。第二步叫Decode:基于这份记录,模型开始一个词一个词地生成回答,每个新词都会更新记录,供下一个词使用。


Prefill vs Decode


问题出在decode。


同一块GPU跑同一个模型,prefill阶段的利用率可以到90%以上,到了decode阶段骤降到20-40%。


Prefill一次性并行处理大量输入Token,每读一批数据就做大量计算,GPU的并行算力能够充分发挥。Decode不一样:在低批次的交互场景下(比如一个用户在等ChatGPT回答),每生成一个Token,GPU都要把整个模型的权重从显存(HBM)读一遍,但对这些数据做的计算量很小。打个比方:相当于请了一支400人的施工队,每次只给他们搬一块砖的活——399个人站着等。GPU大部分晶体管花在了计算核心上,但decode阶段这些核心大面积空转,等待数据从显存搬过来。


批处理可以缓解——多个用户的请求共享一次权重读取,摊薄带宽压力。推测解码(Speculative Decoding)也已经是生产系统的标配,用小模型快速生成候选Token、大模型并行验证,本质上用额外计算换更少的内存读取。但这些都是在GPU架构的框架内做优化。根本的错配没有变:GPU的架构为"大量计算、少量数据搬运"的负载而生,decode在延迟敏感的场景下恰恰相反。英伟达前Groq首席技术官Mark Heaps在GTC 2026上的说法很直接:GPU的多核架构需要把指令发到片外内存再回来,数据往返是瓶颈。


这还只是架构层面的问题。造芯片需要HBM、台积电和CoWoS封装——2026年AI产业链最紧的三个环节。HBM产能被三星、SK海力士和美光三家控制,美光已经卖光了全年的AI内存合同。台积电的先进制程产线被英伟达、AMD、苹果、高通挤得满满当当,排队以年计。CoWoS封装更紧,台积电CEO魏哲家亲口说过"产能极其紧张,到2026年都是卖完的",月产能翻了近4倍仍然不够。每一块AI GPU,不管是英伟达的Rubin还是AMD的MI400,都要过这三道关。


英伟达对此的回应是把推理拆成两半:GPU继续做它擅长的prefill,decode中延迟敏感的部分交给一颗专用芯片。从GPU的角度看,这是它第一次正式承认自己需要一个搭档。


GPU+HBM vs LPU+SRAM数据路径对比


这颗专用芯片就是LPU(专为大模型推理设计的处理器),全称Language Processing Unit(语言处理单元),用途很明确:尽可能快、尽可能稳地把Token吐出来。它不用HBM,用的是SRAM,一种直接刻在芯片内部的存储单元,数据不出芯片就能读取,速度是外挂HBM的几十倍,占用容量却小得多:一整个机柜256颗LPU加起来才128GB,而一块英伟达GPU单卡就有288GB。


英伟达给自己找到的搭档芯片,正是这套由256颗LPU芯片组成的机架级推理加速器Groq 3 LPX。它来自一家折腾了十年的公司Groq。


一家折腾了十年的公司


Groq的创始人Jonathan Ross之前在谷歌参与设计了TPU(谷歌的AI专用芯片),2016年出来创业。他要做的事情在当时看来相当不合群:不做训练,只做推理;不用HBM,只用片上SRAM。第一代LPU用格芯(GlobalFoundries)14nm工艺造出来——在竞品普遍跑台积电7nm的年代,制程落后一到两代,但验证了架构的可行性。


然后是漫长的等待。训练时代,市场只关心谁的算力卡更猛,没人在乎推理延迟。Groq拿着一颗只能做推理的芯片,找不到足够大的客户。直到2024年初,Groq开放了一个免费demo,跑Llama和Mixtral开源模型,速度快到让人觉得延迟消失了,在开发者社区迅速传开。但出圈之后又沉寂了。外界不太知道的原因是:Groq的第二代LPU,单颗芯片没问题,但芯片之间的高速互联没跑到设计速度:几百颗芯片组不成系统,整代产品无法量产。第一代验证了架构可行,第二代卡在了怎么把它们连起来。创始团队手里有一个被证明能跑的方案,但造不出一颗能上生产线的芯片。


直到2025年平安夜,英伟达花200亿美元签下了Groq的技术和核心团队。四个月后,Groq的芯片就出现在了Vera Rubin的机柜里。


回过头看,这笔交易的逻辑很清楚。Groq只能做decode,没法独立部署,但英伟达正好有GPU做prefill。Groq的芯片互联问题在英伟达的工程资源下被修复了,LP30(Groq第三代LPU芯片)跳过了失败的第二代直接量产。而英伟达自家的GPU decode方案Rubin CPX又被证明不如Groq的SRAM路线。双方都拿到了自己缺的东西。


LP30


LP30是这笔交易产出的第一颗芯片。


它是一颗接近单次光刻能做出的最大面积的单片芯片——不需要先进封装,不需要HBM。芯片面积的一半给了500MB片上SRAM,另一半是提供1.2 PFLOPS FP8算力的矩阵乘法核心。对比英伟达Rubin GPU的35 PFLOPS(FP4),LP30的算力远低于GPU。但这不是它的竞争维度。LP30竞争的是延迟和确定性,不是峰值算力。


256颗LP30组成一个LPX机柜,合计128GB SRAM,片上带宽40PB/s——Rubin GPU的HBM带宽约22TB/s,差了三个数量级。数据在芯片内部流动,不用等外部内存,相当于数据通道从四车道变成了四千车道。编译阶段就把执行路径全部定死,运行时没有调度、没有排队、没有资源争用。结果是:每个Token的生成时间几乎一样长,不会突然某个词卡一下,这对需要环环相扣的Agent任务链来说,这种可预测性是刚需。


LP30不用HBM——SRAM和计算核心一起刻在标准逻辑晶圆上,不需要额外的内存堆叠和封装。LP30不用台积电——三星代工SF4工艺,三星奥斯汀工厂制造,全美国本土供应链。LP30不需要CoWoS——没有HBM堆叠要连接,没有interposer要铺,封装走常规流程。卡住所有AI GPU的三个瓶颈,LP30一个都不碰。当前两代LPU是英伟达体系内的纯增量产能:不和自家GPU抢台积电产线,不抢HBM配额,不抢CoWoS封装。这个窗口不是永久的,再下一代LP40计划回到台积电、加上新型存储,纯增量的优势会随之收窄。但至少在当前这一代,英伟达拥有了一条和GPU完全不竞争的推理产能。


两颗芯片怎么配合


一颗decode专用芯片不能自己跑模型,它需要和GPU配合。英伟达给Vera Rubin平台设计的推理架构叫AFD(Attention-FFN Disaggregation),做的就是这件事。


大模型的每一层由两种计算组成:attention(注意力机制)和FFN(前馈网络)。每生成一个Token,这两种计算交替执行。AFD的做法是把它们拆开,分别交给最擅长的芯片。


attention是"有状态的"。它需要动态加载KV cache——前面提到的那份"理解记录",内容和大小随每一轮对话变化,加载模式不可预测。这类动态工作负载是GPU的强项:HBM容量大(Rubin GPU单卡288GB),能装下大规模KV cache;GPU的并行核心擅长处理变长、变模式的数据。


FFN是"无状态的"。它的计算只取决于当前Token的输入,模式固定,每次执行的路径完全一样——正好匹配LPU的确定性架构和片上带宽优势。


AFD架构Token“乒乓“式来回传递


Token在GPU和LPU之间"乒乓"式来回传递。一个40层的模型,每生成一个Token需要40次GPU-LPU往返:GPU算完attention把结果传给LPU,LPU算完FFN把结果传回GPU,进入下一层。英伟达的Dynamo软件用微批次重叠通信和计算来隐藏延迟:当LPU在处理第N层的FFN时,GPU已经在准备第N+1层的attention数据。


英伟达声称,搭配Vera Rubin GPU使用后,在万亿参数模型、百万Token上下文的场景下,每兆瓦推理吞吐量提升35倍,每Token成本降低10倍。


英伟达官方技术文档有一个表述:当推理速度逼近每用户每秒1000个Token,AI系统就从"对话节奏"切换到"思考速度计算"——持续推理、持续响应、实时协作。黄仁勋在台北讲的也是同一个意思:过去的电脑等人,人点击、打字、等结果。Agent时代的电脑不等人,你说出意图,AI自己规划、执行、交付。


GPU+LPU的双芯片系统,就是2026年下一代GPU的真实形态。


这个双芯片架构改变的不只是芯片设计。如果按英伟达建议的3:1 GPU/LPU部署比例,每部署一个GPU推理机架,旁边要配一个LPX机架。推理部署从"一种机架"变成了"两种机架"。


2026年的数据中心有一个被业内称为"金螺丝"的问题——几百万美元的AI服务器,所有零件都齐了,但GPU分配不到,整台机架就是一堆昂贵的废铁。LPX机架不受GPU供应链的制约。推理算力的扩张可以和GPU产能脱钩——训练端仍然被卡脖子,但推理端的金螺丝被解除了。AMD的MI系列、谷歌的TPU、AWS的Trainium都走台积电+CoWoS+HBM路线,没有任何一家竞争对手拥有第二条独立的推理供应链。这不是技术优势,是结构性优势——它来自英伟达收编Groq这个特定决策,而非GPU架构本身。


不只英伟达


英伟达用200亿和一颗LPU,补上了GPU在推理链条中的短板。


这件事的意义已经足够大。但如果放到更大的背景里看,它只是2026年AI芯片行业发生的两件同类事件中的一件。


2026年1月14日,在英伟达签下Groq协议仅仅三周后,OpenAI和Cerebras签下了超过100亿美元的推理算力合同。


Cerebras走的是一条和Groq完全不同、但同样激进的路线:把一整片300mm硅晶圆直接做成一颗芯片。普通芯片从晶圆上切出几百颗小芯片分别封装,Cerebras不切——整片晶圆就是一颗芯片,46,225平方毫米,比英伟达最大的GPU大56倍,4万亿晶体管,90万个AI计算核心。


它解决的问题和Groq不同:Groq的SRAM解决的是decode延迟,Cerebras的思路是把尽可能多的计算和存储塞进同一片超大芯片里,让数据在片内流动,从根本上减少跨芯片通信的开销。


Sam Altman本人是Cerebras的投资人,OpenAI一度考虑过直接收购它。


全球最大的GPU公司和全球最大的AI模型公司,在几周之内分别做了同一件事:花巨资引入一颗不是GPU的芯片,专门解决推理中GPU干不好的那一环。


那么OpenAI用Cerebras的晶圆级芯片解决的是什么?这是另一个故事了。

AI创投日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定