本文介绍AI进入Agentic AI阶段后，英伟达拆分推理任务，引入Groq LPU补全GPU短板，重构AI芯片推理架构。 ## 1. Agentic AI新阶段暴露GPU架构缺陷 AI已从聊天机器人阶段进入能自主完成任务的**Agentic AI新阶段**，推理对速度、延迟要求远高于训练，芯片瓶颈从“算得够不够快”变成“回答吐得够不够快”。大模型推理分为Prefill（GPU可实现90%以上利用率，充分发挥并行算力优势）和Decode两步；延迟敏感场景下，Decode每生成一个Token仅需少量计算，却需要重复读取模型权重，导致GPU利用率骤降至20%-40%，多数计算核心空转，架构错配问题无法在GPU框架内彻底解决。同时，AI GPU产能受限于HBM、台积电先进制程、CoWoS封装三个紧俏环节，三者产能均已提前售罄，供不应求问题短期内无法缓解。 ## 2. 折腾十年：Groq LPU最终落入英伟达 2016年，前谷歌TPU设计师Jonathan Ross创办Groq，坚持做纯推理专用芯片，采用片上SRAM而非外挂HBM的架构，制程落后情况下验证了架构可行性。 2024年Groq的低延迟推理demo出圈，但第二代LPU因芯片互联问题无法量产，2025年平安夜英伟达以200亿美元收购Groq技术与核心团队，修复互联问题后推出第三代LP30芯片。 ## 3. LP30：不碰三大产能瓶颈的增量推理方案 LP30是接近单次光刻最大面积的单片芯片，无需先进封装与HBM，一半面积分配500MB片上SRAM，另一半提供1.2 PFLOPS FP8算力；256颗LP30组成的LPX机柜，总片上带宽达40PB/s，是英伟达Rubin GPU HBM带宽的近2000倍。 LP30主打低延迟与确定性，数据无需访问片外内存，每个Token生成时间稳定，满足Agent任务链刚需；它由三星SF4工艺代工，无需HBM与CoWoS封装，完全不抢占英伟达GPU的台积电产能、HBM配额与CoWoS封装资源，是纯增量推理产能。 ## 4. 拆分推理：双芯片架构重构AI推理供给英伟达采用AFD架构拆分推理任务：将动态、可变负载的attention交给GPU处理，把固定模式的无状态FFN交给LPU处理，Token通过“乒乓”传递+微批次重叠通信隐藏往返延迟。实测显示，该架构在万亿参数模型、百万Token上下文场景下，每兆瓦推理吞吐量提升35倍，单Token成本降低10倍，实现“思考速度计算”的Agent运行要求。双芯片架构让推理算力扩张脱离GPU产能制约，形成竞争对手不具备的结构性供给优势，近期OpenAI也引入非GPU的Cerebras晶圆级芯片解决推理问题，成为行业同类探索的另一分支。

2026-06-10 13:20

一颗折腾了十年的芯片

AI超维度

速览

本文来自微信公众号： AI超维度，作者：索罗，题图来自：AI生成

6月1日，中国台北流行音乐中心。英伟达CEO黄仁勋站在一排液冷机架前面，宣布新一代AI服务器平台Vera Rubin正式进入量产。

他用两个小时讲了一件事：AI正在进入一个新阶段。

过去两年，大多数人接触到的AI是聊天机器人：你输入一个问题，AI生成一段回答，一轮结束。黄仁勋说，这个阶段已经翻篇了。下一个阶段叫Agentic AI：AI不再只是回答问题，而是能够自己拆解任务、制定计划、调用工具、观察结果、修正方向，像一个有执行力的助手一样完成实际工作。他把这叫做"有用的AI已经到来"。

这个转变对芯片提出了完全不同的要求。训练一个大模型，需要的是蛮力——尽可能多的算力、尽可能大的内存、尽可能快的互联，把海量数据灌进去算上几个月。GPU就是为这种任务设计的，英伟达靠它拿下了全球超过八成的AI训练市场。但Agent不是训练。Agent在执行任务时需要反复调用模型、快速生成回答、实时响应结果，对速度和延迟的要求远比训练苛刻。芯片的瓶颈从“算得够不够快”变成了“回答吐得够不够快”。

黄仁勋把Vera Rubin称为“英伟达史上最宏大的工程项目”。在台上那排机架里，真正值得注意的不是GPU本身变得多强。是机柜里第一次出现了一个过去从未有过的变化：GPU旁边，多了一颗芯片。

生成回答是一个词一个词往外吐的，速度瓶颈不在算力，在数据搬运。多出来的那颗芯片，接手的就是这一步——用一种完全不同的架构。

Decode的代价

大模型推理分两步。第一步叫Prefill：模型把用户输入的内容一口气读完，并行处理，生成一份对输入的“理解记录”（技术上叫KV cache，记录模型对每个输入词的理解，后面每生成一个新词都要参考它）。这一步是大规模并行计算，GPU的主场。第二步叫Decode：基于这份记录，模型开始一个词一个词地生成回答，每个新词都会更新记录，供下一个词使用。

Prefill vs Decode

问题出在decode。

同一块GPU跑同一个模型，prefill阶段的利用率可以到90%以上，到了decode阶段骤降到20-40%。

Prefill一次性并行处理大量输入Token，每读一批数据就做大量计算，GPU的并行算力能够充分发挥。Decode不一样：在低批次的交互场景下（比如一个用户在等ChatGPT回答），每生成一个Token，GPU都要把整个模型的权重从显存（HBM）读一遍，但对这些数据做的计算量很小。打个比方：相当于请了一支400人的施工队，每次只给他们搬一块砖的活——399个人站着等。GPU大部分晶体管花在了计算核心上，但decode阶段这些核心大面积空转，等待数据从显存搬过来。

批处理可以缓解——多个用户的请求共享一次权重读取，摊薄带宽压力。推测解码（Speculative Decoding）也已经是生产系统的标配，用小模型快速生成候选Token、大模型并行验证，本质上用额外计算换更少的内存读取。但这些都是在GPU架构的框架内做优化。根本的错配没有变：GPU的架构为"大量计算、少量数据搬运"的负载而生，decode在延迟敏感的场景下恰恰相反。英伟达前Groq首席技术官Mark Heaps在GTC 2026上的说法很直接：GPU的多核架构需要把指令发到片外内存再回来，数据往返是瓶颈。

这还只是架构层面的问题。造芯片需要HBM、台积电和CoWoS封装——2026年AI产业链最紧的三个环节。HBM产能被三星、SK海力士和美光三家控制，美光已经卖光了全年的AI内存合同。台积电的先进制程产线被英伟达、AMD、苹果、高通挤得满满当当，排队以年计。CoWoS封装更紧，台积电CEO魏哲家亲口说过"产能极其紧张，到2026年都是卖完的"，月产能翻了近4倍仍然不够。每一块AI GPU，不管是英伟达的Rubin还是AMD的MI400，都要过这三道关。

英伟达对此的回应是把推理拆成两半：GPU继续做它擅长的prefill，decode中延迟敏感的部分交给一颗专用芯片。从GPU的角度看，这是它第一次正式承认自己需要一个搭档。

GPU+HBM vs LPU+SRAM数据路径对比

这颗专用芯片就是LPU（专为大模型推理设计的处理器），全称Language Processing Unit（语言处理单元），用途很明确：尽可能快、尽可能稳地把Token吐出来。它不用HBM，用的是SRAM，一种直接刻在芯片内部的存储单元，数据不出芯片就能读取，速度是外挂HBM的几十倍，占用容量却小得多：一整个机柜256颗LPU加起来才128GB，而一块英伟达GPU单卡就有288GB。

英伟达给自己找到的搭档芯片，正是这套由256颗LPU芯片组成的机架级推理加速器Groq 3 LPX。它来自一家折腾了十年的公司Groq 。

一家折腾了十年的公司

Groq的创始人Jonathan Ross之前在谷歌参与设计了TPU（谷歌的AI专用芯片），2016年出来创业。他要做的事情在当时看来相当不合群：不做训练，只做推理；不用HBM，只用片上SRAM。第一代LPU用格芯（GlobalFoundries）14nm工艺造出来——在竞品普遍跑台积电7nm的年代，制程落后一到两代，但验证了架构的可行性。

然后是漫长的等待。训练时代，市场只关心谁的算力卡更猛，没人在乎推理延迟。Groq拿着一颗只能做推理的芯片，找不到足够大的客户。直到2024年初，Groq开放了一个免费demo，跑Llama和Mixtral开源模型，速度快到让人觉得延迟消失了，在开发者社区迅速传开。但出圈之后又沉寂了。外界不太知道的原因是：Groq的第二代LPU，单颗芯片没问题，但芯片之间的高速互联没跑到设计速度：几百颗芯片组不成系统，整代产品无法量产。第一代验证了架构可行，第二代卡在了怎么把它们连起来。创始团队手里有一个被证明能跑的方案，但造不出一颗能上生产线的芯片。

直到2025年平安夜，英伟达花200亿美元签下了Groq的技术和核心团队。四个月后，Groq的芯片就出现在了Vera Rubin的机柜里。

回过头看，这笔交易的逻辑很清楚。Groq只能做decode，没法独立部署，但英伟达正好有GPU做prefill。Groq的芯片互联问题在英伟达的工程资源下被修复了，LP30（Groq第三代LPU芯片）跳过了失败的第二代直接量产。而英伟达自家的GPU decode方案Rubin CPX又被证明不如Groq的SRAM路线。双方都拿到了自己缺的东西。

LP30

LP30是这笔交易产出的第一颗芯片。

它是一颗接近单次光刻能做出的最大面积的单片芯片——不需要先进封装，不需要HBM。芯片面积的一半给了500MB片上SRAM，另一半是提供1.2 PFLOPS FP8算力的矩阵乘法核心。对比英伟达Rubin GPU的35 PFLOPS（FP4），LP30的算力远低于GPU。但这不是它的竞争维度。LP30竞争的是延迟和确定性，不是峰值算力。

256颗LP30组成一个LPX机柜，合计128GB SRAM，片上带宽40PB/s——Rubin GPU的HBM带宽约22TB/s，差了三个数量级。数据在芯片内部流动，不用等外部内存，相当于数据通道从四车道变成了四千车道。编译阶段就把执行路径全部定死，运行时没有调度、没有排队、没有资源争用。结果是：每个Token的生成时间几乎一样长，不会突然某个词卡一下，这对需要环环相扣的Agent任务链来说，这种可预测性是刚需。

LP30不用HBM——SRAM和计算核心一起刻在标准逻辑晶圆上，不需要额外的内存堆叠和封装。LP30不用台积电——三星代工SF4工艺，三星奥斯汀工厂制造，全美国本土供应链。LP30不需要CoWoS——没有HBM堆叠要连接，没有interposer要铺，封装走常规流程。卡住所有AI GPU的三个瓶颈，LP30一个都不碰。当前两代LPU是英伟达体系内的纯增量产能：不和自家GPU抢台积电产线，不抢HBM配额，不抢CoWoS封装。这个窗口不是永久的，再下一代LP40计划回到台积电、加上新型存储，纯增量的优势会随之收窄。但至少在当前这一代，英伟达拥有了一条和GPU完全不竞争的推理产能。

两颗芯片怎么配合

一颗decode专用芯片不能自己跑模型，它需要和GPU配合。英伟达给Vera Rubin平台设计的推理架构叫AFD（Attention-FFN Disaggregation），做的就是这件事。

大模型的每一层由两种计算组成：attention（注意力机制）和FFN（前馈网络）。每生成一个Token，这两种计算交替执行。AFD的做法是把它们拆开，分别交给最擅长的芯片。

attention是“有状态的”。它需要动态加载KV cache——前面提到的那份“理解记录”，内容和大小随每一轮对话变化，加载模式不可预测。这类动态工作负载是GPU的强项：HBM容量大（Rubin GPU单卡288GB），能装下大规模KV cache；GPU的并行核心擅长处理变长、变模式的数据。

AFD架构Token“乒乓“式来回传递

Token在GPU和LPU之间"乒乓"式来回传递。一个40层的模型，每生成一个Token需要40次GPU-LPU往返：GPU算完attention把结果传给LPU，LPU算完FFN把结果传回GPU，进入下一层。英伟达的Dynamo软件用微批次重叠通信和计算来隐藏延迟：当LPU在处理第N层的FFN时，GPU已经在准备第N+1层的attention数据。

英伟达声称，搭配Vera Rubin GPU使用后，在万亿参数模型、百万Token上下文的场景下，每兆瓦推理吞吐量提升35倍，每Token成本降低10倍。

英伟达官方技术文档有一个表述：当推理速度逼近每用户每秒1000个Token，AI系统就从"对话节奏"切换到"思考速度计算"——持续推理、持续响应、实时协作。黄仁勋在台北讲的也是同一个意思：过去的电脑等人，人点击、打字、等结果。Agent时代的电脑不等人，你说出意图，AI自己规划、执行、交付。

GPU + LPU的双芯片系统，就是2026年下一代GPU的真实形态。

这个双芯片架构改变的不只是芯片设计。如果按英伟达建议的3:1 GPU/LPU部署比例，每部署一个GPU推理机架，旁边要配一个LPX机架。推理部署从"一种机架"变成了"两种机架"。

2026年的数据中心有一个被业内称为"金螺丝"的问题——几百万美元的AI服务器，所有零件都齐了，但GPU分配不到，整台机架就是一堆昂贵的废铁。LPX机架不受GPU供应链的制约。推理算力的扩张可以和GPU产能脱钩——训练端仍然被卡脖子，但推理端的金螺丝被解除了。AMD的MI系列、谷歌的TPU、AWS的Trainium都走台积电 + CoWoS + HBM路线，没有任何一家竞争对手拥有第二条独立的推理供应链。这不是技术优势，是结构性优势——它来自英伟达收编Groq这个特定决策，而非GPU架构本身。

不只英伟达

英伟达用200亿和一颗LPU，补上了GPU在推理链条中的短板。

这件事的意义已经足够大。但如果放到更大的背景里看，它只是2026年AI芯片行业发生的两件同类事件中的一件。

2026年1月14日，在英伟达签下Groq协议仅仅三周后，OpenAI和Cerebras签下了超过100亿美元的推理算力合同。

Cerebras走的是一条和Groq完全不同、但同样激进的路线：把一整片300mm硅晶圆直接做成一颗芯片。普通芯片从晶圆上切出几百颗小芯片分别封装，Cerebras不切——整片晶圆就是一颗芯片，46,225平方毫米，比英伟达最大的GPU大56倍，4万亿晶体管，90万个AI计算核心。

它解决的问题和Groq不同：Groq的SRAM解决的是decode延迟，Cerebras的思路是把尽可能多的计算和存储塞进同一片超大芯片里，让数据在片内流动，从根本上减少跨芯片通信的开销。

Sam Altman本人是Cerebras的投资人，OpenAI一度考虑过直接收购它。

全球最大的GPU公司和全球最大的AI模型公司，在几周之内分别做了同一件事：花巨资引入一颗不是GPU的芯片，专门解决推理中GPU干不好的那一环。

那么OpenAI用Cerebras的晶圆级芯片解决的是什么？这是另一个故事了。

AI创投日报频道: 前沿科技

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP