通用GPU难以适配AI推理新需求，专用推理芯片正推动算力格局重构，行业进入多芯片分工的异构时代，英伟达护城河仍存但格局已生变。 ## 1. AI推理催生算力分工变革进入智能体与推理时代，通用GPU暴露出推理成本高、难以适配分布式低延迟需求的缺陷。智能体多轮推理会使token消耗成倍放大，持续运营成本过高，token经济尚未确立，行业迫切需要更低成本、更低延迟的推理方案。HBM与先进封装瓶颈、电力机房约束下，企业开始拆分AI工作负载，将非核心任务交给专用推理芯片，推理芯片正成为与CPU、GPU并列的算力选择，甚至推理内部预填充、解码阶段也出现芯片分化。 ## 2. 当前主流的专用推理芯片路线目前行业已经形成多条差异化的推理芯片创新路线： 1. **晶圆级计算路线（Cerebras）**：直接将整片晶圆做成巨型处理器WSE-3，拥有4万亿晶体管、125 PFLOPS算力，将跨芯片通信压缩到晶圆内部降低延迟，已成为OpenAI的低延迟推理合作方案。 2. **确定性流式LPU路线（Groq，已被英伟达收购）**：以片上高带宽SRAM加速token生成，将与英伟达Rubin GPU组成异构系统，结合GPU大HBM容量与LPU高带宽优势，同时满足长上下文、高吞吐与低延迟需求。 3. **训练推理明确分化路线（谷歌TPU 8代）**：TPU 8t面向大规模预训练，TPU 8i专门面向推理，通过扩大片上SRAM、新增集体加速引擎、优化网络拓扑降低尾延迟，TPU 8i配备288GB HBM、8601GB/s HBM带宽，核心设计方向与多数专用推理芯片一致。 4. **近内存/存内计算路线**：代表为Fractile和d-Matrix，将计算靠近或融入内存，缓解冯诺依曼架构的数据搬运瓶颈，d-Matrix的Corsair平台宣称可在Llama3 70B单机架实现30000 tokens/s、2ms/token的性能。 5. **异构分工路线（英特尔+SambaNova）**：明确采用GPU做预填充、SambaNova RDU做高吞吐解码、CPU做工具编排的分工方案，是当前推理架构分化的典型案例。 ## 3. 新推理方案的核心共识与现存挑战新推理架构的共识清晰：都围绕解决内存墙创新，不再以FLOPS为核心指标，更关注首token延迟、单位token成本、单位能耗产出等推理核心指标，普遍采用数据流化设计，都作为异构算力的组成部分，核心目标都是服务智能体推理的低延迟解码需求。目前新方案仍面临多个挑战：SRAM低容量高成本无法解决全场景模型容量需求，软件生态迁移难度大，低延迟与高吞吐存在天然矛盾，创新架构还面临量产良率、数据中心适配等供应链考验。 ## 4. 英伟达护城河仍保持深厚推理芯片创新推动市场碎片化，但并未直接动摇英伟达的核心优势，其护城河早已不只是GPU芯片，而是软硬协同的完整生态与从供应链到应用的战略防御纵深，还通过资产负债表支撑生态项目锁定客户与技术，目前英伟达在推理芯片市场份额已增长至74%。黄仁勋已预判格局变化，将公司定位为加速计算系统公司，通过收购Groq等动作布局异构推理，提前将推理创新内化到自身系统中。

2026-07-04 05:28

GPU帝国松动：推理芯片正在重写AI算力格局

未尽研究

速览

本文来自微信公众号：未尽研究，作者：未尽研究

芯片界曾有句老话：真正的硬汉，要有自己的晶圆厂。

现在这句话正在被改写：真正的大模型公司，迟早都要掌握自己的算力命运。

谁能以更低成本、更低延迟、更高稳定性生产token，谁就能建立起真正可持续的AI商业模式。

过去，通用GPU几乎是AI算力的唯一答案。它足够强、足够通用，也有最成熟的软件生态。但进入推理和智能体时代，一个能同时训练和推理的通用GPU，开始暴露出两个越来越明显的弱点：一方面，它未必是最低成本、最低延迟的推理机器；另一方面，它要求围绕单一GPU集群构建巨大的算力系统，越来越难以适应AI应用日益灵活、分布式、低延迟的需求。

AI算力正在按照任务重新分工。训练、预填充、解码、长上下文、KV缓存、工具执行和系统编排，不再天然属于同一种芯片。

智能体与“推理危机”

上半年推理收入增长快的背后，是巨大的毛利压力。每家AI企业都面临训练的资本开支，以及推理的持续运营成本。智能体、多轮推理、长上下文、代码生成、工具调用会让每个用户请求背后的token消耗成倍放大。推理不是一次性买设备的问题，而是日复一日烧电、烧带宽、烧HBM、烧机房的成本问题。从扎克伯格在内部承认Meta的智能体技术进展“没有像预期那样加速”，到中国号称token工厂的企业顶着巨额亏损准备上市，都可以看出在诸多AI企业中，token经济仍有待于确立。

GPU不只是一块芯片，而是一整条稀缺供应链，用紧缺的供应链支撑高毛利的通用GPU芯片——它迫使短期内专用定制的功能成本更高，这是黄仁勋高明的策略。但是，当这种供应链短缺和英伟达GPU高毛利长期化时，企业开始把AI工作负载拆开，把最稀缺、最昂贵的GPU留给最适合它的任务，把其他任务交给更专用、更便宜、更低延迟或更省电的芯片。

HBM和先进封装的瓶颈，会直接推动内存架构创新。当电力和机房成为硬约束时，企业就会更愿意采用专用芯片。因为哪怕专用芯片不如GPU通用，但如果它在某一类推理任务上能把每瓦token产出提高几倍，就值得部署。

主要用于推理的定制芯片（ASIC），正在成为与CPU、GPU并列的芯片。在推理领域，还会出现进一步分化，在预填充（prefill）阶段和解码（decode）阶段，需要的算力也非常不一样。前者需要消耗大量的计算和高带宽存储，后者需要更快的速度。现在，开始出现专门用于预填充和专门用于解码的芯片了。

更有甚者，英特尔主张把预填充交给GPU，解码交给专用推理芯片，智能体工具执行和系统编排交给CPU。

AI推理成为巨大的瓶颈，它正在定义AI算力的竞争，不再为了谁的GPU更强，而是开始按推理阶段、延迟要求、内存结构、数据流方式重新分化。甚至Flops都不再是最重要的指标。

所有这些，既是“推理危机”给芯片带来的创新机会，也是各大AI企业摆脱过于依赖甚至替代通用GPU的共识和集体行动。

上半年，OpenAI不仅宣布与Cerebras合作，而且推出自研芯片Jalapeño；Anthropic也开始研发自己的定制芯片，媒体传制程可能放到2纳米；谷歌的TPU推出了第八代，明确区分了训练与推理；Anthropic准备采购Fractile芯片。此外，还有英特尔加大投资SambaNova，以及微软支持的D-Matrix。最近，一家名叫Etched的初创公司也开始撩起面纱，很快交付机架级别的产品。

黄仁勋则早已果断地用200亿美元获得了Groq-LPU技术和团队。Cerebras首席执行官费尔德曼（Andrew Feldman）认为，“这反映了一个日益严峻的行业现实——推理市场正在碎片化，一个新的类别已经出现，在这个类别中，速度不再是优势，而是全部价值所在。而这种价值只有通过不同于GPU的芯片架构才能实现。”

五种“反GPU”路径

Cerebras的极端方法，是用整片晶圆消灭跨芯片通信瓶颈。它的核心创新是晶圆级计算（wafer-scale computing）。传统GPU是把一片晶圆切成很多小芯片，再通过NVLink、InfiniBand、以太网等方式把许多芯片连起来。Cerebras反过来，直接把整片晶圆做成一个巨型处理器WSE-3。

WSE-3的规格非常极端：46,225平方毫米，4万亿晶体管，90万个AI优化核心，125 PFLOPS算力。CS-3系统还标称44GB片上SRAM、21PB/s内存带宽、214Pb/s片上互连带宽。所以Cerebras试图反GPU之道而行之，用一个超大芯片，减少多芯片系统的同步、通信和调度成本。

这样的架构把原来GPU集群里最麻烦的跨芯片通信，尽量压缩到一片晶圆内部完成。这对推理尤其关键。因为解码阶段每生成一个token都要经过模型层，层与层之间、张量分片之间的通信如果要跨很多GPU，就会带来不可忽视的延迟。Cerebras试图用一个巨型片上架构把这些通信内部化。

OpenAI正是看中了Cerebras会作为其推理栈中的专用低延迟方案。双方合作的750MW超低延迟推理算力，将分阶段上线，也可以看成OpenAI对这种路线的正式验证。

（WSE 3与GPU B200对比，来源：Cerebras官网）

Groq的LPU路线和Cerebras不同。它不是做一整片晶圆，而是做一种确定性、数据流式、面向语言模型推理的专用处理器。所谓确定性，就是它的并行计算与GPU动态概率式的不同，牺牲了一些通用性，增加了推理速度。

Groq的核心思想是：GPU用大量线程掩盖延迟；LPU尽量让延迟变得可预测。LPU强调片上SRAM、固定调度、显式数据流。

英伟达把Groq技术纳入Vera Rubin平台之后，推出了NVIDIA Groq 3 LPX。官方规格显示，每个LPU有500MB SRAM、150TB/s SRAM带宽、2.5TB/s机架内（scale up）带宽；一个LPX机架有256个LPU，总计128GB SRAM、40PB/s SRAM带宽、640TB/s机架外（scale-up）带宽。这个就是要用极高带宽的SRAM来加速低延迟token生成。

更关键的是，英伟达并不是把Groq LPU当成GPU的替代品，而是把它和Rubin GPU配成一个异构系统，Vera Rubin NVL72+LPX是把Rubin GPU的大HBM容量与SRAM-only LPU的高带宽结合起来，以同时满足长上下文、高吞吐和低延迟。

黄仁勋也到处强调，英伟达不是一家GPU公司，而是一家加速计算系统公司，因为他对形势洞若观火，未来推理不是单一GPU架构包打天下，而是GPU+LPU+CPU+网络+存储的系统级组合。

Google TPU 8t/8i，第一次把训练TPU和推理TPU明确分化，这是谷歌第八代TPU最重要的范式变化。TPU 8t面向大规模预训练，TPU 8i面向采样、服务和推理。训练和推理的硬件需求已经明显分化。

TPU 8t：

-继续使用3D torus拓扑，扩大到9,600芯片级别的超级节点；

-稀疏核（SparseCore）处理嵌入查表（embedding lookup）和不规则内存访问，主要用于推荐、广告、搜索这类超大嵌入表场景中，因为这些场景的稀疏查表非常重；

-向量处理单元/矩阵乘单元(VPU/MXU)重叠执行，让softmax、层归一化（layernorm）、量化等向量操作和矩阵乘更好重叠；提高芯片利用率。

-原生FP4，降低带宽压力；

-Virgo Network提高横向扩展网络能力。

TPU 8i：

-片上SRAM比上一代增加3倍，让更大的KV cache留在硅片上；

-新增集体加速引擎（Collectives Acceleration Engine），用于加速自回归解码、思维链中的归约（reduction）和同步（synchronization）；

-使用Boardfly拓扑，减少全互联通信（all-to-all）跳数，把1024芯片节点的网络直径从3D torus的16跳降到7跳，从而降低尾延迟；

-TPU 8i还拥有更高HBM容量和更高HBM带宽，官方显示288GB HBM、384MB片上SRAM、8,601GB/s HBM带宽。

TPU 8i的架构语言其实和Groq、Cerebras、d-Matrix、SambaNova同频：更大SRAM、更低通信跳数、更快的集体加速、更明确服务解码和推理。

Fractile现在还比较早期，要做新一代处理器，把内存和计算物理交织，以同时实现低延迟和高吞吐，并宣称可让前沿模型推理快25倍、成本降到1/10。

Anthropic与Fractile讨论了早期采购，但这还不是确定的大规模部署。Fractile的芯片可能要到2027年左右才具备商业可用性；其路线是把内存和计算放在同一块裸片硅上，用SRAM代替频繁访问外部DRAM，以缓解GPU与离片DRAM之间的数据搬运瓶颈。

所以Fractile可以看成是更激进的近内存/存内推理（near-memory/in-memory inference）路线。它不是做更快的GPU，而是试图在物理结构上改写冯·诺依曼式内存-计算分离。

但它的风险也最大：目前还没有大规模生产验证，性能更多来自设计目标、早期测试或模拟，难以和Cerebras、TPU、NVIDIA/Groq这类已经进入系统部署的方案等量齐观。

SambaNova的核心是RDU，即可重构数据流单元（Reconfigurable Dataflow Unit）。它的关键不是固定功能ASIC，而是把AI模型图映射到处理器上的数据流路径。SambaNova认为，RDU通过数据流架构和三层内存架构来减少数据移动，降低延迟并提高能效；SN50是第五代RDU，面向大规模智能体负载。

SN50的技术特点包括：

-数据流架构，把模型执行路径映射到处理器上；

-三层内存架构，结合大容量内存、HBM和SRAM；

-支持模型驻留和快速切换，适合智能体在多个模型之间频繁切换；

-支持输入token缓存，以减少预填充和首个输出token时间；

-SambaRack SN50把16个SN50芯片连接起来，支持更大的模型和更高并发。

更有意思的是英特尔与SambaNova的合作。英特尔官方称，这个异构推理蓝图会用GPU做预填充，用SambaNova RDU做高吞吐解码，用Xeon 6做主机和执行CPU。

这几乎是当下推理架构分化的教科书案例：预填充交给GPU，解码交给专用推理芯片，智能体工具执行和系统编排交给CPU。这里面依稀看到英特尔在AI时代重回计算中心的野心。

d-Matrix的路线是DIMC，即数字内存计算（Digital In-Memory Compute）。传统加速器使用HBM，但受限于内存和计算物理分离的冯·诺依曼结构；d-Matrix的方法是在逻辑处理中把乘法器集成进内存位单元，让计算更靠近数据，从而降低能耗和延迟。它还强调数字存内计算相比模拟存内计算更抗噪、更灵活。

这个存内计算AI平台Corsair的特点包括：

-数字存内计算；

-高性能片上内存，用于高速交互；

-容量型片外内存，用于更大批处理推理；

-block floating point/microscaling数值格式；

-微芯粒(chiplet)架构；

-DMX Link/DMX Bridge等低延迟互连，即chiplet中不同祼芯片之间的连接，以及不同Corsair芯片之间的连接；

-JetStream自定义NIC，用于加速器之间通信。

Corsair双卡有4GB Performance Memory、300TB/s带宽；一个8卡推理服务器有16GB Performance Memory、1200TB/s；一个推理机架有128GB高性能片上内存、9.6PB/s，并宣称可在Llama3 8B单服务器上做到60,000 tokens/s、1ms/token，在Llama3 70B单机架上做到30,000 tokens/s、2ms/token。d-Matrix和Fractile都认为，推理芯片的未来不只是加更多算力，而是把计算挪到内存附近，甚至内存内部。

最近，Etched撩开了一点面纱。它号称要为Transformer定制一款芯片，以放弃通用性换取极致效率。今年初也在台积电完成4纳米制程的流片，其数学单元在“低于大多数AI芯片一半的电压”下工作，从而提升FLOPs密度，并声称能让“万亿参数级稀疏MoE”在80%以上峰值FLOPs下运行而不热到降频。

它在机架域内设计了一个低延迟共享内存池，主要是在芯片间显著降低了内存互访的延迟。HBM/SRAM混合设计同时解决了内存容量和内存到内存时延的问题，从而能够同时兼顾高吞吐和交互式响应能力。

基于这一所谓集群规模内存（Cluster Scale Memory），Etched要打造AI硬件的“新物种”：前沿推理集群。它们手中有10亿美元订单，将于夏季交付第一台机架部署到数据中心。

对于解决“推理危机”有多大帮助

这些芯片看起来有点五花八门，但共同点非常清楚。

第一，它们都在围绕“内存墙”做文章。

第二，都不再把FLOPS当作唯一指标。推理真正关心的是：

-首token延迟(time to first token)；

-单用户token生成速度(tokens per second per user)；

-尾延迟(tail latency)；

-单位token成本(cost per token)；

-单位能耗产出(tokens per watt)；

-高并发下是否还能保持延迟(concurrency)。

第三，都在做“数据流化”。GPU更像动态调度的通用并行机器，而这些新架构更像把模型图映射到硬件流水线上，让数据在哪里、什么时候到达、经过哪个单元，都尽量提前安排。

第四，都在成为异构化算力的核心部件。英伟达的Vera Rubin+Groq 3 LPX、Intel+SambaNova、Google TPU 8t/8i，都说明未来不会是一种芯片做完所有事情，而是训练、预填充、解码、KV缓存、工具执行、网络、存储各自分工。

第五，都服务于“智能体推理”。智能体不是一次问答，而是多轮推理、多次工具调用、多模型切换、长上下文复用。

它们要解决问题的核心，是低延迟解码，这是Groq LPU、Cerebras、TPU 8i、d-Matrix、SambaNova、Fractile共同瞄准的目标。

能耗和成本也是一个重要考虑。如果减少离片内存访问，能耗会显著降低，因为数据搬运往往比计算本身更贵。

智能体的链式调用速度决定了用户体验，如果一个智能体要调用模型几十次、几百次，单次响应从300ms降到30ms，工作流能力会发生质变。费尔德曼说“速度不再是优势，而是全部价值”，主要就是针对这种场景。

但它们不能完全解决超大模型容量问题，SRAM很快，但密度低、成本高。没有人真的只靠SRAM解决所有模型容量问题。

软件迁移问题也很麻烦，CUDA、PyTorch、Triton、vLLM、TensorRT-LLM、XLA、JAX这些软件栈非常重要，AI就“原生”其间。硬件快，但如果编译器、运行时、内核、模型支持不成熟，很难大规模替代GPU。

低延迟和高吞吐有时是矛盾的，极低延迟往往牺牲批处理效率（batch efficiency）；高吞吐批处理又可能牺牲交互速度。不同客户会选择不同最优点。

供应链和部署也是必须要跨越的死亡之谷，Cerebras的晶圆级封装、Fractile的新型内存-计算结构、d-Matrix的数字存内计算（DIMC）和芯粒互连，都会面临量产、良率、可靠性、冷却和数据中心适配问题。

英伟达的护城河还挺深

这些芯片会让推理市场碎片化，也不会立即毁了英伟达的护城河。英伟达的真正护城河早已不只是GPU芯片本身，而是协同设计的软件和硬件，有机的系统和庞大的生态。

黄仁勋最初用CUDA构筑了一个生态，一道深深的护城河。虽然他主张主权AI，但是，他认为所有的主权AI，都应该跑在美国的AI平台上，实际上也就是英伟达的通用GPU平台上。他还抛出了一个五层蛋糕理论，从电力到应用，构成了英伟达以算力为核心经济与产业体系，也从上游的供应链到下游的模型和应用，构筑了它的战略防御纵深。

除了技术和系统，英伟达还在扮演“算力央行”，用其强大的资产负责表，支持整个生态中的重大、前沿项目的融资。它们不仅短期支撑着英伟达业务的增长和高毛利，还长期锁定客户、供应链和前沿技术。

黄仁勋对于整个算力基础设施拥有最深刻的洞察，他总能最先发现下一个瓶颈，并通过研发、并购、供应链锁定、生态合作等方式，把瓶颈的解决内化到他的系统中去。

在推理芯片市场，英伟达近年来市场份额实际上已增长至74%。黄仁勋坚称，英伟达的芯片在推理处理方面比任何其他替代方案都更有效。

参考文献：

https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale "Groq and Nvidia Enter Non-Exclusive Inference Technology Licensing Agreement to Accelerate AI Inference at Global Scale|Groq is fast,low cost inference."

https://sambanova.ai/blog/introducing-the-sn50-rdu-purpose-built-for-agentic-inference "Introducing the SN50 RDU:Purpose-Built for Agentic Inference"

https://openai.com/index/cerebras-partnership/"OpenAI partners with Cerebras|OpenAI"

https://www.cerebras.ai/chip "Product-Chip-Cerebras"

https://www.cerebras.ai/system "Product-System-Cerebras"

https://www.nvidia.com/en-us/data-center/lpx/"AI Inference Accelerator|NVIDIA Groq 3 LPX "

https://developer.nvidia.com/blog/nvidia-vera-rubin-pod-seven-chips-five-rack-scale-systems-one-ai-supercomputer/"NVIDIA Vera Rubin POD:Seven Chips,Five Rack-Scale Systems,One AI Supercomputer|NVIDIA Technical Blog"

https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive "TPU 8t and TPU 8i technical deep dive|Google Cloud Blog"

https://www.fractile.ai/"Fractile-Radically Accelerate Frontier Model Inference"

https://www.tomshardware.com/tech-industry/artificial-intelligence/anthropic-in-early-talks-to-buy-inference-chips-from-uk-startup-fractile "Anthropic in early talks to buy DRAM-less AI inference chips from UK startup—Fractile's SRAM architecture reduces need for pricey memory during extreme pricing and shortage crunch|Tom's Hardware"

https://sambanova.ai/products/rdu-ai-chips "RDU|Next-Gen AI Chip for Inference at Scale"

https://newsroom.intel.com/artificial-intelligence/intel-and-sambanova-advance-agentic-ai-with-xeon-6 "Intel and SambaNova Advance Agentic AI with Xeon 6-Intel Newsroom"

https://www.d-matrix.ai/product/"d-Matrix Corsair AI Platform|In-Memory Computing for AI"

https://www.d-matrix.ai/announcements/d-matrix-raises-275-million-to-power-the-age-of-ai-inference/"d-Matrix Raises$275 Million to Power the Age of AI Inference-d-Matrix"

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP