本文来自微信公众号: 未尽研究 ,作者:未尽研究
芯片界曾有句老话:真正的硬汉,要有自己的晶圆厂。
现在这句话正在被改写:真正的大模型公司,迟早都要掌握自己的算力命运。
谁能以更低成本、更低延迟、更高稳定性生产token,谁就能建立起真正可持续的AI商业模式。
过去,通用GPU几乎是AI算力的唯一答案。它足够强、足够通用,也有最成熟的软件生态。但进入推理和智能体时代,一个能同时训练和推理的通用GPU,开始暴露出两个越来越明显的弱点:一方面,它未必是最低成本、最低延迟的推理机器;另一方面,它要求围绕单一GPU集群构建巨大的算力系统,越来越难以适应AI应用日益灵活、分布式、低延迟的需求。
AI算力正在按照任务重新分工。训练、预填充、解码、长上下文、KV缓存、工具执行和系统编排,不再天然属于同一种芯片。
智能体与“推理危机”
上半年推理收入增长快的背后,是巨大的毛利压力。每家AI企业都面临训练的资本开支,以及推理的持续运营成本。智能体、多轮推理、长上下文、代码生成、工具调用会让每个用户请求背后的token消耗成倍放大。推理不是一次性买设备的问题,而是日复一日烧电、烧带宽、烧HBM、烧机房的成本问题。从扎克伯格在内部承认Meta的智能体技术进展“没有像预期那样加速”,到中国号称token工厂的企业顶着巨额亏损准备上市,都可以看出在诸多AI企业中,token经济仍有待于确立。
GPU不只是一块芯片,而是一整条稀缺供应链,用紧缺的供应链支撑高毛利的通用GPU芯片——它迫使短期内专用定制的功能成本更高,这是黄仁勋高明的策略。但是,当这种供应链短缺和英伟达GPU高毛利长期化时,企业开始把AI工作负载拆开,把最稀缺、最昂贵的GPU留给最适合它的任务,把其他任务交给更专用、更便宜、更低延迟或更省电的芯片。
HBM和先进封装的瓶颈,会直接推动内存架构创新。当电力和机房成为硬约束时,企业就会更愿意采用专用芯片。因为哪怕专用芯片不如GPU通用,但如果它在某一类推理任务上能把每瓦token产出提高几倍,就值得部署。
主要用于推理的定制芯片(ASIC),正在成为与CPU、GPU并列的芯片。在推理领域,还会出现进一步分化,在预填充(prefill)阶段和解码(decode)阶段,需要的算力也非常不一样。前者需要消耗大量的计算和高带宽存储,后者需要更快的速度。现在,开始出现专门用于预填充和专门用于解码的芯片了。
更有甚者,英特尔主张把预填充交给GPU,解码交给专用推理芯片,智能体工具执行和系统编排交给CPU。
AI推理成为巨大的瓶颈,它正在定义AI算力的竞争,不再为了谁的GPU更强,而是开始按推理阶段、延迟要求、内存结构、数据流方式重新分化。甚至Flops都不再是最重要的指标。
所有这些,既是“推理危机”给芯片带来的创新机会,也是各大AI企业摆脱过于依赖甚至替代通用GPU的共识和集体行动。
上半年,OpenAI不仅宣布与Cerebras合作,而且推出自研芯片Jalapeño;Anthropic也开始研发自己的定制芯片,媒体传制程可能放到2纳米;谷歌的TPU推出了第八代,明确区分了训练与推理;Anthropic准备采购Fractile芯片。此外,还有英特尔加大投资SambaNova,以及微软支持的D-Matrix。最近,一家名叫Etched的初创公司也开始撩起面纱,很快交付机架级别的产品。
黄仁勋则早已果断地用200亿美元获得了Groq-LPU技术和团队。Cerebras首席执行官费尔德曼(Andrew Feldman)认为,“这反映了一个日益严峻的行业现实——推理市场正在碎片化,一个新的类别已经出现,在这个类别中,速度不再是优势,而是全部价值所在。而这种价值只有通过不同于GPU的芯片架构才能实现。”
五种“反GPU”路径

Cerebras的极端方法,是用整片晶圆消灭跨芯片通信瓶颈。它的核心创新是晶圆级计算(wafer-scale computing)。传统GPU是把一片晶圆切成很多小芯片,再通过NVLink、InfiniBand、以太网等方式把许多芯片连起来。Cerebras反过来,直接把整片晶圆做成一个巨型处理器WSE-3。
WSE-3的规格非常极端:46,225平方毫米,4万亿晶体管,90万个AI优化核心,125 PFLOPS算力。CS-3系统还标称44GB片上SRAM、21PB/s内存带宽、214Pb/s片上互连带宽。所以Cerebras试图反GPU之道而行之,用一个超大芯片,减少多芯片系统的同步、通信和调度成本。
这样的架构把原来GPU集群里最麻烦的跨芯片通信,尽量压缩到一片晶圆内部完成。这对推理尤其关键。因为解码阶段每生成一个token都要经过模型层,层与层之间、张量分片之间的通信如果要跨很多GPU,就会带来不可忽视的延迟。Cerebras试图用一个巨型片上架构把这些通信内部化。
OpenAI正是看中了Cerebras会作为其推理栈中的专用低延迟方案。双方合作的750MW超低延迟推理算力,将分阶段上线,也可以看成OpenAI对这种路线的正式验证。

(WSE 3与GPU B200对比,来源:Cerebras官网)
Groq的LPU路线和Cerebras不同。它不是做一整片晶圆,而是做一种确定性、数据流式、面向语言模型推理的专用处理器。所谓确定性,就是它的并行计算与GPU动态概率式的不同,牺牲了一些通用性,增加了推理速度。
Groq的核心思想是:GPU用大量线程掩盖延迟;LPU尽量让延迟变得可预测。LPU强调片上SRAM、固定调度、显式数据流。
英伟达把Groq技术纳入Vera Rubin平台之后,推出了NVIDIA Groq 3 LPX。官方规格显示,每个LPU有500MB SRAM、150TB/s SRAM带宽、2.5TB/s机架内(scale up)带宽;一个LPX机架有256个LPU,总计128GB SRAM、40PB/s SRAM带宽、640TB/s机架外(scale-up)带宽。这个就是要用极高带宽的SRAM来加速低延迟token生成。
更关键的是,英伟达并不是把Groq LPU当成GPU的替代品,而是把它和Rubin GPU配成一个异构系统,Vera Rubin NVL72+LPX是把Rubin GPU的大HBM容量与SRAM-only LPU的高带宽结合起来,以同时满足长上下文、高吞吐和低延迟。
黄仁勋也到处强调,英伟达不是一家GPU公司,而是一家加速计算系统公司,因为他对形势洞若观火,未来推理不是单一GPU架构包打天下,而是GPU+LPU+CPU+网络+存储的系统级组合。
Google TPU 8t/8i,第一次把训练TPU和推理TPU明确分化,这是谷歌第八代TPU最重要的范式变化。TPU 8t面向大规模预训练,TPU 8i面向采样、服务和推理。训练和推理的硬件需求已经明显分化。
TPU 8t:
-继续使用3D torus拓扑,扩大到9,600芯片级别的超级节点;
-稀疏核(SparseCore)处理嵌入查表(embedding lookup)和不规则内存访问,主要用于推荐、广告、搜索这类超大嵌入表场景中,因为这些场景的稀疏查表非常重;
-向量处理单元/矩阵乘单元(VPU/MXU)重叠执行,让softmax、层归一化(layernorm)、量化等向量操作和矩阵乘更好重叠;提高芯片利用率。
-原生FP4,降低带宽压力;
-Virgo Network提高横向扩展网络能力。
TPU 8i:
-片上SRAM比上一代增加3倍,让更大的KV cache留在硅片上;
-新增集体加速引擎(Collectives Acceleration Engine),用于加速自回归解码、思维链中的归约(reduction)和同步(synchronization);
-使用Boardfly拓扑,减少全互联通信(all-to-all)跳数,把1024芯片节点的网络直径从3D torus的16跳降到7跳,从而降低尾延迟;
-TPU 8i还拥有更高HBM容量和更高HBM带宽,官方显示288GB HBM、384MB片上SRAM、8,601GB/s HBM带宽。
TPU 8i的架构语言其实和Groq、Cerebras、d-Matrix、SambaNova同频:更大SRAM、更低通信跳数、更快的集体加速、更明确服务解码和推理。
Fractile现在还比较早期,要做新一代处理器,把内存和计算物理交织,以同时实现低延迟和高吞吐,并宣称可让前沿模型推理快25倍、成本降到1/10。
Anthropic与Fractile讨论了早期采购,但这还不是确定的大规模部署。Fractile的芯片可能要到2027年左右才具备商业可用性;其路线是把内存和计算放在同一块裸片硅上,用SRAM代替频繁访问外部DRAM,以缓解GPU与离片DRAM之间的数据搬运瓶颈。
所以Fractile可以看成是更激进的近内存/存内推理(near-memory/in-memory inference)路线。它不是做更快的GPU,而是试图在物理结构上改写冯·诺依曼式内存-计算分离。
但它的风险也最大:目前还没有大规模生产验证,性能更多来自设计目标、早期测试或模拟,难以和Cerebras、TPU、NVIDIA/Groq这类已经进入系统部署的方案等量齐观。
SambaNova的核心是RDU,即可重构数据流单元(Reconfigurable Dataflow Unit)。它的关键不是固定功能ASIC,而是把AI模型图映射到处理器上的数据流路径。SambaNova认为,RDU通过数据流架构和三层内存架构来减少数据移动,降低延迟并提高能效;SN50是第五代RDU,面向大规模智能体负载。
SN50的技术特点包括:
-数据流架构,把模型执行路径映射到处理器上;
-三层内存架构,结合大容量内存、HBM和SRAM;
-支持模型驻留和快速切换,适合智能体在多个模型之间频繁切换;
-支持输入token缓存,以减少预填充和首个输出token时间;
-SambaRack SN50把16个SN50芯片连接起来,支持更大的模型和更高并发。
更有意思的是英特尔与SambaNova的合作。英特尔官方称,这个异构推理蓝图会用GPU做预填充,用SambaNova RDU做高吞吐解码,用Xeon 6做主机和执行CPU。
这几乎是当下推理架构分化的教科书案例:预填充交给GPU,解码交给专用推理芯片,智能体工具执行和系统编排交给CPU。这里面依稀看到英特尔在AI时代重回计算中心的野心。
d-Matrix的路线是DIMC,即数字内存计算(Digital In-Memory Compute)。传统加速器使用HBM,但受限于内存和计算物理分离的冯·诺依曼结构;d-Matrix的方法是在逻辑处理中把乘法器集成进内存位单元,让计算更靠近数据,从而降低能耗和延迟。它还强调数字存内计算相比模拟存内计算更抗噪、更灵活。
这个存内计算AI平台Corsair的特点包括:
-数字存内计算;
-高性能片上内存,用于高速交互;
-容量型片外内存,用于更大批处理推理;
-block floating point/microscaling数值格式;
-微芯粒(chiplet)架构;
-DMX Link/DMX Bridge等低延迟互连,即chiplet中不同祼芯片之间的连接,以及不同Corsair芯片之间的连接;
-JetStream自定义NIC,用于加速器之间通信。
Corsair双卡有4GB Performance Memory、300TB/s带宽;一个8卡推理服务器有16GB Performance Memory、1200TB/s;一个推理机架有128GB高性能片上内存、9.6PB/s,并宣称可在Llama3 8B单服务器上做到60,000 tokens/s、1ms/token,在Llama3 70B单机架上做到30,000 tokens/s、2ms/token。d-Matrix和Fractile都认为,推理芯片的未来不只是加更多算力,而是把计算挪到内存附近,甚至内存内部。
最近,Etched撩开了一点面纱。它号称要为Transformer定制一款芯片,以放弃通用性换取极致效率。今年初也在台积电完成4纳米制程的流片,其数学单元在“低于大多数AI芯片一半的电压”下工作,从而提升FLOPs密度,并声称能让“万亿参数级稀疏MoE”在80%以上峰值FLOPs下运行而不热到降频。
它在机架域内设计了一个低延迟共享内存池,主要是在芯片间显著降低了内存互访的延迟。HBM/SRAM混合设计同时解决了内存容量和内存到内存时延的问题,从而能够同时兼顾高吞吐和交互式响应能力。
基于这一所谓集群规模内存(Cluster Scale Memory),Etched要打造AI硬件的“新物种”:前沿推理集群。它们手中有10亿美元订单,将于夏季交付第一台机架部署到数据中心。

对于解决“推理危机”有多大帮助
这些芯片看起来有点五花八门,但共同点非常清楚。
第一,它们都在围绕“内存墙”做文章。
第二,都不再把FLOPS当作唯一指标。推理真正关心的是:
-首token延迟(time to first token);
-单用户token生成速度(tokens per second per user);
-尾延迟(tail latency);
-单位token成本(cost per token);
-单位能耗产出(tokens per watt);
-高并发下是否还能保持延迟(concurrency)。
第三,都在做“数据流化”。GPU更像动态调度的通用并行机器,而这些新架构更像把模型图映射到硬件流水线上,让数据在哪里、什么时候到达、经过哪个单元,都尽量提前安排。
第四,都在成为异构化算力的核心部件。英伟达的Vera Rubin+Groq 3 LPX、Intel+SambaNova、Google TPU 8t/8i,都说明未来不会是一种芯片做完所有事情,而是训练、预填充、解码、KV缓存、工具执行、网络、存储各自分工。
第五,都服务于“智能体推理”。智能体不是一次问答,而是多轮推理、多次工具调用、多模型切换、长上下文复用。
它们要解决问题的核心,是低延迟解码,这是Groq LPU、Cerebras、TPU 8i、d-Matrix、SambaNova、Fractile共同瞄准的目标。
能耗和成本也是一个重要考虑。如果减少离片内存访问,能耗会显著降低,因为数据搬运往往比计算本身更贵。
智能体的链式调用速度决定了用户体验,如果一个智能体要调用模型几十次、几百次,单次响应从300ms降到30ms,工作流能力会发生质变。费尔德曼说“速度不再是优势,而是全部价值”,主要就是针对这种场景。
但它们不能完全解决超大模型容量问题,SRAM很快,但密度低、成本高。没有人真的只靠SRAM解决所有模型容量问题。
软件迁移问题也很麻烦,CUDA、PyTorch、Triton、vLLM、TensorRT-LLM、XLA、JAX这些软件栈非常重要,AI就“原生”其间。硬件快,但如果编译器、运行时、内核、模型支持不成熟,很难大规模替代GPU。
低延迟和高吞吐有时是矛盾的,极低延迟往往牺牲批处理效率(batch efficiency);高吞吐批处理又可能牺牲交互速度。不同客户会选择不同最优点。
供应链和部署也是必须要跨越的死亡之谷,Cerebras的晶圆级封装、Fractile的新型内存-计算结构、d-Matrix的数字存内计算(DIMC)和芯粒互连,都会面临量产、良率、可靠性、冷却和数据中心适配问题。
英伟达的护城河还挺深
这些芯片会让推理市场碎片化,也不会立即毁了英伟达的护城河。英伟达的真正护城河早已不只是GPU芯片本身,而是协同设计的软件和硬件,有机的系统和庞大的生态。
黄仁勋最初用CUDA构筑了一个生态,一道深深的护城河。虽然他主张主权AI,但是,他认为所有的主权AI,都应该跑在美国的AI平台上,实际上也就是英伟达的通用GPU平台上。他还抛出了一个五层蛋糕理论,从电力到应用,构成了英伟达以算力为核心经济与产业体系,也从上游的供应链到下游的模型和应用,构筑了它的战略防御纵深。
除了技术和系统,英伟达还在扮演“算力央行”,用其强大的资产负责表,支持整个生态中的重大、前沿项目的融资。它们不仅短期支撑着英伟达业务的增长和高毛利,还长期锁定客户、供应链和前沿技术。
黄仁勋对于整个算力基础设施拥有最深刻的洞察,他总能最先发现下一个瓶颈,并通过研发、并购、供应链锁定、生态合作等方式,把瓶颈的解决内化到他的系统中去。
在推理芯片市场,英伟达近年来市场份额实际上已增长至74%。黄仁勋坚称,英伟达的芯片在推理处理方面比任何其他替代方案都更有效。
--
参考文献:
https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale "Groq and Nvidia Enter Non-Exclusive Inference Technology Licensing Agreement to Accelerate AI Inference at Global Scale|Groq is fast,low cost inference."
https://sambanova.ai/blog/introducing-the-sn50-rdu-purpose-built-for-agentic-inference "Introducing the SN50 RDU:Purpose-Built for Agentic Inference"
https://openai.com/index/cerebras-partnership/"OpenAI partners with Cerebras|OpenAI"
https://www.cerebras.ai/chip "Product-Chip-Cerebras"
https://www.cerebras.ai/system "Product-System-Cerebras"
https://www.nvidia.com/en-us/data-center/lpx/"AI Inference Accelerator|NVIDIA Groq 3 LPX "
https://developer.nvidia.com/blog/nvidia-vera-rubin-pod-seven-chips-five-rack-scale-systems-one-ai-supercomputer/"NVIDIA Vera Rubin POD:Seven Chips,Five Rack-Scale Systems,One AI Supercomputer|NVIDIA Technical Blog"
https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive "TPU 8t and TPU 8i technical deep dive|Google Cloud Blog"
https://www.fractile.ai/"Fractile-Radically Accelerate Frontier Model Inference"
https://www.tomshardware.com/tech-industry/artificial-intelligence/anthropic-in-early-talks-to-buy-inference-chips-from-uk-startup-fractile "Anthropic in early talks to buy DRAM-less AI inference chips from UK startup—Fractile's SRAM architecture reduces need for pricey memory during extreme pricing and shortage crunch|Tom's Hardware"
https://sambanova.ai/products/rdu-ai-chips "RDU|Next-Gen AI Chip for Inference at Scale"
https://newsroom.intel.com/artificial-intelligence/intel-and-sambanova-advance-agentic-ai-with-xeon-6 "Intel and SambaNova Advance Agentic AI with Xeon 6-Intel Newsroom"
https://www.d-matrix.ai/product/"d-Matrix Corsair AI Platform|In-Memory Computing for AI"
https://www.d-matrix.ai/announcements/d-matrix-raises-275-million-to-power-the-age-of-ai-inference/"d-Matrix Raises$275 Million to Power the Age of AI Inference-d-Matrix"
