当前AI加速器的性能瓶颈已从算力转向内存和互联架构，HBM、3D堆叠、存内计算等技术成为突破关键，新的三维分类框架以内存/互联为核心重构了硬件评估标准。 ## 1. AI加速器的进化路线：从通用到专用 - CPU因并行能力不足被GPU取代，后者凭借CUDA生态成为训练主力 - 专用加速器（TPU/NPU）通过硅片级优化实现更高能效，Cerebras晶圆级芯片代表极端专用化 - 市场形成GPU（训练）、ASIC/NPU（推理）的格局，HBM内存成标配 ## 2. 内存墙：算力与带宽的致命鸿沟 - 处理器算力增速远超内存带宽，HBM3E通过3D堆叠实现1.2TB/s单堆带宽 - 片上网络(NoC)解决百万计算核通信问题，网状拓扑扩展性好但延迟高 - 3D堆叠计算芯片（如CoWoS封装）带宽超1TB/s，但面临散热和良率挑战 ## 3. 内存革命：近存与存内计算 - 近存计算将运算单元嵌入HBM逻辑层，商用产品已落地 - 存内计算直接在SRAM单元运算，能效提升10-100倍，但精度和扩展性待突破 - 对比传统架构，存内计算数据移动能耗降低90%以上 ## 4. 三维分类框架：重构硬件评估标准 - **新坐标轴**：内存架构（HBM/存内）、互联拓扑（NoC/Chiplet）、集成策略（3D/晶圆级） - **六类典型**：H100属2.5D中介层B类，Cerebras WSE3属晶圆级F类（21PB/s带宽） - 关键结论：B类（HBM+NoC）当前主流，E类（Chiplet）代表未来方向 ## 5. 晶圆级引擎的极端实践 - Cerebras WSE3整合4万亿晶体管，44GB片上SRAM实现21PB/s带宽 - 对比H100：内存带宽高7000倍，但功耗23kW、成本超200万美元 - 创新点：跨光罩网状互联、计算-内存分离架构、层间流水设计 ## 6. 未来趋势：2030技术路线图 - Chiplet架构依托UCIe标准成主流，多厂商异构集成加速 - 先进封装（混合键合/3D堆叠）成本五年内降30%-50% - 软件生态决定硬件创新落地，编译器优化比峰值算力更重要

2026-04-22 18:08

算力不是瓶颈？AI加速器的真正命门在这里

歪睿老哥©

本文来自微信公众号：歪睿老哥，作者：歪睿老哥

现在跑大模型，大家都在喊算力不够，要堆更多核心。

但现在AI加速器的性能瓶颈，早就不是计算单元本身，而是内存和互联架构。

1.先搞清楚：AI加速器到底是怎么进化到今天的

AI硬件的发展路线其实非常清晰，就是从通用到专用一步步走过来的。

最早大家都用CPU跑AI，CPU本身擅长灵活处理各种通用任务，但AI大模型都是高度并行的矩阵运算，CPU的架构天生不适合，跑起来效率太低。

然后GPU就起来了，GPU原本是做图形渲染的，靠几千个简单核心实现大规模并行，刚好匹配AI训练的需求，再加上CUDA这套成熟的软件生态，一直到今天都是大模型训练的主力。

接下来就是专用AI加速器进场了：谷歌搞了TPU，苹果华为这些厂商做了NPU，都是把AI常用的矩阵乘法、卷积这些运算直接做进硅片里，针对性优化吞吐量和能效比。再到后来，甚至出现了Cerebras这种把一整块硅晶圆做成一个芯片的极端方案。

AI加速器从通用CPU到专用晶圆级芯片的进化路线

现在业内已经把AI加速器分成了五大类：

1.通用GPU：浮点吞吐高，编程灵活，训练推理都能用，目前还是市场主力

2.TPU类定制ASIC：针对张量运算优化，用脉动阵列和低精度计算换高能效，主要用在云数据中心

3.NPU：针对端侧和移动设备设计，主打低功耗推理，手机里的AI引擎都是这类

4.定制化ASIC：包括存内计算芯片、可重配置数据流单元、晶圆级引擎这类专用方案

5.FPGA：可重构，适合模型快速迭代，但峰值吞吐量比不过ASIC和GPU

现在市场的趋势很明显：GPU靠着成熟生态依然垄断训练市场，但ASIC和NPU在推理和端侧场景占比越来越高。大模型规模越来越大，行业对更高内存带宽、更低延迟、更高能效的需求越来越迫切，也逼着内存和互联架构不停出新。

2.核心矛盾：越来越严重的内存墙

什么叫内存墙？

就是处理器的算力增长速度，一直远远快于内存带宽的增长速度，两者的差距越来越大，数据传不出来，就算有再多计算单元也没事干，这个就是AI加速器最大的瓶颈。

内存墙：处理器速度和内存带宽的差距随时间不断拉大

为了填内存墙的坑，现在AI加速器在内存和互联上搞出了一堆创新，HBM，NOC，3D堆叠，近存计算和存内计算，多芯片互联（chiplet）等等。我们一个个说。

高带宽内存HBM：现在AI加速器的标准配置

HBM本质就是把内存颗粒竖着叠起来，用硅通孔（TSV）技术把每一层连起来，再和计算芯片做在一起。

这种3D堆叠的方式大大缩短了数据传输的路径，比传统的DDR、GDDR带宽高很多，功耗还更低。

HBM的3D堆叠结构：多层DRAM通过TSV连接到逻辑芯片

HBM已经发展了好多代，参数提升非常明显：

目前最新的HBM3E已经做到单堆超过1.2TB/s带宽，HBM4直接把接口宽度翻了一倍，能跑到2TB/s单堆，已经用在最新一代AI加速卡上了。

当然HBM也不是完美的：3D堆叠密度太高，散热难，制造工艺复杂，成本也比传统内存高很多。

要把HBM用起来，还需要CoWoS、InFO这类先进封装技术配合，对供应链的要求很高。

片上网络NoC：上千个计算核怎么连起来

现在AI加速器动辄集成几十万上百万个计算单元，这些核之间怎么通信？全靠片上网络NoC。

现在主流的NoC拓扑有几种：网状、环面、分层，通常还会配合模块化的拼砖设计，方便芯片规模往大了做。

AI加速器常用的两种NoC拓扑：左为2D网状，右为分层拓扑

网状拓扑（mesh）配合模块化tile的好处是设计规则，好扩展，还能做动态功耗管理：不用的tile直接断电，能省不少电。

但缺点也很明显：芯片做大之后，两个核通信要跳很多站，延迟会往上飘。

分层或者混合拓扑就能解决这个问题，优化局部通信，减少全局通信的开销，就是设计复杂度会高一点。

现在新兴的chiplet架构还把NoC的概念延伸到了芯片之间，用UCIe这类开放标准实现芯片间的高带宽连接，这个我们后面说。

3D堆叠计算：从内存堆叠往计算堆叠走

3D堆叠不光能用在内存上，还能把多个计算芯片竖着叠在一起，靠TSV做垂直互联，能做到超过1TB/s的带宽，互联密度也比传统方案高很多。

现在主流的3D集成方案有三种：

三种常见的3D集成方案对比：3D TSV堆叠、2.5D中介层、引线键合堆叠

第一种是3D TSV堆叠：芯片直接叠在一起，用TSV做垂直连接，带宽最高，但散热和良率问题最难解决。

第二种是2.5D硅中介层：多个芯片（比如GPU+HBM）并排放在硅中介层上，靠中介层的高密度走线互联，这是目前HBM搭配GPU的主流方案，NVIDIA的A100、H100都是这么做的。

第三种是引线键合堆叠：芯片叠好之后用导线连接，带宽低延迟高，现在GPU领域基本不用。

总的来说，3D堆叠能带来更高带宽和更小体积，但设计更复杂，成本更高，散热难度也大，目前行业还在探索更好的解决办法，比如微流道散热、背面供电这些新技术都是冲着这些问题来的。

近存计算和存内计算：把计算往内存边上挪

解决数据移动的能耗问题，最直接的思路就是把计算放去内存那边，别让数据大老远跑来找计算。这里分两种路线：近存计算NMC和存内计算IMC。

三种架构对比：传统分离计算、近存计算、存内计算

近存计算就是把计算单元放在内存旁边，比如HBM的逻辑芯片里集成计算单元，这样能拿到高带宽低延迟，技术也更成熟，现在已经有商用产品了。

存内计算更激进，直接在内存单元里做计算，比如用SRAM或者阻变存储器这类存储，直接在原位做矩阵向量乘法，能效比比传统设计能高10到100倍。但存内计算现在还面临精度不够、难扩展、不好和数字逻辑集成的问题，还没大规模商用。

多芯片互联：chiplet时代的互联技术

现在把多个小芯片（chiplet）封装在一起已经是主流方案，封装内的互联技术就成了关键。

目前几种主流方案：硅中介层能提供高密度布线，适合2.5D集成；再分布层（RDL）中介层是更便宜的方案，成本低，还能保持不错的带宽和信号完整性；还有UCIe开放标准，以及NVLink、Infinity Fabric这类私有协议，都能实现chiplet之间的高速低延迟通信。

现在RDL中介层和UCIe这类开放标准越来越火，因为制造难度低，生态支持好，能帮更多公司做chiplet方案。

3.全新分类框架：从内存和互联重新给AI加速器分类

之前大家给AI加速器分类，要么按计算架构分（比如SIMD还是脉动阵列），要么按应用场景分（训练还是推理），要么按芯片类型分（GPU/TPU/NPU）。

但现在内存和互联已经决定了AI加速器的性能。于是一个全新的三维分类框架，三个坐标轴分别是：

1.内存架构：内存的层次结构、带宽，以及内存和计算的距离，比如传统显存、HBM、近存、存内

2.互联拓扑：片上和封装内网络的结构和可扩展性，比如总线、网状、分层、chiplet互联、晶圆级互联

3.集成策略：计算和内存的物理集成方式，比如单芯片、2.5D中介层、3D堆叠、晶圆级集成

AI加速器三维分类框架示意图

按照这个框架，可以把现在所有AI加速器分成六类：

类别	内存架构	互联拓扑	集成策略	典型例子
A类	片外DRAM（DDR/GDDR）	总线/PCIe	单片SoC	早期GPU
B类	2.5D HBM（TSV）	网状NoC	中介层集成	NVIDIA H100、AMD MI300
C类	3D堆叠HBM/近存计算	分层NoC	3D TSV堆叠	新一代近存加速芯片
D类	存内计算	Tile分片NoC	单片/Chiplet	存内计算AI芯片
E类	Chiplet	UCIe/定制互联	多芯片封装	新一代Chiplet AI加速器
F类	晶圆级SRAM/近存	晶圆级网状NoC	晶圆级集成	Cerebras WSE

不同类别的trade-off非常清晰：

A类带宽低，扩展性差，内存读写制约了AI的系统

B类就是现在的主流，带宽高，能效好，扩展性也不错，就是面积效率一般

C类带宽比B类更高，能效也更好，扩展性和B类相当

D类局部带宽极高，能效是最好的，但目前扩展性还不够

E类带宽、能效、面积效率都不错，扩展性是最好的，符合未来方向

F类带宽是极端高，扩展性不受限，能效也好，但面积效率低，成本非常高

B类HBM GPU和F类晶圆级加速器的trade-off对比雷达图

这个分类框架的好处，就是把之前大家关注的计算核心放到了次要位置，抓住了现在AI加速器最核心的矛盾——内存和互联，不管是做研究还是做产品，都能更清晰地对比不同设计，选对技术方向。

4.极端案例：Cerebras晶圆级引擎到底强在哪

拿Cerebras的WSE晶圆级引擎来说，这个是F类晶圆级加速器的典型代表，思路和传统GPU完全不一样。

最新的WSE 3用台积电5nm工艺做，规格非常夸张：4万亿晶体管，90万个AI优化核心，44GB片上SRAM，内存带宽达到了21PB/s，FP16峰值算力125PFLOPS，能直接支持最多24万亿参数的大模型。

Cerebras WSE3的晶圆级架构示意图：整个晶圆就是一个芯片，网状互联跨越所有光罩边界

它在内存和互联上的创新非常有意思：

第一，整个晶圆做了一个全覆盖的2D网状NoC，把原本切割芯片的划片槽改成了跨光罩的连线，实现了整个晶圆所有核心的无缝互联，延迟低，带宽高。

第二，它用了计算内存分离的架构，和传统GPU把计算和HBM绑在一起不一样，WSE把计算做在晶圆上，内存放在外部的MemoryX模块里，可以单独扩展内存，适合放超大模型。

第三，它做层间流水，整个晶圆一次处理模型的一层，处理完再走下一层，最大化数据局部性，减少同步开销。

我们拿参数和H100、B200做个对比，差异非常明显：

参数	WSE 3	H100 SXM	B200
芯片面积	46255 mm²	814 mm²	≈1600 mm²
计算单元	90万AI核心	132 SM/16896 CUDA核心	—
片上内存	44 GB	50 MB	—
内存带宽	21 PB/s	3 TB/s	8 TB/s
FP8算力	250 PFLOPS	64 PFLOPS	216 PFLOPS
系统功耗	23 kW	700 W	1000 W
系统价格	200~300万美元	2.5~3万美元	4~5万美元

能看出来，WSE 3的内存带宽比主流GPU高了好几个数量级，能跑超大模型，不用做很多切分，效率更高，但缺点也很明显：制造难度大，成本极高，功耗也大，只有少数特定场景能用，没法普及。

5.未来AI加速器往哪走

行业趋势，到2030年几个方向的发展节奏非常清晰：

AI加速器关键技术到2030年的进化趋势预测

第一，chiplet架构会越来越普及。开放标准UCIe已经成熟，能做多厂商异构集成，还能提高良率，增强供应链韧性，会一步步冲击传统单芯片设计的主导地位。

第二，先进封装还会继续进化。RDL中介层、混合键合、3D堆叠这些技术会继续推高集成度、带宽和供电效率，成本也会慢慢降下来。

第三，近存和存内计算会越来越受重视。数据移动的能耗瓶颈一直存在，这类架构天生适合端侧低功耗场景，接下来渗透率会慢慢提升。

第四，晶圆级和拆解式架构会继续探索。Cerebras已经跑出了一条路，内存池化这类技术也慢慢成熟，能给超大模型提供新的扩展思路。

最后，软件生态永远是关键。不管硬件出什么创新，最后能不能成，都得看有没有配套的软件栈、编译器、框架，能不能把硬件的优势发挥出来，降低用户的使用门槛。

6.总结

现在AI圈都在拼算力，拼核心数量，但：内存和互联才是现在AI加速器设计的核心战场，算力堆够了之后，数据传不动，一切都是白搭。

这个新的三维分类框架，把AI加速器的设计从计算中心转成了内存互联中心，刚好匹配现在大模型越来越大的行业趋势，不管是研究者还是从业者，都能用这个框架更清晰地对比不同设计，选对技术方向。

从HBM到3D堆叠，从chiplet到晶圆级，所有的技术创新其实都在绕着一个问题转：

怎么让数据更快更省电地跑到计算单元那里。未来AI硬件能发展到什么程度，很大程度上就看内存和互联能走到哪一步。

本文来自资料https://doi.org/10.36227/techrxiv.177102159.95058346/v1

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP