本文来自微信公众号: 歪睿老哥 ,作者:歪睿老哥
现在跑大模型,大家都在喊算力不够,要堆更多核心。
但现在AI加速器的性能瓶颈,早就不是计算单元本身,而是内存和互联架构。
1.先搞清楚:AI加速器到底是怎么进化到今天的
AI硬件的发展路线其实非常清晰,就是从通用到专用一步步走过来的。
最早大家都用CPU跑AI,CPU本身擅长灵活处理各种通用任务,但AI大模型都是高度并行的矩阵运算,CPU的架构天生不适合,跑起来效率太低。
然后GPU就起来了,GPU原本是做图形渲染的,靠几千个简单核心实现大规模并行,刚好匹配AI训练的需求,再加上CUDA这套成熟的软件生态,一直到今天都是大模型训练的主力。
接下来就是专用AI加速器进场了:谷歌搞了TPU,苹果华为这些厂商做了NPU,都是把AI常用的矩阵乘法、卷积这些运算直接做进硅片里,针对性优化吞吐量和能效比。再到后来,甚至出现了Cerebras这种把一整块硅晶圆做成一个芯片的极端方案。

AI加速器从通用CPU到专用晶圆级芯片的进化路线
现在业内已经把AI加速器分成了五大类:
1.通用GPU:浮点吞吐高,编程灵活,训练推理都能用,目前还是市场主力
2.TPU类定制ASIC:针对张量运算优化,用脉动阵列和低精度计算换高能效,主要用在云数据中心
3.NPU:针对端侧和移动设备设计,主打低功耗推理,手机里的AI引擎都是这类
4.定制化ASIC:包括存内计算芯片、可重配置数据流单元、晶圆级引擎这类专用方案
5.FPGA:可重构,适合模型快速迭代,但峰值吞吐量比不过ASIC和GPU
现在市场的趋势很明显:GPU靠着成熟生态依然垄断训练市场,但ASIC和NPU在推理和端侧场景占比越来越高。大模型规模越来越大,行业对更高内存带宽、更低延迟、更高能效的需求越来越迫切,也逼着内存和互联架构不停出新。
2.核心矛盾:越来越严重的内存墙
什么叫内存墙?
就是处理器的算力增长速度,一直远远快于内存带宽的增长速度,两者的差距越来越大,数据传不出来,就算有再多计算单元也没事干,这个就是AI加速器最大的瓶颈。

内存墙:处理器速度和内存带宽的差距随时间不断拉大
为了填内存墙的坑,现在AI加速器在内存和互联上搞出了一堆创新,HBM,NOC,3D堆叠,近存计算和存内计算,多芯片互联(chiplet)等等。我们一个个说。
高带宽内存HBM:现在AI加速器的标准配置
HBM本质就是把内存颗粒竖着叠起来,用硅通孔(TSV)技术把每一层连起来,再和计算芯片做在一起。
这种3D堆叠的方式大大缩短了数据传输的路径,比传统的DDR、GDDR带宽高很多,功耗还更低。

HBM的3D堆叠结构:多层DRAM通过TSV连接到逻辑芯片
HBM已经发展了好多代,参数提升非常明显:

目前最新的HBM3E已经做到单堆超过1.2TB/s带宽,HBM4直接把接口宽度翻了一倍,能跑到2TB/s单堆,已经用在最新一代AI加速卡上了。
当然HBM也不是完美的:3D堆叠密度太高,散热难,制造工艺复杂,成本也比传统内存高很多。
要把HBM用起来,还需要CoWoS、InFO这类先进封装技术配合,对供应链的要求很高。
片上网络NoC:上千个计算核怎么连起来
现在AI加速器动辄集成几十万上百万个计算单元,这些核之间怎么通信?全靠片上网络NoC。
现在主流的NoC拓扑有几种:网状、环面、分层,通常还会配合模块化的拼砖设计,方便芯片规模往大了做。

AI加速器常用的两种NoC拓扑:左为2D网状,右为分层拓扑
网状拓扑(mesh)配合模块化tile的好处是设计规则,好扩展,还能做动态功耗管理:不用的tile直接断电,能省不少电。
但缺点也很明显:芯片做大之后,两个核通信要跳很多站,延迟会往上飘。
分层或者混合拓扑就能解决这个问题,优化局部通信,减少全局通信的开销,就是设计复杂度会高一点。
现在新兴的chiplet架构还把NoC的概念延伸到了芯片之间,用UCIe这类开放标准实现芯片间的高带宽连接,这个我们后面说。
3D堆叠计算:从内存堆叠往计算堆叠走
3D堆叠不光能用在内存上,还能把多个计算芯片竖着叠在一起,靠TSV做垂直互联,能做到超过1TB/s的带宽,互联密度也比传统方案高很多。
现在主流的3D集成方案有三种:

三种常见的3D集成方案对比:3D TSV堆叠、2.5D中介层、引线键合堆叠
第一种是3D TSV堆叠:芯片直接叠在一起,用TSV做垂直连接,带宽最高,但散热和良率问题最难解决。
第二种是2.5D硅中介层:多个芯片(比如GPU+HBM)并排放在硅中介层上,靠中介层的高密度走线互联,这是目前HBM搭配GPU的主流方案,NVIDIA的A100、H100都是这么做的。
第三种是引线键合堆叠:芯片叠好之后用导线连接,带宽低延迟高,现在GPU领域基本不用。
总的来说,3D堆叠能带来更高带宽和更小体积,但设计更复杂,成本更高,散热难度也大,目前行业还在探索更好的解决办法,比如微流道散热、背面供电这些新技术都是冲着这些问题来的。
近存计算和存内计算:把计算往内存边上挪
解决数据移动的能耗问题,最直接的思路就是把计算放去内存那边,别让数据大老远跑来找计算。这里分两种路线:近存计算NMC和存内计算IMC。

三种架构对比:传统分离计算、近存计算、存内计算
近存计算就是把计算单元放在内存旁边,比如HBM的逻辑芯片里集成计算单元,这样能拿到高带宽低延迟,技术也更成熟,现在已经有商用产品了。
存内计算更激进,直接在内存单元里做计算,比如用SRAM或者阻变存储器这类存储,直接在原位做矩阵向量乘法,能效比比传统设计能高10到100倍。但存内计算现在还面临精度不够、难扩展、不好和数字逻辑集成的问题,还没大规模商用。
多芯片互联:chiplet时代的互联技术
现在把多个小芯片(chiplet)封装在一起已经是主流方案,封装内的互联技术就成了关键。
目前几种主流方案:硅中介层能提供高密度布线,适合2.5D集成;再分布层(RDL)中介层是更便宜的方案,成本低,还能保持不错的带宽和信号完整性;还有UCIe开放标准,以及NVLink、Infinity Fabric这类私有协议,都能实现chiplet之间的高速低延迟通信。
现在RDL中介层和UCIe这类开放标准越来越火,因为制造难度低,生态支持好,能帮更多公司做chiplet方案。
3.全新分类框架:从内存和互联重新给AI加速器分类
之前大家给AI加速器分类,要么按计算架构分(比如SIMD还是脉动阵列),要么按应用场景分(训练还是推理),要么按芯片类型分(GPU/TPU/NPU)。
但现在内存和互联已经决定了AI加速器的性能。于是一个全新的三维分类框架,三个坐标轴分别是:
1.内存架构:内存的层次结构、带宽,以及内存和计算的距离,比如传统显存、HBM、近存、存内
2.互联拓扑:片上和封装内网络的结构和可扩展性,比如总线、网状、分层、chiplet互联、晶圆级互联
3.集成策略:计算和内存的物理集成方式,比如单芯片、2.5D中介层、3D堆叠、晶圆级集成

AI加速器三维分类框架示意图

按照这个框架,可以把现在所有AI加速器分成六类:
| 类别 | 内存架构 | 互联拓扑 | 集成策略 | 典型例子 |
|---|---|---|---|---|
| A类 | 片外DRAM(DDR/GDDR) | 总线/PCIe | 单片SoC | 早期GPU |
| B类 | 2.5D HBM(TSV) | 网状NoC | 中介层集成 | NVIDIA H100、AMD MI300 |
| C类 | 3D堆叠HBM/近存计算 | 分层NoC | 3D TSV堆叠 | 新一代近存加速芯片 |
| D类 | 存内计算 | Tile分片NoC | 单片/Chiplet | 存内计算AI芯片 |
| E类 | Chiplet | UCIe/定制互联 | 多芯片封装 | 新一代Chiplet AI加速器 |
| F类 | 晶圆级SRAM/近存 | 晶圆级网状NoC | 晶圆级集成 | Cerebras WSE |
不同类别的trade-off非常清晰:
A类带宽低,扩展性差,内存读写制约了AI的系统
B类就是现在的主流,带宽高,能效好,扩展性也不错,就是面积效率一般
C类带宽比B类更高,能效也更好,扩展性和B类相当
D类局部带宽极高,能效是最好的,但目前扩展性还不够
E类带宽、能效、面积效率都不错,扩展性是最好的,符合未来方向
F类带宽是极端高,扩展性不受限,能效也好,但面积效率低,成本非常高

B类HBM GPU和F类晶圆级加速器的trade-off对比雷达图
这个分类框架的好处,就是把之前大家关注的计算核心放到了次要位置,抓住了现在AI加速器最核心的矛盾——内存和互联,不管是做研究还是做产品,都能更清晰地对比不同设计,选对技术方向。
4.极端案例:Cerebras晶圆级引擎到底强在哪
拿Cerebras的WSE晶圆级引擎来说,这个是F类晶圆级加速器的典型代表,思路和传统GPU完全不一样。
最新的WSE 3用台积电5nm工艺做,规格非常夸张:4万亿晶体管,90万个AI优化核心,44GB片上SRAM,内存带宽达到了21PB/s,FP16峰值算力125PFLOPS,能直接支持最多24万亿参数的大模型。

Cerebras WSE3的晶圆级架构示意图:整个晶圆就是一个芯片,网状互联跨越所有光罩边界
它在内存和互联上的创新非常有意思:
第一,整个晶圆做了一个全覆盖的2D网状NoC,把原本切割芯片的划片槽改成了跨光罩的连线,实现了整个晶圆所有核心的无缝互联,延迟低,带宽高。
第二,它用了计算内存分离的架构,和传统GPU把计算和HBM绑在一起不一样,WSE把计算做在晶圆上,内存放在外部的MemoryX模块里,可以单独扩展内存,适合放超大模型。
第三,它做层间流水,整个晶圆一次处理模型的一层,处理完再走下一层,最大化数据局部性,减少同步开销。
我们拿参数和H100、B200做个对比,差异非常明显:
| 参数 | WSE 3 | H100 SXM | B200 |
|---|---|---|---|
| 芯片面积 | 46255 mm² | 814 mm² | ≈1600 mm² |
| 计算单元 | 90万AI核心 | 132 SM/16896 CUDA核心 | — |
| 片上内存 | 44 GB | 50 MB | — |
| 内存带宽 | 21 PB/s | 3 TB/s | 8 TB/s |
| FP8算力 | 250 PFLOPS | 64 PFLOPS | 216 PFLOPS |
| 系统功耗 | 23 kW | 700 W | 1000 W |
| 系统价格 | 200~300万美元 | 2.5~3万美元 | 4~5万美元 |
能看出来,WSE 3的内存带宽比主流GPU高了好几个数量级,能跑超大模型,不用做很多切分,效率更高,但缺点也很明显:制造难度大,成本极高,功耗也大,只有少数特定场景能用,没法普及。
5.未来AI加速器往哪走
行业趋势,到2030年几个方向的发展节奏非常清晰:

AI加速器关键技术到2030年的进化趋势预测
第一,chiplet架构会越来越普及。开放标准UCIe已经成熟,能做多厂商异构集成,还能提高良率,增强供应链韧性,会一步步冲击传统单芯片设计的主导地位。
第二,先进封装还会继续进化。RDL中介层、混合键合、3D堆叠这些技术会继续推高集成度、带宽和供电效率,成本也会慢慢降下来。
第三,近存和存内计算会越来越受重视。数据移动的能耗瓶颈一直存在,这类架构天生适合端侧低功耗场景,接下来渗透率会慢慢提升。
第四,晶圆级和拆解式架构会继续探索。Cerebras已经跑出了一条路,内存池化这类技术也慢慢成熟,能给超大模型提供新的扩展思路。
最后,软件生态永远是关键。不管硬件出什么创新,最后能不能成,都得看有没有配套的软件栈、编译器、框架,能不能把硬件的优势发挥出来,降低用户的使用门槛。
6.总结
现在AI圈都在拼算力,拼核心数量,但:内存和互联才是现在AI加速器设计的核心战场,算力堆够了之后,数据传不动,一切都是白搭。
这个新的三维分类框架,把AI加速器的设计从计算中心转成了内存互联中心,刚好匹配现在大模型越来越大的行业趋势,不管是研究者还是从业者,都能用这个框架更清晰地对比不同设计,选对技术方向。
从HBM到3D堆叠,从chiplet到晶圆级,所有的技术创新其实都在绕着一个问题转:
怎么让数据更快更省电地跑到计算单元那里。未来AI硬件能发展到什么程度,很大程度上就看内存和互联能走到哪一步。
本文来自资料https://doi.org/10.36227/techrxiv.177102159.95058346/v1
