当前AI加速器的性能瓶颈已从算力转向内存和互联架构,HBM、3D堆叠、存内计算等技术成为突破关键,新的三维分类框架以内存/互联为核心重构了硬件评估标准。 ## 1. AI加速器的进化路线:从通用到专用 - CPU因并行能力不足被GPU取代,后者凭借CUDA生态成为训练主力 - 专用加速器(TPU/NPU)通过硅片级优化实现更高能效,Cerebras晶圆级芯片代表极端专用化 - 市场形成GPU(训练)、ASIC/NPU(推理)的格局,HBM内存成标配 ## 2. 内存墙:算力与带宽的致命鸿沟 - 处理器算力增速远超内存带宽,HBM3E通过3D堆叠实现1.2TB/s单堆带宽 - 片上网络(NoC)解决百万计算核通信问题,网状拓扑扩展性好但延迟高 - 3D堆叠计算芯片(如CoWoS封装)带宽超1TB/s,但面临散热和良率挑战 ## 3. 内存革命:近存与存内计算 - 近存计算将运算单元嵌入HBM逻辑层,商用产品已落地 - 存内计算直接在SRAM单元运算,能效提升10-100倍,但精度和扩展性待突破 - 对比传统架构,存内计算数据移动能耗降低90%以上 ## 4. 三维分类框架:重构硬件评估标准 - **新坐标轴**:内存架构(HBM/存内)、互联拓扑(NoC/Chiplet)、集成策略(3D/晶圆级) - **六类典型**:H100属2.5D中介层B类,Cerebras WSE3属晶圆级F类(21PB/s带宽) - 关键结论:B类(HBM+NoC)当前主流,E类(Chiplet)代表未来方向 ## 5. 晶圆级引擎的极端实践 - Cerebras WSE3整合4万亿晶体管,44GB片上SRAM实现21PB/s带宽 - 对比H100:内存带宽高7000倍,但功耗23kW、成本超200万美元 - 创新点:跨光罩网状互联、计算-内存分离架构、层间流水设计 ## 6. 未来趋势:2030技术路线图 - Chiplet架构依托UCIe标准成主流,多厂商异构集成加速 - 先进封装(混合键合/3D堆叠)成本五年内降30%-50% - 软件生态决定硬件创新落地,编译器优化比峰值算力更重要
算力不是瓶颈?AI加速器的真正命门在这里
2026-04-22 18:08

算力不是瓶颈?AI加速器的真正命门在这里

本文来自微信公众号: 歪睿老哥 ,作者:歪睿老哥


现在跑大模型,大家都在喊算力不够,要堆更多核心。


但现在AI加速器的性能瓶颈,早就不是计算单元本身,而是内存和互联架构。


1.先搞清楚:AI加速器到底是怎么进化到今天的


AI硬件的发展路线其实非常清晰,就是从通用到专用一步步走过来的。


最早大家都用CPU跑AI,CPU本身擅长灵活处理各种通用任务,但AI大模型都是高度并行的矩阵运算,CPU的架构天生不适合,跑起来效率太低。


然后GPU就起来了,GPU原本是做图形渲染的,靠几千个简单核心实现大规模并行,刚好匹配AI训练的需求,再加上CUDA这套成熟的软件生态,一直到今天都是大模型训练的主力。


接下来就是专用AI加速器进场了:谷歌搞了TPU,苹果华为这些厂商做了NPU,都是把AI常用的矩阵乘法、卷积这些运算直接做进硅片里,针对性优化吞吐量和能效比。再到后来,甚至出现了Cerebras这种把一整块硅晶圆做成一个芯片的极端方案。


AI加速器从通用CPU到专用晶圆级芯片的进化路线


现在业内已经把AI加速器分成了五大类:


1.通用GPU:浮点吞吐高,编程灵活,训练推理都能用,目前还是市场主力


2.TPU类定制ASIC:针对张量运算优化,用脉动阵列和低精度计算换高能效,主要用在云数据中心


3.NPU:针对端侧和移动设备设计,主打低功耗推理,手机里的AI引擎都是这类


4.定制化ASIC:包括存内计算芯片、可重配置数据流单元、晶圆级引擎这类专用方案


5.FPGA:可重构,适合模型快速迭代,但峰值吞吐量比不过ASIC和GPU


现在市场的趋势很明显:GPU靠着成熟生态依然垄断训练市场,但ASIC和NPU在推理和端侧场景占比越来越高。大模型规模越来越大,行业对更高内存带宽、更低延迟、更高能效的需求越来越迫切,也逼着内存和互联架构不停出新。


2.核心矛盾:越来越严重的内存墙


什么叫内存墙?


就是处理器的算力增长速度,一直远远快于内存带宽的增长速度,两者的差距越来越大,数据传不出来,就算有再多计算单元也没事干,这个就是AI加速器最大的瓶颈。


内存墙:处理器速度和内存带宽的差距随时间不断拉大


为了填内存墙的坑,现在AI加速器在内存和互联上搞出了一堆创新,HBM,NOC,3D堆叠,近存计算和存内计算,多芯片互联(chiplet)等等。我们一个个说。


高带宽内存HBM:现在AI加速器的标准配置


HBM本质就是把内存颗粒竖着叠起来,用硅通孔(TSV)技术把每一层连起来,再和计算芯片做在一起。


这种3D堆叠的方式大大缩短了数据传输的路径,比传统的DDR、GDDR带宽高很多,功耗还更低。


HBM的3D堆叠结构:多层DRAM通过TSV连接到逻辑芯片


HBM已经发展了好多代,参数提升非常明显:



目前最新的HBM3E已经做到单堆超过1.2TB/s带宽,HBM4直接把接口宽度翻了一倍,能跑到2TB/s单堆,已经用在最新一代AI加速卡上了。


当然HBM也不是完美的:3D堆叠密度太高,散热难,制造工艺复杂,成本也比传统内存高很多。


要把HBM用起来,还需要CoWoS、InFO这类先进封装技术配合,对供应链的要求很高。


片上网络NoC:上千个计算核怎么连起来


现在AI加速器动辄集成几十万上百万个计算单元,这些核之间怎么通信?全靠片上网络NoC。


现在主流的NoC拓扑有几种:网状、环面、分层,通常还会配合模块化的拼砖设计,方便芯片规模往大了做。


AI加速器常用的两种NoC拓扑:左为2D网状,右为分层拓扑


网状拓扑(mesh)配合模块化tile的好处是设计规则,好扩展,还能做动态功耗管理:不用的tile直接断电,能省不少电。


但缺点也很明显:芯片做大之后,两个核通信要跳很多站,延迟会往上飘。


分层或者混合拓扑就能解决这个问题,优化局部通信,减少全局通信的开销,就是设计复杂度会高一点。


现在新兴的chiplet架构还把NoC的概念延伸到了芯片之间,用UCIe这类开放标准实现芯片间的高带宽连接,这个我们后面说。


3D堆叠计算:从内存堆叠往计算堆叠走


3D堆叠不光能用在内存上,还能把多个计算芯片竖着叠在一起,靠TSV做垂直互联,能做到超过1TB/s的带宽,互联密度也比传统方案高很多。


现在主流的3D集成方案有三种:


三种常见的3D集成方案对比:3D TSV堆叠、2.5D中介层、引线键合堆叠


第一种是3D TSV堆叠:芯片直接叠在一起,用TSV做垂直连接,带宽最高,但散热和良率问题最难解决。


第二种是2.5D硅中介层:多个芯片(比如GPU+HBM)并排放在硅中介层上,靠中介层的高密度走线互联,这是目前HBM搭配GPU的主流方案,NVIDIA的A100、H100都是这么做的。


第三种是引线键合堆叠:芯片叠好之后用导线连接,带宽低延迟高,现在GPU领域基本不用。


总的来说,3D堆叠能带来更高带宽和更小体积,但设计更复杂,成本更高,散热难度也大,目前行业还在探索更好的解决办法,比如微流道散热、背面供电这些新技术都是冲着这些问题来的。


近存计算和存内计算:把计算往内存边上挪


解决数据移动的能耗问题,最直接的思路就是把计算放去内存那边,别让数据大老远跑来找计算。这里分两种路线:近存计算NMC和存内计算IMC。


三种架构对比:传统分离计算、近存计算、存内计算


近存计算就是把计算单元放在内存旁边,比如HBM的逻辑芯片里集成计算单元,这样能拿到高带宽低延迟,技术也更成熟,现在已经有商用产品了。


存内计算更激进,直接在内存单元里做计算,比如用SRAM或者阻变存储器这类存储,直接在原位做矩阵向量乘法,能效比比传统设计能高10到100倍。但存内计算现在还面临精度不够、难扩展、不好和数字逻辑集成的问题,还没大规模商用。


多芯片互联:chiplet时代的互联技术


现在把多个小芯片(chiplet)封装在一起已经是主流方案,封装内的互联技术就成了关键。


目前几种主流方案:硅中介层能提供高密度布线,适合2.5D集成;再分布层(RDL)中介层是更便宜的方案,成本低,还能保持不错的带宽和信号完整性;还有UCIe开放标准,以及NVLink、Infinity Fabric这类私有协议,都能实现chiplet之间的高速低延迟通信。


现在RDL中介层和UCIe这类开放标准越来越火,因为制造难度低,生态支持好,能帮更多公司做chiplet方案。


3.全新分类框架:从内存和互联重新给AI加速器分类


之前大家给AI加速器分类,要么按计算架构分(比如SIMD还是脉动阵列),要么按应用场景分(训练还是推理),要么按芯片类型分(GPU/TPU/NPU)。


但现在内存和互联已经决定了AI加速器的性能。于是一个全新的三维分类框架,三个坐标轴分别是:


1.内存架构:内存的层次结构、带宽,以及内存和计算的距离,比如传统显存、HBM、近存、存内


2.互联拓扑:片上和封装内网络的结构和可扩展性,比如总线、网状、分层、chiplet互联、晶圆级互联


3.集成策略:计算和内存的物理集成方式,比如单芯片、2.5D中介层、3D堆叠、晶圆级集成


AI加速器三维分类框架示意图


按照这个框架,可以把现在所有AI加速器分成六类:


类别内存架构互联拓扑集成策略典型例子
A类片外DRAM(DDR/GDDR)总线/PCIe单片SoC早期GPU
B类2.5D HBM(TSV)网状NoC中介层集成NVIDIA H100、AMD MI300
C类3D堆叠HBM/近存计算分层NoC3D TSV堆叠新一代近存加速芯片
D类存内计算Tile分片NoC单片/Chiplet存内计算AI芯片
E类ChipletUCIe/定制互联多芯片封装新一代Chiplet AI加速器
F类晶圆级SRAM/近存晶圆级网状NoC晶圆级集成Cerebras WSE


不同类别的trade-off非常清晰:


A类带宽低,扩展性差,内存读写制约了AI的系统


B类就是现在的主流,带宽高,能效好,扩展性也不错,就是面积效率一般


C类带宽比B类更高,能效也更好,扩展性和B类相当


D类局部带宽极高,能效是最好的,但目前扩展性还不够


E类带宽、能效、面积效率都不错,扩展性是最好的,符合未来方向


F类带宽是极端高,扩展性不受限,能效也好,但面积效率低,成本非常高


B类HBM GPU和F类晶圆级加速器的trade-off对比雷达图


这个分类框架的好处,就是把之前大家关注的计算核心放到了次要位置,抓住了现在AI加速器最核心的矛盾——内存和互联,不管是做研究还是做产品,都能更清晰地对比不同设计,选对技术方向。


4.极端案例:Cerebras晶圆级引擎到底强在哪


拿Cerebras的WSE晶圆级引擎来说,这个是F类晶圆级加速器的典型代表,思路和传统GPU完全不一样。


最新的WSE 3用台积电5nm工艺做,规格非常夸张:4万亿晶体管,90万个AI优化核心,44GB片上SRAM,内存带宽达到了21PB/s,FP16峰值算力125PFLOPS,能直接支持最多24万亿参数的大模型。


Cerebras WSE3的晶圆级架构示意图:整个晶圆就是一个芯片,网状互联跨越所有光罩边界


它在内存和互联上的创新非常有意思:


第一,整个晶圆做了一个全覆盖的2D网状NoC,把原本切割芯片的划片槽改成了跨光罩的连线,实现了整个晶圆所有核心的无缝互联,延迟低,带宽高。


第二,它用了计算内存分离的架构,和传统GPU把计算和HBM绑在一起不一样,WSE把计算做在晶圆上,内存放在外部的MemoryX模块里,可以单独扩展内存,适合放超大模型。


第三,它做层间流水,整个晶圆一次处理模型的一层,处理完再走下一层,最大化数据局部性,减少同步开销。


我们拿参数和H100、B200做个对比,差异非常明显:


参数WSE 3H100 SXMB200
芯片面积46255 mm²814 mm²≈1600 mm²
计算单元90万AI核心132 SM/16896 CUDA核心
片上内存44 GB50 MB
内存带宽21 PB/s3 TB/s8 TB/s
FP8算力250 PFLOPS64 PFLOPS216 PFLOPS
系统功耗23 kW700 W1000 W
系统价格200~300万美元2.5~3万美元4~5万美元


能看出来,WSE 3的内存带宽比主流GPU高了好几个数量级,能跑超大模型,不用做很多切分,效率更高,但缺点也很明显:制造难度大,成本极高,功耗也大,只有少数特定场景能用,没法普及。


5.未来AI加速器往哪走


行业趋势,到2030年几个方向的发展节奏非常清晰:


AI加速器关键技术到2030年的进化趋势预测


第一,chiplet架构会越来越普及。开放标准UCIe已经成熟,能做多厂商异构集成,还能提高良率,增强供应链韧性,会一步步冲击传统单芯片设计的主导地位。


第二,先进封装还会继续进化。RDL中介层、混合键合、3D堆叠这些技术会继续推高集成度、带宽和供电效率,成本也会慢慢降下来。


第三,近存和存内计算会越来越受重视。数据移动的能耗瓶颈一直存在,这类架构天生适合端侧低功耗场景,接下来渗透率会慢慢提升。


第四,晶圆级和拆解式架构会继续探索。Cerebras已经跑出了一条路,内存池化这类技术也慢慢成熟,能给超大模型提供新的扩展思路。


最后,软件生态永远是关键。不管硬件出什么创新,最后能不能成,都得看有没有配套的软件栈、编译器、框架,能不能把硬件的优势发挥出来,降低用户的使用门槛。


6.总结


现在AI圈都在拼算力,拼核心数量,但:内存和互联才是现在AI加速器设计的核心战场,算力堆够了之后,数据传不动,一切都是白搭。


这个新的三维分类框架,把AI加速器的设计从计算中心转成了内存互联中心,刚好匹配现在大模型越来越大的行业趋势,不管是研究者还是从业者,都能用这个框架更清晰地对比不同设计,选对技术方向。


从HBM到3D堆叠,从chiplet到晶圆级,所有的技术创新其实都在绕着一个问题转:


怎么让数据更快更省电地跑到计算单元那里。未来AI硬件能发展到什么程度,很大程度上就看内存和互联能走到哪一步。


本文来自资料https://doi.org/10.36227/techrxiv.177102159.95058346/v1

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP