芯片互联技术已成为决定系统性能的关键瓶颈,开放标准与私有协议竞争加剧,未来趋势指向硬件一致性、光互联和封装内网络化。 ## 1. PCIe的瓶颈与演进 - PCIe 6.0采用PAM4技术将带宽翻倍至252GB/s,但树形拓扑和非一致性存储模型导致多GPU协同需绕行CPU,延迟高。 - 硬件层缺乏缓存一致性,万亿参数大模型训练时手动同步数据效率低下,成为主要性能瓶颈。 ## 2. NVLink的封闭生态优势 - NVIDIA私有协议NVLink 5.0实现1,800GB/s总带宽,576 GPU集群总带宽达130TB/s,通过NVSwitch实现全连接。 - 硬件级内存语义支持跨GPU直接访问显存,但封闭生态导致厂商锁定,促进行业寻求替代方案。 ## 3. CXL的开放统一战略 - 复用PCIe物理层,通过CXL.cache/CXL.mem协议实现低延迟一致性,CXL 3.1支持内存池化扩展至数据中心级。 - Type 2设备(如GPU)支持双向内存访问,理论支持数千节点共享内存池,降低数据中心TCO。 ## 4. 新兴互联技术竞争格局 - AMD Infinity Fabric在MI300X实现896GB/s总带宽,APU架构实现CPU-GPU零拷贝延迟。 - 华为UB-Mesh瞄准百万芯片集群,光互联误码率优化;UALink 1.0开放标准挑战NVLink,目标1024节点规模。 ## 5. 封装与芯粒技术革命 - 台积电CoWoS和Intel EMIB封装成本相差30%-40%,UCIe标准实现1.35TB/s/mm²带宽密度,支持3D堆叠。 - 先进封装将互联网络内置,未来芯片边界模糊化,互联能效比传统方案提升10倍。
PCIe、NVLink、CXL……谁才是芯片互联界的“真·海王”?
2026-04-16 18:06

PCIe、NVLink、CXL……谁才是芯片互联界的“真·海王”?

本文来自微信公众号: 歪睿老哥 ,作者:歪睿老哥


1.痛点开头:算力堆得越多,卡在哪?


单颗芯片再猛,也是个孤狼。


真正决定系统性能天花板的,是这群“狼”能不能组队开黑。


这就是所谓的“互联墙”(Interconnect Wall)。翻译成人话就是:芯片之间连得爽不爽,比你芯片自己厉不厉害,更重要。


现在的局面是,搞互联的这帮人,已经卷出了新高度。什么PCIe、NVLink、CXL、UALink……各种协议满天飞,各家都说自己是“真·海王”,能同时伺候好一群芯片。


今天,咱们就来扒一扒。


2.传统基石:PCIe的演进和天生瓶颈


PCIe是现在最通用的互联标准,这么多年一直是CPU和各种加速器之间通信的骨干。



但现在GPU算力和显存带宽涨得太快,PCIe已经有点跟不上了。


先给大家看一下PCIe这些年的带宽升级,变化非常直观:


PCIe版本单通道速率(GT/s)x16双向带宽(GB/s)编码方式/信号技术
PCIe 3.0831.5128b/130b(NRZ)
PCIe 4.01663.0128b/130b(NRZ)
PCIe 5.032126.0128b/130b(NRZ)
PCIe 6.064252.01b/1b(PAM4+FLIT)
PCIe 7.0128504.01b/1b(PAM4+FLIT)


PCIe 6.0其实已经做了大升级,用了PAM4四电平脉冲幅度调制,不用提高链路频率就能把带宽翻一倍,已经尽力了。


但问题出在架构设计上。PCIe用的是树形层次拓扑,还是非一致性的存储模型,优势是兼容性好通用性强,但多GPU协同的时候,跨芯片交换数据大多要绕CPU中转,或者靠软件管理DMA,不仅软件开销大,延迟也降不下去。


更关键的是,PCIe在硬件层面原生不支持缓存一致性。


什么意思?简单说就是不同芯片没法直接共享同一个内存地址空间,要同步数据就得程序员手动控制缓存刷新,不仅写代码变复杂,还白白浪费了很多计算周期。


这个瓶颈,在训练万亿参数大模型的时候尤其明显——频繁更新权重、同步梯度对带宽和一致性要求太高了,PCIe顶不住。


3.私有标杆:NVIDIA NVLink的闭环优势


为了绕开PCIe的问题,NVIDIA做了自己的私有互联协议NVLink,现在是行业性能标杆。


NVLink的设计思路很直接:绕开PCIe的层级结构,直接给GPU之间、GPU和兼容CPU之间做点对点的直连通道。



从2016年推出到现在,基本每代带宽都翻一倍,升级路线很清晰:


NVLink版本对应架构每GPU总带宽(GB/s,双向)最大扩展规模
NVLink 1.0Pascal(P100)1608 GPUs
NVLink 2.0Volta(V100)30016 GPUs
NVLink 3.0Ampere(A100)60016-32 GPUs
NVLink 4.0Hopper(H100)900256 GPUs
NVLink 5.0Blackwell(B200)1,800576 GPUs
NVLink 6.0Rubin3,600576+GPUs


NVLink能做这么强,不只是物理层带宽高,配套的NVSwitch芯片是关键。NVSwitch相当于GPU之间的全连接交换机,服务器里所有GPU都能全速无阻塞互相通信。


现在Blackwell架构用第五代NVLink加第三代NVSwitch,能拼出576个GPU的超级计算集群,整个机架总带宽能到130TB/s,这个性能现在没人能比。


后来推出的NVLink-C2C还把这个优势扩展到了CPU和GPU之间,能做到900GB/s的超低延迟一致性连接,GPU能直接用CPU的系统内存,正好缓解了HBM显存容量不够的问题。


从软件层面看,NVLink底层直接支持硬件级的内存语义,包括直接读写和原子操作。开发者用CUDA编程的时候,访问别的GPU显存就像访问自己本地显存一样,效率提升非常明显。


但缺点也很明显:封闭生态带来厂商锁定,别的厂商用不了,所以整个行业都在找开放的替代方案。


4.开放统一:CXL怎么对抗封闭生态?


为了打破NVIDIA的垄断,Intel牵头拉着AMD、ARM这些厂商搞了CXL开放标准,现在已经成了业界主流的开放方案。


CXL的设计很聪明,它直接复用现有的PCIe物理层和电气标准,只在上面重新做了三套专门针对低延迟一致性优化的协议栈,不用彻底推翻现有产业链就能升级。


CXL根据设备类型,分了三个协议子集,动态启用:


CXL.io:基于PCIe改的,用来做设备发现、初始化、配置,还有非一致性数据传输,是所有CXL设备都必须支持的基础。


CXL.cache:让加速器能用低延迟缓存主机的系统内存,适合做细粒度的指令级协作,SmartNIC和近内存计算设备用得最多。


CXL.mem:让主机CPU能用标准读写指令访问加速器自带的内存,是实现内存池化、内存分解的核心基础。


按支持的协议组合,CXL设备又分成三类:


Type 1一般是加速器或者SmartNIC,只用CXL.io和CXL.cache,大多没有本地大容量内存,靠访问主机内存工作。


Type 2是通用加速器,比如GPU、FPGA,三个协议全都支持,既能访问主机内存,也能让主机访问自己本地的HBM,能拼出完全对称的一致性空间。


Type 3是内存扩展器,只用CXL.io和CXL.mem,就是给系统额外加DRAM或者持久化内存,解决数据中心内存闲置、带宽不够的问题。


最新的CXL 3.1已经支持基于端口的路由和多层交换,能把互联范围从机架内扩展到整个数据中心,理论上能支持几千个节点共享同一个内存池。这种内存池化能力,现在被认为是能降低数据中心总体拥有成本的革命性技术。


5.各家方案:不止NVLink和CXL,还有这些选择


除了上面两个最主流的,AMD、华为、Intel都有自己的方案,各有各的思路。


AMD Infinity Fabric


AMD给Instinct系列加速器做的Infinity Fabric,前身叫XGMI,思路和NVLink差不多,主打高点对点带宽,还能和自己的CPU架构深度集成。


现在的MI300X,每颗芯片带7条Infinity Fabric链路,每条能提供128GB/s的双向带宽,支持8颗GPU用环形或者网格拓扑互联。


而MI300A作为全球首款AI+HPC用的APU,单芯片封装里直接集成了Zen 4 CPU和CDNA 3 GPU,这些核心通过片内Infinity Fabric直接共享同一组HBM3显存,彻底省掉了CPU和GPU之间数据拷贝的延迟,FP64矩阵运算理论峰值能到122.6TFLOPS,性能非常强。


华为HCCS和下一代UB架构


华为升腾芯片用的是自研的HCCS缓存一致性系统做卡间互联,升腾910单颗芯片就有3条HCCS链路,总带宽最高能到90GB/s,用环形拓扑能把4颗或者8颗加速器拼成一个紧密协作的计算节点。


在2025年的Hot Chips大会上,华为公布了下一代互联技术:统一总线UB,目标是把CPU、NPU、内存、网络接口的协议统一,省掉传统协议转换带来的延迟。针对超大规模集群,还做了UB-Mesh拓扑,是一种分层的局部全连接网络。



这个架构专门利用了大模型训练里数据有局部性的特点,能做到比传统网络高100倍的带宽,还能通过非线性成本控制大幅降低互联开销。目标是拼出支持百万颗芯片协同的超级节点,还专门在光学链路上做了自动重试,解决光互联误码率高的问题。


6.开放联盟:UALink要挑战NVLink垄断


2024年AMD、Intel、谷歌、微软这些巨头凑在一起搞了UALink联盟,推出了开放的Ultra Accelerator Link协议,就是冲着打破NVIDIA垄断来的。


UALink 1.0的目标就是做一个开放、高性能、低延迟的扩展互联标准,复用以太网的物理层,但重新设计了上层协议,支持加速器之间直接读写内存。


我们直接对比一下NVLink 5.0:


指标UALink 1.0(2025)NVLink 5.0(Blackwell)
每通道速率200 GT/s约224 Gbps
单端口带宽(x4)800 Gbps1.8 TB/s(每GPU总和)
最大集群规模1,024节点576节点
往返延迟<1微秒极低(私有优化)
生态开放度完全开放标准封闭私有


UALink 2.0已经开始规划网内计算技术,目的是减少加速器之间调度任务的控制消息,把更多带宽留给实际数据传输。


虽然量产进度比NVLink慢,但有整个行业背书,未来肯定是大规模AI集群的一个重要选项


8.底层基础:先进封装和芯粒互联标准


现在芯粒技术越来越成熟,芯片互联已经不只是电路板上的事,已经延伸到封装内部了,封装技术本身就决定了物理层互联的密度和能效比。


现在主流先进封装主要两个路线:


技术开发商结构特点相对成本主要应用
CoWoS-STSMC全尺寸硅中介层(Silicon Interposer)1.0xNVIDIA H100,AMD MI300
CoWoS-LTSMC有机基板+局部硅桥(LSI Bridge)1.2xNVIDIA Blackwell(超大封装)
EMIBIntel嵌入式多芯片互联桥0.7x-0.9xIntel Xeon,加速器,ASIC


台积电的CoWoS现在占市场主导,但产能不够,成本还高——硅中介层经常要占封装总成本的一半以上。Intel的EMIB只在需要的地方嵌硅桥,省硅料,成本能降30%到40%,散热和尺寸扩展性还更好,各有优势。


要让不同厂商的芯粒能拼在一起用,就得有通用的互联标准,所以Intel、AMD、NVIDIA、台积电、三星这些厂商一起搞了UCIe通用芯粒互联标准。


UCIe基于CXL和PCIe的协议层,但物理层做得非常精简,每比特能耗只有0.25到0.5pJ,比传统的PCIe这类封装外互联低一个数量级。



先进封装下,UCIe 1.0能做到1.35TB/s/mm²的带宽密度,后续的2.0、3.0版本已经把速率提到了48GT/s和64GT/s,还支持3D堆叠封装,以后AI芯片能在单封装里集成更多计算核心和HBM堆栈。


9.趋势总结:互联已经变成核心战略资源


现在异构计算的互联方案,已经呈现出几个非常明确的趋势:


第一,硬件一致性是准入门槛。不管是开放的CXL还是私有的NVLink-C2C,要做深度融合的异构系统,硬件级缓存一致性已经是必须的,没有这个就做不了细粒度并行。


第二,以太网化和开放标准化是大方向。集群规模越来越大,要做到百万卡级别,用以太网物理层做低成本扩展已经挡不住了,UALink这类开放标准起来之后,专有协议的市场空间会越来越受挑战。


第三,光互联很快就要落地。铜缆超过2到4米信号衰减就扛不住了,硅光子和共封装光学已经从实验室走向数据中心,现在华为等厂商已经开始在协议层做文章,解决光模块误码率高的问题。


第四,封装本身就是网络。UCIe正在把整个封装变成一个低延迟高速网络,大芯片能通过芯粒拼接突破制造极限,以后会越来越普及。


总的来说,现在异构芯片的互联早就不是单纯的接插件了,已经变成整个系统架构里最重要的战略资源。


选什么互联方案,不只是看带宽数字,还要看软件生态成熟度、集群可扩展性,还有长期的总体拥有成本。


未来的计算系统,不会再有明确的处理器和存储器的边界,最后就是一张用高速低功耗互联织出来的巨大计算网络。


对于想做异构算力的团队来说,早点摸清楚不同互联方案的优缺点,选对路线比单纯堆算力重要得多。


海王的终极形态,是让你没得选。


写了这么多,划个重点:


PCIe:公交车,哪都能去,但慢。适合当“备用方案”和“控制通道”。


NVLink:私人飞机,巨快,但贵且封闭。老黄的护城河。


CXL:共享单车+月老,想撮合所有芯片搞内存池化。理想很大,但受限于物理层。


UALink:巨头们组队干NVLink的产物。纸面很强,等落地。


UCIe:封装内的胶水,让芯粒像乐高一样拼。未来所有超大芯片的标配。


光互联:终极解决方案。等成本降下来,铜线就可以退休了。


趋势也很明显:一致性、以太网化、标准化、光进铜退。


未来的计算系统,不会再是“CPU在这里,GPU在那里,内存在那一边”。而是一个由高速互联织成的巨大网络,计算、存储、通信的边界全部模糊掉。


从“计算为王”,到“互联为王”。


时代变了。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP