2026-01-12 11:42

互联网大厂的高性能网络，简直卷上天了

特大号©

本文来自微信公众号：特大号，作者：铁笼牛马

你没想到吧，AI这波大浪，让沉寂需求的网络也跟着浪起来了，现在互联网大厂都在卷HPN网络。

所谓HPN，其实就是高性能网络（High Performance Network），对比HPC高性能计算，你从字面意思就能理解HPN想干啥。

大厂为什么要卷HPN？

首先，网工们熟悉的TCP，在GPU并行计算的世界里已经彻底被抛弃。

并行计算需要网络把分布式的内存、GPU显存也给并行起来，会丢包的传统以太网、能够自适应丢包传输的TCP统统都是不合格的。

必须是不丢包的、能够绕过内核冗长协议栈的才能把GPU昂贵的算力利用起来。

很凑巧，最好的GPU和最适配的网络竟然出自同一家，这样的网络就是IB。

用IB很省事，只需要银子够就行，搞成N记全家桶，后面基本上啥事都不用管了。

可是这样一来，网工的价值和尊严简直就是被按在地上摩擦，还不如当个采购去压价。

是可忍孰不可忍啊。

所以，大厂网工们首先嗅到了机会的味道，创造一个可以替代IB的命题，自己的价值不就出来了吗？

大家都希望给决策者们一个明确的信号，IB是可以被平替的，而且只是个工程问题。

当然，大厂决策者也不傻，不会光给试验场让网工刷存在感，毕竟IB是封闭的，价格又那么刀，自家牛马如果有实力搞平替，那么顺水推舟是明智之举。

一边是业务倒逼，一边是网工自驱，大厂HPN就这样卷起来了。

HPN的up与out之战

具体卷成什么样了呢？

目前的HPN，已经分化成了用于超节点互联的scale-up和代替IB互联的scale-out。

其实这也是N记定义并引领的↓

▋Scale-up网络

一机8卡的GPU内部nvl互联叫scale-up，从NVL72开始，又把nvl技术从机内拓展到机柜内，整机柜都用scale-up网络互联的GPU就是超节点superpod。

这个变化就像是网工们熟悉的盒式交换机和机框交换机一样，机框交换机那必定是交换机王冠上的明珠。

超节点对模型推理非常有帮助，因为内存语义通信的范围从8卡变成了几十上百卡嘛。

[国内外厂商的“超节点”们]

Scale-up中算力卡是内存出IO，因此scale-up基本上就是算力卡说了算，说到技术原理基本上是大同小异，都是在抄nvl的作业↓

①物理层

都是以太网的serdes，产业化最好，供应最好，开放程度最高；

②链路层

也用以太网的封装结构，这层和物理层耦合密切，自己搞一套和整个产业界对抗，是谁给你自信；

③网络层和和传输层

这里就有门道了，通常会有上下游credit分发和回收流控、固定信元长度、链路层重传之类的高级玩意儿。

目的就是高仿一个CPU无损访问内存（CPU访问内存如果异常，就是常见的蓝屏、夯机等致命故障）的网络，区别是各家都会有些实现上的细节差异；

④控制面

N家用的IB控制面，其余都是BGP这个最后的路由集大成者；

⑤标准和供应

UALink是一条路线，主要是N家的对手们在干。

大善人阿B，提供的SUE解决方案（提供网络，未来可能也提供算力卡IO）还能支持魔改；

菊花的UB，也开放了，国内外还有eth+和eth×开放体系……

百家争鸣吧，就看谁能先抢到一个有影响力的应用，然后扩大份额。

对强算力卡厂商而言，scale-up是不可商量的禁脔，是算力卡集群不可分割的一部分。

小算力卡厂商则身段柔软，无论是谁家的scale-up都能适配，也有自己的方案去小厂或者传统行业客户那里……

就像是路由收敛一样，最终的方案一定会收敛。

▋Scale-out网络

GPU通过pcie连接网卡，网卡再跑RDMA（不管IB还是RoCE），这种模式就是Scale-out。

两年前，Scale-out也是HPN领域的小甜甜，但自从超节点出来后，小甜甜就变成牛夫人。

原因不只是技术，Scale-out火是因为scaling-law。

这个law让所有玩家都觉得只要能融资买足够大的GPU算力集群，训练出一个超级牛×的模型就能交差了。

但DeepSeek让这些law的信徒们有点失去信仰，道心破碎的业者们也被逼去做推理卖token，所以焦点就转移到Scale-up。

当然，真正有追求的大厂们必须要拥有自己的模型，这个是玩AI的底牌，自然也是要继续研究scale-out的。

同样的，Scale-out把N记作为抄作业对象就可以了↓

PCIe SW直接集成到网卡，GPU、CPU、NVMe都是挂在网卡上的，不需要看主板脸色了，也不用看CPU脸色了；

网卡直接支持多个网络接口，实现多平面，网卡可以在多个网络接口上实现动态LB，网卡对应用层只提供1个RDMA IP，屏蔽多个网络接口；

网卡接收上支持乱序，只要是多平面、多路径的，乱序是基操，当然借用一下iWarp的DDP也是很觉的，做工程架构嘛，本身就是找成熟的工艺组装的事情，并不丢人；

交换机支持逐包均匀地喷射在多个ECMP链路上，也可以按动态权重喷射；

新的协议栈都可带良好的CC，可以容忍丢包，可以抛弃缺陷明显的PFC，当然scale-out不丢包是更好了。

Scale-out也是各个大厂中非常热闹的话题，几乎都有自己的魔改版本RoCE，运行在自己的DPU或者智能网卡上。

这个作业抄的是Google的TPU和OCS系统，TPU自带DPU IO，OCS是纯光交换。

在这里就不评价各个大厂同行，谁家做得好谁家不好，因为我说好不好，一点也不客观，丝毫影响不了他们的绩效，同行的绩效而是靠战功↓

❶这个CC好厉害，有没有论文，有没有sigcomm

❷自己的CC算法，能不能运行在CX-7网卡上啊

❸能不能不用CX-7网卡，也能跑得和CX-7一样酣畅淋漓

❹能不能别老用实验室数据啊，现网有没有用起来

❺现网用的量怎么样，占比如何，头牌应用有没有主力用这个

❻头牌应用能不能打

自上至下，「战功」依次递增。

从技术角度来看，Out和Up也有共同的地方↓

Lossy RDMA（允许网络丢包的RDMA），就是把烦人的PFC干掉，交换机顶多跑个ECN；

更有甚者，交换机啥都不跑，由端侧自己测量时延变化。

总之，CC和交换机无关，漂亮活儿都是端侧网卡的事情。

从无PFC、支持网络丢包这个技术点出发，设计这套CC的网工自然而然就想把scale-out网络和传统的dcn网络合并了，这个想法我放到最后一节了。

Scale-out在自带网络的强算力卡厂商那里，必然是卖方的囊中之物，大厂网工们只能去拿捏那些没有网络的小算力卡或者自研算力卡。

技术评价指标：

在一个常丢包网络，一个新的技术评价体系，在a%丢包率的网络中达到b%的传输效率，a+b越接近100，就说明这个魔改的RoCE协议栈更优秀。

Scale-out和机头网络能合并吗

Scale-out和机头dcn网络合并，这个天才般的想法现实中并没有真实地发生。

客观技术原因是scale-out所需要的带宽和收敛比和dcn带宽并不一致，如果dcn要硬做，变化带来的适配代价会远超收益。

但机头dcn网络也确实有rdma的需求：云存储和AI推理。

先说存储↓

宿主机提供一个云磁盘挂载到云主机或者容器，宿主机访问云存储集群是underlay。

underlay跑rdma就是干掉内核tcp栈的处理时延，收益非常明确，也是应用最早的rdma。

云主机或者容器访问云盘时是跑在overlay里，这就要求魔改的RoCE跑在Overlay里，这个是近期的热点，大厂最近喜欢在这里吹点nb。

再说AI推理↓

自从PD分离和AF分离被验证是有效的后，不同任务可以用不同的算力卡。

不同任务之间传递的的是KV，KV存储在调整存储集群如HDFS里，任务运行在容器里。

所以容器去访问HDFS的KV，天然就是overlay rdma场景，这也推动了dcn内rdma的普及。

dcn内的rdma将会是各路英雄们大秀身段的舞台，因为这里没有算力卡绑定，是网工们最稳定的基本盘。

现在明确的需求来了，就看自己能不能接住，并且率先拿到阶段性验证成果、扩大验证赢得内部赛马、外部PR同步跟上……

拜将封侯时不我待

HPN最初是从HPC的RDMA网络开始，进入大厂变成是IB和RoCE之争，随着NVL摆脱机框的束缚杀向机柜变成了scale-up网络。

原有的RDMA网络矮化成了scale-out网络，scale-out网络栈又入侵（赋能）了dcn，并在dcn领域得到了自由设计的机会。

也有网工想把这几种协议栈融合在一起的，还是看业务结果吧，路要一步一步走，贪天之功人尽想，眼前之福勿相忘。

我们可以把最终的评价标准撂在这面：老外讲de facto，老中讲成王败寇，其实就是看应用量：

①你出来的HPN在大厂内部的覆盖率怎么样，如果10%都不到，你觉得自己是头猛虎还是个小卡拉咪？

②什么模型训练或者推理跑在你的HPN上，是跑个自娱自乐的玩具，还是跑个日活上百万、千万、过亿的应用？

达不成这2个标准，无论你怎么吹我这技术体系这好那好，都是虚的。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP