本文来自微信公众号: 特大号 ,作者:铁笼牛马
你没想到吧,AI这波大浪,让沉寂需求的网络也跟着浪起来了,现在互联网大厂都在卷HPN网络。
所谓HPN,其实就是高性能网络(High Performance Network),对比HPC高性能计算,你从字面意思就能理解HPN想干啥。
大厂为什么要卷HPN?
首先,网工们熟悉的TCP,在GPU并行计算的世界里已经彻底被抛弃。
并行计算需要网络把分布式的内存、GPU显存也给并行起来,会丢包的传统以太网、能够自适应丢包传输的TCP统统都是不合格的。
必须是不丢包的、能够绕过内核冗长协议栈的才能把GPU昂贵的算力利用起来。
很凑巧,最好的GPU和最适配的网络竟然出自同一家,这样的网络就是IB。
用IB很省事,只需要银子够就行,搞成N记全家桶,后面基本上啥事都不用管了。
可是这样一来,网工的价值和尊严简直就是被按在地上摩擦,还不如当个采购去压价。
是可忍孰不可忍啊。
所以,大厂网工们首先嗅到了机会的味道,创造一个可以替代IB的命题,自己的价值不就出来了吗?
大家都希望给决策者们一个明确的信号,IB是可以被平替的,而且只是个工程问题。
当然,大厂决策者也不傻,不会光给试验场让网工刷存在感,毕竟IB是封闭的,价格又那么刀,自家牛马如果有实力搞平替,那么顺水推舟是明智之举。
一边是业务倒逼,一边是网工自驱,大厂HPN就这样卷起来了。
HPN的up与out之战
具体卷成什么样了呢?
目前的HPN,已经分化成了用于超节点互联的scale-up和代替IB互联的scale-out。
其实这也是N记定义并引领的↓
▋Scale-up网络
一机8卡的GPU内部nvl互联叫scale-up,从NVL72开始,又把nvl技术从机内拓展到机柜内,整机柜都用scale-up网络互联的GPU就是超节点superpod。
这个变化就像是网工们熟悉的盒式交换机和机框交换机一样,机框交换机那必定是交换机王冠上的明珠。
超节点对模型推理非常有帮助,因为内存语义通信的范围从8卡变成了几十上百卡嘛。

[国内外厂商的“超节点”们]
Scale-up中算力卡是内存出IO,因此scale-up基本上就是算力卡说了算,说到技术原理基本上是大同小异,都是在抄nvl的作业↓
①物理层
都是以太网的serdes,产业化最好,供应最好,开放程度最高;
②链路层
也用以太网的封装结构,这层和物理层耦合密切,自己搞一套和整个产业界对抗,是谁给你自信;
③网络层和和传输层
这里就有门道了,通常会有上下游credit分发和回收流控、固定信元长度、链路层重传之类的高级玩意儿。
目的就是高仿一个CPU无损访问内存(CPU访问内存如果异常,就是常见的蓝屏、夯机等致命故障)的网络,区别是各家都会有些实现上的细节差异;
④控制面
N家用的IB控制面,其余都是BGP这个最后的路由集大成者;
⑤标准和供应
UALink是一条路线,主要是N家的对手们在干。
大善人阿B,提供的SUE解决方案(提供网络,未来可能也提供算力卡IO)还能支持魔改;
菊花的UB,也开放了,国内外还有eth+和eth×开放体系……
百家争鸣吧,就看谁能先抢到一个有影响力的应用,然后扩大份额。
对强算力卡厂商而言,scale-up是不可商量的禁脔,是算力卡集群不可分割的一部分。
小算力卡厂商则身段柔软,无论是谁家的scale-up都能适配,也有自己的方案去小厂或者传统行业客户那里……
就像是路由收敛一样,最终的方案一定会收敛。
▋Scale-out网络
GPU通过pcie连接网卡,网卡再跑RDMA(不管IB还是RoCE),这种模式就是Scale-out。
两年前,Scale-out也是HPN领域的小甜甜,但自从超节点出来后,小甜甜就变成牛夫人。
原因不只是技术,Scale-out火是因为scaling-law。
这个law让所有玩家都觉得只要能融资买足够大的GPU算力集群,训练出一个超级牛×的模型就能交差了。
但DeepSeek让这些law的信徒们有点失去信仰,道心破碎的业者们也被逼去做推理卖token,所以焦点就转移到Scale-up。
当然,真正有追求的大厂们必须要拥有自己的模型,这个是玩AI的底牌,自然也是要继续研究scale-out的。
同样的,Scale-out把N记作为抄作业对象就可以了↓
PCIe SW直接集成到网卡,GPU、CPU、NVMe都是挂在网卡上的,不需要看主板脸色了,也不用看CPU脸色了;
网卡直接支持多个网络接口,实现多平面,网卡可以在多个网络接口上实现动态LB,网卡对应用层只提供1个RDMA IP,屏蔽多个网络接口;
网卡接收上支持乱序,只要是多平面、多路径的,乱序是基操,当然借用一下iWarp的DDP也是很觉的,做工程架构嘛,本身就是找成熟的工艺组装的事情,并不丢人;
交换机支持逐包均匀地喷射在多个ECMP链路上,也可以按动态权重喷射;
新的协议栈都可带良好的CC,可以容忍丢包,可以抛弃缺陷明显的PFC,当然scale-out不丢包是更好了。
Scale-out也是各个大厂中非常热闹的话题,几乎都有自己的魔改版本RoCE,运行在自己的DPU或者智能网卡上。
这个作业抄的是Google的TPU和OCS系统,TPU自带DPU IO,OCS是纯光交换。
在这里就不评价各个大厂同行,谁家做得好谁家不好,因为我说好不好,一点也不客观,丝毫影响不了他们的绩效,同行的绩效而是靠战功↓
❶这个CC好厉害,有没有论文,有没有sigcomm
❷自己的CC算法,能不能运行在CX-7网卡上啊
❸能不能不用CX-7网卡,也能跑得和CX-7一样酣畅淋漓
❹能不能别老用实验室数据啊,现网有没有用起来
❺现网用的量怎么样,占比如何,头牌应用有没有主力用这个
❻头牌应用能不能打
自上至下,「战功」依次递增。
从技术角度来看,Out和Up也有共同的地方↓
Lossy RDMA(允许网络丢包的RDMA),就是把烦人的PFC干掉,交换机顶多跑个ECN;
更有甚者,交换机啥都不跑,由端侧自己测量时延变化。
总之,CC和交换机无关,漂亮活儿都是端侧网卡的事情。
从无PFC、支持网络丢包这个技术点出发,设计这套CC的网工自然而然就想把scale-out网络和传统的dcn网络合并了,这个想法我放到最后一节了。
Scale-out在自带网络的强算力卡厂商那里,必然是卖方的囊中之物,大厂网工们只能去拿捏那些没有网络的小算力卡或者自研算力卡。
技术评价指标:
在一个常丢包网络,一个新的技术评价体系,在a%丢包率的网络中达到b%的传输效率,a+b越接近100,就说明这个魔改的RoCE协议栈更优秀。
Scale-out和机头网络能合并吗
Scale-out和机头dcn网络合并,这个天才般的想法现实中并没有真实地发生。
客观技术原因是scale-out所需要的带宽和收敛比和dcn带宽并不一致,如果dcn要硬做,变化带来的适配代价会远超收益。
但机头dcn网络也确实有rdma的需求:云存储和AI推理。
先说存储↓
宿主机提供一个云磁盘挂载到云主机或者容器,宿主机访问云存储集群是underlay。
underlay跑rdma就是干掉内核tcp栈的处理时延,收益非常明确,也是应用最早的rdma。
云主机或者容器访问云盘时是跑在overlay里,这就要求魔改的RoCE跑在Overlay里,这个是近期的热点,大厂最近喜欢在这里吹点nb。
再说AI推理↓
自从PD分离和AF分离被验证是有效的后,不同任务可以用不同的算力卡。
不同任务之间传递的的是KV,KV存储在调整存储集群如HDFS里,任务运行在容器里。
所以容器去访问HDFS的KV,天然就是overlay rdma场景,这也推动了dcn内rdma的普及。
dcn内的rdma将会是各路英雄们大秀身段的舞台,因为这里没有算力卡绑定,是网工们最稳定的基本盘。
现在明确的需求来了,就看自己能不能接住,并且率先拿到阶段性验证成果、扩大验证赢得内部赛马、外部PR同步跟上……
拜将封侯时不我待
HPN最初是从HPC的RDMA网络开始,进入大厂变成是IB和RoCE之争,随着NVL摆脱机框的束缚杀向机柜变成了scale-up网络。
原有的RDMA网络矮化成了scale-out网络,scale-out网络栈又入侵(赋能)了dcn,并在dcn领域得到了自由设计的机会。
也有网工想把这几种协议栈融合在一起的,还是看业务结果吧,路要一步一步走,贪天之功人尽想,眼前之福勿相忘。
我们可以把最终的评价标准撂在这面:老外讲de facto,老中讲成王败寇,其实就是看应用量:
①你出来的HPN在大厂内部的覆盖率怎么样,如果10%都不到,你觉得自己是头猛虎还是个小卡拉咪?
②什么模型训练或者推理跑在你的HPN上,是跑个自娱自乐的玩具,还是跑个日活上百万、千万、过亿的应用?
达不成这2个标准,无论你怎么吹我这技术体系这好那好,都是虚的。
