互联网大厂的高性能网络,简直卷上天了
2026-01-12 11:42

互联网大厂的高性能网络,简直卷上天了

本文来自微信公众号: 特大号 ,作者:铁笼牛马


你没想到吧,AI这波大浪,让沉寂需求的网络也跟着浪起来了,现在互联网大厂都在卷HPN网络。


所谓HPN,其实就是高性能网络(High Performance Network),对比HPC高性能计算,你从字面意思就能理解HPN想干啥。


大厂为什么要卷HPN?


首先,网工们熟悉的TCP,在GPU并行计算的世界里已经彻底被抛弃。


并行计算需要网络把分布式的内存、GPU显存也给并行起来,会丢包的传统以太网、能够自适应丢包传输的TCP统统都是不合格的。


必须是不丢包的、能够绕过内核冗长协议栈的才能把GPU昂贵的算力利用起来。


很凑巧,最好的GPU和最适配的网络竟然出自同一家,这样的网络就是IB。


用IB很省事,只需要银子够就行,搞成N记全家桶,后面基本上啥事都不用管了。


可是这样一来,网工的价值和尊严简直就是被按在地上摩擦,还不如当个采购去压价。


是可忍孰不可忍啊。


所以,大厂网工们首先嗅到了机会的味道,创造一个可以替代IB的命题,自己的价值不就出来了吗?


大家都希望给决策者们一个明确的信号,IB是可以被平替的,而且只是个工程问题。


当然,大厂决策者也不傻,不会光给试验场让网工刷存在感,毕竟IB是封闭的,价格又那么刀,自家牛马如果有实力搞平替,那么顺水推舟是明智之举。


一边是业务倒逼,一边是网工自驱,大厂HPN就这样卷起来了。


HPN的up与out之战


具体卷成什么样了呢?


目前的HPN,已经分化成了用于超节点互联的scale-up和代替IB互联的scale-out。


其实这也是N记定义并引领的↓


▋Scale-up网络


一机8卡的GPU内部nvl互联叫scale-up,从NVL72开始,又把nvl技术从机内拓展到机柜内,整机柜都用scale-up网络互联的GPU就是超节点superpod。


这个变化就像是网工们熟悉的盒式交换机和机框交换机一样,机框交换机那必定是交换机王冠上的明珠。


超节点对模型推理非常有帮助,因为内存语义通信的范围从8卡变成了几十上百卡嘛。


[国内外厂商的“超节点”们]

Scale-up中算力卡是内存出IO,因此scale-up基本上就是算力卡说了算,说到技术原理基本上是大同小异,都是在抄nvl的作业↓

①物理层


都是以太网的serdes,产业化最好,供应最好,开放程度最高;


②链路层


也用以太网的封装结构,这层和物理层耦合密切,自己搞一套和整个产业界对抗,是谁给你自信;


③网络层和和传输层


这里就有门道了,通常会有上下游credit分发和回收流控、固定信元长度、链路层重传之类的高级玩意儿。


目的就是高仿一个CPU无损访问内存(CPU访问内存如果异常,就是常见的蓝屏、夯机等致命故障)的网络,区别是各家都会有些实现上的细节差异;


④控制面


N家用的IB控制面,其余都是BGP这个最后的路由集大成者;


⑤标准和供应


UALink是一条路线,主要是N家的对手们在干。


大善人阿B,提供的SUE解决方案(提供网络,未来可能也提供算力卡IO)还能支持魔改;


菊花的UB,也开放了,国内外还有eth+和eth×开放体系……


百家争鸣吧,就看谁能先抢到一个有影响力的应用,然后扩大份额。


对强算力卡厂商而言,scale-up是不可商量的禁脔,是算力卡集群不可分割的一部分。


小算力卡厂商则身段柔软,无论是谁家的scale-up都能适配,也有自己的方案去小厂或者传统行业客户那里……


就像是路由收敛一样,最终的方案一定会收敛。


▋Scale-out网络


GPU通过pcie连接网卡,网卡再跑RDMA(不管IB还是RoCE),这种模式就是Scale-out。


两年前,Scale-out也是HPN领域的小甜甜,但自从超节点出来后,小甜甜就变成牛夫人。


原因不只是技术,Scale-out火是因为scaling-law。


这个law让所有玩家都觉得只要能融资买足够大的GPU算力集群,训练出一个超级牛×的模型就能交差了。


但DeepSeek让这些law的信徒们有点失去信仰,道心破碎的业者们也被逼去做推理卖token,所以焦点就转移到Scale-up。


当然,真正有追求的大厂们必须要拥有自己的模型,这个是玩AI的底牌,自然也是要继续研究scale-out的。


同样的,Scale-out把N记作为抄作业对象就可以了↓


PCIe SW直接集成到网卡,GPU、CPU、NVMe都是挂在网卡上的,不需要看主板脸色了,也不用看CPU脸色了;


网卡直接支持多个网络接口,实现多平面,网卡可以在多个网络接口上实现动态LB,网卡对应用层只提供1个RDMA IP,屏蔽多个网络接口;


网卡接收上支持乱序,只要是多平面、多路径的,乱序是基操,当然借用一下iWarp的DDP也是很觉的,做工程架构嘛,本身就是找成熟的工艺组装的事情,并不丢人;


交换机支持逐包均匀地喷射在多个ECMP链路上,也可以按动态权重喷射;


新的协议栈都可带良好的CC,可以容忍丢包,可以抛弃缺陷明显的PFC,当然scale-out不丢包是更好了。


Scale-out也是各个大厂中非常热闹的话题,几乎都有自己的魔改版本RoCE,运行在自己的DPU或者智能网卡上。


这个作业抄的是Google的TPU和OCS系统,TPU自带DPU IO,OCS是纯光交换。


在这里就不评价各个大厂同行,谁家做得好谁家不好,因为我说好不好,一点也不客观,丝毫影响不了他们的绩效,同行的绩效而是靠战功↓


❶这个CC好厉害,有没有论文,有没有sigcomm


❷自己的CC算法,能不能运行在CX-7网卡上啊


❸能不能不用CX-7网卡,也能跑得和CX-7一样酣畅淋漓


❹能不能别老用实验室数据啊,现网有没有用起来


❺现网用的量怎么样,占比如何,头牌应用有没有主力用这个


❻头牌应用能不能打


自上至下,「战功」依次递增。


从技术角度来看,Out和Up也有共同的地方↓


Lossy RDMA(允许网络丢包的RDMA),就是把烦人的PFC干掉,交换机顶多跑个ECN;


更有甚者,交换机啥都不跑,由端侧自己测量时延变化。


总之,CC和交换机无关,漂亮活儿都是端侧网卡的事情。


从无PFC、支持网络丢包这个技术点出发,设计这套CC的网工自然而然就想把scale-out网络和传统的dcn网络合并了,这个想法我放到最后一节了。


Scale-out在自带网络的强算力卡厂商那里,必然是卖方的囊中之物,大厂网工们只能去拿捏那些没有网络的小算力卡或者自研算力卡。


技术评价指标:


在一个常丢包网络,一个新的技术评价体系,在a%丢包率的网络中达到b%的传输效率,a+b越接近100,就说明这个魔改的RoCE协议栈更优秀。


Scale-out和机头网络能合并吗


Scale-out和机头dcn网络合并,这个天才般的想法现实中并没有真实地发生。


客观技术原因是scale-out所需要的带宽和收敛比和dcn带宽并不一致,如果dcn要硬做,变化带来的适配代价会远超收益。


但机头dcn网络也确实有rdma的需求:云存储和AI推理。


先说存储↓


宿主机提供一个云磁盘挂载到云主机或者容器,宿主机访问云存储集群是underlay。


underlay跑rdma就是干掉内核tcp栈的处理时延,收益非常明确,也是应用最早的rdma。


云主机或者容器访问云盘时是跑在overlay里,这就要求魔改的RoCE跑在Overlay里,这个是近期的热点,大厂最近喜欢在这里吹点nb。


再说AI推理↓


自从PD分离和AF分离被验证是有效的后,不同任务可以用不同的算力卡。


不同任务之间传递的的是KV,KV存储在调整存储集群如HDFS里,任务运行在容器里。


所以容器去访问HDFS的KV,天然就是overlay rdma场景,这也推动了dcn内rdma的普及。


dcn内的rdma将会是各路英雄们大秀身段的舞台,因为这里没有算力卡绑定,是网工们最稳定的基本盘。


现在明确的需求来了,就看自己能不能接住,并且率先拿到阶段性验证成果、扩大验证赢得内部赛马、外部PR同步跟上……


拜将封侯时不我待


HPN最初是从HPC的RDMA网络开始,进入大厂变成是IB和RoCE之争,随着NVL摆脱机框的束缚杀向机柜变成了scale-up网络。


原有的RDMA网络矮化成了scale-out网络,scale-out网络栈又入侵(赋能)了dcn,并在dcn领域得到了自由设计的机会。


也有网工想把这几种协议栈融合在一起的,还是看业务结果吧,路要一步一步走,贪天之功人尽想,眼前之福勿相忘。


我们可以把最终的评价标准撂在这面:老外讲de facto,老中讲成王败寇,其实就是看应用量:


①你出来的HPN在大厂内部的覆盖率怎么样,如果10%都不到,你觉得自己是头猛虎还是个小卡拉咪?


②什么模型训练或者推理跑在你的HPN上,是跑个自娱自乐的玩具,还是跑个日活上百万、千万、过亿的应用?


达不成这2个标准,无论你怎么吹我这技术体系这好那好,都是虚的。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP