GPU集群采用InfiniBand还是RoCE组网

新闻中心

洞悉超擎数智品牌力与AI变革

GPU集群采用InfiniBand还是RoCE组网

时间：2023-08-09

来源：超擎数智

阅读量：4325

InfiniBand（简称IB）网络是通过 InfiniBand 交换机在节点之间直接创建一个专用的受保护通道，并通过 InfiniBand 网卡管理和执行远程直接内存访问（RDMA），与其他网络通信协议相比可以做到更低的延迟。

自从RoCE（RoCEv2）出现以来，一些以前IB特有的技术比如 RDMA，协议卸载等，现在已经可以在以太网上应用了。

GPU集群采用InfiniBand还是RoCE组网，这是一个灵魂拷问的问题。目前单机多卡一般是通过机内的PCIE或者NVLINK来完成通讯，多机多卡则涉及到选择IB还是RoCE的网络。超大规模集群的需求是机内高速通信，机间低延迟高带宽，从而支持更有效的大规模算力。关于超算中心Top500的用户统计，在前10和前100的超算中心中，IB网络占了很重要的比例。

像ChatGPT这类大规模AI计算集群网络，动辄便是上千卡级别的体量。ChatGPT的火爆带动了国内AIGC大规模超算中心的建设，而OpenAI正是基于微软Azure内由IB搭建的HPC大集群来训练出ChatGPT，为IB组网从HPC走向AI数据中心打了一个硬核广告。

Infiniband对比RoCE具有以下优势：

1、低延迟，由于是IB端到端的专用设备，每台IB交换机的延迟大概是150-200ns，大大低于传统以太网交换机(500ns以上)，在大网多跳后延迟优势会更大；

2、原生无损网络，无论是IB还是RoCE都是对RDMA应用的延伸，在IB网络里基于点到点的Credit CC拥塞控制可以轻松实现无损网络，而RoCE网络内从网卡到交换机的端到端流控和拥塞控制大大增加网络的复杂性和运维成本；

3、硬件加速，IB交换机和网卡凭借ASIC芯片的一些硬件特性，比如SHARP, Adaptive Routing，Shield等独有的优化技术，可以比以太网络交换机对HPC和AI等场景尤其是大规模部署时具有更大的优势；

4、更加灵活的物理拓扑，一个独立的IB subnet网络可以直接支持4万个无广播风暴的节点，可支持比如Fat tree, DragonFly, DragonFly+,Torus3D等物理拓扑。胖树可以组成2层3跳或者3层5跳的超大拓扑，设计简单高效并且易于扩展，对网络集群的节点规模没有限制，因此目前仍是IB和以太网络采用最广泛的一种拓扑。

当然IB也存在一些缺点：

运维管理成本较高，目前大部分用户对IB网络技术了解甚少，而且很多情况下IB交换机和网卡的配置和监控是通过各种命令行来执行的，当然最新的UFM网管软件慢慢开始解决这些问题，并且提供第三方API接口来对接Prometheus，Grafana等监控软件；

对于公有云中多租户和虚拟化的实际应用案例较少；

在GPU小集群规模内，可以采用IB或者RoCE网络，两者各有优缺点，根据实际的资金和技术积累来选择，而且RoCE网络内端到端尽量控制在3-5跳以内。对于超过万卡GPU的大集群规模，则IB网络比较稳妥，采用RoCE则需要相对投入更大量的人力和物力。