咨询服务热线:400-0698-860
电话:027-5972 8168
邮箱:info@chaoqing-i.com
总部:武汉东湖高新区金融港二路9号联发科武汉研发中心2楼
北京超擎数智科技有限公司:北京市海淀区北三环西路99号西海国际中心1号楼907
上海超擎数智科技有限公司:上海市徐汇区龙启路158号1幢灿星大厦19层1911
近年来,人工智能领域的“大模型军备竞赛”愈演愈烈,模型参数量从千亿迈向万亿级别,训练算力需求呈指数级增长。在此背景下,分布式训练成为主流,而网络通信效率直接决定了训练集群的算力利用率。作为数据中心网络的两大主流技术——以太网(Ethernet)和InfiniBand(IB),其竞争格局与合作模式正在发生深刻变革。
大模型训练涉及的数据量和计算规模堪称海量。其核心方法数据并行(Data Parallelism)与模型并行(Model Parallelism),决定了训练过程中需要频繁交换梯度参数和中间计算结果。以拥有1750亿个参数的GPT-3为例,训练时需要数千张GPU协同工作。在每一次迭代中,单个GPU可能要与其他所有节点通信,网络延迟和带宽成为决定训练任务吞吐量的关键因素。训练这类模型不仅要处理海量数据,而且服务器之间还需频繁交换数据来同步模型参数。相关研究表明,当网络延迟超过10微秒时,GPU算力利用率可能下降30%以上。这就对网络提出了严苛要求:需要具备超高带宽,以便快速传输大量数据;实现超低时延,减少数据传输的等待时间,保证计算效率;还必须具备极高的稳定性,防止数据传输错误致使训练失败。此外,随着模型规模持续扩大,网络的可扩展性也变得至关重要,以契合未来的发展需求。
InfiniBand凭借其超低延迟(亚微秒级)、高吞吐量(当前主流为400Gbps)和无损传输特性,长期在HPC(高性能计算)和AI训练场景占据主导地位。其核心优势体现在以下几个方面:
▲NVIDIA Quantum-2 QM9700 NDR 400Gb/s InfiniBand 交换机
协议栈优化:IB采用轻量级协议,有效减少了数据包处理开销,使得数据传输更加高效。
拥塞控制:基于信用的流量控制机制,能够精准避免网络拥塞,保障数据传输的稳定性。
RDMA支持:通过远程直接内存访问(RDMA)技术,可实现GPU显存的直接通信,绕过CPU和操作系统,大大提升了通信速度。
以NVIDIA主导的NVIDIA Quantum InfiniBand平台为例,其支持的GPUDirect技术,可将GPU间的通信延迟降至1微秒以下,因此成为超大规模训练集群的首选方案。
以太网凭借成本优势、广泛兼容性和灵活的可扩展性,正加速向高性能场景渗透。其关键突破主要包括:
RoCE(RDMA over Converged Ethernet):在以太网上成功实现RDMA,借助PFC(优先流控制)和ECN(显式拥塞通知)模拟无损网络,显著提升了以太网在高性能计算场景下的性能表现。
智能网卡(SmartNIC):通过DPU/IPU卸载网络协议处理,有效降低了CPU负载,让CPU能够专注于核心计算任务,进一步提升了系统整体性能。
超高速率:800G以太网标准化进程不断加速,逐步缩小了与IB的带宽差距,使其在数据传输速度上更具竞争力。
以微软、Meta为代表的云服务商,已在大规模集群中部署RoCEv2网络,为GPT类模型的训练提供了有力支持。
InfiniBand阵营:以NVIDIA为核心,通过软硬件垂直整合(IB交换机 + NVIDIA GPU + NCCL通信库)构建起竞争壁垒,但该阵营生态相对封闭,对其他供应商的兼容性较差。
以太网阵营:由云计算厂商(AWS、Google、阿里云等)、芯片厂商(Intel、AMD、博通)和开源社区推动,强调开放标准和多供应商兼容性,能够为用户提供更加多元化的选择。
InfiniBand的专用硬件导致单节点成本较高,而且网络扩展在很大程度上依赖少数供应商,这无疑增加了用户的采购成本和供应风险。
以太网依托成熟的产业链,规模化部署成本更低,同时,以太网允许用户根据自身需求自定义网络拓扑和协议栈,赋予了用户更大的自主控制权。
尽管以太网与InfiniBand竞争激烈,但二者并非零和博弈,而是呈现出“底层异构,上层协同”的发展趋势:
协议互通:NVIDIA Spectrum-X系列交换机支持同时运行以太网和InfiniBand,通过自适应路由实现混合组网,为用户提供了更加灵活的网络部署方案。
▲NVIDIA Spectrum-X SN5600 800G以太网交换机
新兴技术催化:CXL(Compute Express Link)和UCIe(通用芯片互连)等芯片级互联技术不断发展,可能重构网络层次,推动以太网与IB在更底层实现融合,进一步提升网络性能。
在大模型训练场景中,以太网与InfiniBand的竞争本质是“效率与成本”“封闭与开放”的路线之争。短期来看,超大规模训练集群为追求极致性能,可能继续倾向于选择InfiniBand;而公有云和长尾AI市场由于对成本更为敏感,会将以太网作为主流选择。但从长期发展趋势来看,随着以太网性能不断逼近理论极限、IB逐步开放生态,二者的技术边界将逐渐模糊,最终会形成以场景为导向的混合网络架构。无论是“竞”还是“合”,其核心目标始终一致:让算力流动更高效,让智能涌现更自由,为人工智能领域的发展提供强大的网络支撑。
公众号
电话
需求反馈