400-0698-860

新闻中心

洞悉超擎数智品牌力与产业变革

NVIDIA Spectrum-X 加速大规模 AI 工作负载优化

时间:2024-09-19
来源:超擎数智
阅读量:257
分享:

 

在当今迅速发展的技术格局中,保持领先地位不仅仅是一个目标,更是一个必要条件。创新浪潮,尤其是 AI 领域的创新,正在推动整个技术堆栈的巨大变革。

 

以太网(Ethernet)网络是见证深刻变革的领域之一,这是数字通信的基石,数十年来一直是企业和数据中心环境的基础。

 

如今,每个数据中心都在加速,以支持现代 AI 工作负载,从而增加了对支持这些工作负载的基础设施的需求。许多企业已经非常熟悉 Ethernet,将其作为可信网络标准。然而,他们缺乏一种高效的解决方案以使用 Ethernet 协议来充分支持 AI 工作负载的特性。

 

NVIDIA 深刻承诺理解和响应客户不断变化的需求并据此驱动持续创新,确保我们的解决方案不仅满足而且可以预测并超过客户的预期。

 

NVIDIA Spectrum-X 是全球首款高性能以太网架构,旨在实现不仅仅是增量的改进。它代表着重大飞跃,确保以太网在数据呈指数级增长的时代仍然是一种可靠的、面向未来的技术。

 

从概念到实现的性能

 

由于 AI 工作负载需求不断增加的数据吞吐量和零尾延迟,因此必须重塑传统的以太网以满足严格的要求。先进的 Remote Direct Memory Access(RDMA)协议、均衡大型网络流量以及更好的拥塞控制方法等因素必须在大规模的系统中得到应用、部署和验证。

 

虽然以太网已经被用于大规模云和数据中心,但实际上它往往只是用于支持单服务器应用或小型工作负载。传统以太网本质上是一种有损网络,在扩展 AI 等分布式计算负载时,会带来重大挑战。

 

为了解决传统以太网的这些缺点,我们开始开发新技术和功能,将 NVIDIA 以太网产品转变为高性能计算网络架构,能够支持加速计算的严格要求。

 

NVIDIA Spectrum-X 代表了传统以太网的重大进步,它在端到端的架构上进行专门设计,用于优化 AI 工作负载。它使用 NVIDIA BlueField-3 SuperNIC 网卡 NVIDIA Spectrum-4 交换机协同工作,并特别增强了数据中心环境中的 GPU 到 GPU 通信(也称为东西向网络流量)。

 

以下是 Spectrum-X 的特别之处:

  • 基于遥测的拥塞控制
  • 无损网络
  • 动态负载均衡
 

 

基于遥测的拥塞控制

 

通过将高频遥测探针与流量测量相结合,Spectrum-X 拥塞控制可确保工作负载得到保护,并确保网络提供性能隔离。这意味着各种类型的 AI 工作负载可以同时在共享基础设施上运行,而不会互相对性能产生负面影响。

 

无损网络

 

Spectrum-X 将配置网络实现无损,从而确保不丢弃数据包并最大限度地降低尾延迟。尾延迟是指一组并行任务中速度最慢的任务所经历的延迟,这将决定操作的整体完成时间。

 

动态负载均衡

 

Spectrum-X 使用细粒度动态路由来最大限度地提高网络利用率,并确保以太网的最高有效带宽。动态路由通过在整个网络中实现逐包负载均衡,避免了传统以太网中静态路由(等价多路径,即 ECMP)或 flowlet 路由的陷阱,而无需深度缓冲区或突发吸收。

 

由于负载均衡意味着数据包可以乱序地到达目的地,NVIDIA BlueField-3 SuperNIC 则确保重新排序数据包,并将其放置在主机内存中,从而对应用程序透明。

 

自 Spectrum-X 创建以来,NVIDIA 团队(包括一些世界知名的网络专家)一直在进行全天候的基准测试和应用程序测试,他们不断优化 Spectrum-X,以在各种规模下实现超低的运行时间。

 

生态系统实现可持续发展

 

Spectrum-X 带来的性能提升让我们的 OEM 合作伙伴和解决方案提供商兴奋不已,这也让我们的大型云客户眼前一亮。这迅速促进全球合作伙伴与我们的合作,将 Spectrum-X 集成到他们的数据中心解决方案中。

 

这标志着我们的合作伙伴开始广泛采用 Spectrum-X,他们认识到 Spectrum-X 网络优化对 AI 工作负载的优势,并将其纳入其产品系列。

 

客户对 Spectrum-X 的性能赞不绝口

 

Spectrum-X 能够优化大规模 AI 工作负载并提高数据中心的性能,因此吸引了一批早期客户。通过与我们的 OEM 合作伙伴密切合作,多家顶级云服务提供商率先部署了 Spectrum-X,认识到它在增强其 AI 基础设施的同时显著降低总体 TCO 的潜力。

 

近期的案例包括:

  • 采用 NVIDIA 技术的戴尔 AI 工厂:将戴尔的计算、存储、软件和服务与 NVIDIA 先进的 AI 基础架构相结合。
  • HPE 推出的 NVIDIA AI 计算:旨在加速生成式 AI 工业革命。

 

NVIDIA 在部署大规模集成系统(包括用于自身开发和研究的系统)方面积累了成熟的经验,我们发布这些参考架构,以帮助我们的合作伙伴和客户采用加速计算。

 

我们还通过 NVIS(NVIDIA Infrastructure Services)提供出色的基础设施服务。凭借每天完成 2560 个经过全面测试和互联的 GPU 的实施效率,使用 NVIS 的客户可以快速启动和运行,短期内实现从硬件购买到训练 LLM 的整个流程。

 

总结

 

Spectrum-X 的发展历程才刚刚开始。随着我们的发展,NVIDIA 将在 Spectrum-X 平台上持续创新,在构建 AI 工厂、生成式 AI 云和企业 AI 数据中心方面发挥关键作用。Spectrum-X 平台树立了新标准,提供了无与伦比的性能和效率。