咨询服务热线:400-0698-860
电话:027-5972 8168
邮箱:info@chaoqing-i.com
总部:武汉东湖高新区金融港二路9号联发科武汉研发中心2楼
北京运营中心:北京市海淀区北三环西路99号西海国际中心1号楼907(分部)
上海:上海市徐汇区龙爱路27号506(分部)
作为面向数据中心基础设施开发者的全面软件框架,NVIDIA DOCA 已被领先的 AI、云、企业和 ISV 创新者所采用。DOCA 2.5 的发布时逢 DOCA 面市三周年,由于代码库的稳定性和可靠性,以及多项网络和平台升级,使其成为首个用于 AI 云部署的 NVIDIA BlueField-3 长期支持 (LTS)版本。
与 NVIDIA 交换机、BlueField DPU 和 SuperNIC 一起,DOCA 2.5 也是为支持要求严苛的 AI 工作负载而构建共同设计平台的重要组件。作为 NVIDIA 全栈架构的一部分,NVIDIA 网络组件可提供出色的应用程序性能、安全性和数据中心效率。当与 NVIDIA 计算平台和软件工具一起部署时,它们可以提供更多的优势和协同作用。
以下是 NVIDIA 提供的一些网络新产品,以及 DOCA 2.5 如何成为 AI 基础设施不可或缺的一部分。
AI 基础设施的支柱
现在,人们普遍认为,高性能网络是高效 AI 基础设施的支柱。为了实现最佳 AI 性能,必须充分考虑生成式 AI 和基础模型的能力、实现和部署。
现代 AI 工作负载具有独特的属性和巨大的计算需求,因此需要专用的网络基础设施才能以峰值效率运行。为了引领 AI 和加速计算领域的发展,NVIDIA 创建了 NVIDIA Spectrum-X 以太网网络平台,以满足这一需求,并提高 AI 云的有效性和性能。
NVIDIA Spectrum-4 以太网交换机和 NVIDIA BlueField-3 SuperNIC 构成了 Spectrum-X 平台的基础,也是用于人工智能加速计算网络架构的基础。BlueField–3 SuperNIC 为各行各业提供了众多技术优势。当部署在 NVIDIA 的旗舰 AI 系统中时,BlueField–3 SuperNIC 不仅可以提高性能,还可以为租户作业提供确定性和隔离的性能。
图 1. NVIDIA Spectrum-4 和 BlueField-3 硬件
NVIDIA 协同
Spectrum-X 平台结合了共同设计的一流硬件,可提供无与伦比的性能协同和出色的客户体验。BlueField-3 SuperNIC 是该设计不可或缺的一部分,可将在基于 GPU 的服务器集群上运行 AI 系统的以太网网络提升到新的高度。
相比之下,传统的网卡缺乏 AI 工作负载所需的功能。BlueField SuperNIC 可确保高效、快速地交付有效执行基于云的 AI 工作负载所需的流程。
当与 NVIDIA GPU 结合使用时,这种技术组合(适用于大多数企业级服务器)可为 AI 云计算创建优化的解决方案,从而提供无与伦比的效率、性能和灵活性。
经过整个 NVIDIA 硬件和软件堆栈的验证,Spectrum-X 和 NVIDIA GPU 为 AI 云创建了真正无与伦比的以太网解决方案。凭借如此广泛的集成水平,微调(fine-tuning)的机会为真正独特的解决方案提供了类似定制级别的修改,专用于交付精确工作负载。
作为全栈的组成部分,DOCA 是解开 AI 谜题的关键部分,可将计算、网络、存储和安全联系在一起。
图 2. NVIDIA 硬件和软件堆栈
适用于 AI 云和
数据中心基础设施的新功能
DOCA 有助于实现当今最先进的 GPU 加速 AI 工作负载。对于包含 GPU 和 NVIDIA BlueField-3 DPU 或 BlueField–3 SuperNIC 的系统,开发者还有更多优势。
表 1. NVIDIA BlueField-3 DPU 和 SuperNIC 对比
具体来说,DOCA 利用了众多由 NVIDIA 主导的开发、集成和测试程序,这些程序支持并优化了全系列 AI 应用程序框架。NVIDIA 技术的融合推动了数据中心创新和快速 AI 应用程序部署。
DOCA 2.5 于 2023 年 12 月发布,提供了多项增强功能,可提升数据中心的性能。虚拟功能的数量和“东西向”网络流量都在不断增加。为此,必须使用 DOCA 和 BlueField-3 SuperNIC 来优化网络并建立其作为现代 AI 基础设施支柱的功能。
图 4. DOCA 2.5 架构
DOCA-PCC 现已推出
在多租户 AI 云环境中,同时运行多个 AI 作业可能会导致网络拥塞。
DOCA PCC 库(现已发布)提供了一个高级编程接口,使合作伙伴能够实施定制的拥塞控制(CC)算法。该库使用 NVIDIA BlueField-3 SuperNIC 加速进行 CC 管理,并提供 API 来抽象硬件复杂性以简化编程。合作伙伴可以专注于 CC 算法的功能,并通过 BlueField 硬件加速来快速实施该算法。
DOCA PCC 还为您提供了开发优化解决方案的灵活性,以处理集群中的拥塞。定制的拥塞控制对于 AI 工作流至关重要,可实现性能隔离,提高公平性,并防止在有损网络上的数据包丢失。
NVIDIA Spectrum-X 是一款突破性的以太网网络解决方案,用于构建多租户、超大规模 AI 云。它使用 DOCA PCC 实现拥塞控制。
DOCA Flow:用于云部署的
新功能和增强功能
DOCA Flow 是用于开发 DOCA 服务的基本编程工具。DOCA 2.5 增加了对 NVIDIA OVS-DOCA 开发的额外支持,这是一种创新的高性能虚拟交换机,适用于 NVIDIA NIC 和 DPU 以及 NVIDIA DOCA HBN 服务。
借助 NVIDIA DOCA Flow,您可以定义和控制网络流量,实施网络策略,并以编程方式管理网络资源。它提供网络虚拟化、遥测、负载均衡、安全实施和流量监控。
这些功能有助于处理低时延的高数据包工作负载、节省 CPU 资源并降低功耗。从根本上讲,DOCA Flow 是云网络中多个用例的关键推动因素。DOCA Flow 用于开发定制软件定义网络(SDN),是 CSP 设计未来网络的关键构建块。
DOCA 服务
以下是在 DOCA 2.5 版本中升级的 DOCA 服务示例:
基于主机的网络
DOCA 2.5 中升级的基于主机的网络(HBN)是一项 DOCA 服务,使网络架构师能够完全基于 L3 协议设计网络,从而使路由能够在网络服务器上运行。就 BlueField 而言,HBN 解决方案将一组网络功能打包在容器内,该容器被打包为在 DPU 上运行的服务 Pod。
DOCA HBN 使网络架构师能够创建无控制器虚拟私有云(VPC)。这是对于部署裸金属即服务(BMAaS)基础设施的 CSP、电信公司和企业客户来说是理想的选择。
与传统的网络解决方案相比,DOCA HBN 为您带来了许多好处。除了提高部署的可扩展性和效率外,DOCA HBN 还提供增强的安全选项、简化的底层网络架构,并降低了运营成本。如果与第三方交换机制造商结合使用,DOCA HBN 会将多台 ToR 交换机功能转移到 BlueField-3 DPU 或 SuperNIC,从而降低第三方许可成本。
如需详细了解新的 HBN 功能,包括对 RoCE、Routing 和 ACL 增强功能的支持,请参阅 DOCA 2.5 版本说明。
DOCA Firefly
此功能提供基于精确时间协议(PTP)的时间同步服务,这些服务使用 NVIDIA DPU 和 SuperNIC 的硬件加速。
行业特定的 PTP 用例包括以下内容:
电信:基于网络的时间同步对于 5G 移动部署至关重要。
媒体与娱乐:
数据中心:时间分发
金融服务:
作为 DOCA 2.5 的新成员,DOCA Firefly 现在包含行业特定的配置文件,以改善用户体验并简化部署。配置文件目前包括媒体和电信,配置为包含行业特定的功能和性能参数。
存储 SNAPv4
BlueField-3 上的 DOCA SNAPv4 服务添加了在线 AES-XTS,这是一种默认加密算法,用于保护存储设备上静态数据的机密性。SNAP 现在可再硬件中加速 AES – XTS 加密,从而优化和改进加密过程,同时受益于 CPU 开销的降低。
virtio-blk 的 SNAPv4 服务现可提供无需强制按序的恢复、热升级和实时迁移。这项新功能改进了对恢复、热升级和实时迁移功能的支持,意味着无需再使用强制按序流量进行操作。对于处于真实环境中的客户而言,这相当于一个更实用的工具,因此典型客户(例如 CSP)现在可以为执行重要存储任务的最终用户提供更长的正常运行时间和不间断的性能。
更多更新
有关以下更新和功能列表的更多信息,请参阅 DOCA 2.5 版本说明。
结束语
现代 AI 工作负载需要复杂的网络解决方案,才能以峰值效率有效运行。如今,全球各地的企业在尝试将 AI 嵌入其现有的运营和技术基础设施时,也面临着类似的重大挑战。
为了满足这一需求,NVIDIA 作为 AI 和加速计算领域的领导者,创建了一个优化的网络平台,以提高 AI 云计算的性能。该平台有效性的核心是通过各种 NVIDIA 品牌硬件和软件解决方案采用的互补技术实现的协同作用。
在其全栈架构中, NVIDIA 实施了多项设计考虑,以确保提高各种平台之间的运营效率。当与 NVIDIA GPU 相结合时,Spectrum-X(由 NVIDIA 以太网交换机和 BlueField SuperNIC 组成的解决方案)为 AI 云创建了真正出色的以太网平台。借助最新版本的 NVIDIA DOCA SDK,NVIDIA 取得了更多进展,进一步支持当今最先进的 GPU 加速 AI 工作负载。
经 NVIDIA 授权,超擎数智设立NVIDIA 授权合作伙伴 DPU 和 DOCA卓越中心,为开发者提供最新的基于NVIDIA BlueField-3 DPU的开发测试环境,以及基于 DPU 的整体解决方案和应用服务。
欢迎开发者和客户与超擎数智联系,超擎数智将提供开发测试环境和全方位的技术支持服务,为开发者构建创新应用赋能加速。
咨询服务热线:400-0698-860
邮箱:info@chaoqing-i.com
公众号
电话
需求反馈