400-0698-860

新闻中心

洞悉超擎数智品牌力与产业变革

探索AI服务器内部的高速通道:PCIe和NVLink技术!

时间:2024-08-23
来源:超擎数智
阅读量:503
分享:
曾经,加速计算是一项只有政府研究实验室中才有的高性能计算能力。如今,它已成为主流技术。银行、汽车制造商、工厂、医院、零售商等机构需要处理和理解的数据日益增加,他们现在正在采用 AI 超级计算机来处理这些堆积如山的数据。这就需要高速传输技术,目前的GPU互联方式主要有两种,一种是PCIe,另一种是NVLink这些强大、高效的系统如同一条条“超级计算高速公路”。它们在多条并行路径上同时传输数据和计算,可以瞬间得出可执行结果。

 

 

1.什么是PCIe?

如果不是做主板类的工程师或者没有自己组装过电脑/服务器的,估计很多人并不了解PCIe是什么。因为PCIe并不像USB、HDMI这类外部接口那样被大众所认识。

PCIe是PCI-Express (Peripheral ComponentInterconnect Express)的简称,它是一种内部总线,也是一种计算机扩展总线标准,是一种高速串行、高带宽扩展总线,通常用于主板上连接显卡、固态硬盘以及采集卡和无线网卡等外设。但是,PCIe不仅限用于主板上。在很多芯片与芯片之间的互连也采用的是PCIe的总线。

主板上的 PCIe 通道分为 x1、x2、x4、x8 和 x16  几种配置。通道数量越多意味着带宽越高,插槽也就更长。PCIe有两种存在形式:M.2接口通道形式和PCIe标准插槽。

 

 

 
加速卡、高带宽网卡和显卡一般都是安装在插槽中。

 

 

而像固态硬盘、笔记本网卡等一版使用M.2的接口。

 

 

每一代 PCIe 的速度都是上代的2倍。PCIe 1.0的数据传输速率为每秒 2.5Gbps,PCIe 2.0 的数据传输速率为每秒 5Gbps,PCIe 3.0的数据传输速率为每秒 8Gbps(因为编码的原因,所以2.0到3.0并不是数字看到的2倍关系),而PCIe 4.0为16Gbps,PCIe 5.0为32Gbps,PCIe 6.0为64Gbps。

 

 

随着数据需求带宽的不断增加,PCIe发展也是越来越快,最近基本上是2年一升级。直到现在,PCIe 7.0 呼之欲出。

 

2.什么是 NVLink?

 

NVLink 是一种高速互连技术,旨在加快 CPU 与 GPU、GPU 与 GPU 之间的数据传输速度,提高系统性能。

 

NVLink通过GPU之间的直接互联,可扩展服务器内的多GPU I/O,相较于传统PCIe总线可提供更高效、低延迟的互联解决方案。

 

图:PCIe(左)、NVLink协议下的GPU互联

 

NVLink的首个版本于2014年发布,首次引入了高速GPU互连。

 

2016年发布的P100搭载了第一代NVLink,提供 160GB/s 的带宽,相当于当时 PCIe 3.0 x16 带宽(双向)的 5 倍。

 

之后陆续发布了很多新版本,V100搭载的 NVLink2 将带宽提升到300GB/s ,A100搭载了NVLink3带宽为600GB/s。

 

H20中包含18条第四代NVLink链路,总带宽(双向)达到 900 GB/s,是PCIe 5.0 x16带宽(双向)的7倍。
 

 

 

NVLink高速互联主要有两种:第一种是以桥接器的形式实现,另一种是在主板上集成 NVLink 接口。

 

 

3.PCIe VS NVLink

与PCIe 相比,NVLink明显的优势就是高带宽和低延迟,我们先来看看他们的速度对比。传统的PCIe5.0x16规格下互联速度为128GB每秒,而第四代NVLink的规格下,直接达到900GB每秒,也就是PCIe的7倍多(参考下图)。

 

 

另外,为了更直观地区别他们之间的数据传输差距,从下图可以看出,传统的PCIe数据交互方式是CPU与GPU之间的数据交互,图中可以看出带宽非常的细窄,而NVLink的交互方式直接绕开了CPU,通过GPU和GPU直连的方式进行数据交互,传输的通道非常地宽敞。

 

如果对于注重GPU之间数据通信的大规模训练来说,NVLink无疑是最佳性能选择,这也就是目前NVLink在人工智能领域大行其道的主要原因。虽然NVLink的价格目前不菲,但是综合时间成本和效率对比的话,它的训练效率和性价比还是比PCIe高出很多的。

 

图:PCIe和NVLink的区别

 

两者优缺点比较具体如下表所示:

 

 

PCIe广泛应用于各种计算机硬件设备,包括显卡、声卡、网卡等。由于其良好的兼容性和扩展性,PCIe已成为计算机系统中不可或缺的一部分。

 

NVLink主要用于高性能计算和数据中心领域,特别是在需要将多个GPU连接在一起以加速计算任务的应用中。NVLink的高带宽和低延迟特性使其成为此类应用的理想选择。

 

4.超擎数智AI服务器(PCle & NVLink

 

 

擎天系列L20 AI服务器是超擎数智国内首发的 NVIDIA 新一代L20 AI服务器,基于 Intel 最新Eagle Stream平台,搭载 NVIDIA L20 GPU,4U8卡 PCIe,采用“283”方案设计,搭载2颗Intel第四代CPU,连接8片L20 GPU、2片CX7 400G NDR网卡和1片BlueField-3 2X200G DPU卡,可满足训练和推理、生成式人工智能、图形视觉计算、视频加速应用等各种AI 业务应用需求。

 

锋锐系列L20 AI服务器采用 AMD EPYC 9004 处理器,搭载 NVIDIA L20 GPU,2U4卡 PCIe,采用“142”方案设计,搭载一颗 AMD EPYC 9004 处理器,连接4片L20 GPU、2片CX7 400G NDR网卡,并支持多达4个双槽主动或被动GPU可扩展配置,还可以选择 NVIDIA NVLink® Bridge 来实现性能扩展及更高带宽,助力加速AI 和高性能计算 (HPC)工作负载。

 

元景系列H20 AI服务器是超擎数智推出的智能算力旗舰新产品,搭载 NVIDIA H20 GPU,6U8卡 NVLink,是基于全新一代 AI 超融合架构平台,面向超大规模数据中心的强劲性能,极致扩展的AI服务器,最强算力密度6U空间内搭载2颗Intel第四代CPU,1块 NVIDIA Hopper 架构 HGX-8GPU 模组,系统支持4.0Tbps网络带宽,满足万亿级参数超大模型并行训练需求。

 

注:部分内容来源于可鉴智库