探索AI服务器内部的高速通道：PCIe和NVLink技术！

目前的GPU互联方式主要有两种，一种是PCIe，另一种是NVLink。传统的PCIe数据交互方式是CPU与GPU之间的数据交互，而NVLink的交互方式直接绕开

曾经，加速计算是一项只有政府研究实验室中才有的高性能计算能力。如今，它已成为主流技术。银行、汽车制造商、工厂、医院、零售商等机构需要处理和理解的数据日益增加，他们现在正在采用 AI 超级计算机来处理这些堆积如山的数据。这就需要高速传输技术，目前的GPU互联方式主要有两种，一种是PCIe，另一种是NVLink。**这些强大、高效的系统如同一条条“超级计算高速公路”。它们在多条并行路径上同时传输数据和计算，可以瞬间得出可执行结果。

1.什么是PCIe？

如果不是做主板类的工程师或者没有自己组装过电脑/服务器的，估计很多人并不了解PCIe是什么。因为PCIe并不像USB、HDMI这类外部接口那样被大众所认识。

PCIe是PCI-Express (Peripheral ComponentInterconnect Express)的简称，它是一种内部总线**，也是一种计算机扩展总线标准，是一种高速串行、高带宽扩展总线，通常用于主板上连接显卡、固态硬盘以及采集卡和无线网卡等外设。但是，PCIe不仅限用于主板上。在很多芯片与芯片之间的互连也采用的是PCIe的总线。

主板上的 PCIe 通道分为 x1、x2、x4、x8 和 x16 几种配置。通道数量越多意味着带宽越高，插槽也就更长。PCIe有两种存在形式：M.2接口通道形式和PCIe标准插槽。

加速卡、高带宽网卡和显卡一般都是安装在插槽中。

而像固态硬盘、笔记本网卡等一版使用M.2的接口。

**每一代 PCIe 的速度都是上代的2倍。**PCIe 1.0的数据传输速率为每秒 2.5Gbps，PCIe 2.0 的数据传输速率为每秒 5Gbps，PCIe 3.0的数据传输速率为每秒 8Gbps（因为编码的原因，所以2.0到3.0并不是数字看到的2倍关系），而PCIe 4.0为16Gbps，PCIe 5.0为32Gbps，PCIe 6.0为64Gbps。

随着数据需求带宽的不断增加，PCIe发展也是越来越快，最近基本上是2年一升级。直到现在，PCIe 7.0 呼之欲出。

2.什么是 NVLink？

NVLink 是一种高速互连技术，旨在加快 CPU 与 GPU、GPU 与 GPU 之间的数据传输速度，提高系统性能。

NVLink通过GPU之间的直接互联，可扩展服务器内的多GPU I/O，相较于传统PCIe总线可提供更高效、低延迟的互联解决方案。

图：PCIe（左）、NVLink协议下的GPU互联

NVLink的首个版本于2014年发布，首次引入了高速GPU互连。

2016年发布的P100搭载了第一代NVLink，提供 160GB/s 的带宽，相当于当时 PCIe 3.0 x16 带宽（双向）的 5 倍。

之后陆续发布了很多新版本，V100搭载的 NVLink2 将带宽提升到300GB/s ，A100搭载了NVLink3带宽为600GB/s。

H20中包含18条第四代NVLink链路，总带宽（双向）达到 900 GB/s，是PCIe 5.0 x16带宽（双向）的7倍。

NVLink高速互联主要有两种：第一种是以桥接器的形式实现，另一种是在主板上集成 NVLink 接口。

3.PCIe VS NVLink

与PCIe 相比，NVLink明显的优势就是高带宽和低延迟，我们先来看看他们的速度对比。传统的PCIe5.0x16规格下互联速度为128GB每秒，而第四代NVLink的规格下，直接达到900GB每秒，也就是PCIe的7倍多（参考下图）。

另外，为了更直观地区别他们之间的数据传输差距，从下图可以看出，传统的PCIe数据交互方式是CPU与GPU之间的数据交互，图中可以看出带宽非常的细窄，而NVLink的交互方式直接绕开了CPU，通过GPU和GPU直连的方式进行数据交互，传输的通道非常地宽敞。

如果对于注重GPU之间数据通信的大规模训练来说，NVLink无疑是最佳性能选择，这也就是目前NVLink在人工智能领域大行其道的主要原因。虽然NVLink的价格目前不菲，但是综合时间成本和效率对比的话，它的训练效率和性价比还是比PCIe高出很多的。

图：PCIe和NVLink的区别**

两者优缺点比较具体如下表所示：

PCIe广泛应用于各种计算机硬件设备，包括显卡、声卡、网卡等。由于其良好的兼容性和扩展性，PCIe已成为计算机系统中不可或缺的一部分。

NVLink主要用于高性能计算和数据中心领域，特别是在需要将多个GPU连接在一起以加速计算任务的应用中。NVLink的高带宽和低延迟特性使其成为此类应用的理想选择。

4.超擎数智AI服务器（PCle & NVLink）

擎天系列L20 AI服务器是超擎数智国内首发的 NVIDIA 新一代L20 AI服务器，基于 Intel 最新Eagle Stream平台，搭载 NVIDIA L20 GPU，4U8卡 PCIe，采用“283”方案设计，搭载2颗Intel第四代CPU，连接8片L20 GPU、2片CX7 400G NDR网卡和1片BlueField-3 2X200G DPU卡，可满足训练和推理、生成式人工智能、图形视觉计算、视频加速应用等各种AI 业务应用需求。

锋锐系列L20 AI服务器采用 AMD EPYC 9004 处理器，搭载 NVIDIA L20 GPU，2U4卡 PCIe，采用“142”方案设计，搭载一颗 AMD EPYC 9004 处理器，连接4片L20 GPU、2片CX7 400G NDR网卡，并支持多达4个双槽主动或被动GPU可扩展配置，还可以选择 NVIDIA NVLink® Bridge 来实现性能扩展及更高带宽，助力加速AI 和高性能计算 (HPC)工作负载。

元景系列H20 AI服务器是超擎数智推出的智能算力旗舰新产品，搭载 NVIDIA H20 GPU，6U8卡 NVLink，是基于全新一代 AI 超融合架构平台，面向超大规模数据中心的强劲性能，极致扩展的AI服务器，最强算力密度6U空间内搭载2颗Intel第四代CPU，1块 NVIDIA Hopper 架构 HGX-8GPU 模组，系统支持4.0Tbps网络带宽，满足万亿级参数超大模型并行训练需求。

注：部分内容来源于可鉴智库