大模型时代的NVIDIA网络计算

新闻中心

洞悉超擎数智品牌力与AI变革

大模型时代的NVIDIA网络计算

时间：2023-11-22

来源：本站编辑

阅读量：1013

大模型需要大算力，当算力和网络的发展呈现一体共生之势时，从算网协同到算网融合，业务需求的变化会通过CPU、GPU、存储等IT设备传导到网络架构层面，即数据中心作为基础设施也会相应的产生自上而下的变化。

未来数据中心会走向三个方向：第一个是传统的云，因为有很多传统业务需要传统的云来提供服务; 第二个是生成式AI云，因为现在AI业务变得越来越多，我们的生活已经离不开AI了，为用户提供AI云的服务，需要有非常强大的算力平台，在这个算力平台里就会包括计算平台，包括通信平台，所以生成式AI云也是未来的发展趋势; 还有一个更大的云的趋势，这个云就是未来的AI工厂，大模型的出现标志着AI会往超大规模的场景上变化。

今年ChatGPT的出现标志着大模型时代已经来临了，所以ChatGPT出来以后在全世界掀起了大模型热潮。以GPT为代表的多模态的大模型出现以后，模型逐渐走向统一。当模型走向统一之后，未来提供训练服务的平台，会变成非常单纯、但是非常强大，有很大很大算力的平台。这个平台称为AI云，因为它跟传统的云和数据中心的目标完全不一样，AI云追求的就是很单纯的几个模型，也许是一个，也许是有限的几个，但是要让这个模型的性能发挥到淋漓尽致。所以在这里需要有最强的计算平台，像最强的GPU，也需要最强的网络平台。

当训练平台把1个GPU，或者是1台GPU服务器拓展到几千个几万个GPU的时候，单一的高性能的GPU，或者单一的高性能服务器已经不再决定这个系统的性能。在这样的AI工厂里，NVLink加上InfiniBand(IB)网络，将是一个黄金搭档，会成为未来构建AI工厂必不可少的关键网络。

在生成式AI里面，可以用NVLink，也可以用InfiniBand，但是在生成式AI云上面，还要提供一些云的服务，所以会有一些用户比较倾向于用以太网。NVIDIA也向市场上推出了非常高性能的以太网，叫Spectrum-X，是一套以太网端到端的解决方案。Spectrum-X里面包括了NVIDIA的DPU、NVIDIA Spectrum-4以太网交换机，NVIDIA高性能的LINK-X的网线，以及上面运行的所有的软件，这是一个整体的Package。这样就解决了喜欢以太网的用户要追求高性能的需求。相比InfiniBand和InfiniBand + NVLink的组合，Spectrum-X的性能还是略微要低一些，但是相比起传统的数据中心的以太网，Spectrum-X的性能，则“遥遥领先”。所以在构建未来的生成式AI云、构建AI工厂，选择高性能网络是一个不可避免的趋势。

NVIDIA提供了端到端的解决方案，包括了NVIDIA的交换机、NVIDIA的DPU、NVIDIA的CPU、NVIDIA的GPU。基于这么高性能的计算平台，可以来支持HPC的应用，支持AI的应用，支持数字孪生Omniverse的应用场景。这三个应用场景就可以涵盖未来三个云上所有的应用。

在谈生成式AI，在谈AI工厂的时候，性能是唯一的目标。最高的性能、最低的功耗，是两个最关键的追求，其他的都会让位于这两个追求。

为了能让用户在训练模型的时候能更快的部署，NVIDIA有非常强大的一个参考架构，叫SuperPoD。这个参考架构中，NVIDIA在不停地进行优化和升级换代，为用户提供最新的软硬件一体化方案。NVIDIA自己搭建了基于InfiniBand的网络平台、基于以太网的训练平台，这样就可以给所有的用户提供第一手的帮助，能最快地分享到用户手上去。