400-0698-860

新闻中心

洞悉超擎数智品牌力与产业变革

大模型时代的NVIDIA网络计算

时间:2023-11-22
来源:本站编辑
阅读量:648
分享:

大模型需要大算力,当算力和网络的发展呈现一体共生之势时,从算网协同到算网融合,业务需求的变化会通过CPU、GPU、存储等IT设备传导到网络架构层面,即数据中心作为基础设施也会相应的产生自上而下的变化。

 

未来数据中心会走向三个方向:第一个是传统的云,因为有很多传统业务需要传统的云来提供服务; 第二个是生成式AI云,因为现在AI业务变得越来越多,我们的生活已经离不开AI了,为用户提供AI云的服务,需要有非常强大的算力平台,在这个算力平台里就会包括计算平台,包括通信平台,所以生成式AI云也是未来的发展趋势; 还有一个更大的云的趋势,这个云就是未来的AI工厂,大模型的出现标志着AI会往超大规模的场景上变化。

 

今年ChatGPT的出现标志着大模型时代已经来临了,所以ChatGPT出来以后在全世界掀起了大模型热潮。以GPT为代表的多模态的大模型出现以后,模型逐渐走向统一。当模型走向统一之后,未来提供训练服务的平台,会变成非常单纯、但是非常强大,有很大很大算力的平台。这个平台称为AI云,因为它跟传统的云和数据中心的目标完全不一样,AI云追求的就是很单纯的几个模型,也许是一个,也许是有限的几个,但是要让这个模型的性能发挥到淋漓尽致。所以在这里需要有最强的计算平台,像最强的GPU,也需要最强的网络平台。

 

当训练平台把1个GPU,或者是1台GPU服务器拓展到几千个几万个GPU的时候,单一的高性能的GPU,或者单一的高性能服务器已经不再决定这个系统的性能。在这样的AI工厂里,NVLink加上InfiniBand(IB)网络,将是一个黄金搭档,会成为未来构建AI工厂必不可少的关键网络。

 

在生成式AI里面,可以用NVLink,也可以用InfiniBand,但是在生成式AI云上面,还要提供一些云的服务,所以会有一些用户比较倾向于用以太网。NVIDIA也向市场上推出了非常高性能的以太网,叫Spectrum-X,是一套以太网端到端的解决方案。Spectrum-X里面包括了NVIDIA的DPU、NVIDIA Spectrum-4以太网交换机,NVIDIA高性能的LINK-X的网线,以及上面运行的所有的软件,这是一个整体的Package。这样就解决了喜欢以太网的用户要追求高性能的需求。相比InfiniBand和InfiniBand + NVLink的组合,Spectrum-X的性能还是略微要低一些,但是相比起传统的数据中心的以太网,Spectrum-X的性能,则“遥遥领先”。所以在构建未来的生成式AI云、构建AI工厂,选择高性能网络是一个不可避免的趋势。

 

NVIDIA提供了端到端的解决方案,包括了NVIDIA的交换机、NVIDIA的DPU、NVIDIA的CPU、NVIDIA的GPU。基于这么高性能的计算平台,可以来支持HPC的应用,支持AI的应用,支持数字孪生Omniverse的应用场景。这三个应用场景就可以涵盖未来三个云上所有的应用。

 

在谈生成式AI,在谈AI工厂的时候,性能是唯一的目标。最高的性能、最低的功耗,是两个最关键的追求,其他的都会让位于这两个追求。

 

为了能让用户在训练模型的时候能更快的部署,NVIDIA有非常强大的一个参考架构,叫SuperPoD。这个参考架构中,NVIDIA在不停地进行优化和升级换代,为用户提供最新的软硬件一体化方案。NVIDIA自己搭建了基于InfiniBand的网络平台、基于以太网的训练平台,这样就可以给所有的用户提供第一手的帮助,能最快地分享到用户手上去。