亚洲色图套图超市影音先锋,黄色毛片视频国产福利私拍 ,欧美亚洲视频成人一区

集體通信是現(xiàn)代分布式人工智能培訓(xùn)工作（如推薦系統(tǒng)和自然語(yǔ)言處理）的一個(gè)關(guān)鍵性能組成部分。

NVIDIA Collective Communication Library （ NCCL ）是一個(gè) Magnum IO 庫(kù)，可實(shí)現(xiàn) GPU 加速的集體操作：

集合

全部減少

廣播

減少

減少分散

點(diǎn)對(duì)點(diǎn)發(fā)送和接收

NCCL 具有拓?fù)湟庾R(shí)，經(jīng)過(guò)優(yōu)化，可通過(guò) PCIe 、 NVLink 、以太網(wǎng)和 InfiniBand 互連實(shí)現(xiàn)高帶寬和低延遲。 NCCL GCP 插件和 NCCL AWS 插件通過(guò)自定義網(wǎng)絡(luò)連接，在流行的云環(huán)境中實(shí)現(xiàn)高性能 NCCL 操作。

NCCL 版本一直致力于提高集體溝通績(jī)效。這篇文章主要關(guān)注 NCCL 2.12 版本帶來(lái)的改進(jìn)。

結(jié)合 NVLink 和網(wǎng)絡(luò)通信

NCCL 2.12 中引入的新功能稱(chēng)為 PXN ，稱(chēng)為 PCI × NVLink ，因?yàn)樗?GPU 能夠通過(guò) NVLink 然后通過(guò) PCI 與節(jié)點(diǎn)上的 NIC 通信。這不是使用 QPI 或其他無(wú)法提供全部帶寬的 CPU 協(xié)議通過(guò) CPU 。這樣，即使每個(gè) GPU 仍然盡可能多地使用其本地 NIC ，但如果需要，它可以訪問(wèn)其他 NIC 。

GPU 在中間 GPU 上準(zhǔn)備緩沖區(qū)，通過(guò) NVLink 寫(xiě)入，而不是在其本地內(nèi)存上準(zhǔn)備緩沖區(qū)供本地 NIC 發(fā)送。然后，它通知管理該 NIC 的 CPU 代理數(shù)據(jù)已就緒，而不是通知其自己的 CPU 代理。 GPU- CPU 同步可能會(huì)稍微慢一點(diǎn)，因?yàn)樗赡鼙仨毚┻^(guò) CPU 插槽，但數(shù)據(jù)本身只使用 NVLink 和 PCI 交換機(jī)，以保證最大帶寬。

圖 1 。軌道優(yōu)化拓?fù)?/p>

在圖 1 的拓?fù)渲?，每個(gè) DGX 系統(tǒng)的 NIC-0 連接到同一個(gè)葉交換機(jī)（ L0 ）， NIC-1 連接到同一個(gè)葉交換機(jī)（ L1 ），依此類(lèi)推。這種設(shè)計(jì)通常被稱(chēng)為 rail-optimized 。鐵路優(yōu)化網(wǎng)絡(luò)拓?fù)溆兄谧畲笙薅鹊靥岣咚辛髁浚档托阅?，同時(shí)最大限度地減少流量之間的網(wǎng)絡(luò)干擾。它還可以通過(guò)輕軌之間的連接來(lái)降低網(wǎng)絡(luò)成本。

PXN 利用節(jié)點(diǎn)內(nèi) GPU 之間的 NVIDIA NVSwitch 連接，首先將 GPU 上的數(shù)據(jù)移動(dòng)到與目的地相同的軌道上，然后在不跨越軌道的情況下將其發(fā)送到目的地。這可以實(shí)現(xiàn)消息聚合和網(wǎng)絡(luò)流量?jī)?yōu)化。

圖 2 。從 DGX-A 中的 GPU0 到 DGX-B 中的 GPU3 的消息路徑示例

在 NCCL 2.12 之前，圖 X 中的消息會(huì)穿過(guò)網(wǎng)絡(luò)交換機(jī)的三個(gè)躍點(diǎn)（ L0 、 S1 和 L3 ），這可能會(huì)導(dǎo)致?tīng)?zhēng)用，并被其他流量減慢。在同一對(duì) NIC 之間傳遞的消息被聚合，以最大限度地提高有效消息速率和網(wǎng)絡(luò)帶寬。

消息聚合

使用 PXN ，給定節(jié)點(diǎn)上的所有 GPU 將其數(shù)據(jù)移動(dòng)到給定目的地的單個(gè) GPU 上。這使得網(wǎng)絡(luò)層能夠通過(guò)實(shí)現(xiàn)新的多接收功能來(lái)聚合消息。該功能使遠(yuǎn)程 CPU 代理能夠在所有消息準(zhǔn)備就緒后立即將它們作為一個(gè)整體發(fā)送。

例如，如果節(jié)點(diǎn)上的 GPU 正在執(zhí)行 all2all 操作，并且要從遠(yuǎn)程節(jié)點(diǎn)的所有八個(gè) GPU 接收數(shù)據(jù)， NCCL 調(diào)用具有八個(gè)緩沖區(qū)和大小的多接收。在發(fā)送方方面，網(wǎng)絡(luò)層可以等待所有八次發(fā)送就緒，然后一次發(fā)送所有八條消息，這會(huì)對(duì)消息速率產(chǎn)生顯著影響。

消息聚合的另一個(gè)方面是，現(xiàn)在在給定目的地的所有 GPU 節(jié)點(diǎn)之間共享連接。這意味著要建立的連接更少。如果路由算法依賴(lài)于有很多不同的連接來(lái)獲得良好的熵，這也會(huì)影響路由效率。

PXN 提高了所有 2 的性能

圖 3 。所有 2 跨四個(gè)參與流程的所有集體操作

圖 3 顯示了 all2all 需要從每個(gè)進(jìn)程到其他每個(gè)進(jìn)程的通信。換句話(huà)說(shuō)，在 N – GPU 集群中，作為 all2all 操作的一部分交換的消息數(shù)是$ O （ N ^{ 2 }）$。

GPU 之間交換的消息是不同的，無(wú)法使用樹(shù)/環(huán)等算法（用于 allreduce ）進(jìn)行優(yōu)化。當(dāng)您在 GPU 的 100 秒內(nèi)運(yùn)行十億個(gè)以上的參數(shù)模型時(shí)，消息的數(shù)量可能會(huì)觸發(fā)擁塞、創(chuàng)建網(wǎng)絡(luò)熱點(diǎn)，并對(duì)性能產(chǎn)生不利影響。

如前所述， PXN 將 NVLink 和 PCI 通信結(jié)合起來(lái)，以減少通過(guò)第二層脊椎交換機(jī)的流量，并優(yōu)化網(wǎng)絡(luò)流量。它還通過(guò)將多達(dá)八條消息聚合為一條消息來(lái)提高消息速率。這兩項(xiàng)改進(jìn)都顯著提高了所有 2 的性能。

所有 reduce 都基于 1:1 GPU:NIC 拓?fù)?/p>

PXN 解決的另一個(gè)問(wèn)題是拓?fù)涞那闆r，即每個(gè) NIC 附近都有一個(gè) GPU 。環(huán)形算法要求兩個(gè) GPU 靠近每個(gè) NIC 。數(shù)據(jù)必須從網(wǎng)絡(luò)傳輸?shù)降谝粋€(gè) GPU ，通過(guò) NVLink 繞過(guò)所有 GPU ，然后從最后一個(gè) GPU 退出網(wǎng)絡(luò)。第一個(gè)和最后一個(gè) GPU 必須都靠近 NIC 。第一個(gè) GPU 必須能夠有效地從網(wǎng)絡(luò)接收，最后一個(gè) GPU 必須能夠有效地通過(guò)網(wǎng)絡(luò)發(fā)送。如果只有一個(gè) GPU 靠近給定的 NIC ，則無(wú)法關(guān)閉環(huán)，必須通過(guò) CPU 發(fā)送數(shù)據(jù)，這可能會(huì)嚴(yán)重影響性能。

有了 PXN ，只要最后一個(gè) GPU 可以通過(guò) NVLink 訪問(wèn)第一個(gè) GPU ，它就可以將數(shù)據(jù)移動(dòng)到第一個(gè) GPU 。數(shù)據(jù)從那里發(fā)送到 NIC ，將所有傳輸保持在 PCI 交換機(jī)的本地。

這種情況不僅與每個(gè) PCI 交換機(jī)具有一個(gè) GPU 和一個(gè) NIC 的 PCI 拓?fù)溆嘘P(guān)，而且當(dāng) NCCL 通信器僅包含 GPU 的子集時(shí)，也可能發(fā)生在其他拓?fù)渖稀？紤]具有 nVLink 超立方體網(wǎng)格的 8x GPU 互連的節(jié)點(diǎn)。

圖 4 。 NVIDIA DGX-1 系統(tǒng)中的網(wǎng)絡(luò)拓?fù)?/p>

圖 5 顯示了當(dāng)通信器包括系統(tǒng)中的所有 8x GPU 時(shí)，利用拓?fù)渲锌捎玫母邘?NVLink 連接可以形成的環(huán)。這是可能的，因?yàn)?GPU0 和 GPU1 共享對(duì)同一本地 NIC 的訪問(wèn)。

圖 5 。 NCCL 使用的環(huán)形路徑示例

通訊器只能包含 GPU 的一個(gè)子集。例如，它可以只包含 GPU 0 、 2 、 4 和 6 。在這種情況下，如果不穿過(guò)軌道，就不可能創(chuàng)建環(huán)：從 GPU 0 進(jìn)入節(jié)點(diǎn)的環(huán)必須從 GPU 2 、 4 或 6 退出，這些環(huán)不能直接訪問(wèn) GPU 0 （ NIC 0 和 1 ）的本地 NIC 。

另一方面， PXN 允許形成環(huán)，因?yàn)?GPU 2 可以在通過(guò) NIC 0 / 1 之前將數(shù)據(jù)移回 GPU 0 。

這種情況在模型并行性中很常見(jiàn)，具體取決于模型的拆分方式。例如，如果一個(gè)模型在 GPU 0-3 之間拆分，則另一個(gè)模型在 GPU 4-7 上運(yùn)行。這意味著 GPU 0 和 4 負(fù)責(zé)模型的同一部分，并且在所有節(jié)點(diǎn)上創(chuàng)建了一個(gè) NCCL 通信器，其中包含所有 GPU 0 和 4 ，以執(zhí)行相應(yīng)層的所有 reduce 操作。沒(méi)有 PXN ，這些通訊器無(wú)法有效地執(zhí)行所有 reduce 操作。

到目前為止，實(shí)現(xiàn)高效模型并行的唯一方法是在 GPU 0 ， 2 ， 4 ， 6 和 1 ， 3 ， 5 ， 7 上拆分模型，這樣 NCCL 子通信程序?qū)?GPU ［0 ， 1］、［2 ， 3］、［4 ， 5］和［6 ， 7］，而不是［0 ， 4］、［1 ， 5］、［2 ， 6］和［3 ， 7］。新的 PXN 特性為您提供了更大的靈活性，并簡(jiǎn)化了模型并行性的使用。

圖 6 。 NCCL 2.12 PXN 性能改進(jìn)

圖 6 對(duì)比了在使用和不使用 PXN 的情況下完成所有集合操作的時(shí)間。此外， PXN 為所有 reduce 操作提供了更靈活的 GPU 選擇。

總結(jié)

NCCL 2.12 版本顯著提高了所有 2 所有通信集體性能。 Download 最新的 NCCL 版本，并親身體驗(yàn)改進(jìn)后的性能。

關(guān)于作者

Karthik Mandakolathur 是 NVIDIA Magnum IO 的產(chǎn)品經(jīng)理，專(zhuān)注于加速分布式 AI 、數(shù)據(jù)分析和 HPC 應(yīng)用。憑借 20 多年的行業(yè)經(jīng)驗(yàn)， Karthik 曾在 Broadcom 和 Cisco 擔(dān)任高級(jí)工程和產(chǎn)品職務(wù)。他在沃頓商學(xué)院獲得工商管理碩士學(xué)位，在斯坦福大學(xué)獲得工商管理碩士學(xué)位，在印度理工學(xué)院獲得工商管理學(xué)士學(xué)位。他在高性能交換架構(gòu)領(lǐng)域擁有多項(xiàng)美國(guó)專(zhuān)利。

Sylvain Jeaugey 是 NVIDIA 的高級(jí)軟件工程師，自 2015 年創(chuàng)建 NCCL 庫(kù)以來(lái)一直在開(kāi)發(fā)該庫(kù)。他在大規(guī)模分布式計(jì)算方面有 15 年的經(jīng)驗(yàn)。他一直致力于各種 MPI 實(shí)現(xiàn)，開(kāi)發(fā)和集成高速網(wǎng)絡(luò)技術(shù)，并設(shè)計(jì)大型網(wǎng)絡(luò)結(jié)構(gòu)。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4944

瀏覽量
131218
人工智能

人工智能

+關(guān)注

關(guān)注
1806

文章
49011

瀏覽量
249356

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

使用NCCL 2.12將所有all2all性能翻倍

評(píng)論