NVIDIA 帶來(lái)知乎精彩問(wèn)答甄選系列,將為您精選知乎上有關(guān) NVIDIA 產(chǎn)品的精彩問(wèn)答。
本期將為您帶來(lái)更多 NVIDIA 網(wǎng)絡(luò)平臺(tái)的介紹。
以下兩個(gè)知乎甄選問(wèn)答將為您帶來(lái)更多關(guān)于 NVIDIA Spectrum-X800 平臺(tái)和 NVIDIA Quantum-X800 平臺(tái)的信息!
Q:NVIDIA Spectrum-X800 平臺(tái)是什么,能否詳細(xì)介紹一下?
A:
NVIDIA Spectrum-X800 平臺(tái)是業(yè)界第一代 800Gb/s 的以太網(wǎng)網(wǎng)絡(luò)平臺(tái),包括了 NVIDIA Spectrum SN5600 800Gb/s 以太網(wǎng)交換機(jī)和 NVIDIA BlueField-3 SuperNIC,為多租戶(hù)生成式 AI 云和大型企業(yè)級(jí)用戶(hù)提供了各種至關(guān)重要的先進(jìn)功能。其核心結(jié)構(gòu)是交換機(jī) + SuperNIC(超級(jí)網(wǎng)卡)+ LinkX + DOCA 軟件開(kāi)發(fā)包 + NCCL 集合通信庫(kù)。
大模型的發(fā)展推動(dòng)了 AI 云的爆發(fā)性增長(zhǎng),由于資金、經(jīng)驗(yàn)、時(shí)間、能耗等因素的影響,很多 AI 用戶(hù)選擇通過(guò)云的方式解決算力問(wèn)題。如何快速構(gòu)建 AI 云,在云上提供高性能的算力資源,保障多用戶(hù)上云和運(yùn)行業(yè)務(wù)的安全性,避免多用戶(hù)運(yùn)行多任務(wù)時(shí)的互相干擾導(dǎo)致業(yè)務(wù)性能降低,是當(dāng)前 AI 云提供商首要考慮的問(wèn)題。NVIDIA Spectrum-X800 通過(guò)優(yōu)化網(wǎng)絡(luò)性能,加快 AI 工作負(fù)載的處理、分析和執(zhí)行速度,進(jìn)而縮短 AI 解決方案的開(kāi)發(fā)、部署和上市時(shí)間。Spectrum-X800 專(zhuān)為多租戶(hù)環(huán)境打造,實(shí)現(xiàn)了每個(gè)租戶(hù)的 AI 工作負(fù)載的性能隔離,使業(yè)務(wù)性能能夠持續(xù)保持在最佳狀態(tài),提升客戶(hù)滿(mǎn)意度和服務(wù)質(zhì)量。
NVIDIA Spectrum-X800 平臺(tái)的出現(xiàn)是生成式 AI 云發(fā)展的必然趨勢(shì),AI 云的出現(xiàn)徹底顛覆了數(shù)據(jù)中心對(duì)于網(wǎng)絡(luò)的需求。傳統(tǒng)的數(shù)據(jù)中心運(yùn)行的任務(wù)多,但是單任務(wù)的算力需求不大,任務(wù)的耦合性不強(qiáng),網(wǎng)絡(luò)的性能對(duì)于業(yè)務(wù)的影響不大。但是大模型的出現(xiàn),替代了大量的傳統(tǒng)任務(wù),All In AI 成為了很多云服務(wù)商和數(shù)據(jù)中心的追求目標(biāo),數(shù)據(jù)中心成為了運(yùn)行少量的 AI 任務(wù),但是每個(gè) AI 任務(wù)的計(jì)算量都相當(dāng)大,且每個(gè)計(jì)算單元之間的耦合性很強(qiáng),網(wǎng)絡(luò)決定了數(shù)據(jù)中心的性能。Spectrum-X800 平臺(tái)是基于 NCCL 的全面 RoCE 端到端優(yōu)化平臺(tái),涵蓋了對(duì)于 AI 訓(xùn)練至關(guān)重要的動(dòng)態(tài)路由(AR - Adaptive Routing)、可編程擁塞控制等技術(shù)和業(yè)務(wù)性能隔離技術(shù)等,可以充分發(fā)揮網(wǎng)絡(luò)的通信效率,擺脫了以太網(wǎng)難擴(kuò)展的桎梏,保障了云上任務(wù)的性能和安全性。
Q:大神們介紹下 NVIDIA Quantum-X800 平臺(tái)?
A:
NVIDIA Quantum-X800 平臺(tái)是業(yè)界第一代 800Gb/s 的端到端高性能網(wǎng)絡(luò)平臺(tái),包括了 NVIDIA Quantum Q3400 交換機(jī)和 NVIDIA ConnectX-8 SuperNIC,它的出現(xiàn),樹(shù)立了 AI 專(zhuān)用基礎(chǔ)設(shè)施極致性能的新標(biāo)桿。其核心結(jié)構(gòu)是:交換機(jī) + SuperNIC(超級(jí)網(wǎng)卡)+ PCIe 交換機(jī) + LinkX + 網(wǎng)絡(luò)計(jì)算引擎 + NCCL 集合通信庫(kù)。
大模型的發(fā)展推動(dòng)著算力的不斷提升,同時(shí)降低算力功耗的需求也已經(jīng)變得更為苛刻。如何在提升計(jì)算性能同時(shí),又能降低能源的消耗,更高性能的 GPU 和網(wǎng)絡(luò)是構(gòu)建新型 AI 基礎(chǔ)設(shè)施的關(guān)鍵。NVIDIA Quantum-X800 平臺(tái)是專(zhuān)為 NVIDIA Blackwell 架構(gòu)產(chǎn)品的 Scale Out 而量身打造,為超過(guò)萬(wàn)億參數(shù)級(jí)的 GPU 計(jì)算和 AI 基礎(chǔ)設(shè)施進(jìn)行了全面的優(yōu)化,相比上一代計(jì)算平臺(tái)實(shí)現(xiàn)了性能的大幅提升,同時(shí)在同等算力的前提下又實(shí)現(xiàn)了功耗的大幅降低。
Quantum-X800 是 Quantum-2 平臺(tái)的下一代產(chǎn)品,在 Quantum-2 平臺(tái)的基礎(chǔ)之上,進(jìn)一步提升了端口的速度、交換機(jī)端口的密度、網(wǎng)絡(luò)計(jì)算的能力、以及在軟件上和業(yè)界流行的通信框架上進(jìn)行了更深層優(yōu)化,單交換機(jī)可支持 144 個(gè) 800GB/s 端口,實(shí)現(xiàn)了 FP8 的網(wǎng)絡(luò)計(jì)算,SuperNIC 內(nèi)置 PCIe6.0 交換機(jī),可直連 GPU 和 CPU,擺脫了 GPU 和網(wǎng)絡(luò)之間的通信需要依賴(lài)于 CPU 或者 PCIe 交換機(jī)總線(xiàn)帶寬的限制,大幅提升了 AI、數(shù)據(jù)處理和高性能計(jì)算的性能。
Quantum Q3400 平臺(tái)可以支持 14.4TFlops 的網(wǎng)絡(luò)計(jì)算能力(SHARPv4),是上一代交換機(jī)的 9 倍,可以卸載 GPU 和 CPU 的計(jì)算類(lèi)集合通信;Connect-X800 SuperNIC 可以通過(guò)內(nèi)置 PCIe6.0 交換機(jī)直接與最新的 Blackwell 架構(gòu)產(chǎn)品互連,提供 800Gb/s 的單端口網(wǎng)絡(luò)通信帶寬,僅用兩層網(wǎng)絡(luò)交換就可以支持 10,368 卡的 800Gb/s/GPU 互連或者 13,824 卡的 400Gb/s/GPU 互連,三層網(wǎng)絡(luò)可以支持超過(guò) 70 萬(wàn)張卡的 800Gb/s/GPU 互連。
NVIDIA Quantum-X800 平臺(tái)實(shí)現(xiàn)了單端口性能的加倍,交換容量的 5 倍提升,網(wǎng)絡(luò)計(jì)算能力的 9 倍提升,為大模型訓(xùn)練和生成式 AI 提供超強(qiáng)的性能。
-
以太網(wǎng)
+關(guān)注
關(guān)注
40文章
5551瀏覽量
174306 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5194瀏覽量
105503 -
網(wǎng)絡(luò)平臺(tái)
+關(guān)注
關(guān)注
0文章
20瀏覽量
8107
原文標(biāo)題:NVIDIA 知乎精彩問(wèn)答甄選 | 探索 NVIDIA 網(wǎng)絡(luò)平臺(tái)
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論