學(xué)過微處理器的同學(xué)可能還記得,最初的8086/8088處理器沒有浮點單元。主板通常有一個額外的插槽,用于可選的8087 數(shù)學(xué)協(xié)處理器。數(shù)學(xué)協(xié)處理器進入了 CPU 本身,如今,CPU 沒有可選的數(shù)學(xué)協(xié)處理器。 然而,SIMD處理器(例如GPU)有多種選擇。眾所周知,GPU 可以比 CPU 主機更快地加速數(shù)學(xué)處理(例如矩陣運算)。 隨著Nvidia GH-200 處理器 和AMD MI300A APU的推出,市場正在見證“8087 時刻”——即 CPU 吸收外部性能硬件。Nvidia 和 AMD 都已將 GPU 納入處理器中,其結(jié)果是 HPC 性能大幅躍升,并預(yù)示著未來的發(fā)展。
再見 PCI
AMD 和 Nvidia 的 GPU 都依賴 PCI 總線與 CPU 進行通信。CPU 和 GPU 有兩個不同的內(nèi)存域,數(shù)據(jù)必須通過 PCI 接口從 CPU 域移動到 GPU 域(并返回)。 使用第 5 代 PCIe 總線中全部 16 個通道的 GPU 的最大帶寬約為 63GB/s。此瓶頸將限制 CPU 和 GPU 之間的內(nèi)存移動。 Nvidia GH200 通過 900 GB/s 雙向 NVLink-C2C 連接 Grace CPU 和 Hooper GPU。結(jié)果大約快了 14 倍。此外,GH200 還帶來了單一共享 CPU-GPU 內(nèi)存域的優(yōu)勢。無需通過 PCI 總線在 CPU 和 GPU 之間移動數(shù)據(jù)。如圖 1 所示,CPU 和 GPU 對所有內(nèi)存具有一致的視圖。CPU內(nèi)存高達480GB LPDDR5X(帶ECC),GPU具有96GB HBM3或144GB HBM3e??偟南喔桑▎斡颍﹥?nèi)存在 576GB 到 624GB 之間。
當(dāng)前的 AMD Instinct MI300A APU 中采用單一內(nèi)存域,具有 128 GB HBM3 內(nèi)存,使用 Infinity Fabric 在 CPU 和 GPU 之間一致共享,封裝峰值吞吐量為 5.3 TB/s 。雖然 MI300A 目前不支持像 GH200 那樣額外的 DDR 內(nèi)存擴展,但CXL是一個值得將來記住的詞。 對于 GH200 和 MI300A,關(guān)鍵的突出短語是“呈現(xiàn)單個存儲域”。在傳統(tǒng)的CPU-PCIe-GPU組合中,GPU內(nèi)存量通常小于CPU內(nèi)存,數(shù)據(jù)必須通過PCIe接口進行混洗。這兩個新設(shè)計消除了這個瓶頸。單個大內(nèi)存域一直對 HPC 有吸引力,而 GenAI 的增長加速了這種需求(即,能夠在內(nèi)存中加載大型模型并使用 GPU 運行它們)。對于傳統(tǒng) GPU,GPU 內(nèi)存量限制了模型大小,需要采用分布式 GPU 方法。(注:GH200 可以通過外部 NVLink 連接,創(chuàng)建海量統(tǒng)一內(nèi)存;例如,Nvidia-AWS NLV32可以提供高達 20 TB 的統(tǒng)一內(nèi)存。)
離你的桌面并不遠
技術(shù)領(lǐng)域明顯的趨勢之一是從昂貴的新技術(shù)市場轉(zhuǎn)向低成本的大宗商品市場。高性能計算也不例外。隨著市場需求,從多核到高級內(nèi)存的一切都已從高端轉(zhuǎn)移到“手機”。遷移到單個內(nèi)存域就是這些變化之一。 最近,在 Linux 基準測試網(wǎng)站Phoronix上,杰出的測試員Michael Larabel在 GH200 工作站上運行了 HPC 基準測試。該系統(tǒng)由德國的GPTshop.ai提供。 據(jù)了解,系統(tǒng)塔式機箱配備 GH200 Grace Hopper Superchip,配備 576G 內(nèi)存、雙 2000+ W 電源、QCT 主板以及多種配置選項,包括 SSD 和 NVIDIA Bluefield/Connect-X 適配器。一項有趣且有用的功能是TDP可以從 450W 編程到 1000W(CPU + GPU + 內(nèi)存),這在非數(shù)據(jù)中心環(huán)境中應(yīng)該很有用。另外,默認風(fēng)冷噪音據(jù)稱為25分貝。液體冷卻也是一種選擇。 然而,桌面超級工作站并不便宜。目前可用的型號 GH200 576GB起價為 47,500 歐元(根據(jù) Phoronix 的說法,由于在歐盟以外地區(qū)運輸時無需繳納 19% 的增值稅,因此該價格相當(dāng)于 41,000 美元) 這個價格可能看起來很高,但考慮到具有 80 GB HBM2e 內(nèi)存的 Nvidia H100 PCIe GPU 目前的市場價格在 3 萬美元到 3.5 萬美元之間。這不包括為 GPU 供電和運行的主機系統(tǒng)。此外,用戶還受到 80GB GPU 內(nèi)存的限制,該內(nèi)存通過 PCIe 總線與主內(nèi)存域分開。 GPTshop工作站提供576GB的單域內(nèi)存。HPC 和 GenAI 用戶會發(fā)現(xiàn)這半 TB 的 CPU-GPU 內(nèi)存很有吸引力。
初步基準
借助 GPTshop,Phoronix 能夠遠程運行多個基準測試。基準應(yīng)被視為初步的,而不是最終的績效衡量標準。特別是,基準測試僅針對 CPU,沒有使用 Hopper A100 GPU。因此,基準圖是不完整的。Phoronix 計劃在未來測試基于 GPU 的應(yīng)用程序。 據(jù) Phoronix 稱,Ubuntu 23.10 與 Linux 6.5 一起使用 GCC-13 作為標準編譯器。使用類似的環(huán)境來測試可比較的處理器,包括 Intel Xeon Scalable、AMD EPYC 和 Ampere Altra Max 處理器。完整的列表可以在Phoronix 網(wǎng)站上找到。 此外,沒有可用于基準測試運行的功耗數(shù)據(jù)。據(jù) Phoronix 稱,NVIDIA GH200 目前似乎沒有在 Linux 下公開任何 RAPL/PowerCap/HWMON 接口,僅用于讀取 GH200 的功率/能源使用情況。系統(tǒng)上的BMC確實通過Web界面暴露了整個系統(tǒng)的功耗,并且功率數(shù)據(jù)沒有通過IPMI暴露。 盡管存在這些限制,一些重要的基準測試還是首次在 Nvidia 之外的 GH200 上運行。
好奧萊 HPCG
Phoronix 報告的第一個測試是標準HPCG內(nèi)存帶寬基準測試,如圖 2 所示。
可以看出,GH200 Arm 的性能達到了可觀的 42 GFLOPS,略高于 Xeon Platinum 8380 2P(40 GFLOPS),略低于 EPYC 9654 Genoa 2P(44 GFLOPS)。另外值得注意的是 72 核 Arm Grace CPU,其性能幾乎是 Ampere Altra Max 128 核 Arm 處理器的兩倍。 GH200 在其他基準測試中表現(xiàn)良好。最令人印象深刻的結(jié)果如圖 3 所示。使用 72 核 Arm GH200 的NWChem(C240-Bucky Ball) 運行時間為 1404 秒,僅落后于領(lǐng)先者 128 核 Epyc 9554 (2p),成績?yōu)?1323 秒。
即將發(fā)生的事情
Nvidia GH200 和 AMD MI300A 引入了新的處理器架構(gòu)。與吸收 8087 數(shù)學(xué)協(xié)處理器類似,高端 CPU 也開始吸收 GPU(或 SIMD 處理單元)。然而,這個想法并不是全新的。自 2011 年以來,AMD 已將中等 GPU 集成到其臺式機/筆記本電腦APU 處理器中。雖然這些高端處理器可能被認為是“專用”的,因此價格昂貴,但隨著時間的推移,對 GenAI 的巨大興趣可能會將這些設(shè)計推向商品價格點。隨著更多基準的出現(xiàn),這個故事將繼續(xù)發(fā)展。 此外,引入具有足夠內(nèi)存的個人高性能工作站,可以在您的辦公桌旁運行一些最大的法學(xué)碩士,這是一個重要的里程碑。更不用說運行許多大內(nèi)存 GPU 優(yōu)化的 HPC 應(yīng)用程序的能力了。數(shù)據(jù)中心和云仍將是當(dāng)今的主力,但必須要說的是“擁有重置按鈕”。
審核編輯:黃飛
-
amd
+關(guān)注
關(guān)注
25文章
5586瀏覽量
136326 -
cpu
+關(guān)注
關(guān)注
68文章
11076瀏覽量
217007 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5308瀏覽量
106345 -
PCIe
+關(guān)注
關(guān)注
16文章
1340瀏覽量
85122
原文標題:Nvidia和AMD新芯片,突破PCIe限制
文章出處:【微信號:架構(gòu)師技術(shù)聯(lián)盟,微信公眾號:架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于AMD Versal器件實現(xiàn)PCIe5 DMA功能

無線AP該如何突破瓶頸?
智能家居發(fā)展的瓶頸是什么?如何才能突破瓶頸?
NVIDIA GRID是否支持此解決方案?
Intel與AMD聯(lián)手對抗NVIDIA 最后結(jié)果怎么樣
一文分析Intel、AMD、NVIDIA芯片巨頭的角逐形式
AMD、NVIDIA和英特爾三巨頭的晶圓暗戰(zhàn)影響我國芯片發(fā)展
SAM技術(shù)解決CPU與GPU瓶頸問題 AMD希望與NVIDIA、Intel合作
通過NVIDIA超級芯片和軟件實現(xiàn)性能突破
基于AMD FPGA的PCIE DMA邏輯實現(xiàn)

基于AMD FPGA的PCIE DMA邏輯實現(xiàn)

AMD Versal? Adaptive SoC CPM PCIE PIO EP設(shè)計CED示例

評論