亚洲另类技巧五月天,曰韩A√无码一区

學(xué)過微處理器的同學(xué)可能還記得，最初的8086/8088處理器沒有浮點單元。主板通常有一個額外的插槽，用于可選的8087 數(shù)學(xué)協(xié)處理器。數(shù)學(xué)協(xié)處理器進入了 CPU 本身，如今，CPU 沒有可選的數(shù)學(xué)協(xié)處理器。然而，SIMD處理器（例如GPU）有多種選擇。眾所周知，GPU 可以比 CPU 主機更快地加速數(shù)學(xué)處理（例如矩陣運算）。隨著Nvidia GH-200 處理器和AMD MI300A APU的推出，市場正在見證“8087 時刻”——即 CPU 吸收外部性能硬件。Nvidia 和 AMD 都已將 GPU 納入處理器中，其結(jié)果是 HPC 性能大幅躍升，并預(yù)示著未來的發(fā)展。

再見 PCI

AMD 和 Nvidia 的 GPU 都依賴 PCI 總線與 CPU 進行通信。CPU 和 GPU 有兩個不同的內(nèi)存域，數(shù)據(jù)必須通過 PCI 接口從 CPU 域移動到 GPU 域（并返回）。使用第 5 代 PCIe 總線中全部 16 個通道的 GPU 的最大帶寬約為 63GB/s。此瓶頸將限制 CPU 和 GPU 之間的內(nèi)存移動。 Nvidia GH200 通過 900 GB/s 雙向 NVLink-C2C 連接 Grace CPU 和 Hooper GPU。結(jié)果大約快了 14 倍。此外，GH200 還帶來了單一共享 CPU-GPU 內(nèi)存域的優(yōu)勢。無需通過 PCI 總線在 CPU 和 GPU 之間移動數(shù)據(jù)。如圖 1 所示，CPU 和 GPU 對所有內(nèi)存具有一致的視圖。CPU內(nèi)存高達480GB LPDDR5X（帶ECC），GPU具有96GB HBM3或144GB HBM3e?？偟南喔桑▎斡颍﹥?nèi)存在 576GB 到 624GB 之間。

當(dāng)前的 AMD Instinct MI300A APU 中采用單一內(nèi)存域，具有 128 GB HBM3 內(nèi)存，使用 Infinity Fabric 在 CPU 和 GPU 之間一致共享，封裝峰值吞吐量為 5.3 TB/s 。雖然 MI300A 目前不支持像 GH200 那樣額外的 DDR 內(nèi)存擴展，但CXL是一個值得將來記住的詞。對于 GH200 和 MI300A，關(guān)鍵的突出短語是“呈現(xiàn)單個存儲域”。在傳統(tǒng)的CPU-PCIe-GPU組合中，GPU內(nèi)存量通常小于CPU內(nèi)存，數(shù)據(jù)必須通過PCIe接口進行混洗。這兩個新設(shè)計消除了這個瓶頸。單個大內(nèi)存域一直對 HPC 有吸引力，而 GenAI 的增長加速了這種需求（即，能夠在內(nèi)存中加載大型模型并使用 GPU 運行它們）。對于傳統(tǒng) GPU，GPU 內(nèi)存量限制了模型大小，需要采用分布式 GPU 方法。（注：GH200 可以通過外部 NVLink 連接，創(chuàng)建海量統(tǒng)一內(nèi)存；例如，Nvidia-AWS NLV32可以提供高達 20 TB 的統(tǒng)一內(nèi)存。）

離你的桌面并不遠

技術(shù)領(lǐng)域明顯的趨勢之一是從昂貴的新技術(shù)市場轉(zhuǎn)向低成本的大宗商品市場。高性能計算也不例外。隨著市場需求，從多核到高級內(nèi)存的一切都已從高端轉(zhuǎn)移到“手機”。遷移到單個內(nèi)存域就是這些變化之一。最近，在 Linux 基準測試網(wǎng)站Phoronix上，杰出的測試員Michael Larabel在 GH200 工作站上運行了 HPC 基準測試。該系統(tǒng)由德國的GPTshop.ai提供。據(jù)了解，系統(tǒng)塔式機箱配備 GH200 Grace Hopper Superchip，配備 576G 內(nèi)存、雙 2000+ W 電源、QCT 主板以及多種配置選項，包括 SSD 和 NVIDIA Bluefield/Connect-X 適配器。一項有趣且有用的功能是TDP可以從 450W 編程到 1000W（CPU + GPU + 內(nèi)存），這在非數(shù)據(jù)中心環(huán)境中應(yīng)該很有用。另外，默認風(fēng)冷噪音據(jù)稱為25分貝。液體冷卻也是一種選擇。然而，桌面超級工作站并不便宜。目前可用的型號 GH200 576GB起價為 47,500 歐元（根據(jù) Phoronix 的說法，由于在歐盟以外地區(qū)運輸時無需繳納 19% 的增值稅，因此該價格相當(dāng)于 41,000 美元）這個價格可能看起來很高，但考慮到具有 80 GB HBM2e 內(nèi)存的 Nvidia H100 PCIe GPU 目前的市場價格在 3 萬美元到 3.5 萬美元之間。這不包括為 GPU 供電和運行的主機系統(tǒng)。此外，用戶還受到 80GB GPU 內(nèi)存的限制，該內(nèi)存通過 PCIe 總線與主內(nèi)存域分開。 GPTshop工作站提供576GB的單域內(nèi)存。HPC 和 GenAI 用戶會發(fā)現(xiàn)這半 TB 的 CPU-GPU 內(nèi)存很有吸引力。

初步基準

借助 GPTshop，Phoronix 能夠遠程運行多個基準測試。基準應(yīng)被視為初步的，而不是最終的績效衡量標準。特別是，基準測試僅針對 CPU，沒有使用 Hopper A100 GPU。因此，基準圖是不完整的。Phoronix 計劃在未來測試基于 GPU 的應(yīng)用程序。據(jù) Phoronix 稱，Ubuntu 23.10 與 Linux 6.5 一起使用 GCC-13 作為標準編譯器。使用類似的環(huán)境來測試可比較的處理器，包括 Intel Xeon Scalable、AMD EPYC 和 Ampere Altra Max 處理器。完整的列表可以在Phoronix 網(wǎng)站上找到。此外，沒有可用于基準測試運行的功耗數(shù)據(jù)。據(jù) Phoronix 稱，NVIDIA GH200 目前似乎沒有在 Linux 下公開任何 RAPL/PowerCap/HWMON 接口，僅用于讀取 GH200 的功率/能源使用情況。系統(tǒng)上的BMC確實通過Web界面暴露了整個系統(tǒng)的功耗，并且功率數(shù)據(jù)沒有通過IPMI暴露。盡管存在這些限制，一些重要的基準測試還是首次在 Nvidia 之外的 GH200 上運行。

好奧萊 HPCG

Phoronix 報告的第一個測試是標準HPCG內(nèi)存帶寬基準測試，如圖 2 所示。

可以看出，GH200 Arm 的性能達到了可觀的 42 GFLOPS，略高于 Xeon Platinum 8380 2P（40 GFLOPS），略低于 EPYC 9654 Genoa 2P（44 GFLOPS）。另外值得注意的是 72 核 Arm Grace CPU，其性能幾乎是 Ampere Altra Max 128 核 Arm 處理器的兩倍。 GH200 在其他基準測試中表現(xiàn)良好。最令人印象深刻的結(jié)果如圖 3 所示。使用 72 核 Arm GH200 的NWChem(C240-Bucky Ball) 運行時間為 1404 秒，僅落后于領(lǐng)先者 128 核 Epyc 9554 (2p)，成績?yōu)?1323 秒。

即將發(fā)生的事情

Nvidia GH200 和 AMD MI300A 引入了新的處理器架構(gòu)。與吸收 8087 數(shù)學(xué)協(xié)處理器類似，高端 CPU 也開始吸收 GPU（或 SIMD 處理單元）。然而，這個想法并不是全新的。自 2011 年以來，AMD 已將中等 GPU 集成到其臺式機/筆記本電腦APU 處理器中。雖然這些高端處理器可能被認為是“專用”的，因此價格昂貴，但隨著時間的推移，對 GenAI 的巨大興趣可能會將這些設(shè)計推向商品價格點。隨著更多基準的出現(xiàn)，這個故事將繼續(xù)發(fā)展。此外，引入具有足夠內(nèi)存的個人高性能工作站，可以在您的辦公桌旁運行一些最大的法學(xué)碩士，這是一個重要的里程碑。更不用說運行許多大內(nèi)存 GPU 優(yōu)化的 HPC 應(yīng)用程序的能力了。數(shù)據(jù)中心和云仍將是當(dāng)今的主力，但必須要說的是“擁有重置按鈕”。

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴