欧美日韩乱伦,欧美亚洲精品一区二区三区在线观看 ,www.caobiav

在今年的S23大會上，NVIDIA 突然宣布推出了 NVIDIA HGX H200，為全球領(lǐng)先的 AI 計(jì)算平臺帶來強(qiáng)大動力。據(jù)介紹，該平臺基于 NVIDIA Hopper 架構(gòu)，配備 NVIDIA H200 Tensor Core GPU 和高級內(nèi)存，可處理生成 AI 和高性能計(jì)算工作負(fù)載的海量數(shù)據(jù)。

英偉達(dá)指出，NVIDIA H200 是首款提供 HBM3e 的 GPU，作為一種更快、更大的內(nèi)存，HBM3e可加速生成式 AI 和大型語言模型，同時(shí)能推進(jìn) HPC 工作負(fù)載的科學(xué)計(jì)算。借助 HBM3e，NVIDIA H200 能以每秒 4.8 TB 的速度提供 141GB 內(nèi)存，與前前一代的NVIDIA A100 相比，容量幾乎翻倍，帶寬增加 2.4 倍。

HGX H200 由 NVIDIA NVLink 和 NVSwitch 高速互連提供支持，可為各種應(yīng)用工作負(fù)載提供最高性能，包括針對超過 1750 億個(gè)參數(shù)的最大模型的 LLM 訓(xùn)練和推理。英偉達(dá)表示，在不斷發(fā)展的人工智能領(lǐng)域，企業(yè)依靠LLM來滿足各種推理需求。當(dāng)為大量用戶群大規(guī)模部署時(shí)，人工智能推理加速器必須以最低的 TCO 提供最高的吞吐量。

在處理 Llama2 （一個(gè) 700 億參數(shù)的 LLM）等 LLM 時(shí)，H200 的推理速度比 H100 GPU 提高了 2 倍。

英偉達(dá)進(jìn)一步指出，內(nèi)存帶寬對于 HPC 應(yīng)用程序至關(guān)重要，因?yàn)樗梢詫?shí)現(xiàn)更快的數(shù)據(jù)傳輸，減少復(fù)雜的處理瓶頸。對于模擬、科學(xué)研究和人工智能等內(nèi)存密集型 HPC 應(yīng)用，H200 更高的內(nèi)存帶寬可確保高效地訪問和操作數(shù)據(jù)，與 CPU 相比，獲得結(jié)果的時(shí)間最多可加快 110 倍。

隨著 H200 的推出，能源效率和 TCO 達(dá)到了新的水平。這項(xiàng)尖端技術(shù)提供了無與倫比的性能，且功率配置與 H100 相同。人工智能工廠和超級計(jì)算系統(tǒng)不僅速度更快，而且更環(huán)保，提供了推動人工智能和科學(xué)界向前發(fā)展的經(jīng)濟(jì)優(yōu)勢。

NVIDIA H200 將應(yīng)用于具有四路和八路配置的 NVIDIA HGX H200 服務(wù)器主板，這些主板與 HGX H100 系統(tǒng)的硬件和軟件兼容。它還可用于8 月份發(fā)布的采用 HBM3e 的 NVIDIA GH200 Grace Hopper superichip。

據(jù)介紹，八路 HGX H200 提供超過 32 petaflops 的 FP8 深度學(xué)習(xí)計(jì)算和 1.1TB 聚合高帶寬內(nèi)存，可在生成式 AI 和 HPC 應(yīng)用中實(shí)現(xiàn)最高性能。

英偉達(dá)表示，H200 可以部署在各種類型的數(shù)據(jù)中心中，包括本地、云、混合云和邊緣。NVIDIA 的全球生態(tài)系統(tǒng)合作伙伴服務(wù)器制造商（包括華擎 Rack、華碩、戴爾科技、Eviden、技嘉、惠普企業(yè)、英格拉科技、聯(lián)想、QCT、Supermicro、緯創(chuàng)資通和緯穎科技）可以使用 H200 更新其現(xiàn)有系統(tǒng)。

而除了CoreWeave、Lambda和 Vultr 之外，亞馬遜網(wǎng)絡(luò)服務(wù)、谷歌云、微軟 Azure 和甲骨文云基礎(chǔ)設(shè)施將從明年開始成為首批部署基于 H200 實(shí)例的云服務(wù)提供商。

HBM3e，H200的升級重點(diǎn)

隨著速度更快、容量更大的 HBM3E 內(nèi)存將于 2024 年初上線，NVIDIA 一直在準(zhǔn)備其當(dāng)前一代服務(wù)器 GPU 產(chǎn)品以使用新內(nèi)存。早在 8 月份，我們就看到 NVIDIA 計(jì)劃發(fā)布配備 HBM3E 的 Grace Hopper GH200 超級芯片版本。這次NVIDIA 宣布的H200，其實(shí)就是配備 HBM3E 內(nèi)存的獨(dú)立 H100 加速器的更新版本。

據(jù)SK海力士介紹，HBM3E不僅滿足了用于AI的存儲器必備的速度規(guī)格，也在發(fā)熱控制和客戶使用便利性等所有方面都達(dá)到了全球最高水平。在速度方面，其最高每秒可以處理1.15TB（太字節(jié)）的數(shù)據(jù)。其相當(dāng)于在1秒內(nèi)可處理230部全高清（Full-HD，F(xiàn)HD）級電影（5千兆字節(jié)，5GB）。值得一提的是，美光在七月還宣布推出超過 1.2TBps HBM3 gen 2 產(chǎn)品，這表明 SK 海力士還有很多追隨的工作要做。

與 Grace Hopper 的同類產(chǎn)品一樣，H200 的目的是通過推出具有更快和更高容量內(nèi)存芯片版本，作為 Hx00 產(chǎn)品線的中期升級。利用美光和其他公司即將推出的HBM3E 內(nèi)存，NVIDIA 將能夠提供在內(nèi)存帶寬受限的工作負(fù)載中具有更好的實(shí)際性能的加速器，而且還能夠提供能夠處理更大工作負(fù)載的部件。這對于生成式AI 領(lǐng)域尤其有幫助——迄今為止，該領(lǐng)域幾乎推動了對 H100 加速器的所有需求——因?yàn)樽畲蟮拇笮驼Z言模型可以最大程度地支持 80GB H100。

與此同時(shí)，由于 HBM3E 內(nèi)存要到明年才能發(fā)貨，NVIDIA 一直在利用這個(gè)間隙發(fā)布 HBM3E 更新部件。繼今年夏天發(fā)布 GH200 后，NVIDIA 宣布采用 HBM3E 的 Hx00 加速器獨(dú)立版本只是時(shí)間問題，現(xiàn)在H200終于到來。

從今天披露的規(guī)格來看，H200 基本上看起來就像是 GH200 的 Hopper 一半，作為自己的加速器。當(dāng)然，這里最大的區(qū)別是將 HBM3 替換為 HBM3E，這使得 NVIDIA 能夠提高內(nèi)存帶寬和容量，并且 NVIDIA 啟用了第 6 個(gè)HBM內(nèi)存堆棧，該堆棧在原始 H100 中被禁用。這將使 H200 的內(nèi)存帶寬從 80GB 提升至 141GB，內(nèi)存帶寬從 3.35TB/秒提升至 NVIDIA 初步預(yù)期的 4.8TB/秒。

根據(jù)總帶寬和內(nèi)存總線寬度向后推算，這表明 H200 的內(nèi)存將以大約 6.5Gbps/引腳運(yùn)行，與原始 H100 的 5.3Gbps/引腳 HBM3 內(nèi)存相比，頻率增加了大約 25%。這實(shí)際上遠(yuǎn)低于 HBM3E 額定的內(nèi)存頻率（美光希望達(dá)到 9.2Gbps/pin），但由于它正在針對現(xiàn)有 GPU 設(shè)計(jì)進(jìn)行改造，因此看到 NVIDIA 當(dāng)前的內(nèi)存控制器沒有相同的內(nèi)存頻率范圍也就不足為奇了。

H200還將保留GH200不同尋常的141GB內(nèi)存容量。HBM3E 內(nèi)存本身的物理容量為 144GB（以六個(gè) 24GB 堆棧的形式出現(xiàn)），但 NVIDIA 出于產(chǎn)量原因保留了部分容量。因此，客戶無法訪問板載的所有 144GB，但與 H100 相比，他們可以訪問所有六個(gè)堆棧，并具有容量和內(nèi)存帶寬優(yōu)勢。

正如我們之前所說，運(yùn)送具有全部 6 個(gè)工作堆棧的部件基本上需要完美的芯片，因?yàn)?H100 的規(guī)格非?？犊卦试S NVIDIA 運(yùn)送具有非功能堆棧的部件。因此，與同類 H100 加速器（已經(jīng)供不應(yīng)求）相比，這可能是體積較小、良率更低的部件。

除此之外，到目前為止，NVIDIA 尚未透露任何信息表明 H200 將比其前身具有更好的原始計(jì)算吞吐量。雖然內(nèi)存變化應(yīng)該會提高實(shí)際性能，但 NVIDIA 為 HGX H200 集群引用的 32 PFLOPS FP8 性能與當(dāng)今市場上的 HGX H100 集群相同。

不過據(jù)anadtech分析，H200 迄今為止僅適用于 SXM5 插槽，并且在矢量和矩陣數(shù)學(xué)方面具有與 Hopper H100 加速器完全相同的峰值性能統(tǒng)計(jì)數(shù)據(jù)。區(qū)別在于，H100 具有 80 GB 和 96 GB 的 HBM3 內(nèi)存，在初始設(shè)備中分別提供 3.35 TB/秒和 3.9 TB/秒的帶寬，而 H200 具有 141 GB 更快的 HBM3e 內(nèi)存，帶寬為 4.8總帶寬 TB/秒。

與 Hopper 基準(zhǔn)相比，內(nèi)存容量增加了 1.76 倍，內(nèi)存帶寬比 Hopper 基準(zhǔn)增加了 1.43 倍——所有這些都在相同的 700 瓦功率范圍內(nèi)。作為對比，AMD 的Antares MI300X 將提供 5.2 TB/秒的帶寬和 192 GB 的 HBM3 容量，并且很可能提供更高的峰值浮點(diǎn)功率，但也可能只是更有效的浮點(diǎn)功率。

最后，與配備 HBM3E 的 GH200 系統(tǒng)一樣，NVIDIA 預(yù)計(jì) H200 加速器將于 2024 年第二季度推出。

HGX H200和Quad GH200 ，同時(shí)發(fā)布

除了 H200 加速器之外，NVIDIA 還發(fā)布了 HGX H200 平臺，這是使用較新加速器的 8 路 HGX H100 的更新版本。HGX 載板是 NVIDIA H100/H200 系列的真正支柱，包含 8 個(gè) SXM 外形加速器，這些加速器以預(yù)先安排的全連接拓?fù)溥B接。HGX 板的獨(dú)立性質(zhì)使其能夠插入合適的主機(jī)系統(tǒng)，從而允許 OEM 定制其高端服務(wù)器的非 GPU 部分。

鑒于 HGX 與 NVIDIA 的服務(wù)器加速器齊頭并進(jìn)，HGX 200 的發(fā)布很大程度上只是一種形式。盡管如此，NVIDIA 仍確保在 SC23 上宣布這一消息，并確保 HGX 200 主板與 H100 主板交叉兼容。因此，服務(wù)器制造商可以在當(dāng)前的設(shè)計(jì)中使用 HGX H200，從而實(shí)現(xiàn)相對無縫的過渡。

隨著 NVIDIA 現(xiàn)在批量發(fā)售 Grace 和 Hopper（以及 Grace Hopper）芯片，該公司還宣布推出一些使用這些芯片的其他產(chǎn)品。其中最新的是 4 路 Grace Hopper GH200 板，NVIDIA 簡稱為 Quad GH200。

名副其實(shí)，Quad GH200 將四個(gè) GH200 加速器放置在一塊板上，然后可以安裝在更大的系統(tǒng)中。各個(gè) GH200 以 8 芯片、4 路 NVLink 拓?fù)湎嗷ミB接，其想法是使用這些板作為更大系統(tǒng)的構(gòu)建塊。

實(shí)際上，Quad GH200 是與 HGX 平臺相對應(yīng)的 Grace Hopper。與僅 GPU 的 HGX 板不同，Grace CPU 的加入在技術(shù)上使每個(gè)板獨(dú)立且自支撐，但將它們連接到主機(jī)基礎(chǔ)設(shè)施的需求保持不變。

Quad GH200 節(jié)點(diǎn)將提供 288 個(gè) Arm CPU 內(nèi)核和總計(jì) 2.3TB 的高速內(nèi)存。值得注意的是，NVIDIA 在這里沒有提到使用 GH200 的 HBM3E 版本（至少最初沒有），因此這些數(shù)字似乎是原始的 HBM3 版本。這意味著我們希望每個(gè) Grace CPU 配備 480GB LPDDR5X，每個(gè) Hopper GPU 配備 96GB HBM3?；蛘呖偣?920GB LPDDR5X和384GB HBM3內(nèi)存。

一臺超級計(jì)算機(jī)：23762個(gè)GH200，18.2 兆瓦

在發(fā)布H200的同時(shí)，NVIIDA 還宣布與 Jupiter 合作贏得了一項(xiàng)新的超級計(jì)算機(jī)設(shè)計(jì)。根據(jù) EuroHPC 聯(lián)合組織的訂購，Jupiter 將成為由 23,762 個(gè) GH200 節(jié)點(diǎn)構(gòu)建的新型超級計(jì)算機(jī)。一旦上線，Jupiter 將成為迄今為止宣布的最大的基于 Hopper 的超級計(jì)算機(jī)，并且是第一臺明確（且公開）針對標(biāo)準(zhǔn) HPC 工作負(fù)載以及已經(jīng)出現(xiàn)的低精度張量驅(qū)動的 AI 工作負(fù)載的超級計(jì)算機(jī)。定義迄今為止宣布的基于 Hopper 的超級計(jì)算機(jī)。

Jupiter 與 Eviden 和 ParTec 簽約，徹底展示了NVIDIA 技術(shù)?；?NVIDIA 今天發(fā)布的 Quad GH200 節(jié)點(diǎn)，Grace CPU 和 Hopper GPU 成為超級計(jì)算機(jī)的核心。各個(gè)節(jié)點(diǎn)均由 Quantum-2 InfiniBand 網(wǎng)絡(luò)支持，毫無疑問基于 NVIDIA 的 ConnectX 適配器。

該公司沒有透露具體的核心數(shù)量或內(nèi)存容量數(shù)據(jù)，但由于我們知道單個(gè) Quad GH200 主板提供的功能，因此數(shù)學(xué)計(jì)算很簡單。在高端（假設(shè)沒有出于良率原因進(jìn)行回收/合并），這將是 23,762 個(gè) Grace CPU、23,762 個(gè) Hopper H100 級 GPU、大約 10.9 PB 的 LPDDR5X 和另外 2.2PB 的 HBM3 內(nèi)存。

該系統(tǒng)預(yù)計(jì)為人工智能用途提供 93 EFLOPS 的低精度性能，或?yàn)閭鹘y(tǒng) HPC 工作負(fù)載提供超過 1 EFLOPS 的高精度 (FP64) 性能。后一個(gè)數(shù)字尤其值得注意，因?yàn)檫@將使 Jupiter 成為第一個(gè)用于 HPC 工作負(fù)載的基于 NVIDIA 的百億億次系統(tǒng)。

也就是說，應(yīng)謹(jǐn)慎對待 NVIDIA 的 HPC 性能聲明，因?yàn)?NVIDIA 仍在計(jì)算張量性能 - 1 EFLOPS 是 23,762 個(gè) H100 只能通過 FP64 張量運(yùn)算提供的東西。理論 HPC 超級計(jì)算機(jī)吞吐量的傳統(tǒng)指標(biāo)是矢量性能而不是矩陣性能，因此該數(shù)字與其他系統(tǒng)不完全可比。不過，由于 HPC 工作負(fù)載也部分地大量使用了矩陣數(shù)學(xué)，因此這也不是一個(gè)完全無關(guān)的說法。否則，對于任何尋求強(qiáng)制性 Frontier 比較的人來說，Jupiter 的直接矢量性能將約為 800 TFLOPS，而 Frontier 的直接矢量性能是 Frontier 的兩倍多。另一方面，這兩個(gè)系統(tǒng)在現(xiàn)實(shí)條件下的接近程度將取決于它們各自的工作負(fù)載中使用了多少矩陣數(shù)學(xué)（LINPACK 結(jié)果應(yīng)該很有趣）。

該系統(tǒng)的價(jià)格標(biāo)簽尚未公布，但功耗為：18.2 兆瓦電力（比 Frontier 少約 3 兆瓦）。因此，無論系統(tǒng)的真實(shí)價(jià)格是多少，就像系統(tǒng)本身一樣，它絕不是嬌小的。

根據(jù) NVIDIA 的新聞稿，該系統(tǒng)將安裝在德國于利希研究中心 (Forschungszentrum Jülich) 設(shè)施中，用于“創(chuàng)建氣候和天氣研究、材料科學(xué)、藥物發(fā)現(xiàn)、工業(yè)工程和量子計(jì)算領(lǐng)域的基礎(chǔ)人工智能模型”?！?該系統(tǒng)計(jì)劃于 2024 年安裝，但尚未公布預(yù)計(jì)上線日期。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴