一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英偉達重磅發(fā)布H200,容量翻倍,帶寬狂飆

strongerHuang ? 來源:半導體行業(yè)觀察 ? 2023-11-15 16:09 ? 次閱讀

在今年的S23大會上,NVIDIA 突然宣布推出了 NVIDIA HGX H200,為全球領先的 AI 計算平臺帶來強大動力。據(jù)介紹,該平臺基于 NVIDIA Hopper 架構,配備 NVIDIA H200 Tensor Core GPU 和高級內存,可處理生成 AI 和高性能計算工作負載的海量數(shù)據(jù)。

英偉達指出,NVIDIA H200 是首款提供 HBM3e 的 GPU,作為一種更快、更大的內存,HBM3e可加速生成式 AI 和大型語言模型,同時能推進 HPC 工作負載的科學計算。借助 HBM3e,NVIDIA H200 能以每秒 4.8 TB 的速度提供 141GB 內存,與前前一代的NVIDIA A100 相比,容量幾乎翻倍,帶寬增加 2.4 倍。

581caa1e-838b-11ee-939d-92fbcf53809c.jpg

HGX H200 由 NVIDIA NVLink 和 NVSwitch 高速互連提供支持,可為各種應用工作負載提供最高性能,包括針對超過 1750 億個參數(shù)的最大模型的 LLM 訓練和推理。英偉達表示,在不斷發(fā)展的人工智能領域,企業(yè)依靠LLM來滿足各種推理需求。當為大量用戶群大規(guī)模部署時,人工智能推理加速器必須以最低的 TCO 提供最高的吞吐量。

在處理 Llama2 (一個 700 億參數(shù)的 LLM)等 LLM 時,H200 的推理速度比 H100 GPU 提高了 2 倍。

582ac536-838b-11ee-939d-92fbcf53809c.png

英偉達進一步指出,內存帶寬對于 HPC 應用程序至關重要,因為它可以實現(xiàn)更快的數(shù)據(jù)傳輸,減少復雜的處理瓶頸。對于模擬、科學研究和人工智能等內存密集型 HPC 應用,H200 更高的內存帶寬可確保高效地訪問和操作數(shù)據(jù),與 CPU 相比,獲得結果的時間最多可加快 110 倍。

5830e6be-838b-11ee-939d-92fbcf53809c.png

隨著 H200 的推出,能源效率和 TCO 達到了新的水平。這項尖端技術提供了無與倫比的性能,且功率配置與 H100 相同。人工智能工廠和超級計算系統(tǒng)不僅速度更快,而且更環(huán)保,提供了推動人工智能和科學界向前發(fā)展的經濟優(yōu)勢。

583e67b2-838b-11ee-939d-92fbcf53809c.png

NVIDIA H200 將應用于具有四路和八路配置的 NVIDIA HGX H200 服務器主板,這些主板與 HGX H100 系統(tǒng)的硬件和軟件兼容。它還可用于8 月份發(fā)布的采用 HBM3e 的 NVIDIA GH200 Grace Hopper superichip。

據(jù)介紹,八路 HGX H200 提供超過 32 petaflops 的 FP8 深度學習計算和 1.1TB 聚合高帶寬內存,可在生成式 AI 和 HPC 應用中實現(xiàn)最高性能。

5845cd7c-838b-11ee-939d-92fbcf53809c.png

英偉達表示,H200 可以部署在各種類型的數(shù)據(jù)中心中,包括本地、云、混合云和邊緣。NVIDIA 的全球生態(tài)系統(tǒng)合作伙伴服務器制造商(包括華擎 Rack、華碩、戴爾科技、Eviden、技嘉、惠普企業(yè)、英格拉科技、聯(lián)想、QCT、Supermicro、緯創(chuàng)資通和緯穎科技)可以使用 H200 更新其現(xiàn)有系統(tǒng)。

而除了CoreWeave、Lambda和 Vultr 之外,亞馬遜網絡服務、谷歌云、微軟 Azure 和甲骨文云基礎設施將從明年開始成為首批部署基于 H200 實例的云服務提供商。

HBM3e,H200的升級重點

隨著速度更快、容量更大的 HBM3E 內存將于 2024 年初上線,NVIDIA 一直在準備其當前一代服務器 GPU 產品以使用新內存。早在 8 月份,我們就看到 NVIDIA 計劃發(fā)布配備 HBM3E 的 Grace Hopper GH200 超級芯片版本。這次NVIDIA 宣布的H200,其實就是配備 HBM3E 內存的獨立 H100 加速器的更新版本。

據(jù)SK海力士介紹,HBM3E不僅滿足了用于AI的存儲器必備的速度規(guī)格,也在發(fā)熱控制和客戶使用便利性等所有方面都達到了全球最高水平。在速度方面,其最高每秒可以處理1.15TB(太字節(jié))的數(shù)據(jù)。其相當于在1秒內可處理230部全高清(Full-HD,F(xiàn)HD)級電影(5千兆字節(jié),5GB)。值得一提的是,美光在七月還宣布推出超過 1.2TBps HBM3 gen 2 產品,這表明 SK 海力士還有很多追隨的工作要做。

584d6c12-838b-11ee-939d-92fbcf53809c.jpg

與 Grace Hopper 的同類產品一樣,H200 的目的是通過推出具有更快和更高容量內存芯片版本,作為 Hx00 產品線的中期升級。利用美光和其他公司即將推出的HBM3E 內存,NVIDIA 將能夠提供在內存帶寬受限的工作負載中具有更好的實際性能的加速器,而且還能夠提供能夠處理更大工作負載的部件。這對于生成式AI 領域尤其有幫助——迄今為止,該領域幾乎推動了對 H100 加速器的所有需求——因為最大的大型語言模型可以最大程度地支持 80GB H100。

與此同時,由于 HBM3E 內存要到明年才能發(fā)貨,NVIDIA 一直在利用這個間隙發(fā)布 HBM3E 更新部件。繼今年夏天發(fā)布 GH200 后,NVIDIA 宣布采用 HBM3E 的 Hx00 加速器獨立版本只是時間問題,現(xiàn)在H200終于到來。

58551002-838b-11ee-939d-92fbcf53809c.png

從今天披露的規(guī)格來看,H200 基本上看起來就像是 GH200 的 Hopper 一半,作為自己的加速器。當然,這里最大的區(qū)別是將 HBM3 替換為 HBM3E,這使得 NVIDIA 能夠提高內存帶寬和容量,并且 NVIDIA 啟用了第 6 個HBM內存堆棧,該堆棧在原始 H100 中被禁用。這將使 H200 的內存帶寬從 80GB 提升至 141GB,內存帶寬從 3.35TB/秒提升至 NVIDIA 初步預期的 4.8TB/秒。

根據(jù)總帶寬和內存總線寬度向后推算,這表明 H200 的內存將以大約 6.5Gbps/引腳運行,與原始 H100 的 5.3Gbps/引腳 HBM3 內存相比,頻率增加了大約 25%。這實際上遠低于 HBM3E 額定的內存頻率(美光希望達到 9.2Gbps/pin),但由于它正在針對現(xiàn)有 GPU 設計進行改造,因此看到 NVIDIA 當前的內存控制器沒有相同的內存頻率范圍也就不足為奇了。

H200還將保留GH200不同尋常的141GB內存容量。HBM3E 內存本身的物理容量為 144GB(以六個 24GB 堆棧的形式出現(xiàn)),但 NVIDIA 出于產量原因保留了部分容量。因此,客戶無法訪問板載的所有 144GB,但與 H100 相比,他們可以訪問所有六個堆棧,并具有容量和內存帶寬優(yōu)勢。

正如我們之前所說,運送具有全部 6 個工作堆棧的部件基本上需要完美的芯片,因為 H100 的規(guī)格非常慷慨地允許 NVIDIA 運送具有非功能堆棧的部件。因此,與同類 H100 加速器(已經供不應求)相比,這可能是體積較小、良率更低的部件。

除此之外,到目前為止,NVIDIA 尚未透露任何信息表明 H200 將比其前身具有更好的原始計算吞吐量。雖然內存變化應該會提高實際性能,但 NVIDIA 為 HGX H200 集群引用的 32 PFLOPS FP8 性能與當今市場上的 HGX H100 集群相同。

不過據(jù)anadtech分析,H200 迄今為止僅適用于 SXM5 插槽,并且在矢量和矩陣數(shù)學方面具有與 Hopper H100 加速器完全相同的峰值性能統(tǒng)計數(shù)據(jù)。區(qū)別在于,H100 具有 80 GB 和 96 GB 的 HBM3 內存,在初始設備中分別提供 3.35 TB/秒和 3.9 TB/秒的帶寬,而 H200 具有 141 GB 更快的 HBM3e 內存,帶寬為 4.8總帶寬 TB/秒。

與 Hopper 基準相比,內存容量增加了 1.76 倍,內存帶寬比 Hopper 基準增加了 1.43 倍——所有這些都在相同的 700 瓦功率范圍內。作為對比,AMD 的Antares MI300X 將提供 5.2 TB/秒的帶寬和 192 GB 的 HBM3 容量,并且很可能提供更高的峰值浮點功率,但也可能只是更有效的浮點功率。

最后,與配備 HBM3E 的 GH200 系統(tǒng)一樣,NVIDIA 預計 H200 加速器將于 2024 年第二季度推出。

HGX H200和Quad GH200 ,同時發(fā)布

除了 H200 加速器之外,NVIDIA 還發(fā)布了 HGX H200 平臺,這是使用較新加速器的 8 路 HGX H100 的更新版本。HGX 載板是 NVIDIA H100/H200 系列的真正支柱,包含 8 個 SXM 外形加速器,這些加速器以預先安排的全連接拓撲連接。HGX 板的獨立性質使其能夠插入合適的主機系統(tǒng),從而允許 OEM 定制其高端服務器的非 GPU 部分。

鑒于 HGX 與 NVIDIA 的服務器加速器齊頭并進,HGX 200 的發(fā)布很大程度上只是一種形式。盡管如此,NVIDIA 仍確保在 SC23 上宣布這一消息,并確保 HGX 200 主板與 H100 主板交叉兼容。因此,服務器制造商可以在當前的設計中使用 HGX H200,從而實現(xiàn)相對無縫的過渡。

隨著 NVIDIA 現(xiàn)在批量發(fā)售 Grace 和 Hopper(以及 Grace Hopper)芯片,該公司還宣布推出一些使用這些芯片的其他產品。其中最新的是 4 路 Grace Hopper GH200 板,NVIDIA 簡稱為 Quad GH200。

名副其實,Quad GH200 將四個 GH200 加速器放置在一塊板上,然后可以安裝在更大的系統(tǒng)中。各個 GH200 以 8 芯片、4 路 NVLink 拓撲相互連接,其想法是使用這些板作為更大系統(tǒng)的構建塊。

實際上,Quad GH200 是與 HGX 平臺相對應的 Grace Hopper。與僅 GPU 的 HGX 板不同,Grace CPU 的加入在技術上使每個板獨立且自支撐,但將它們連接到主機基礎設施的需求保持不變。

Quad GH200 節(jié)點將提供 288 個 Arm CPU 內核和總計 2.3TB 的高速內存。值得注意的是,NVIDIA 在這里沒有提到使用 GH200 的 HBM3E 版本(至少最初沒有),因此這些數(shù)字似乎是原始的 HBM3 版本。這意味著我們希望每個 Grace CPU 配備 480GB LPDDR5X,每個 Hopper GPU 配備 96GB HBM3?;蛘呖偣?920GB LPDDR5X和384GB HBM3內存。

一臺超級計算機:23762個GH200,18.2 兆瓦

在發(fā)布H200的同時,NVIIDA 還宣布與 Jupiter 合作贏得了一項新的超級計算機設計。根據(jù) EuroHPC 聯(lián)合組織的訂購,Jupiter 將成為由 23,762 個 GH200 節(jié)點構建的新型超級計算機。一旦上線,Jupiter 將成為迄今為止宣布的最大的基于 Hopper 的超級計算機,并且是第一臺明確(且公開)針對標準 HPC 工作負載以及已經出現(xiàn)的低精度張量驅動的 AI 工作負載的超級計算機。定義迄今為止宣布的基于 Hopper 的超級計算機。

Jupiter 與 Eviden 和 ParTec 簽約,徹底展示了NVIDIA 技術。基于 NVIDIA 今天發(fā)布的 Quad GH200 節(jié)點,Grace CPU 和 Hopper GPU 成為超級計算機的核心。各個節(jié)點均由 Quantum-2 InfiniBand 網絡支持,毫無疑問基于 NVIDIA 的 ConnectX 適配器。

該公司沒有透露具體的核心數(shù)量或內存容量數(shù)據(jù),但由于我們知道單個 Quad GH200 主板提供的功能,因此數(shù)學計算很簡單。在高端(假設沒有出于良率原因進行回收/合并),這將是 23,762 個 Grace CPU、23,762 個 Hopper H100 級 GPU、大約 10.9 PB 的 LPDDR5X 和另外 2.2PB 的 HBM3 內存。

該系統(tǒng)預計為人工智能用途提供 93 EFLOPS 的低精度性能,或為傳統(tǒng) HPC 工作負載提供超過 1 EFLOPS 的高精度 (FP64) 性能。后一個數(shù)字尤其值得注意,因為這將使 Jupiter 成為第一個用于 HPC 工作負載的基于 NVIDIA 的百億億次系統(tǒng)。

也就是說,應謹慎對待 NVIDIA 的 HPC 性能聲明,因為 NVIDIA 仍在計算張量性能 - 1 EFLOPS 是 23,762 個 H100 只能通過 FP64 張量運算提供的東西。理論 HPC 超級計算機吞吐量的傳統(tǒng)指標是矢量性能而不是矩陣性能,因此該數(shù)字與其他系統(tǒng)不完全可比。不過,由于 HPC 工作負載也部分地大量使用了矩陣數(shù)學,因此這也不是一個完全無關的說法。否則,對于任何尋求強制性 Frontier 比較的人來說,Jupiter 的直接矢量性能將約為 800 TFLOPS,而 Frontier 的直接矢量性能是 Frontier 的兩倍多。另一方面,這兩個系統(tǒng)在現(xiàn)實條件下的接近程度將取決于它們各自的工作負載中使用了多少矩陣數(shù)學(LINPACK 結果應該很有趣)。

該系統(tǒng)的價格標簽尚未公布,但功耗為:18.2 兆瓦電力(比 Frontier 少約 3 兆瓦)。因此,無論系統(tǒng)的真實價格是多少,就像系統(tǒng)本身一樣,它絕不是嬌小的。

根據(jù) NVIDIA 的新聞稿,該系統(tǒng)將安裝在德國于利希研究中心 (Forschungszentrum Jülich) 設施中,用于“創(chuàng)建氣候和天氣研究、材料科學、藥物發(fā)現(xiàn)、工業(yè)工程和量子計算領域的基礎人工智能模型”?!?該系統(tǒng)計劃于 2024 年安裝,但尚未公布預計上線日期。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11013

    瀏覽量

    215296
  • 語言模型
    +關注

    關注

    0

    文章

    558

    瀏覽量

    10610
  • 英偉達
    +關注

    關注

    22

    文章

    3902

    瀏覽量

    92933

原文標題:英偉達重磅發(fā)布H200,容量翻倍,帶寬狂飆

文章出處:【微信號:strongerHuang,微信公眾號:strongerHuang】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    AMD最強AI芯片,性能強過英偉H200,但市場仍不買賬,生態(tài)是最大短板?

    顯示,該芯片多項性能優(yōu)于英偉H200。 ? 不過,對于AMD一系列的產品發(fā)布,市場方面似乎并不買賬,AMD股價出現(xiàn)了一波明顯跳水。能夠看出,無論是市場
    的頭像 發(fā)表于 10-14 01:32 ?3927次閱讀
    AMD最強AI芯片,性能強過<b class='flag-5'>英偉</b><b class='flag-5'>達</b><b class='flag-5'>H200</b>,但市場仍不買賬,生態(tài)是最大短板?

    GMI Cloud推出基于英偉H200的DeepSeek系列模型

    近日,GMI Cloud宣布成功上架了基于英偉H200 GPU的DeepSeek系列模型。這一舉措標志著DeepSeek在AI應用領域邁出了重要一步。 自DeepSeek在GitHub上開源以來
    的頭像 發(fā)表于 02-08 09:41 ?404次閱讀

    英偉發(fā)布DeepSeek R1于NIM平臺

    網站上發(fā)布。 據(jù)悉,DeepSeek R1 NIM微服務是英偉在人工智能領域的一項重要創(chuàng)新,旨在為用戶提供高效、精準的推理服務。在單個英偉
    的頭像 發(fā)表于 02-05 14:48 ?490次閱讀

    一顆芯片面積頂4顆H200,博通推出3.5D XDSiP封裝平臺

    平方毫米的3D堆疊硅晶片和12個HBM模塊集成到一個系統(tǒng)級封裝中。這是什么概念? ? 目前手機移動端的旗艦處理器驍龍8Elite核心面積是124.1平方毫米;英偉H200核心面積1526平方毫米;今年
    的頭像 發(fā)表于 12-10 09:15 ?2458次閱讀
    一顆芯片面積頂4顆<b class='flag-5'>H200</b>,博通推出3.5D XDSiP封裝平臺

    英偉第三季度營收幾乎翻倍英偉美股盤后一度跌近5%

    英偉一直備受關注,在人工智能大浪潮下,英偉股價在2024年已上漲近200%。 英偉
    的頭像 發(fā)表于 11-21 16:33 ?901次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b>第三季度營收幾乎<b class='flag-5'>翻倍</b> 但<b class='flag-5'>英偉</b><b class='flag-5'>達</b>美股盤后一度跌近5%

    亞馬遜云科技宣布Amazon EC2 P5e實例正式可用 由英偉H200 GPU提供支持

    現(xiàn)已正式可用。亞馬遜云科技是首個將英偉H200 GPU用于生產環(huán)境的領先云提供商。與基于英偉H
    的頭像 發(fā)表于 09-19 16:16 ?717次閱讀

    三星電子HBM3E內存獲英偉認證,加速AI GPU市場布局

    英偉H200系列AI GPU的首選內存解決方案,同時,針對英偉Blackwell系列的驗證工作也在緊鑼密鼓地進行中,預示著雙方合作的進
    的頭像 發(fā)表于 09-05 17:15 ?903次閱讀

    TrendForce:三星HBM3E內存通過英偉驗證,8Hi版本正式出貨

    9月4日最新資訊,據(jù)TrendForce集邦咨詢的最新報告透露,三星電子已成功完成其HBM3E內存產品的驗證流程,并正式啟動了HBM3E 8Hi(即24GB容量版本)的出貨,該產品主要面向英偉
    的頭像 發(fā)表于 09-04 15:57 ?899次閱讀

    英偉2025年計劃發(fā)布Blackwell Ultra與B200A,或大幅提升HBM消耗量

    根據(jù)TrendForce最新發(fā)布的HBM市場研究報告,隨著人工智能(AI)芯片技術的持續(xù)迭代升級,單顆芯片所集成的HBM(高帶寬內存)容量正顯著增長。英偉
    的頭像 發(fā)表于 08-09 15:51 ?628次閱讀

    英偉或取消B100轉用B200A代替

    今年3月份,英偉在美國加利福尼亞州圣何塞會議中心召開的GTC 2024大會上推出了Blackwell架構GPU。原定于今年底出貨的B100/B200被寄予厚望,將替代現(xiàn)行H100/
    的頭像 發(fā)表于 08-08 17:19 ?787次閱讀

    英偉H200芯片將大規(guī)模交付

    英偉AI GPU市場迎來新動態(tài),其H200型號上游芯片端已于第二季度下旬正式進入量產階段,預示著該產品將在第三季度后迎來大量交付。然而,英偉
    的頭像 發(fā)表于 07-04 10:29 ?1027次閱讀

    英偉H200芯片量產在即,引領AI計算新時代

    在科技日新月異的今天,每一次技術的飛躍都預示著行業(yè)格局的深刻變革。7月3日,臺灣媒體《工商時報》傳來重磅消息,英偉(NVIDIA)的旗艦級AI計算產品——H200,已在二季度末正式邁
    的頭像 發(fā)表于 07-03 16:22 ?1018次閱讀

    英偉巨資預訂HBM3E,力拼上半年算力市場

    在全球AI芯片領域的激烈競爭中,英偉以其卓越的技術實力和市場影響力,始終保持著領先地位。最近,這家AI芯片大廠再次展現(xiàn)出了其獨特的戰(zhàn)略眼光和強大的資金實力,以確保其新品GH200H200
    的頭像 發(fā)表于 06-22 16:46 ?1135次閱讀

    進一步解讀英偉 Blackwell 架構、NVlink及GB200 超級芯片

    藥物設計、量子計算和生成式 AI 等領域。 為了紀念杰出的數(shù)學家David H.Blackwell,英偉 Blackwell架構被明確設計用來滿足現(xiàn)代人工智能工作負載日益增長的計算和帶寬
    發(fā)表于 05-13 17:16