一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá)發(fā)布最新AI芯片H200:性能提升2倍,成本下降50%

jf_WZTOguxH ? 來源:AI前線 ? 2023-11-22 17:14 ? 次閱讀

周一,半導(dǎo)體行業(yè)巨頭英偉達(dá)發(fā)布了新一代人工智能芯片 H200,旨在為各種 AI 模型提供訓(xùn)練和部署支持。

H200 芯片是目前用于訓(xùn)練最先進(jìn)的大型語言模型 H100 芯片的升級版,搭載了 141GB 的內(nèi)存,專注于執(zhí)行“推理”任務(wù)。在進(jìn)行推理或生成問題答案時,H200 的性能相比 H100 提升了 1.4 至 1.9 倍不等。

性能拉升無極限?

據(jù)英偉達(dá)官網(wǎng)消息,基于英偉達(dá)的“Hopper”架構(gòu),H200 是該公司首款采用 HBM3e 內(nèi)存的芯片。這種內(nèi)存速度更快、容量更大,使其更適用于大語言模型。相信過去一年來花大價錢購買過 Hopper H100 加速器的朋友都會為自己的沖動而后悔。為了防止囤積了大量 H100 的客戶們當(dāng)場掀桿而起,英偉達(dá)似乎只有一種辦法:把配備 141 GB HBM3e 內(nèi)存 Hopper 的價格,定為 80 GB 或 96 GB HBM3 內(nèi)存版本的 1.5 到 2 倍。只有這樣,才能讓之前的“冤種”們稍微平衡一點。

fcab4cb4-82d4-11ee-939d-92fbcf53809c.png

下圖所示,為 H100 與 H200 在一系列 AI 推理工作負(fù)載上的相對性能比較:

fcb94800-82d4-11ee-939d-92fbcf53809c.png

可以看到,相較于 H100,H200 的性能提升最主要體現(xiàn)在大模型的推理性能表現(xiàn)上。在處理 Llama 2 等大語言模型時,H200 的推理速度比 H100 提高了接近 2 倍。 很明顯,如果能在相同的功率范圍之內(nèi)實現(xiàn) 2 倍的性能提升,就意味著實際能耗和總體擁有成本降低了 50%。所以從理論上講,英偉達(dá)似乎可以讓 H200 GPU 的價格與 H100 持平。

fcc142da-82d4-11ee-939d-92fbcf53809c.png

得益于 Tansformer 引擎、浮點運算精度的下降以及更快的 HBM3 內(nèi)存,今年起全面出貨的 H100 在 GPT-3 175B 模型的推理性能方面已經(jīng)較 A100 提升至 11 倍。而憑借更大、更快的 HBM3e 內(nèi)存,無需任何硬件或代碼變更的 H200 則直接把性能拉升至 18 倍。 哪怕是與 H100 相比,H200 的性能也提高至 1.64 倍,而這一切都純粹源自內(nèi)存容量和帶寬的增長。

fcd61bd8-82d4-11ee-939d-92fbcf53809c.png

想象一下,如果未來的設(shè)備擁有 512 GB HBM 內(nèi)存和 10 TB/ 秒帶寬,性能又會來到怎樣的水平?大家愿意為這款能夠全力施為的 GPU 支付多高的價錢?最終產(chǎn)品很可能要賣到 6 萬甚至是 9 萬美元,畢竟很多朋友已經(jīng)愿意為目前未能充分發(fā)揮潛力的產(chǎn)品掏出 3 萬美元了。

英偉達(dá)需要順應(yīng) 大內(nèi)存的發(fā)展趨勢

出于種種技術(shù)和經(jīng)濟方面的權(quán)衡,幾十年來各種處理器在算力方面往往配置過剩,但相應(yīng)的內(nèi)存帶寬卻相對不足。實際內(nèi)存容量,往往要視設(shè)備和工作負(fù)載需求而定。

Web 基礎(chǔ)設(shè)施類負(fù)載和那些相對簡單的分析 / 數(shù)據(jù)庫工作負(fù)載大多能在擁有十幾條 DDR 內(nèi)存通道的現(xiàn)代 CPU 上運行良好,但到了 HPC 模擬 / 建模乃至 AI 訓(xùn)練 / 推理這邊,即使是最先進(jìn) GPU 的內(nèi)存帶寬和內(nèi)存容量也相對不足,因此無法實質(zhì)性提升芯片上既有向量與矩陣引擎的利用率。于是乎,這些 GPU 只能耗費大量時間等待數(shù)據(jù)交付,無法全力施展自身所長。

所以答案就很明確了:應(yīng)該在這些芯片上放置更多內(nèi)存!但遺憾的是,高級計算引擎上的 HBM 內(nèi)存成本往往比芯片本身還要高,因此添加更多內(nèi)存自然面臨很大的阻力。特別是如果添加內(nèi)存就能讓性能翻倍,那同樣的 HPC 或 AI 應(yīng)用性能將只需要一半的設(shè)備即可達(dá)成,這樣的主意顯然沒法在董事會那邊得到支持。這種主動壓縮利潤的思路,恐怕只能在市場供過于求,三、四家廠商爭奪客戶預(yù)算的時候才會發(fā)生。但很明顯,現(xiàn)狀并非如此。

好在最終理性還是占據(jù)了上風(fēng),所以英特爾才推出了“Sapphire Rapids”至強 SP 芯片變體,配備有 64 GB HBM2e 內(nèi)存。雖然每核分配到的內(nèi)存才剛剛超過 1 GB,但總和內(nèi)存帶寬卻可達(dá)到每秒 1 TB 以上。對于各類對內(nèi)存容量要求較低的工作負(fù)載,以及主要受帶寬限制、而非容量限制的工作負(fù)載(主要體現(xiàn)在 HPC 類應(yīng)用當(dāng)中),只需轉(zhuǎn)向 HBM2e 即可將性能提升 1.8 至 1.9 倍。于是乎,Sapphire Rapids 的 HBM 變體自然成為 1 月份產(chǎn)品發(fā)布中最受關(guān)注、也最具現(xiàn)實意義的內(nèi)容之一。英特爾還很有可能在接下來推出的“Granite Rapids”芯片中發(fā)布 HBM 變體,雖然號稱是以多路復(fù)用器組合列(MCR)DDR5 內(nèi)存為賣點,但這種內(nèi)存擴容的整體思路必將成為 Granite Rapids 架構(gòu)中的重要部分。

英偉達(dá)之前在丹佛舉行的 SC23 超級計算大會上宣布推出新的“Hopper”H200 GPU 加速器,AMD 則將于 12 月 6 日發(fā)布面向數(shù)據(jù)中心的“Antares”GPU 加速器系列——包括搭載 192 GB HBM3 內(nèi)存的 Instinct MI300X,以及擁有 128 GB HBM3 內(nèi)存的 CPU-GPU 混合 MI300A。很明顯,英偉達(dá)也必須順應(yīng)這波趨勢,至少也要為 Hopper GPU 配備更大的內(nèi)存。

fce14724-82d4-11ee-939d-92fbcf53809c.png

英偉達(dá)在一個月前的財務(wù)會議上放出技術(shù)路線圖時,我們都知道 GH200 GPU 和 H200 GPU 加速器將成為“Blackwell”GB100 GPU 及 B100 GPU 之前的過渡性產(chǎn)品,而后者計劃在 2024 年內(nèi)發(fā)布。人們普遍認(rèn)為 H200 套件將擁有更大的內(nèi)存,但我們認(rèn)為英偉達(dá)應(yīng)該想辦法提升 GPU 引擎本身的性能。事實證明,通過擴大 HBM 內(nèi)存并轉(zhuǎn)向速度更快的 HBM3e 內(nèi)存,英偉達(dá)完全可以在現(xiàn)有 Hopper GPU 的設(shè)計之上帶來顯著的性能提升,無需添加更多 CUDA 核心或者對 GPU 超頻。 明年還有新的大冤種?

身處摩爾定律末期,在計算引擎中集成 HBM 內(nèi)存所帶來的高昂成本已經(jīng)嚴(yán)重限制了性能擴展。英偉達(dá)和英特爾在 Sapphire Rapids 至強 Max CPU 上都公布了相應(yīng)的統(tǒng)計數(shù)字。而無論英偉達(dá)接下來的 Blackwell B100 GPU 加速器具體表現(xiàn)如何,都基本可以斷定會帶來更強大的推理性能,而且這種性能提升很可能來自內(nèi)存方面的突破、而非計算層面的升級。下面來看 B100 GPU 在 GPT-3 175B 參數(shù)模型上的推理能力提升:

fced9696-82d4-11ee-939d-92fbcf53809c.png

因此,從現(xiàn)在到明年夏季之間砸錢購買英偉達(dá) Hopper G200 的朋友,肯定又要被再割一波“韭菜”(當(dāng)然,這也是數(shù)據(jù)中心持續(xù)發(fā)展下的常態(tài))。

最后:H200 GPU 加速器和 Grace-Hopper 超級芯片將采用更新的 Hopper GPU,配備更大、更快的內(nèi)存,且計劃于明年年中正式上市。也正因為如此,我們才認(rèn)定 Blackwell B100 加速器雖然會在明年 3 月的 GTC 2024 大會上首次亮相,但實際出貨恐怕要等到 2024 年底。當(dāng)然,無論大家決定為自己的系統(tǒng)選擇哪款產(chǎn)品,最好現(xiàn)在就提交訂單,否則到時候肯定會一無所獲。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48477

    瀏覽量

    245176
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3902

    瀏覽量

    92933
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    1959

    瀏覽量

    35620

原文標(biāo)題:囤H100的都成了大冤種!英偉達(dá)發(fā)布最新AI芯片H200:性能提升2倍,成本下降50%

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    AMD最強AI芯片,性能強過英偉達(dá)H200,但市場仍不買賬,生態(tài)是最大短板?

    顯示,該芯片多項性能優(yōu)于英偉達(dá)H200。 ? 不過,對于AMD一系列的產(chǎn)品發(fā)布,市場方面似乎并不
    的頭像 發(fā)表于 10-14 01:32 ?3927次閱讀
    AMD最強<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>,<b class='flag-5'>性能</b>強過<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>H200</b>,但市場仍不買賬,生態(tài)是最大短板?

    特朗普要叫停英偉達(dá)對華特供版 英偉達(dá)H20出口限制 或損失55億美元

    是“中國特供版”人工智能芯片;是英偉達(dá)公司為符合美國出口規(guī)定專門為中國市場開發(fā)的定制芯片,H20芯片
    的頭像 發(fā)表于 04-16 16:59 ?919次閱讀

    新思科技攜手英偉達(dá)加速芯片設(shè)計,提升芯片電子設(shè)計自動化效率

    解決方案在英偉達(dá) GPU和英偉達(dá) CUDA-X庫上所實現(xiàn)的加速 基于英偉達(dá) GB
    發(fā)表于 03-19 17:59 ?176次閱讀

    GMI Cloud推出基于英偉達(dá)H200的DeepSeek系列模型

    近日,GMI Cloud宣布成功上架了基于英偉達(dá)H200 GPU的DeepSeek系列模型。這一舉措標(biāo)志著DeepSeek在AI應(yīng)用領(lǐng)域邁出了重要一步。 自DeepSeek在GitHu
    的頭像 發(fā)表于 02-08 09:41 ?404次閱讀

    一顆芯片面積頂4顆H200,博通推出3.5D XDSiP封裝平臺

    平方毫米的3D堆疊硅晶片和12個HBM模塊集成到一個系統(tǒng)級封裝中。這是什么概念? ? 目前手機移動端的旗艦處理器驍龍8Elite核心面積是124.1平方毫米;英偉達(dá)H200核心面積1526平方毫米;今年
    的頭像 發(fā)表于 12-10 09:15 ?2458次閱讀
    一顆<b class='flag-5'>芯片</b>面積頂4顆<b class='flag-5'>H200</b>,博通推出3.5D XDSiP封裝平臺

    英特爾發(fā)布Gaudi3 AI加速器,押注低成本優(yōu)勢挑戰(zhàn)市場

    英特爾近期震撼發(fā)布了專為AI工作負(fù)載設(shè)計的Gaudi3加速器,這款新芯片雖在速度上不及英偉達(dá)熱門型號H
    的頭像 發(fā)表于 09-26 16:16 ?1038次閱讀

    亞馬遜云科技宣布Amazon EC2 P5e實例正式可用 由英偉達(dá)H200 GPU提供支持

    現(xiàn)已正式可用。亞馬遜云科技是首個將英偉達(dá)H200 GPU用于生產(chǎn)環(huán)境的領(lǐng)先云提供商。與基于英偉達(dá)H
    的頭像 發(fā)表于 09-19 16:16 ?717次閱讀

    英偉達(dá)或取消B100轉(zhuǎn)用B200A代替

    今年3月份,英偉達(dá)在美國加利福尼亞州圣何塞會議中心召開的GTC 2024大會上推出了Blackwell架構(gòu)GPU。原定于今年底出貨的B100/B200被寄予厚望,將替代現(xiàn)行H100/
    的頭像 發(fā)表于 08-08 17:19 ?787次閱讀

    英偉達(dá)回應(yīng)AI芯片推遲發(fā)布傳聞

    近日,英偉達(dá)就外界廣泛關(guān)注的AI芯片Blackwell推遲發(fā)布傳聞作出正式回應(yīng)。8月4日,英偉
    的頭像 發(fā)表于 08-05 17:34 ?811次閱讀

    英偉達(dá)H200芯片將大規(guī)模交付

    英偉達(dá)AI GPU市場迎來新動態(tài),其H200型號上游芯片端已于第二季度下旬正式進(jìn)入量產(chǎn)階段,預(yù)示著該產(chǎn)品將在第三季度后迎來大量交付。然而,
    的頭像 發(fā)表于 07-04 10:29 ?1026次閱讀

    英偉達(dá)H200芯片量產(chǎn)在即,引領(lǐng)AI計算新時代

    在科技日新月異的今天,每一次技術(shù)的飛躍都預(yù)示著行業(yè)格局的深刻變革。7月3日,臺灣媒體《工商時報》傳來重磅消息,英偉達(dá)(NVIDIA)的旗艦級AI計算產(chǎn)品——H200,已在二季度末正式邁
    的頭像 發(fā)表于 07-03 16:22 ?1018次閱讀

    英偉達(dá)巨資預(yù)訂HBM3E,力拼上半年算力市場

    在全球AI芯片領(lǐng)域的激烈競爭中,英偉達(dá)以其卓越的技術(shù)實力和市場影響力,始終保持著領(lǐng)先地位。最近,這家AI
    的頭像 發(fā)表于 06-22 16:46 ?1135次閱讀

    英偉達(dá)Blackwell GB200 AI芯片今年預(yù)估出貨50萬片

    英偉達(dá)正積極擴大其人工智能服務(wù)器的產(chǎn)能。據(jù)最新消息,Blackwell GB200人工智能服務(wù)器預(yù)計在2024年的出貨量將達(dá)到50萬片,到了2025年,這一數(shù)字將猛增至
    的頭像 發(fā)表于 05-24 11:40 ?873次閱讀

    英偉達(dá)首席執(zhí)行官黃仁勛:AI模型推動英偉達(dá)AI芯片需求

    近來,以ChatGPT為代表的AI聊天機器人已經(jīng)導(dǎo)致英偉達(dá)AI芯片供應(yīng)緊張。然而,隨著能夠創(chuàng)造視頻并進(jìn)行近似人類交流的新型
    的頭像 發(fā)表于 05-24 10:04 ?746次閱讀

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    ,同時降低水消耗。利用NVIDIA Blackwell架構(gòu)的高帶寬內(nèi)存性能、NVLink-C2C和專用解壓縮引擎,GB200大幅提高關(guān)鍵數(shù)據(jù)庫查詢的速度,比CPU提升18
    發(fā)表于 05-13 17:16