一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá)發(fā)布最新AI芯片H200:性能提升2倍,成本下降50%

jf_WZTOguxH ? 來源:AI前線 ? 2023-11-22 17:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

周一,半導(dǎo)體行業(yè)巨頭英偉達(dá)發(fā)布了新一代人工智能芯片 H200,旨在為各種 AI 模型提供訓(xùn)練和部署支持。

H200 芯片是目前用于訓(xùn)練最先進(jìn)的大型語言模型 H100 芯片的升級(jí)版,搭載了 141GB 的內(nèi)存,專注于執(zhí)行“推理”任務(wù)。在進(jìn)行推理或生成問題答案時(shí),H200 的性能相比 H100 提升了 1.4 至 1.9 倍不等。

性能拉升無極限?

據(jù)英偉達(dá)官網(wǎng)消息,基于英偉達(dá)的“Hopper”架構(gòu),H200 是該公司首款采用 HBM3e 內(nèi)存的芯片。這種內(nèi)存速度更快、容量更大,使其更適用于大語言模型。相信過去一年來花大價(jià)錢購買過 Hopper H100 加速器的朋友都會(huì)為自己的沖動(dòng)而后悔。為了防止囤積了大量 H100 的客戶們當(dāng)場掀桿而起,英偉達(dá)似乎只有一種辦法:把配備 141 GB HBM3e 內(nèi)存 Hopper 的價(jià)格,定為 80 GB 或 96 GB HBM3 內(nèi)存版本的 1.5 到 2 倍。只有這樣,才能讓之前的“冤種”們稍微平衡一點(diǎn)。

fcab4cb4-82d4-11ee-939d-92fbcf53809c.png

下圖所示,為 H100 與 H200 在一系列 AI 推理工作負(fù)載上的相對性能比較:

fcb94800-82d4-11ee-939d-92fbcf53809c.png

可以看到,相較于 H100,H200 的性能提升最主要體現(xiàn)在大模型的推理性能表現(xiàn)上。在處理 Llama 2 等大語言模型時(shí),H200 的推理速度比 H100 提高了接近 2 倍。 很明顯,如果能在相同的功率范圍之內(nèi)實(shí)現(xiàn) 2 倍的性能提升,就意味著實(shí)際能耗和總體擁有成本降低了 50%。所以從理論上講,英偉達(dá)似乎可以讓 H200 GPU 的價(jià)格與 H100 持平。

fcc142da-82d4-11ee-939d-92fbcf53809c.png

得益于 Tansformer 引擎、浮點(diǎn)運(yùn)算精度的下降以及更快的 HBM3 內(nèi)存,今年起全面出貨的 H100 在 GPT-3 175B 模型的推理性能方面已經(jīng)較 A100 提升至 11 倍。而憑借更大、更快的 HBM3e 內(nèi)存,無需任何硬件或代碼變更的 H200 則直接把性能拉升至 18 倍。 哪怕是與 H100 相比,H200 的性能也提高至 1.64 倍,而這一切都純粹源自內(nèi)存容量和帶寬的增長。

fcd61bd8-82d4-11ee-939d-92fbcf53809c.png

想象一下,如果未來的設(shè)備擁有 512 GB HBM 內(nèi)存和 10 TB/ 秒帶寬,性能又會(huì)來到怎樣的水平?大家愿意為這款能夠全力施為的 GPU 支付多高的價(jià)錢?最終產(chǎn)品很可能要賣到 6 萬甚至是 9 萬美元,畢竟很多朋友已經(jīng)愿意為目前未能充分發(fā)揮潛力的產(chǎn)品掏出 3 萬美元了。

英偉達(dá)需要順應(yīng) 大內(nèi)存的發(fā)展趨勢

出于種種技術(shù)和經(jīng)濟(jì)方面的權(quán)衡,幾十年來各種處理器在算力方面往往配置過剩,但相應(yīng)的內(nèi)存帶寬卻相對不足。實(shí)際內(nèi)存容量,往往要視設(shè)備和工作負(fù)載需求而定。

Web 基礎(chǔ)設(shè)施類負(fù)載和那些相對簡單的分析 / 數(shù)據(jù)庫工作負(fù)載大多能在擁有十幾條 DDR 內(nèi)存通道的現(xiàn)代 CPU 上運(yùn)行良好,但到了 HPC 模擬 / 建模乃至 AI 訓(xùn)練 / 推理這邊,即使是最先進(jìn) GPU 的內(nèi)存帶寬和內(nèi)存容量也相對不足,因此無法實(shí)質(zhì)性提升芯片上既有向量與矩陣引擎的利用率。于是乎,這些 GPU 只能耗費(fèi)大量時(shí)間等待數(shù)據(jù)交付,無法全力施展自身所長。

所以答案就很明確了:應(yīng)該在這些芯片上放置更多內(nèi)存!但遺憾的是,高級(jí)計(jì)算引擎上的 HBM 內(nèi)存成本往往比芯片本身還要高,因此添加更多內(nèi)存自然面臨很大的阻力。特別是如果添加內(nèi)存就能讓性能翻倍,那同樣的 HPC 或 AI 應(yīng)用性能將只需要一半的設(shè)備即可達(dá)成,這樣的主意顯然沒法在董事會(huì)那邊得到支持。這種主動(dòng)壓縮利潤的思路,恐怕只能在市場供過于求,三、四家廠商爭奪客戶預(yù)算的時(shí)候才會(huì)發(fā)生。但很明顯,現(xiàn)狀并非如此。

好在最終理性還是占據(jù)了上風(fēng),所以英特爾才推出了“Sapphire Rapids”至強(qiáng) SP 芯片變體,配備有 64 GB HBM2e 內(nèi)存。雖然每核分配到的內(nèi)存才剛剛超過 1 GB,但總和內(nèi)存帶寬卻可達(dá)到每秒 1 TB 以上。對于各類對內(nèi)存容量要求較低的工作負(fù)載,以及主要受帶寬限制、而非容量限制的工作負(fù)載(主要體現(xiàn)在 HPC 類應(yīng)用當(dāng)中),只需轉(zhuǎn)向 HBM2e 即可將性能提升 1.8 至 1.9 倍。于是乎,Sapphire Rapids 的 HBM 變體自然成為 1 月份產(chǎn)品發(fā)布中最受關(guān)注、也最具現(xiàn)實(shí)意義的內(nèi)容之一。英特爾還很有可能在接下來推出的“Granite Rapids”芯片中發(fā)布 HBM 變體,雖然號(hào)稱是以多路復(fù)用器組合列(MCR)DDR5 內(nèi)存為賣點(diǎn),但這種內(nèi)存擴(kuò)容的整體思路必將成為 Granite Rapids 架構(gòu)中的重要部分。

英偉達(dá)之前在丹佛舉行的 SC23 超級(jí)計(jì)算大會(huì)上宣布推出新的“Hopper”H200 GPU 加速器,AMD 則將于 12 月 6 日發(fā)布面向數(shù)據(jù)中心的“Antares”GPU 加速器系列——包括搭載 192 GB HBM3 內(nèi)存的 Instinct MI300X,以及擁有 128 GB HBM3 內(nèi)存的 CPU-GPU 混合 MI300A。很明顯,英偉達(dá)也必須順應(yīng)這波趨勢,至少也要為 Hopper GPU 配備更大的內(nèi)存。

fce14724-82d4-11ee-939d-92fbcf53809c.png

英偉達(dá)在一個(gè)月前的財(cái)務(wù)會(huì)議上放出技術(shù)路線圖時(shí),我們都知道 GH200 GPU 和 H200 GPU 加速器將成為“Blackwell”GB100 GPU 及 B100 GPU 之前的過渡性產(chǎn)品,而后者計(jì)劃在 2024 年內(nèi)發(fā)布。人們普遍認(rèn)為 H200 套件將擁有更大的內(nèi)存,但我們認(rèn)為英偉達(dá)應(yīng)該想辦法提升 GPU 引擎本身的性能。事實(shí)證明,通過擴(kuò)大 HBM 內(nèi)存并轉(zhuǎn)向速度更快的 HBM3e 內(nèi)存,英偉達(dá)完全可以在現(xiàn)有 Hopper GPU 的設(shè)計(jì)之上帶來顯著的性能提升,無需添加更多 CUDA 核心或者對 GPU 超頻。 明年還有新的大冤種?

身處摩爾定律末期,在計(jì)算引擎中集成 HBM 內(nèi)存所帶來的高昂成本已經(jīng)嚴(yán)重限制了性能擴(kuò)展。英偉達(dá)和英特爾在 Sapphire Rapids 至強(qiáng) Max CPU 上都公布了相應(yīng)的統(tǒng)計(jì)數(shù)字。而無論英偉達(dá)接下來的 Blackwell B100 GPU 加速器具體表現(xiàn)如何,都基本可以斷定會(huì)帶來更強(qiáng)大的推理性能,而且這種性能提升很可能來自內(nèi)存方面的突破、而非計(jì)算層面的升級(jí)。下面來看 B100 GPU 在 GPT-3 175B 參數(shù)模型上的推理能力提升:

fced9696-82d4-11ee-939d-92fbcf53809c.png

因此,從現(xiàn)在到明年夏季之間砸錢購買英偉達(dá) Hopper G200 的朋友,肯定又要被再割一波“韭菜”(當(dāng)然,這也是數(shù)據(jù)中心持續(xù)發(fā)展下的常態(tài))。

最后:H200 GPU 加速器和 Grace-Hopper 超級(jí)芯片將采用更新的 Hopper GPU,配備更大、更快的內(nèi)存,且計(jì)劃于明年年中正式上市。也正因?yàn)槿绱耍覀儾耪J(rèn)定 Blackwell B100 加速器雖然會(huì)在明年 3 月的 GTC 2024 大會(huì)上首次亮相,但實(shí)際出貨恐怕要等到 2024 年底。當(dāng)然,無論大家決定為自己的系統(tǒng)選擇哪款產(chǎn)品,最好現(xiàn)在就提交訂單,否則到時(shí)候肯定會(huì)一無所獲。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249570
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3953

    瀏覽量

    93799
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    1983

    瀏覽量

    35915

原文標(biāo)題:囤H100的都成了大冤種!英偉達(dá)發(fā)布最新AI芯片H200:性能提升2倍,成本下降50%

文章出處:【微信號(hào):AI前線,微信公眾號(hào):AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    AMD最強(qiáng)AI芯片性能強(qiáng)過英偉達(dá)H200,但市場仍不買賬,生態(tài)是最大短板?

    顯示,該芯片多項(xiàng)性能優(yōu)于英偉達(dá)H200。 ? 不過,對于AMD一系列的產(chǎn)品發(fā)布,市場方面似乎并不
    的頭像 發(fā)表于 10-14 01:32 ?4315次閱讀
    AMD最強(qiáng)<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>,<b class='flag-5'>性能</b>強(qiáng)過<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>H200</b>,但市場仍不買賬,生態(tài)是最大短板?

    特朗普要叫停英偉達(dá)對華特供版 英偉達(dá)H20出口限制 或損失55億美元

    是“中國特供版”人工智能芯片;是英偉達(dá)公司為符合美國出口規(guī)定專門為中國市場開發(fā)的定制芯片,H20芯片
    的頭像 發(fā)表于 04-16 16:59 ?1335次閱讀

    新思科技攜手英偉達(dá)加速芯片設(shè)計(jì),提升芯片電子設(shè)計(jì)自動(dòng)化效率

    解決方案在英偉達(dá) GPU和英偉達(dá) CUDA-X庫上所實(shí)現(xiàn)的加速 基于英偉達(dá) GB
    發(fā)表于 03-19 17:59 ?280次閱讀

    GMI Cloud推出基于英偉達(dá)H200的DeepSeek系列模型

    近日,GMI Cloud宣布成功上架了基于英偉達(dá)H200 GPU的DeepSeek系列模型。這一舉措標(biāo)志著DeepSeek在AI應(yīng)用領(lǐng)域邁出了重要一步。 自DeepSeek在GitHu
    的頭像 發(fā)表于 02-08 09:41 ?511次閱讀

    英偉達(dá)發(fā)布DeepSeek R1于NIM平臺(tái)

    網(wǎng)站上發(fā)布。 據(jù)悉,DeepSeek R1 NIM微服務(wù)是英偉達(dá)在人工智能領(lǐng)域的一項(xiàng)重要?jiǎng)?chuàng)新,旨在為用戶提供高效、精準(zhǔn)的推理服務(wù)。在單個(gè)英偉達(dá)
    的頭像 發(fā)表于 02-05 14:48 ?623次閱讀

    一顆芯片面積頂4顆H200,博通推出3.5D XDSiP封裝平臺(tái)

    平方毫米的3D堆疊硅晶片和12個(gè)HBM模塊集成到一個(gè)系統(tǒng)級(jí)封裝中。這是什么概念? ? 目前手機(jī)移動(dòng)端的旗艦處理器驍龍8Elite核心面積是124.1平方毫米;英偉達(dá)H200核心面積1526平方毫米;今年
    的頭像 發(fā)表于 12-10 09:15 ?2788次閱讀
    一顆<b class='flag-5'>芯片</b>面積頂4顆<b class='flag-5'>H200</b>,博通推出3.5D XDSiP封裝平臺(tái)

    英偉達(dá)推出GB200 NVL4平臺(tái):整合了兩個(gè)GB200芯片

    11月19日消息,人工智能(AI芯片大廠英偉達(dá)(NVIDIA)正式推出了兩個(gè)全新的AI解決方案硬件平臺(tái),一個(gè)是BlackwellGB
    的頭像 發(fā)表于 11-21 01:06 ?869次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>推出GB<b class='flag-5'>200</b> NVL4平臺(tái):整合了兩個(gè)GB<b class='flag-5'>200</b><b class='flag-5'>芯片</b>

    英特爾發(fā)布Gaudi3 AI加速器,押注低成本優(yōu)勢挑戰(zhàn)市場

    英特爾近期震撼發(fā)布了專為AI工作負(fù)載設(shè)計(jì)的Gaudi3加速器,這款新芯片雖在速度上不及英偉達(dá)熱門型號(hào)H
    的頭像 發(fā)表于 09-26 16:16 ?1194次閱讀

    亞馬遜云科技宣布Amazon EC2 P5e實(shí)例正式可用 由英偉達(dá)H200 GPU提供支持

    現(xiàn)已正式可用。亞馬遜云科技是首個(gè)將英偉達(dá)H200 GPU用于生產(chǎn)環(huán)境的領(lǐng)先云提供商。與基于英偉達(dá)H
    的頭像 發(fā)表于 09-19 16:16 ?893次閱讀

    三星電子HBM3E內(nèi)存獲英偉達(dá)認(rèn)證,加速AI GPU市場布局

    英偉達(dá)H200系列AI GPU的首選內(nèi)存解決方案,同時(shí),針對英偉達(dá)Blackwell系列的驗(yàn)證
    的頭像 發(fā)表于 09-05 17:15 ?1043次閱讀

    英偉達(dá)提升RTX 50系列顯卡良率,推遲上市計(jì)劃

    )差異導(dǎo)致的芯片翹曲及系統(tǒng)潛在故障問題。為解決這一問題,英偉達(dá)已著手重新設(shè)計(jì)GPU芯片的頂部金屬層和凸點(diǎn)結(jié)構(gòu),旨在提升產(chǎn)品良率。這一調(diào)整不僅
    的頭像 發(fā)表于 09-04 16:40 ?1121次閱讀

    英偉達(dá)或取消B100轉(zhuǎn)用B200A代替

    今年3月份,英偉達(dá)在美國加利福尼亞州圣何塞會(huì)議中心召開的GTC 2024大會(huì)上推出了Blackwell架構(gòu)GPU。原定于今年底出貨的B100/B200被寄予厚望,將替代現(xiàn)行H100/
    的頭像 發(fā)表于 08-08 17:19 ?1017次閱讀

    英偉達(dá)回應(yīng)AI芯片推遲發(fā)布傳聞

    近日,英偉達(dá)就外界廣泛關(guān)注的AI芯片Blackwell推遲發(fā)布傳聞作出正式回應(yīng)。8月4日,英偉
    的頭像 發(fā)表于 08-05 17:34 ?954次閱讀

    英偉達(dá)TITAN AI顯卡曝光,性能狂超RTX 4090達(dá)63%!# 英偉達(dá)# 顯卡

    顯卡英偉達(dá)
    jf_02331860
    發(fā)布于 :2024年07月24日 17:18:28