英偉達(dá)的 Grace CPU 和 Grace Hopper Superchip 有望在 2023 年初發(fā)布。
英偉達(dá)在下周的 Hot Chips 34 發(fā)布會(huì)之前宣布了有關(guān)Grace CPU Superchip的新細(xì)節(jié),并透露該芯片采用4N工藝制造。英偉達(dá)還分享了有關(guān)架構(gòu)、數(shù)據(jù)結(jié)構(gòu)、性能和效率基準(zhǔn)的更多信息。Grace芯片和服務(wù)器將在2023年上半年投入市場(chǎng)。
英偉達(dá)的Grace CPU是該公司第一款專為數(shù)據(jù)中心設(shè)計(jì)的CPU專用Arm芯片,在一塊主板上有兩個(gè)芯片,共144個(gè)核心,而Grace Hopper超級(jí)芯片則將Hopper GPU和Grace CPU結(jié)合在同一塊板上。在披露中,英偉達(dá)最終正式確認(rèn) Grace CPU 使用 TSMC 4N 工藝。臺(tái)積電在其5nm節(jié)點(diǎn)系列中列出了“N4”4nm工藝,將其描述為5nm節(jié)點(diǎn)的增強(qiáng)版。英偉達(dá)使用該節(jié)點(diǎn)的專用變體,稱為“4N”,專門針對(duì)其GPU和CPU進(jìn)行了優(yōu)化。
隨著摩爾定律的減弱,這些類型的專用節(jié)點(diǎn)變得越來越普遍,隨著每個(gè)新節(jié)點(diǎn)的出現(xiàn),晶體管的縮小變得越來越困難,成本也越來越高。為了實(shí)現(xiàn)英偉達(dá)4N等定制工藝節(jié)點(diǎn),芯片設(shè)計(jì)公司和代工廠攜手合作,使用設(shè)計(jì)技術(shù)協(xié)同優(yōu)化(DTCO)為其特定產(chǎn)品輸入定制功率、性能和面積(PPA)特性。
英偉達(dá)此前曾透露,其 Grace CPU 使用現(xiàn)成的Arm Neoverse內(nèi)核作為其Grace CPU,但該公司尚未指定使用哪種特定版本。然而,英偉達(dá)披露,Grace使用Arm v9內(nèi)核并支持SVE2,Neoverse N2平臺(tái)是Arm第一個(gè)支持Arm V7和SVE2等擴(kuò)展的IP。N2 Perseus 平臺(tái)采用 5nm 設(shè)計(jì)(N4 屬于 TSMC 的 5nm 系列)并支持 PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0。Perseus 設(shè)計(jì)針對(duì)每功率性能(瓦特)和每面積性能進(jìn)行了優(yōu)化。Arm 表示,其下一代核心 Poseidon 要到 2024 年才會(huì)上市,考慮到 Grace 2023 年初的發(fā)布日期,這些核心不太可能成為候選者。
英偉達(dá)Grace Hopper CPU 架構(gòu)
英偉達(dá)的新NVDIA calable Coherency Fabric (SCF) 是一種網(wǎng)狀互連,與Arm Neoverse核心使用的標(biāo)準(zhǔn)CMN-700相干網(wǎng)狀網(wǎng)絡(luò)非常相似。
英偉達(dá)SCF 在各種 Grace 芯片單元(如 CPU 內(nèi)核、內(nèi)存和 I/O)之間提供 3.2 TB/s 的雙向帶寬,更不用說將芯片連接到主板上其他單元(無論是另一個(gè)Grace CPU還是Hopper GPU)的NVLink-C2C接口。
該網(wǎng)格支持 72+ 個(gè)內(nèi)核,每個(gè) CPU 有 117MB 的總 L3 緩存。英偉達(dá)表示,上面圖片中的第一個(gè)方框圖是“出于說明目的的可能拓?fù)浣Y(jié)構(gòu)”,其對(duì)齊方式與第二個(gè)方框圖不完全一致。
此圖顯示了具有8個(gè)SCF緩存分區(qū)(SCC)的芯片,這些分區(qū)看起來是L3緩存片以及8個(gè)CPU單元。SCC 和內(nèi)核以兩個(gè)一組連接到緩存交換節(jié)點(diǎn) (CSN),然后 CSN 駐留在 SCF 網(wǎng)狀結(jié)構(gòu)上,以提供CPU核心和芯片其余部分的存儲(chǔ)器之間的接口。SCF 還通過 Coherent NVLink 支持多達(dá)四個(gè)插槽的一致性。
英偉達(dá)還分享了上圖,顯示每個(gè)Grace CPU支持多達(dá)68個(gè)PCIe通道和多達(dá)4個(gè)PCIe 5.0 x16連接。每個(gè)x16連接支持高達(dá)128 GB/s的雙向吞吐量(x16鏈路可以分成兩個(gè)x8鏈路),還有16個(gè)雙通道LPDDR5X內(nèi)存控制器(MC)。然而,這張圖與第一張圖不同——它將 L3 緩存顯示為連接到四核 CPU 集群的兩個(gè)連續(xù)塊,這比之前的圖更有意義,芯片中總共有 72 個(gè)內(nèi)核。但是,我我們?cè)诘谝粡垐D中沒有看到單獨(dú)的SCF分區(qū)或CSN節(jié)點(diǎn)。
英偉達(dá)官方表示,Scalable Coherency Fabric (SCF) 是其專有設(shè)計(jì),但 Arm 允許其合作伙伴通過調(diào)整核心數(shù)量、緩存大小和使用不同類型的內(nèi)存(如 DDR5 和 HBM)來定制 CMN-700 網(wǎng)格,以及選擇各種接口,如 PCIe 5.0、CXL 和 CCIX。這意味著 英偉達(dá)有可能為片上結(jié)構(gòu)使用高度定制的 CMN-700 實(shí)現(xiàn)。
英偉達(dá)Grace Hopper 擴(kuò)展 GPU 內(nèi)存
GPU 需要高的內(nèi)存吞吐量,因此,英偉達(dá)將目光轉(zhuǎn)向提高內(nèi)存吞吐量,不僅是芯片內(nèi)部,還包括CPU和GPU之間。Grace CPU 有 16 個(gè)雙通道 LPDDR5X 內(nèi)存控制器,最多可支持 32 個(gè)通道,支持高達(dá) 512 GB 的內(nèi)存和高達(dá) 546 GB/s 的吞吐量。英偉達(dá)表示,由于容量和成本等多種因素,它選擇了 LPDDR5X 而不是 HBM2e。同時(shí),與標(biāo)準(zhǔn) DDR5 內(nèi)存相比,LPDDR5X 提供了 53% 的帶寬和 1/8 的每 GB 功耗,使其成為更好的選擇。
英偉達(dá)還推出了擴(kuò)展 GPU 內(nèi)存 (EGM),它允許 NVLink 網(wǎng)絡(luò)上的任何 Hopper GPU 訪問網(wǎng)絡(luò)上任何 Grace CPU 的 LPDDR5X 內(nèi)存。
英偉達(dá)的目標(biāo)是提供一個(gè)統(tǒng)一的內(nèi)存池,可以在 CPU 和 GPU 之間共享,從而在簡(jiǎn)化編程模型的同時(shí)提供更高的性能。Grace Hopper CPU+GPU 芯片支持具有共享頁表的統(tǒng)一內(nèi)存,這意味著芯片可以與 CUDA 應(yīng)用程序共享地址空間和頁表,并允許使用系統(tǒng)分配器來分配 GPU 內(nèi)存。
英偉達(dá)NVLink-C2C
CPU 內(nèi)核是計(jì)算引擎,但互連是決定計(jì)算未來的戰(zhàn)場(chǎng)。移動(dòng)數(shù)據(jù)比實(shí)際計(jì)算數(shù)據(jù)消耗更多的能量,因此更快、更有效地移動(dòng)數(shù)據(jù),甚至避免數(shù)據(jù)傳輸,是一個(gè)關(guān)鍵目標(biāo)。
英偉達(dá)的Grace CPU由一塊板上的兩個(gè) CPU 組成,而 Grace Hopper Superchip 則由同一塊板上的一個(gè) Grace CPU 和一個(gè) Hopper GPU 組成,旨在通過專有的NVLink芯片到芯片(C2C)互連最大化單元之間的數(shù)據(jù)傳輸,并提供一致性內(nèi)存,以減少或消除數(shù)據(jù)傳輸。
英偉達(dá)分享了有關(guān)其 NVLink-C2C 互連的新細(xì)節(jié),這是一種支持內(nèi)存一致性的芯片到芯片和芯片到芯片互連,可提供高達(dá) 900 GB/s 的吞吐量(是 PCIe 5.0 x16 鏈路帶寬的 7 倍)。該接口使用 NVLink 協(xié)議,英偉達(dá)使用其 SERDES 和 LINK 設(shè)計(jì)技術(shù)精心設(shè)計(jì)了該接口,重點(diǎn)關(guān)注能源和面積效率。NVLink-C2C 也支持行業(yè)標(biāo)準(zhǔn)協(xié)議,如 CXL 和 Arm 的 AMBA 相干集線器接口(CHI — Neoverse CMN-700 網(wǎng)格的CHI-key)。它還支持多種類型的連接,從基于PCB的互連到硅中介層和晶圓級(jí)實(shí)現(xiàn)。
功率效率是所有數(shù)據(jù)結(jié)構(gòu)的一個(gè)關(guān)鍵指標(biāo),如今,英偉達(dá)共享鏈路傳輸?shù)臄?shù)據(jù)每比特消耗1.3微微焦耳(pJ/b)。這是 PCIe 5.0 接口效率的 5 倍,但它是未來將上市的 UCIe 互連(0.5 到 0.25 pJ/b)功率的兩倍多。封裝類型各不相同,C2C link為 英偉達(dá)提供了性能和效率的完美結(jié)合,以滿足其特定的使用情況。
英偉達(dá)Grace CPU 基準(zhǔn)測(cè)試
英偉達(dá)的新基準(zhǔn)是SpecIntRate 2017基準(zhǔn)中單臺(tái)Grace CPU的370分。這英偉達(dá)已經(jīng)共享了一個(gè)多CPU基準(zhǔn),在SPECTINTRATE2017基準(zhǔn)中,兩個(gè)Grace CPU的得分為740。顯然,這表明兩個(gè)芯片的線性縮放改進(jìn)。
AMD目前的第二代EPYC Milan芯片是數(shù)據(jù)中心目前的性能領(lǐng)導(dǎo)者,發(fā)布的規(guī)格結(jié)果從382到424片不等,這意味著高端x86芯片仍將保持領(lǐng)先地位。然而,英偉達(dá)的解決方案將具有許多其他優(yōu)勢(shì),如功率效率和更GPU友好的設(shè)計(jì)。
英偉達(dá)分享了其內(nèi)存吞吐量基準(zhǔn),表明Grace CPU在CPU內(nèi)存吞吐量測(cè)試中可以提供約500 GB/s的吞吐量。英偉達(dá)還聲稱,該芯片還可以將高達(dá)506Gb/s的組合讀/寫吞吐量推送到連接的Hopper GPU,并在讀吞吐量測(cè)試期間將CPU到GPU的帶寬計(jì)時(shí)為429Gb/s,在寫入時(shí)為407Gb/秒。
Grace Hopper ARM系統(tǒng)準(zhǔn)備好了嗎?
英偉達(dá)還宣布 Grace CPU Superchip 將遵守獲得 System Ready 認(rèn)證的必要要求。以獲得系統(tǒng)就緒認(rèn)證。該認(rèn)證意味著Arm芯片將與操作系統(tǒng)和軟件一起“正常工作”,從而簡(jiǎn)化部署。Grace 還將支持虛擬化擴(kuò)展,包括嵌套虛擬化和 S-EL2 支持。英偉達(dá)還列出了對(duì)以下內(nèi)容的支持:
nRAS v1.1 通用中斷控制器 (GIC) v4.1
n內(nèi)存分區(qū)和監(jiān)控 (MPAM)
n系統(tǒng)內(nèi)存管理單元 (SMMU) v3.1
nArm 服務(wù)器基礎(chǔ)系統(tǒng)架構(gòu) (SBSA) 可實(shí)現(xiàn)符合標(biāo)準(zhǔn)的硬件和軟件接口
此外,為了在基于 Grace CPU 的系統(tǒng)上啟用標(biāo)準(zhǔn)引導(dǎo)流程,Grace CPU被設(shè)計(jì)為支持Arm服務(wù)器基本引導(dǎo)要求(SBBR)。
對(duì)于緩存和帶寬分區(qū)以及帶寬監(jiān)控,Grace CPU還支持Arm內(nèi)存分區(qū)和監(jiān)控(MPAM)。Grace CPU 還包括 Arm 性能監(jiān)控單元,允許對(duì) CPU 內(nèi)核以及片上系統(tǒng) (SoC) 架構(gòu)中的其他子系統(tǒng)進(jìn)行性能監(jiān)控。這使得標(biāo)準(zhǔn)工具(例如 Linux perf)能夠用于性能調(diào)查。英偉達(dá)的 Grace CPU 和 Grace Hopper Superchip 有望在 2023 年初發(fā)布,其中 Hopper 變體適用于 AI 訓(xùn)練、推理和 HPC,而雙 CPU Grace 系統(tǒng)則專為 HPC 和云計(jì)算工作負(fù)載而設(shè)計(jì)。
審核編輯 :李倩
-
cpu
+關(guān)注
關(guān)注
68文章
11080瀏覽量
217113 -
架構(gòu)
+關(guān)注
關(guān)注
1文章
528瀏覽量
25987 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3953瀏覽量
93799
原文標(biāo)題:詳解英偉達(dá)Grace Hopper CPU 超級(jí)芯片設(shè)計(jì)
文章出處:【微信號(hào):ICViews,微信公眾號(hào):半導(dǎo)體產(chǎn)業(yè)縱橫】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
新思科技攜手英偉達(dá)加速芯片設(shè)計(jì),提升芯片電子設(shè)計(jì)自動(dòng)化效率
新思科技亮相英偉達(dá)GTC 2025大會(huì)
微軟大手筆采購(gòu)英偉達(dá)AI芯片

加速拋棄英偉達(dá),微軟又發(fā)布一顆芯片 #微軟 #英偉達(dá) #半導(dǎo)體 #芯片 #電路知識(shí)
英偉達(dá)CEO確認(rèn):液冷Grace Blackwell服務(wù)器無過熱問題
英偉達(dá)進(jìn)軍ARM架構(gòu)CPU市場(chǎng),預(yù)計(jì)2025年推出新產(chǎn)品線
今日看點(diǎn)丨蘋果與富士康接洽,商討在中國(guó)臺(tái)灣生產(chǎn)AI服務(wù)器;英偉達(dá)正在開發(fā)一款基于ARM架構(gòu)的新型CPU
英偉達(dá)計(jì)劃2025年推出基于Arm架構(gòu)的消費(fèi)級(jí)CPU,挑戰(zhàn)英特爾和AMD
軟銀升級(jí)人工智能計(jì)算平臺(tái),安裝4000顆英偉達(dá)Hopper GPU
英偉達(dá)Blackwell可支持10萬億參數(shù)模型AI訓(xùn)練,實(shí)時(shí)大語言模型推理

英偉達(dá)Blackwell架構(gòu)揭秘:下一個(gè)AI計(jì)算里程碑?# 英偉達(dá)# 英偉達(dá)Blackwell
英偉達(dá)或取消B100轉(zhuǎn)用B200A代替
英偉達(dá)回應(yīng)AI芯片推遲發(fā)布傳聞
英偉達(dá):Hopper芯片需求強(qiáng)勁 英偉達(dá)發(fā)言人談生產(chǎn)增長(zhǎng)

評(píng)論