新的一年已經(jīng)成為我們一段時間以來數(shù)據(jù)中心芯片領(lǐng)域最重要的一年。每個主要芯片公司都計劃在未來 12 個月內(nèi)更新其 CPU 和/或 GPU 產(chǎn)品線。
Nvidia 計劃在 2024 年推出大量新的加速器、GPU 架構(gòu)和網(wǎng)絡(luò)套件。英特爾將與新的 Habana Gaudi AI 芯片一起推出可以說是多年來最引人注目的 Xeon。與此同時,AMD 憑借 MI300 系列的推出,計劃將其第五代 Epyc 處理器推向市場。
讓我們深入了解 2024 年我們關(guān)注的一些大型數(shù)據(jù)中心芯片的發(fā)布(排名不分先后)。
01.?Nvidia 搭載 HBM3e 的 H200 AI 芯片到貨
Nvidia 的 H200 加速器將是 2024 年首批投放市場的新芯片之一。GPU 本質(zhì)上是久負盛名的 H100 的更新版。
您可能期望最新的芯片能夠比老款芯片提供更高的性能提升,但事實并非如此。仔細閱讀規(guī)格表,您會發(fā)現(xiàn)浮點性能與 H100 相同。相反,該部件的性能提升(Nvidia 聲稱 Llama 70B 等 LLM 的性能提升了一倍)取決于該芯片的 HBM3e 內(nèi)存堆棧。
我們承諾 H200 將配備高達 141 GB 的 HBM3e 內(nèi)存,可實現(xiàn)高達 4.8TB/s 的帶寬。隨著 LLM 的普及(例如 Meta 的 Llama 2、Falcon 40B、Stable Diffusion 等),內(nèi)存容量和帶寬對推理性能產(chǎn)生巨大影響,即單個加速器或服務(wù)器可以容納多大的模型,以及您可以同時處理多少個請求。
正如我們最近在對 AMD 和 Nvidia 基準測試失敗的分析中所探討的那樣,對于此類 AI 工作負載,F(xiàn)LOPS 并不像內(nèi)存容量和帶寬那么重要。
02.?Hopper的繼任者采用“Blackwell”架構(gòu)
根據(jù) 2023 年的投資者演示,H200 將不會是我們在 2024 年看到的 Nvidia 唯一的 GPU。為了鞏固其領(lǐng)導(dǎo)地位,Nvidia 正在轉(zhuǎn)向每年發(fā)布新芯片和我們看到的第一個新部件的發(fā)布節(jié)奏。格林隊將成為 B100。
據(jù)我們了解,這里的“B”是微架構(gòu)名稱 Blackwell 的縮寫,大概是對美國統(tǒng)計學(xué)家 David Blackwell 的致敬。除了 2024 年推出之外,我們對該部件的了解仍然不多。
就目前情況而言,AMD 新推出的 MI300X GPU 不僅比 H200 具有更高的 FLOPS,而且還具有更多、更快的啟動內(nèi)存。我們無法想象英偉達對此感到高興,特別是考慮到這家美國巨頭最近的防御性有多強。因此,我們完全期望 B100 能夠提供更高的 FLOPS 和更多的 HBM3e 堆棧,從而將加速器的內(nèi)存容量和帶寬推向新的高度。
除了 GPU 本身之外,Nvidia 的路線圖還包括更多 CPU-GPU 超級芯片,稱為 GB200 和 GB200NVL。這些處理器是否會繼續(xù)使用當前 Grace 和 Grace-Hopper 超級芯片中基于 Arm Neoverse V2 的 CPU 內(nèi)核,或者是否會采用一些下一代內(nèi)核,還有待觀察。
然后是B40。從歷史上看,此類卡針對的是可以在單個 GPU 中運行的較小企業(yè)工作負載。該部件將取代 L40 和 L40S,并將 Nvidia 的企業(yè) GPU 系列整合到單一總體架構(gòu)下。
可以說,英偉達加速路線圖中最有趣的部分與網(wǎng)絡(luò)有關(guān)。Nvidia 正在尋求與 Blackwell 實現(xiàn) 800Gb/s 連接,盡管正如我們之前探討的那樣,這帶來了一些獨特的挑戰(zhàn),因為 PCIe 5.0 的速度還遠遠不夠,而 PCIe 6.0 仍然有一些距離。
當我們看到這些Blackwell仍然懸而未決時,但是,如果歷史可以回顧的話,我們可能不必等待那么久。Nvidia 在加速器實際可供購買之前幾個月(當然有時是幾年)預(yù)先發(fā)布加速器的歷史由來已久。
Nvidia 在 2022 年初預(yù)告了其 Grace-Hopper 超級芯片,但據(jù)我們了解,這些部件現(xiàn)在才進入客戶手中。因此,我們最早可以在 GTC 上獲得有關(guān)基于 Blackwell 的部件的更多詳細信息。
03.?英特爾推出自己的全新加速器迎接新年
與加速器主題保持一致,英特爾計劃于 2024 年某個時候發(fā)布其第三代 Gaudi AI 芯片。
這一部分意義重大,因為隨著Ponte Vecchio后繼者Rialto Bridge的取消,Habana Lab 的 Gaudi3 代表了英特爾提供的最好的人工智能訓(xùn)練和推理平臺——至少在 Falcon Shores 于 2025 年到來之前是這樣。
雖然英偉達和 AMD 幾個月來一直習(xí)慣于調(diào)侃和炒作他們的產(chǎn)品發(fā)布,但英特爾卻對此守口如瓶。到目前為止,我們看到的大部分內(nèi)容都來自這張演示幻燈片,至少從9 月份的創(chuàng)新活動開始,它就一直在展示這張幻燈片:
該幻燈片聲稱,5nm 芯片 Gaudi3 的 Brain Float 16 (BF16) 性能是 7nm 版本 2 的 4 倍,網(wǎng)絡(luò)帶寬是兩倍,HBM 帶寬是 1.5 倍。
通常這些數(shù)字可以為我們提供推斷相對績效數(shù)據(jù)的起點。不幸的是,要做到這一點,英特爾必須告訴我們 Gaudi2 的 BF16 性能實際上是什么。我們問過,他們不想談?wù)撨@個問題,盡管他們聲稱 Gaudi3 改進了 4 倍。相反,英特爾希望關(guān)注實際性能而不是基準比較。
坦率地說,這是一個令人困惑的營銷決定,因為如果沒有參考框架,這種說法基本上毫無意義。此外,從表面上看,x86 巨頭這次使用了 8 個 HBM 堆棧,而不是 6 個。
除了 Gaudi3 之外,我們還獲悉,Gaudi2 的版本將再次針對中國市場進行調(diào)低(以符合美國對中國的出口限制),英特爾聲稱它將在之前發(fā)貨傳聞中的Nvidia H20芯片已登陸大陸。
04.?英特爾與 Sierra Forest?攜手加入云 CPU 隊伍
與此同時,在 CPU 方面,英特爾計劃在 2024 年推出一項雙重功能,將使用其推遲已久的 Intel 3 處理技術(shù)。需要明確的是,英特爾并不是突然轉(zhuǎn)向 3nm。多年來,該公司一直致力于這個節(jié)點(以前稱為 7nm)。它最終被重新命名為 Intel 4 和 Intel 3,以使其在營銷方面與競爭節(jié)點的晶體管密度更加一致。
我們將在 2024 年上半年推出首款基于 Intel-3 的 Xeon 處理器。該芯片代號為 Sierra Forest,可配備一對 144 核芯片,每個插槽總共有 288 個 CPU 核心。當然,這些核心與我們在過去的至強中看到的核心不同。它們是英特爾效率核心架構(gòu)的演變,早在 2021 年,隨著Alder Lake的推出,該架構(gòu)就開始出現(xiàn)在 PC 和筆記本處理器中。
不過,雖然這些芯片通常配有一組性能核心,但 Sierra Forest 都是電子核心,旨在與 Ampere、AMD 以及 AWS 和微軟等云提供商部署的大量定制 Arm CPU 競爭。
英特爾聲稱的優(yōu)勢在于,它可以在單個插槽或機箱中裝入比其他任何產(chǎn)品更多的內(nèi)核,同時保持與大多數(shù) x86 二進制文件的兼容性。我們說“大多數(shù)”是因為 e-core 不具有與過去的 Xeon 相同的功能集。
兩個最大的區(qū)別是完全缺乏 AVX512 和高級矩陣擴展 (AMX) 支持。這里的論點是,我們看到廣泛部署在云中的許多工作負載(例如 Nginx)不一定受益于這些功能,因此,與其將大量的芯片空間專用于大型向量和矩陣計算,不如將該空間相反,可以用于將更多核心封裝到每個芯片上。
然而,并非所有芯片公司都同意這種做法。AMD 于 2023 年春季推出的Bergamo Epycs 采用了截然不同的方法。這些服務(wù)器處理器使用 AMD Zen 4 核心的緊湊版本,稱為 Zen 4c,以時鐘速度換取更小的占地面積。這使得 AMD 能夠?qū)?128 個核心封裝到每個處理器封裝的 8 個計算芯片中,而無需犧牲功能。
兩種方法都有優(yōu)點。根據(jù)虛擬機管理程序的不同,缺乏某些 CPU 功能可能會導(dǎo)致將工作負載從一個機器遷移到另一個機器時出現(xiàn)問題。英特爾希望通過 AVX10 來克服這個問題,我們在今年夏天對其進行了深入研究。簡而言之,它旨在向后移植許多更具吸引力的功能,例如從 AVX512 到 AVX2 的 FP16 和 BF16 支持。結(jié)果是您不太可能遇到這種遷移問題,除非您確實需要 512 位寬向量寄存器。
05.?英特爾與 Granite Rapids 腳踏實地
進入鮮為人知的領(lǐng)域,英特爾的 Granite Rapids Xeon 將于 2024 年晚些時候推出。雖然 Sierra Forest 優(yōu)先考慮微型核心的負載,但 Granite Rapids 是圍繞 x86 巨頭的性能核心構(gòu)建的更傳統(tǒng)的Xeon 服務(wù)器處理器。
我們?nèi)匀徊恢浪鼘⒂卸嗌賯€核心,也不知道頂級部件的時鐘速度有多快,但我們被告知它將超過 Emerald Rapids。我們確實知道,該芯片將采用比 Sapphire 或 Emerald Rapids 更加模塊化的小芯片架構(gòu),每個封裝最多有五個芯片——三個計算芯片和兩個 I/O。
根據(jù) SKU 的不同,該芯片將配備更多或更少的計算芯片,使英特爾能夠利用 AMD 多年來享有的模塊化優(yōu)勢。此前,2023 年的 Xeon 要么在所謂的“極端核心數(shù) (XCC) 芯片上配備一個大型中等核心數(shù) (MCC) 芯片,要么在所謂的“極端核心數(shù) (XCC) 芯片上配備兩個大型 (Emerald) 或四個較小 (Sapphire) 計算芯片。
英特爾的下一代 Xeon 將 I/O 功能分解到一對三明治結(jié)構(gòu)的芯片中。這些 I/O 芯片非常重要,因為它們有助于縮小與 AMD 的差距,AMD 不僅在過去五年中保持著核心數(shù)量優(yōu)勢,而且通常還提供更多、更快的 PCIe 通道和內(nèi)存通道。
正如我們在 2023 年 Hot Chips 會議上了解到的那樣,Granite Rapids 將具有 12 個內(nèi)存通道(與 AMD 的 Epyc 4 相同),并將支持 8,800MT/s MCR DIMM。MCR 相當酷,因為它允許芯片向芯片提供 845GB/s 的內(nèi)存帶寬。這還達不到英特爾第 4 代 Xeon Max 部件通過板載 HBM所能達到的1TB/s速度,但 MCR DIMM 將接近并允許更高的容量。
該芯片系列還將支持多達 136 個 PCIe/CXL 通道,但僅支持 PCIe 5.0 速度。PCIe 6.0可能會在 2024 年推出,但對于英特爾的“下一代”Xeon 來說還來不及。
06.?AMD Zen 5 來了
當然,AMD 將推出 Turin,這是其第五代 Epyc 服務(wù)器處理器,由新的 Zen 5 內(nèi)核提供支持。目前,我們對這一部分沒什么可說的,只能說它會在 2024 年的某個時候發(fā)布。
考慮到時間,我們可以做出一些假設(shè)。我們打賭該芯片將在其計算塊中使用臺積電的 4nm 或 3nm 工藝技術(shù),但很難說 I/O 芯片是否會縮小工藝。
除此之外,我們只能指出最近通過 Xitter分享的泄密事件,這些泄密事件表明 AMD 可能會再次增加其產(chǎn)品線的核心數(shù)量。如果泄漏屬實,我們可能會看到具有多達 128 個 Zen 5 核心或 192 個 Zen 5c 核心的 Epyc 處理器。
核心復(fù)合芯片 (CCD) 本身與Genoa和Bergamo相比似乎沒有太大變化,每個小芯片分別有 8 個或 16 個核心。據(jù)報道,AMD 將在其通用用途上使用 16 個計算芯片,并在以云為中心的平臺上使用 12 個計算芯片,以實現(xiàn)聲稱的核心數(shù)量。話雖如此,我們還得拭目以待,看看泄露的消息是否準確。
近年來,AMD 的 Eypc 產(chǎn)品線變得更加復(fù)雜,目前涵蓋通用、高性能計算、云和邊緣應(yīng)用。AMD 傳統(tǒng)上會在大約一年的時間內(nèi)推出這些芯片。Epyc 4 于 2022 年 11 月推出,Bergamo 和 Genoa-X 于 2023 年 6 月推出,其專注于邊緣的 Siena 部件直到 9 月份才出現(xiàn)。
07.?驚喜等待著您
需要絕對明確的是,這絕不是 2024 年即將推出的數(shù)據(jù)中心處理器的詳盡列表。我們完全預(yù)計未來 12 個月將會出現(xiàn)更多驚喜,特別是隨著人工智能炒作列車的速度加快以及云提供商繼續(xù)擁抱定制硅。
微軟最近涉足定制人工智能和 CPU 領(lǐng)域,而谷歌已經(jīng)擁有幾代張量處理單元,并且有傳言稱正在開發(fā)自己的 CPU。
我們還將關(guān)注 Arm 為推動其 Neoverse 核心架構(gòu)和計算子系統(tǒng) (CSS) IP 堆棧所做的努力。后者是我們所見過的 Arm 在現(xiàn)代最接近設(shè)計整個處理器的方式。
還有大量半導(dǎo)體S初創(chuàng)公司,如 Ampere、Graphcore、Cerebras、SambaNova、Groq 等,希望在人工智能新世界秩序中開辟一席之地。到 2024 年,如果看到這些供應(yīng)商中的任何一家推出新芯片、產(chǎn)品和系統(tǒng),我們都不會感到驚訝。
審核編輯:黃飛
?
評論