亚洲色图手机在线,国产一级毛片吾要乐视频国产一卡二,成人精品伊人激情

得益于 ChatGPT 引發(fā)的新一波 AI 浪潮，2023 年各大科技公司大量采購 NVIDIA 生產(chǎn)的 H100 等系列 GPU。據(jù) NVIDIA 2024 財(cái)年第二季度財(cái)報(bào)[1]，NVIDIA 收入創(chuàng)下紀(jì)錄新高，達(dá)到 135.07 億美元，遠(yuǎn)超分析師給出 110.4 億美元預(yù)期。目前市場(chǎng)上對(duì) H100 的需求在 43.2 萬張左右，每張售價(jià)約 3.5 萬美元，受限于臺(tái)積電的產(chǎn)能，2023 年 NVIDIA H100 的產(chǎn)量早已銷售一空，目前 GPU 的短缺或?qū)⒊掷m(xù)到 2024 年[2]。

在 eBay 上，一張 NVIDIA H100 SXM 80GB 的 GPU 售價(jià)目前 (2023.10) 已經(jīng)被炒到了 4.5 萬美元[3]。于此同時(shí)，估值僅 20 億美元的 CoreWeave 以 NVIDIA H100 為抵押，卻拿到了 23 億美元的債務(wù)融資[4]。要知道，CoreWeave 手上目前并沒有這么多的等價(jià) NVIDIA H100，它有的僅僅只是 NVIDIA 的 H100 供貨承諾。仿佛過去二十年國內(nèi)狂飆的土地財(cái)政一般，房地產(chǎn)商通過土地拍賣拿到的土地，又可以快速抵押拿到銀行的貸款，NVIDIA H100 在當(dāng)下也成為了如土地一般的硬通貨。本文嘗試深入到硬件，從英偉達(dá) H100 系列 GPU 入手，解析現(xiàn)代 GPU 體系結(jié)構(gòu)，試圖去理解在大模型繼續(xù)狂飆的當(dāng)下，為何賣的如此之貴的 H100 還能夠賣的這么好。

01.TLDR

本文所有的資料來自于互聯(lián)網(wǎng)公開信息，更多是從程序員的角度去理解現(xiàn)代 GPU 的體系結(jié)構(gòu)，強(qiáng)烈推薦大家閱讀本文附錄的原始資料，文中的觀點(diǎn)與本人雇主無關(guān)。

除了以 H100 為代表的英偉達(dá) GPU，市場(chǎng)上同場(chǎng)競爭的還有很多其他類型的 GPU：比如來自 AMD、Intel 的 GPU，以華為昇騰 910 AI 加速芯片，Google 的 TPU，AWS 自研 Tranium 和 Inferentia，乃至來自壁仞等創(chuàng)業(yè)公司的 GPU 等。因?yàn)楣ぷ髦兄饕褂玫氖怯ミ_(dá)的 GPU，本文目光也主要集中在英偉達(dá)的 H100。

隨著時(shí)代的發(fā)展，最早源于圖形渲染領(lǐng)域的 GPU，不斷在 HPC、圖形學(xué)和深度學(xué)習(xí)這三個(gè)領(lǐng)域游走，前幾年還在加密貨幣中發(fā)揮了重要作用。本文不太會(huì)詳細(xì)介紹其圖形渲染方向的能力，更多側(cè)重于像計(jì)算側(cè)能力的演進(jìn)與發(fā)展。受限于篇幅，本文暫時(shí)不會(huì)涉及 MIG 和機(jī)密計(jì)算等新特性，也不太介紹 NVLink 等通信能力。

作為一名軟件工程師，本文作者對(duì)于硬件的理解也并不算深刻與全面，甚至可能會(huì)存在偏差與錯(cuò)誤，在介紹相關(guān)方向的時(shí)候也肯定會(huì)存在遺漏，歡迎大家交流與指正。

本文相對(duì)較長，全文超過 10000 字，閱讀預(yù)計(jì)需要 20 分鐘左右。

02.Technical Terms

在真正開始之前，這里先簡單介紹下本文可能會(huì)碰到的技術(shù)縮略語，現(xiàn)在不需要深刻理解其含義，只需要有初步印象即可。

FLOPS	Floating point Operations per Second	FLOPS 為每秒浮點(diǎn)數(shù)運(yùn)算次數(shù)，F(xiàn)LOPs 則表示浮點(diǎn)運(yùn)算次數(shù)
DGX	Deep-learning GPU Accelerator	NVIDIA 推出的一系列專門用于加速深度學(xué)習(xí)工作負(fù)載的高性能計(jì)算平臺(tái)
HGX	High-Performance GPU Accelerator	NVIDIA 推出的服務(wù)器參照平臺(tái)。OEM 廠商用于構(gòu)建 4 GPU 或 8 GPU 服務(wù)器，由 Supermicro 等第三方 OEM 制造
SXM[6]	Server PCI Express Module	NVIDIA 用于連接 GPU 的高帶寬 socket 接口，相比 PCIe 具有高帶寬、低延遲、高拓展性、直接互聯(lián)等特點(diǎn)
HBM	High Bandwidth Memory	一種先進(jìn)的內(nèi)存技術(shù)，相對(duì)于 GDDR 等具有高帶寬、低功耗、封裝緊湊等特點(diǎn)
CoWoS[7]	Chip on wafer on Substrate	三維堆疊，相對(duì)于 GDDR 等具有高帶寬、低功耗、封裝緊湊等特點(diǎn)
GPC	Graphics Processor Cluster	圖形處理集群，每個(gè) GPC 包含若干個(gè) TPC
TPC	Texture Processor Cluster	紋理處理集群，每個(gè) TPC 包含若干個(gè) SM
SM	Streaming MultiProcessor	NVIDIA GPU 架構(gòu)中的核心計(jì)算單元，負(fù)責(zé)執(zhí)行并行計(jì)算任務(wù)
SIMT	Single Instruction Multiple Thread	單指令多線程，NVIDIA GPU 中的一種并行計(jì)算模型，將 SIMD 和多線程結(jié)合起來，使得多個(gè)線程可以同時(shí)執(zhí)行相同的指令，但是處理不同的數(shù)據(jù)
GEMM	General Matrix Multiplication	通用矩陣乘，是一種廣泛用于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的計(jì)算操作
MMA	Matrix Multiply-Accumulate	矩陣乘加
FMA	Fused Multiply-Accumulate	融合矩陣乘加，通過單個(gè)指令實(shí)現(xiàn)矩陣乘加
TMA	Tensor Memory Accelerator	張量內(nèi)存加速器
MIG	Multi-Instance GPU	多實(shí)例 GPU
TEE	Trusted Execution Environments	可信執(zhí)行環(huán)境
SHARP	Scalable Hierarchical Aggregation and Reduction Protocol	可擴(kuò)展分層次聚合和歸約協(xié)議，NVIDIA 推出的一種高性能集合通信協(xié)議，將聚合操作卸載到交換機(jī)，消除多次傳輸數(shù)據(jù)的需要
DSA	Domain Specific Architecture	領(lǐng)域?qū)Ｓ眉軜?gòu)，是一種針對(duì)特定應(yīng)用場(chǎng)景進(jìn)行優(yōu)化的芯片架構(gòu)，旨在提高芯片的性能和效率
英文	縮寫	中文釋義

03.算力需求膨脹，大模型訓(xùn)練需要多少卡

昂貴 H100 的一時(shí)洛陽紙貴，供不應(yīng)求，大模型訓(xùn)練究竟需要多少張卡呢？GPT-4 很有可能是在 10000 到 20000 張 A100 的基礎(chǔ)上訓(xùn)練完成的[8]。按照 Elon Musk 的說法，GPT-5 的訓(xùn)練可能需要 3 萬到 5 萬張 H100，盡管之后被 Sam Altman 否認(rèn)，也可窺見大模型訓(xùn)練對(duì)于算力的巨大需求。 Inflection 公司宣布他們正在構(gòu)建世界上最大的 AI 集群，包含 22000 張 NVIDIA H100，F(xiàn)P16 算力可以達(dá)到 22 exaFLOPS，如果更低精度的算力（也就是 FP8）得到使用，則可以獲得更高算力 [9]。這是一個(gè)非常驚人的數(shù)字，要知道 Frontier 超級(jí)計(jì)算機(jī)是目前唯一達(dá)到 ExaFLOPS 算力量級(jí)的超級(jí)計(jì)算機(jī)。對(duì)比目前排名第七的神威太湖之光超級(jí)計(jì)算機(jī)，最大算力也只有 94.64 PetaFlOPS。Inflection 自豪地宣稱，如果參與超級(jí)計(jì)算機(jī) Top 500 排行[10]，他們可以很輕松地排到第二名，并且逼近排名第一的 Frontier 超級(jí)計(jì)算機(jī)。

The deployment of 22,000 NVIDIA H100 GPUs in one cluster is truly unprecedented, and will support training and deployment of a new generation of large-scale AI models. Combined, the cluster develops a staggering 22 exaFLOPS in the 16-bit precision mode, and even more if lower precision is utilized. [9]

Inflection 基于超過 3500 張 NVIDIA H100 實(shí)現(xiàn)了在 C4 數(shù)據(jù)集下僅用了不到 11 分鐘，即訓(xùn)練完 GPT-3 的模型[11]。對(duì)比 OpenAI 在 2020 年時(shí)使用數(shù)千張 NVIDIA V100 訓(xùn)練 GPT-3，花了一個(gè)月左右的時(shí)間，對(duì)比 V100，H100 算力顯著增長。這里截圖不全，只大致反映當(dāng)前參與 Benchmark 的廠商與系統(tǒng)[12]。

22000 張 NVIDIA H100 構(gòu)成的 AI 集群，微軟和英偉達(dá)投資給 Inflection 的 13 億美元也許就要花去大半了。這一幕令人驚奇，也許存在泡沫，但真金白銀不會(huì)騙人，我們也好好算算為什么需要這么多卡。OpenAI 早在 2020 年的 Scaling Laws[13] 論文中給我們提出了一個(gè)經(jīng)驗(yàn)公式：

這里面：

C是訓(xùn)練一個(gè) Transformer 模型所需要的算力，單位是 FLOPs

P是一個(gè) Transformer 模型中參數(shù)的數(shù)量

D是訓(xùn)練數(shù)據(jù)集的大小，也就是用多少 tokens 來訓(xùn)練

π是指訓(xùn)練集群中所有硬件總的算力吞吐，單位是 FLOPs，計(jì)算方法為

T是指訓(xùn)練這個(gè)模型需要的時(shí)間，單位是 seconds

Scaling Law 論文 Section 2.1 對(duì)于這個(gè)公式的做了簡單的推導(dǎo)，在 forward pass需要的 FLOPs 數(shù)為，在 backward pass 需要的 FLOPs 數(shù)大致是 forward pass 的 2 倍，因此，這即是系數(shù) 6 的來源。 ? 之所以有這樣簡潔的公式，是因?yàn)闊o論是 bias vector addition，layer normalization，residual connections, non-linearities，還是 softmax，甚至是 attention 的計(jì)算都不是占算力的主要因素，最關(guān)鍵的還是 Transformer 中的矩陣運(yùn)算。

Parameter counts and compute (forward pass) for a transformer model, Source: Scaling Law Paper 記住上面的假設(shè)之后，我們就可以簡單地算出這里的系數(shù) 6 了，前向 2 次，反向 4 次，如下圖所示。

至此，基于上面的假設(shè)，我們已經(jīng)推導(dǎo)出了經(jīng)驗(yàn)經(jīng)驗(yàn)公式中 6 的來源，至于為什么這個(gè)假設(shè)是正確的，可以參考 Scaling Law 的論文或者這篇文章[14]。

這個(gè)經(jīng)驗(yàn)公式在 GPT-3 的論文中也再次得到了驗(yàn)證，可以看到對(duì)于 GPT-3 這種 decoder-only 結(jié)構(gòu)的 transformer 模型，每個(gè)參數(shù)每個(gè) token 所需要的 FLOPs 即為 6。而對(duì)于 T5 這種 encoder-decoder 結(jié)構(gòu)的 transformer 模型，在 forward pass 和 backward pass，因?yàn)閷?duì)每個(gè) token 只有一半的參數(shù)是 active 的，因此這個(gè)經(jīng)驗(yàn)公式里面的系數(shù)為 3。

在計(jì)算所需算力的時(shí)候，我們剛才都是使用 FLOPS 這個(gè)單位，也就是 FLOP-seconds，Scaling Laws 論文中傾向于使用 PetaFLOP-days 的單位，這樣能夠更加直觀的感受出訓(xùn)練一個(gè)模型需要多長時(shí)間。以 Meta 年初開源的 LLaMA-1 為例，65B 的模型基于 1.4T 的 tokens 訓(xùn)練，使用了 2048 塊 NVIDIA A100 GPU，那么需要訓(xùn)練多久呢？

所需算力

NVIDIA A100 WhitePaper 中給出 BF16 Tensor Core 的算力為 312 TFLOPS[15]，但是實(shí)際上算力一般在 130 到 180 TFLOPS 中間，這里我們?nèi)≈虚g值 150 TFLOPS[16]

根據(jù)實(shí)際算力計(jì)算集群算力吞吐為

訓(xùn)練 LLaMA-1 所需耗時(shí)為

這一計(jì)算和 LLaMA-1 在論文中實(shí)際訓(xùn)練時(shí)間基本一致：

When training a 65B-parameter model, our code processes around 380 tokens/sec/GPU on 2048 A100 GPU with 80GB of RAM. This means that training over our dataset containing 1.4T tokens takes approximately 21 days.

LLM Training Cost, Source: https://karpathy.ai/stateofgpt.pdf

進(jìn)一步計(jì)算，NVIDIA H100 WhitePaper 上給出 BF16 1979 TFLOPS，因?yàn)檫@個(gè)指標(biāo)包含了 sparsity，實(shí)際稠密算力大約在 1000 TFLOPS[17]。對(duì)比 A100，差不多有 3 倍的增長，那么同樣數(shù)目的 GPU，不考慮其他因素做最粗糙的計(jì)算，LLaMA-1 65B 的訓(xùn)練時(shí)長差不多可以減少到 10 天以下[18]?？紤]到 H100 新推出的 FP8 Tensor Core 3,958 TFLOPS 的算力，以及新一代 NVLink Network 的通信帶寬，訓(xùn)練速度可以進(jìn)一步加快，GPT-3 175B 訓(xùn)練可以相比 A100 可以快 6 倍多。

NVIDIA H100 vs A100 Performance, Source: NVIDIA WhitePaper

除了性能上相對(duì)于 A100 有明顯優(yōu)勢(shì)，H100 在成本上也優(yōu)于 A100。雖然 H100 在單位成本上是 A100 的 1.5 到 2 倍，但是效率上是 A100 的 3 倍，因此 H100 的每美元性能要比 A100 要更高。這就是老黃說的「The More You Buy，The More You Save」，NVIDIA 贏麻了。

Estimated times and cost for a 7B model on 8x NVIDIA H100 vs. 8x NVIDIA A100, Source: MosaicML

通過上面的計(jì)算，我們可以看到 LLM 訓(xùn)練對(duì)于 GPU 提出的巨大需求，也看到了 H100 相對(duì)于 A100 的巨大優(yōu)勢(shì)，這也是為何目前 H100 供不應(yīng)求的原因之一。接下來，本文會(huì)嘗試深入到 H100 硬件，看看 H100 比 A100 到底好在哪里。

04.H100 系列產(chǎn)品線長什么模樣

NVIDIA 的產(chǎn)品線比較復(fù)雜，包括了數(shù)據(jù)中心，到專業(yè)工作站，以及消費(fèi)級(jí) GPU 和嵌入式等不同場(chǎng)景，其系列產(chǎn)品名稱也比較復(fù)雜，你可以在這里[19]看到。

本文主要關(guān)注數(shù)據(jù)中心 H100 的系列產(chǎn)品線，在深入到具體硬件體系結(jié)構(gòu)之前，我們先看看 NVIDIA 基于 H100 的系列產(chǎn)品線模樣，對(duì) HGX 和 DGX 先有一個(gè)粗略的印象。

這個(gè)是 H100 GPU 芯片，包含 HBM3 高速顯存，通過臺(tái)積電的 CoWoS 技術(shù)封裝在一起

臺(tái)積電的 CoWoS 技術(shù)大概是這樣，Credit: TSMC

這是 H100 GPU 封裝在 SXM5 模塊中

NVIDIA HGX H100，由8個(gè)H100 SXM5 模塊加上4個(gè)NVSwitch Chip 在同一個(gè) system board 上

值得注意的是，這 4 個(gè) NVSwitch Gen3 芯片總共具有 3.6 TFLOPS 的 SHARP In-Network Computing 計(jì)算能力，此處暫時(shí)不表，后面再寫篇文章聊聊 SHARP。

DGX H100 在 HGX 100 的基礎(chǔ)上，進(jìn)一步配置了 CPU、存儲(chǔ)與網(wǎng)卡

進(jìn)一步 ScaleUp DXG H100，將32個(gè) DGX 聚合到一起，形成 DGX H100 SuperPod

上個(gè)月 NVIDIA 又發(fā)布了 GH200，實(shí)際上就是 Grace CPU 加上 Hopper GPU

這是他們之間的邏輯鏈路

05.CUDA 編程模型與 H100 體系結(jié)構(gòu)

本節(jié)將會(huì)結(jié)合 NVIDIA CUDA 的編程模型，對(duì)照分析 H100 GPU 體系結(jié)構(gòu)。如下圖所示，滿配的 GH100 有 8 個(gè) GPC，每個(gè) GPC 有 9 個(gè) TPC，每個(gè) TPC 內(nèi)有 2 個(gè) SM，總共有 144 個(gè) SM?；?SXM5 的 H100 砍掉了 6 個(gè) TPC，只有 66 個(gè) TPC，總計(jì) 132 個(gè) SM。

H100 支持第四代 NVLink 和 PCIe Gen5，支持 6 個(gè) HBM3 Stacks，DRAM 帶寬達(dá)到 3TB/s，L2 Cache 到 50MB。

繼續(xù)放大每一個(gè) SM，查看其中組成：

Computing	CUDA Core FP32 Unit	128，分成四組，每組 32 個(gè)
Computing	CUDA Core FP64 Unit	64，分成四組，每組 16 個(gè)
Computing	CUDA Core INT32 Unit	64，分成四組，每組 16 個(gè)
Computing	TensorCore Gen4	4，分成四組，每組 1 個(gè)
Computing	SFU	4，分成四組，每組 1 個(gè)
Computing	Tex	4，分成四組，每組 1 個(gè)
Scheduling	WARP Scheduler	4，分成四組，每組 1 個(gè)，32 thread/clk
Scheduling	Dispatch Unit	4，分成四組，每組 1 個(gè)，32 thread/clk
Storage	Register File	256KB，分成四組，每組 64 KB
Storage	L0 Instruction Cache	--
Storage	L1 Data Cache/Shared Memory	256KB
Storage	L1 Instruction Cache	--
Storage	LD/ST	32，分成四組，每組 8 個(gè)
Storage+Computing	Tensor Memory Accelerator	1
Functions in SM	Component Name	Unit per SM

包含 128 個(gè) CUDA Core，分為 4 組，每組包含 16 個(gè) FP64 Unit，16 個(gè) INT32 Unit 和 32 個(gè) FP32 Unit，這些 CUDA Core 單元可以用于超算、圖形渲染等場(chǎng)景的計(jì)算。

包含第四代 Tensor Core，此處暫時(shí)略過，在 Tensor Core 那節(jié)會(huì)詳細(xì)介紹。

密集恐懼癥者看到 SM 這密密麻麻的計(jì)算核心或許會(huì)有點(diǎn)害怕，為了更好的理解 NVIDIA GPU 的結(jié)構(gòu)，我們看可以看下面的簡化版本：

對(duì)于每一個(gè) GPU，通過 GPC 和 TPC 的層級(jí)可以劃分為很多的 SM

SM 進(jìn)一步可以劃分為 4 組，每組都有自己的 64KB Register File 和很多的計(jì)算核心，

同一個(gè) SM 中所有運(yùn)行的 thread 共享 256KB 的 Shared Memory 和 L1 Data Cache

同一個(gè) GPU 內(nèi)的所有 SM 共享 50MB L2 Cache 和 80GB HBM3 Memory

進(jìn)一步向外看，同一個(gè)節(jié)點(diǎn)上的 GPU 通過 NVLink/NVSwitch 連接在一起

簡化的 H100 結(jié)構(gòu)

這張圖里面我們已經(jīng)看到了對(duì)應(yīng)于硬件，從軟件層面 CUDA 編程模型中的視角，我們進(jìn)一步介紹 CUDA 編程模型。在 CUDA 編程模型中，CPU 和主存被稱為 Host，GPU 和顯存被稱為 Device。CUDA 程序中既包含 Host 程序，又包含 Device 程序，它們分別在 CPU 和 GPU 上運(yùn)行。

為了實(shí)現(xiàn) GPU 并行加速計(jì)算，我們需要在 Host 上執(zhí)行 kernel launch，讓核函數(shù)在 Device 上的多個(gè)線程并發(fā)執(zhí)行。CUDA 將核函數(shù)所定義的運(yùn)算稱為線程（Thread），多個(gè)線程組成一個(gè)塊（Block），多個(gè)塊組成網(wǎng)格（Grid）。具體的方式就是在調(diào)用核函數(shù)的時(shí)候通過 <<>> 來指定核函數(shù)要執(zhí)行的線程數(shù)量 N，之后 GPU 上的 N 個(gè) Core 會(huì)并行執(zhí)行核函數(shù)，并且每個(gè)線程會(huì)分配一個(gè)唯一的線程號(hào) threadID，這個(gè) ID 值可以通過核函數(shù)的內(nèi)置變量 threadIdx 來獲得。一個(gè)線程需要兩個(gè)內(nèi)置的坐標(biāo)變量（blockIdx，threadIdx）來唯一標(biāo)識(shí)，它們都是 dim3 類型變量，其中 blockIdx 指明線程所在 grid 中的位置，而 threaIdx 指明線程所在 block 中的位置。下面即是一個(gè)典型的矩陣乘法的 CUDA 程序示例，定義 block 大小為 16 x 16，也就是每個(gè) block 有 256 個(gè) threads。grid 的值則根據(jù)矩陣大小算出來需要多少個(gè) block。

為了進(jìn)一步理解這里的 CUDA 編程模型概念與硬件結(jié)構(gòu)，我們繼續(xù)聊聊剛才沒有提到的 WARP Scheduler。NVIDIA SM 采用 SIMT 架構(gòu)[21]，線程束 warp 是最基本的執(zhí)行和調(diào)度單元，一個(gè) warp 一般包含 32 threads，這些 threads 以不同的數(shù)據(jù)資源執(zhí)行相同的指令。

thread	最小的計(jì)算單元，每個(gè) thread 擁有自己的程序計(jì)數(shù)器和狀態(tài)寄存器	對(duì)應(yīng)于 Core, or lanes
warp	最小的執(zhí)行和調(diào)度單元，一個(gè) SM 的 CUDA Core 會(huì)分組成幾個(gè) warp	Warp Scheduler 一次調(diào)度一個(gè) warp
block	一個(gè) block 中的 warp 只能在同一個(gè) SM 調(diào)度	對(duì)應(yīng)于 SM，一個(gè) warp 中的 threads 必然在同一個(gè) block
grid	一個(gè) GPU	對(duì)應(yīng)于 GPU
CUDA 視角	功能	硬件視角

雖然 warp 中的線程執(zhí)行同一程序地址，但可能具有不同的行為，比如分支結(jié)構(gòu)，因?yàn)?GPU 規(guī)定 warp 中所有線程在同一周期執(zhí)行相同的指令，warp 發(fā)散會(huì)導(dǎo)致性能下降。一個(gè) SM 同時(shí)并發(fā)的 warp 是有限的，因?yàn)橘Y源限制，SM 要為每個(gè)線程塊分配共享內(nèi)存，而也要為每個(gè)線程束中的線程分配獨(dú)立的寄存器，所以 SM 的配置會(huì)影響其所支持的線程塊和 warp 并發(fā)數(shù)量。

同一個(gè) block 的 warp 只能在同一個(gè) SM 調(diào)度運(yùn)行，但是同一個(gè) SM 可以容納來自不同 block 的多個(gè) warp。主流的架構(gòu)中每個(gè) SM 最大 2048 個(gè) threads，也就是最多 64 個(gè) warps。一個(gè) SM 有 4 組 warp scheduler，哪個(gè) warp ready 了就調(diào)度哪個(gè)。一般 warp 可能因?yàn)樵诘葍?nèi)存搬運(yùn)、等計(jì)算 core 或者等 sync 之類的而沒有 ready。warp 調(diào)度上了之后，就可以走到 dispatch unit。

到現(xiàn)在為止，前面介紹的 CUDA 編程模型實(shí)際上都是在 Hopper 架構(gòu)以前的抽象，也就是 grid/block 兩級(jí)調(diào)度，block 映射到 SM 上。隨著 Cooperative Groups 的引入和異步編程的支持，多個(gè) Kernel 之間以生產(chǎn)者和消費(fèi)者的方式通信，SM 到 SM 之間的通信帶寬也在增加。

在 Hopper 架構(gòu)中，新增了 Distributed Shared Memory (DSMEM) 的概念，在一個(gè) GPC 內(nèi)部的 SM 有了專用的通信帶寬，因此 CUDA 上新增了一層 Cluster 的調(diào)度層次。

有了 cluster 這一層抽象之后，類似于同一個(gè) block 的 threads 都會(huì)被調(diào)度到同一個(gè) SM，同一個(gè) cluster 的 thread blocks 都會(huì)被調(diào)度到同一個(gè) GPC 中。

這樣同一個(gè) cluster 中不同 block 的 threads 可以通過 SM to SM Network 訪問另一個(gè) block 的 DSMEM。這樣在一個(gè) GPC 內(nèi)部實(shí)現(xiàn)多個(gè) SM 的 LD/ST，Atomic，Reduce 和異步 DMA 操作都變得非常的簡潔。

從 CUDA 編程模型的內(nèi)存模型也就變成了下圖所示：

本質(zhì)上看，CUDA 引入 block 和 cluster 的抽象，都是為了更好地利用空間局部性原理。Block 可以讓所有的 threads 調(diào)度到同一個(gè) SM，讓 threads 可以通過 fast barriers 快速同步，并且通過 SM 的 Shared Memory 交換數(shù)據(jù)。隨著 GPU 的 SM 越來越多，僅僅使用 Block 這一層抽象已經(jīng)不能夠更好地利用局部性原理，因此 Hopper 引入了 Cluster 這層抽象，讓所有的 threads 運(yùn)行在同一個(gè) GPC 內(nèi)部。

總結(jié)：本小節(jié)簡單介紹了下 NVIDIA CUDA 編程模型與對(duì)應(yīng)的 GPU 硬件體系結(jié)構(gòu)。事實(shí)上，NVIDIA 的硬件體系結(jié)構(gòu)是在不斷變化的，從最早 Telsa 架構(gòu)的 SIMT 模型，到 Volta 架構(gòu)為每個(gè) Thread 引入獨(dú)立的程序計(jì)數(shù)器 PC，再到后面 Cooperative Groups 和異步編程 API 的引入，這些設(shè)計(jì)是經(jīng)過了各種權(quán)衡和 tradeoff 做出的。關(guān)于 NVIDIA 系列 GPU 架構(gòu)的演進(jìn)，強(qiáng)烈推薦 zartbot 的系列文章[22]。

06.CUDA Core 與 Tensor Core 的演進(jìn)

在深度學(xué)習(xí)中有大量的

計(jì)算，然后通過激活函數(shù)傳遞到下一層神經(jīng)網(wǎng)絡(luò)。這是一個(gè)典型的 GEMM 操作，對(duì)于 GEMM 的優(yōu)化是一個(gè)非常有意思的話題，從數(shù)學(xué)角度 Strassen 等算法的優(yōu)化，到計(jì)算機(jī)角度利用訪存局部性[23]等原理進(jìn)行優(yōu)化，乃至各種硬件層面的優(yōu)化，都可以做的非常深。 2016 年 Google 發(fā)布 TPU[24]，基于脈動(dòng)陣列[25]這一古老技術(shù)從硬件上優(yōu)化矩陣乘法，吹響了各類 DSA 的 AI 芯片挑戰(zhàn) NVIDIA GPU 的號(hào)角。在 SIMT 道路上一路前行的 NVIDIA 積極應(yīng)戰(zhàn)，在上一波深度學(xué)習(xí)喧囂的高潮也就是 2017 年發(fā)布了 Volta 架構(gòu)，開始走上 DSA 的路子，引入了 Tensor Core。

Volta Tensor Core vs Pascal CUDA Core

與 CUDA Core 在單位時(shí)鐘周期只能執(zhí)行一次浮點(diǎn)乘法計(jì)算不同，Tensor Core 在單位時(shí)間可以執(zhí)行一次矩陣乘法。以 Volta 架構(gòu)為例，Tensor Core 可以支持每個(gè)時(shí)鐘周期 4 x 4 x 4 混合精度乘加，其中 A 矩陣和 B 矩陣都是 FP16 的精度，C 矩陣和 D 矩陣是 FP16 或者 FP32 的精度。

在深度學(xué)習(xí)中，相對(duì)于 HPC 領(lǐng)域標(biāo)準(zhǔn) IEEE 浮點(diǎn)數(shù)計(jì)算，混合低精度計(jì)算更加常見。因此在 Volta 架構(gòu)之后，NVIDIA 依次在之后的架構(gòu)加入了更多低精度計(jì)算到 Tensor Core 中。

Turing 架構(gòu)加入支持 INT8/INT4/INT1 的數(shù)據(jù)類型。Ampere 架構(gòu)中加入新的 BF16 和 TF32 數(shù)據(jù)類型，并加入對(duì)于 Sparsity 的支持，并且每個(gè) TensorCore 在每個(gè)時(shí)鐘周期支持的混合精度矩陣乘加從 Volta 的 4 x 4 x 4 進(jìn)化到 8 x 4 x 8。

新增的 TF32 不會(huì)遇到 FP16 那樣溢出的問題，同時(shí)配合新的 BF16 和 FP32 可以實(shí)現(xiàn)階梯精度提升，而對(duì)于一個(gè)乘法器而言，又節(jié)省了芯片面積。BF16 數(shù)據(jù)格式是32位 IEEE 754單精度浮點(diǎn)格式(float32)的截?cái)?16位)版本。它保留了32位浮點(diǎn)數(shù)的近似動(dòng)態(tài)范圍，保留了指數(shù)的8位，但只支持8位精度。Bfloat16用于降低存儲(chǔ)需求，提高機(jī)器學(xué)習(xí)算法的計(jì)算速度[26]。

從而算力進(jìn)一步增加：

到了 Hopper 架構(gòu)，每個(gè) TensorCore 在每個(gè)時(shí)鐘周期支持的混合精度矩陣乘加進(jìn)化到 4 x 8 x 16。TF32，F(xiàn)P64，INT8 Tensor Core 相對(duì)于 Ampere 有了 3 倍的性能提升。

同時(shí)，也加速了 Spare 張量計(jì)算：

最重要的是，NVIDIA 在 Hopper 架構(gòu) TensorCore 引入了 FP8 的數(shù)據(jù)類型，并針對(duì) Transformer 架構(gòu)提出了 Transformer Engine 的技術(shù)，這個(gè)我們?cè)谙乱恍」?jié)會(huì)進(jìn)一步闡述，此處暫時(shí)不表。

CUDA 提供了 WMMA (Warp MMA) 等底層 API 來利用 TensorCore 的硬件特性[27]。但是 TensorCore 編程并不容易，想要喂?jié)M太難了，因此 CUDA 進(jìn)一步提供了類似于 CUTLASS 和 CUBLAS，CUDNN 等更上層的庫來實(shí)現(xiàn)的，以后有機(jī)會(huì)可以進(jìn)一步介紹其原理，此處暫時(shí)不表。

CUTLASS: GEMM Hierarchy with Epilogue

07.FP8 混合精度訓(xùn)練與 Transformer Engine

如前所述，Hopper 架構(gòu)的一個(gè)重要特點(diǎn)就是 TensorCore 引入了 FP8 的數(shù)據(jù)類型，這也是 H100 相對(duì)于 A100 的一個(gè)巨大優(yōu)勢(shì)。

為什么要 FP8 的數(shù)據(jù)格式？

加速 math-intensive 操作：因?yàn)榫鹊?，相?duì)于 16-bits 的 TensorCore，F(xiàn)P8 快 2 倍。

加速 memory-intensive 操作：因?yàn)橹徽加靡粋€(gè)字節(jié)，F(xiàn)P8 相對(duì)于 16-bits 能夠大幅減少訪問存儲(chǔ) traffic，也可以減少模型的內(nèi)存占用

更加方便推理：在推理中使用 FP8 已經(jīng)是非常流行的選擇，當(dāng)使用 FP8 格式訓(xùn)練時(shí)可以更加方便推理部署，不再需要對(duì)模型進(jìn)一步量化

Source: FP8 Formats for Deep Learning Tensor Core 中 FP8 支持兩種數(shù)據(jù)格式：

E4M3

不遵循 IEEE 754 標(biāo)準(zhǔn)，支持 NaN 和 Zero 的編碼，但不支持 Inf

數(shù)據(jù)精度相對(duì)更高，可用于 fwd pass 和 inference

E5M2：

遵循 IEEE 754 標(biāo)準(zhǔn)，支持 Inf、NaN 和 Zero 的編碼

數(shù)據(jù)范圍更廣，可用于混合精度訓(xùn)練的梯度表示

下圖展示了 FP8 GEMM 計(jì)算的主要過程示意圖：

NVIDIA，ARM 和 Intel 在這篇論文[28] 中，利用 FP8 混合精度訓(xùn)練，在基于 Transformer 的語言模型和基于 CNN 的視覺模型等不同網(wǎng)絡(luò)結(jié)構(gòu)下進(jìn)行驗(yàn)證，證明了 FP8 可以達(dá)到與 BF16 基本一致的效果。

說了這么多的 FP8 混合精度訓(xùn)練，那么 H100 白皮書里面的 Transformer Engine 又是什么呢？實(shí)際上，Transformer Engine 并不是涉及專用的硬件結(jié)構(gòu)，而是一個(gè)軟件層面加速 Transformer 訓(xùn)練的庫[29]，其中提供了 FP8 混合精度訓(xùn)練的加速方案。Transformer Engine 本質(zhì)上可以通過 label 輸出的值域動(dòng)態(tài)調(diào)整浮點(diǎn)精度，這里不再詳細(xì)論述，可以參考 Transformer Engine 的官方文檔[30]。

08.英偉達(dá)帝國大廈已成，頭上僅剩幾朵烏云

30 年前，NVIDIA 公司成立，30 年后 NVIDIA 公司市值超過萬億美元，構(gòu)建了自己的龐大帝國。站在 2023 的今天回看過去三十年 GPU 市場(chǎng)的發(fā)展，令人感慨萬千：

1983 美國電子游戲的大蕭條[31] 和 80 年代個(gè)人電腦的推出，讓游戲從原來的家用游戲機(jī)轉(zhuǎn)移到 PC 平臺(tái)，從而引發(fā)了 PC 平臺(tái)下圖形卡的需求。1993 年成立初期的 NVIDIA 步履維艱，正是靠著日本街機(jī)游戲公司世嘉 Sega 的資助，以及押注微軟公司的 DirectX 接口，推出的 RIVA 迅速得到市場(chǎng)認(rèn)可，并進(jìn)一步推出世界第一款 GPU GeForce 256，徹底站穩(wěn)市場(chǎng)。在那個(gè)群魔亂舞的 1990 到 2000 時(shí)代：

顯卡先驅(qū) 3DFX 最終被 NVIDIA 收購

S3 被 VIA 收購逐漸沉寂

Intel 最終放棄獨(dú)顯專攻集顯，這個(gè)劇情在 2000 年代再次重現(xiàn)，直到 2018 年 Intel 才真正意識(shí)到他們失去了什么，重新開始生產(chǎn)獨(dú)立顯卡

ATI 繼續(xù)和 NVIDIA 爭斗，最終被 AMD 收購，經(jīng)過一番整合后 AMD 今日仍在競爭的一線

2000 到 2010 年代，NVIDIA 與 ATI 爭霸可編程 GPU。NVIDIA 在 2006 年推出極其靈活可編程的 CUDA 架構(gòu)，并堅(jiān)定地在這條路上走了下去，構(gòu)建了其如今最大的護(hù)城河。

2010 年代，移動(dòng)互聯(lián)網(wǎng)浪潮的到來，NVIDIA 推出 TEGRA 移動(dòng)處理器嘗試染指這一市場(chǎng)卻最終平淡收?qǐng)?。所幸的是?012 年之后深度學(xué)習(xí)開始崛起，NVIDIA 快速抓住了這波機(jī)會(huì)，CUDA 最終統(tǒng)治了這一市場(chǎng)，直到如今 AMD 的 ROCm 仍在苦苦維持。這十年 NVIDIA 繼續(xù)高歌猛進(jìn)，抓住包括加密貨幣和自動(dòng)駕駛等在內(nèi)每一個(gè)市場(chǎng)機(jī)會(huì)，在數(shù)據(jù)中心、HPC、專業(yè)圖形等市場(chǎng)取得統(tǒng)治地位。

2020 年后，NVIDIA 收購了 Mellanox，強(qiáng)大的算力結(jié)合高速通信網(wǎng)絡(luò)，NVIDIA 又講起了 DPU 的故事，并繼續(xù)慢慢培育其 DOCA 平臺(tái)，試圖重演 CUDA 的故事?？上У氖?，NVIDIA 收購 ARM 最終沒有被批準(zhǔn)，ARM 獨(dú)立上市，不然手握 CPU、GPU 和 DPU 的英偉達(dá)真的可以完全定義下一個(gè)世代的計(jì)算平臺(tái)。

Cited chip usage in AI papers, Source: State of AI Report Compute Index 老黃的刀法讓大家又愛又恨，曾經(jīng)的屠龍者成為了新的巨龍。H100 如今這么貴卻又賣的如此好，華為鯤鵬的夏晶老師分析了 H100 的成本[32]，售價(jià)超過 3 萬美元的 H100 實(shí)際物理成本可能才不到 3000 美元，這也與海外投研機(jī)構(gòu) Raymond James 分析的 3,320 美元基本一致[33]，純從物理成本上看 H100 利潤率接近 1000%。雖然這樣拋開研發(fā)成本看利潤率不太公允，但是也可以看出 NVIDIA 的底氣了。這真的是做 Infra 的最牛存在了，我可以賣的貴，我可以自己定義平臺(tái)，而你還不得不搶著來用我的。惡龍仍在，天下苦英偉達(dá)久矣，仍有新的少年想要戰(zhàn)勝惡龍。今年 6 月，AMD 發(fā)布了 Instinct MI300 系列，其中 MI300X 直接對(duì)標(biāo) NVIDIA H100，蘇媽在接受采訪時(shí)，面對(duì) CUDA 這一難以逾越的護(hù)城河問題的回答[34]反映了業(yè)界對(duì)于 LLM 領(lǐng)域強(qiáng)依賴于 NVIDIA 的問題的急切。

Q: If you look at what Wall Street thinks Nvidia’s mode is, it’s CUDA... You have ROCm, which is a little different. Do you think that that’s a moat that you can overcome with better products or with a more open approach? Lisa Su: I’m not a believer in moats when the market is moving as fast as it is... When you look at going forward, actually what you find is everyone’s looking for the ability to build hardware-agnostic software because people want choice. Frankly, people want choice... Things like PyTorch, for example, which tends to be that hardware-agnostic capability.

Q：PyTorch is a big deal, right? This is the language that all these models are actually coded in. I talk to a bunch of cloud CEOs. They don’t love their dependency on Nvidia as much as anybody doesn’t love being dependent on any one vendor. Is this a place where you can go work with those cloud providers and say, “We’re going to optimize our chips for PyTorch and not CUDA,” and developers can just run on PyTorch and pick whichever is best optimized? Lisa Su: That’s exactly it. PyTorch really is trying to be that sort of hardware-agnostic layer — one of the major milestones that we’ve come up with is on PyTorch 2.0. But our goal is “may the best chip win.” And the way you do that is to make the software much more seamless. And it’s PyTorch, but it’s also Jax. It’s also some of the tools that OpenAI is bringing in with Triton.

CUDA 確實(shí)非常優(yōu)秀，但它是不是優(yōu)秀到你要為它支付過多的成本，包括實(shí)際的金錢成本和各種隱形成本?；?PyTorch 或者 Jax 這些新一代的中間層，新的解決方案正在形成。「AMD AI Software Solved – MI300X Pricing, Performance, PyTorch 2.0, FlashAttention, OpenAI Triton」這篇文章[35] 展示了基于 PyTorch 2.0 和 OpenAI Triton， MosaicML 能夠基本不做代碼修改，在 AMD 硬件平臺(tái)上實(shí)現(xiàn)與 NVIDIA A100 基本一致的性能。

We profiled training throughput of MPT models from 1B to 13B parameters and found that the per-GPU-throughput ofMI250 was within 80% of the A100-40GB and within 73% of the A100-80GB. Abhi Venigalla, MosaicML[36]

今年 7 月，Intel 在國內(nèi)發(fā)布 Habana Gaudi 2 AI 芯片，期望在國內(nèi)禁售英偉達(dá) H100/A100 的當(dāng)下，分到這一波生成式人工智能浪潮的蛋糕。Habana Gaudi 2，正是 Intel 在 2019 年收購 Habana Labs 之后的作品，也是 Intel 在收購 Nervana 浪費(fèi) 3 年時(shí)間后的再次嘗試。除了 NVIDIA，AMD，Intel 這三個(gè)在 CPU/GPU/DPU 等各個(gè)領(lǐng)域打成一片的老冤家，還有 GraphCore、Cerebras 這樣的 AI Chip 創(chuàng)業(yè)公司仍在繼續(xù)。

與此同時(shí)，云服務(wù)巨頭家大業(yè)大，自然不甘心受制于人，紛紛投入自研 AI 芯片。前不久，AWS 投資 40 億美元到 Anthropic[37]，目標(biāo)之一就是讓 AWS 自研 Trainium 和 Inferentia 得到大量應(yīng)用[38]。8 月底，Google Cloud 的 H100 實(shí)例 A3 終于姍姍來遲，但是也許這并不是他們的重點(diǎn)，重點(diǎn)是他們發(fā)布了 TPUv5e[39]。作為 AI 芯片的先行者，Google 的 TPU 相對(duì)于 AWS 的 Trainium/Inferentia 要成熟的多，TPU 也是應(yīng)對(duì) NVIDIA H100 的有力競爭對(duì)手[40]。英偉達(dá)帝國大廈已經(jīng)建立，只是頭上還有幾朵烏云。在美國禁售 A100/H100 的當(dāng)下，如華為昇騰 910 這樣的國產(chǎn) AI芯片也開始慢慢得到應(yīng)用。30 年前，面對(duì)個(gè)人電腦這個(gè)新計(jì)算平臺(tái)的范式轉(zhuǎn)移，誕生了像 Intel，Microsoft 和 NVIDIA 這樣的巨頭。30 年后的今天，新一波生成式人工智能或?qū)⒂瓉硇碌挠?jì)算范式轉(zhuǎn)移，這一次面對(duì)巨龍，又將會(huì)是怎樣的故事呢。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴