人工智能處理需要跨硬件和軟件平臺(tái)的全棧創(chuàng)新,以滿足神經(jīng)網(wǎng)絡(luò)日益增長(zhǎng)的計(jì)算需求。提高效率的一個(gè)關(guān)鍵領(lǐng)域是使用較低精度的數(shù)字格式來提高計(jì)算效率,減少內(nèi)存使用,并優(yōu)化互連帶寬。
為了實(shí)現(xiàn)這些好處,業(yè)界已經(jīng)從 32 位精度轉(zhuǎn)換為 16 位,現(xiàn)在甚至是 8 位精度格式。 transformer 網(wǎng)絡(luò)是人工智能中最重要的創(chuàng)新之一,尤其受益于 8 位浮點(diǎn)精度。我們相信,擁有一種通用的交換格式將使硬件和軟件平臺(tái)的快速發(fā)展和互操作性得以提高,從而推動(dòng)計(jì)算。
NVIDIA 、 Arm 和 Intel 聯(lián)合撰寫了一份白皮書 FP8 Formats for Deep Learning ,描述了 8 位浮點(diǎn)( FP8 )規(guī)范。它提供了一種通用的格式,通過優(yōu)化內(nèi)存使用來加速人工智能的開發(fā),并適用于人工智能訓(xùn)練和推理。此 FP8 規(guī)格有兩種變體, E5M2 和 E4M3 。
該格式在 NVIDIA 料斗體系結(jié)構(gòu)中本地實(shí)現(xiàn),并在初始測(cè)試中顯示出出色的結(jié)果。它將立即受益于更廣泛的生態(tài)系統(tǒng)所做的工作,包括 AI 框架,為開發(fā)者實(shí)現(xiàn)它。
兼容性和靈活性
FP8 通過硬件和軟件之間的良好平衡,最大限度地減少了與現(xiàn)有 IEEE 754 浮點(diǎn)格式的偏差,以利用現(xiàn)有實(shí)現(xiàn),加快采用速度,并提高開發(fā)人員的生產(chǎn)力。
E5M2 使用五位表示指數(shù),兩位表示尾數(shù),是一種截?cái)嗟?IEEE FP16 格式。在需要更高精度而犧牲某些數(shù)值范圍的情況下, E4M3 格式進(jìn)行了一些調(diào)整,以擴(kuò)展用四位指數(shù)和三位尾數(shù)表示的范圍。
新格式節(jié)省了額外的計(jì)算周期,因?yàn)樗皇褂?8 位。它可以用于人工智能訓(xùn)練和推理,而不需要在精度之間進(jìn)行任何重鑄。此外,通過最小化與現(xiàn)有浮點(diǎn)格式的偏差,它為未來 AI 創(chuàng)新提供了最大的自由度,同時(shí)仍堅(jiān)持當(dāng)前的慣例。
高精度訓(xùn)練和推理
測(cè)試提議的 FP8 格式顯示,在廣泛的用例、架構(gòu)和網(wǎng)絡(luò)中,其精度相當(dāng)于 16 位精度。變壓器、計(jì)算機(jī)視覺和 GAN 網(wǎng)絡(luò)的結(jié)果都表明, FP8 訓(xùn)練精度與 16 位精度相似,但可以顯著提高速度。有關(guān)精度研究的更多信息,請(qǐng)參閱 FP8 Formats for Deep Learning 白皮書。
圖 1.語言模型人工智能培訓(xùn)
在圖 1 中,不同的網(wǎng)絡(luò)使用不同的精度度量( PPL 和 Loss ),如圖所示。
圖 2.語言模型 AI 推理
在人工智能行業(yè)領(lǐng)先的基準(zhǔn) MLPerf Inference v2.1 中, NVIDIA Hopper 利用這種新的 FP8 格式在 BERT 高精度模型上實(shí)現(xiàn)了 4.5 倍的加速,在不影響精度的情況下獲得了吞吐量。
走向標(biāo)準(zhǔn)化
NVIDIA 、 Arm 和 Intel 以開放、無許可證的格式發(fā)布了此規(guī)范,以鼓勵(lì)行業(yè)廣泛采用。他們還將向 IEEE 提交該提案。
通過采用一種保持準(zhǔn)確性的可互換格式,人工智能模型將在所有硬件平臺(tái)上持續(xù)高效地運(yùn)行,并有助于推動(dòng)人工智能的發(fā)展。
鼓勵(lì)標(biāo)準(zhǔn)機(jī)構(gòu)和整個(gè)行業(yè)
關(guān)于作者
Shar Narasimhan 是 AI 的高級(jí)產(chǎn)品營銷經(jīng)理,專門從事 NVIDIA 的 Tesla 數(shù)據(jù)中心團(tuán)隊(duì)的深度學(xué)習(xí)培訓(xùn)和 OEM 業(yè)務(wù)。
審核編輯:郭婷
-
ARM
+關(guān)注
關(guān)注
134文章
9349瀏覽量
377318 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5304瀏覽量
106330 -
人工智能
+關(guān)注
關(guān)注
1806文章
48996瀏覽量
249241
發(fā)布評(píng)論請(qǐng)先 登錄
廣凌高校標(biāo)準(zhǔn)化考場(chǎng)建設(shè)解決方案

摩爾線程發(fā)布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0
瑞為技術(shù)牽頭制定的國家標(biāo)準(zhǔn)《信息技術(shù) 可擴(kuò)展的生物特征識(shí)別數(shù)據(jù)交換格式 第1部分:框架》正式發(fā)布
摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練

智能零部件管理助力中電思儀的標(biāo)準(zhǔn)化管理
Arm正式發(fā)布芯粒系統(tǒng)架構(gòu)首個(gè)公開規(guī)范
Arm發(fā)布芯粒系統(tǒng)架構(gòu)首個(gè)公開規(guī)范
今日看點(diǎn)丨Arm 發(fā)布芯粒系統(tǒng)架構(gòu)首個(gè)公開規(guī)范;納芯微推出車規(guī)級(jí)D類音頻功率放大器
FP8在大模型訓(xùn)練中的應(yīng)用

解鎖NVIDIA TensorRT-LLM的卓越性能
如何使用FP8新技術(shù)加速大模型訓(xùn)練
三星與SK海力士攜手推進(jìn)LPDDR6-PIM產(chǎn)品標(biāo)準(zhǔn)化
FP8數(shù)據(jù)格式在大型模型訓(xùn)練中的應(yīng)用

CAN技術(shù)的標(biāo)準(zhǔn)化之旅
FP8模型訓(xùn)練中Debug優(yōu)化思路

評(píng)論