一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA 、 Arm和Intel發(fā)布FP8標(biāo)準(zhǔn)化規(guī)范作為AI的交換格式

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Shar Narasimhan ? 2022-10-11 11:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能處理需要跨硬件和軟件平臺(tái)的全棧創(chuàng)新,以滿足神經(jīng)網(wǎng)絡(luò)日益增長(zhǎng)的計(jì)算需求。提高效率的一個(gè)關(guān)鍵領(lǐng)域是使用較低精度的數(shù)字格式來提高計(jì)算效率,減少內(nèi)存使用,并優(yōu)化互連帶寬。

為了實(shí)現(xiàn)這些好處,業(yè)界已經(jīng)從 32 位精度轉(zhuǎn)換為 16 位,現(xiàn)在甚至是 8 位精度格式。 transformer 網(wǎng)絡(luò)是人工智能中最重要的創(chuàng)新之一,尤其受益于 8 位浮點(diǎn)精度。我們相信,擁有一種通用的交換格式將使硬件和軟件平臺(tái)的快速發(fā)展和互操作性得以提高,從而推動(dòng)計(jì)算。

NVIDIA 、 ArmIntel 聯(lián)合撰寫了一份白皮書 FP8 Formats for Deep Learning ,描述了 8 位浮點(diǎn)( FP8 )規(guī)范。它提供了一種通用的格式,通過優(yōu)化內(nèi)存使用來加速人工智能的開發(fā),并適用于人工智能訓(xùn)練和推理。此 FP8 規(guī)格有兩種變體, E5M2 和 E4M3 。

該格式在 NVIDIA 料斗體系結(jié)構(gòu)中本地實(shí)現(xiàn),并在初始測(cè)試中顯示出出色的結(jié)果。它將立即受益于更廣泛的生態(tài)系統(tǒng)所做的工作,包括 AI 框架,為開發(fā)者實(shí)現(xiàn)它。

兼容性和靈活性

FP8 通過硬件和軟件之間的良好平衡,最大限度地減少了與現(xiàn)有 IEEE 754 浮點(diǎn)格式的偏差,以利用現(xiàn)有實(shí)現(xiàn),加快采用速度,并提高開發(fā)人員的生產(chǎn)力。

E5M2 使用五位表示指數(shù),兩位表示尾數(shù),是一種截?cái)嗟?IEEE FP16 格式。在需要更高精度而犧牲某些數(shù)值范圍的情況下, E4M3 格式進(jìn)行了一些調(diào)整,以擴(kuò)展用四位指數(shù)和三位尾數(shù)表示的范圍。

新格式節(jié)省了額外的計(jì)算周期,因?yàn)樗皇褂?8 位。它可以用于人工智能訓(xùn)練和推理,而不需要在精度之間進(jìn)行任何重鑄。此外,通過最小化與現(xiàn)有浮點(diǎn)格式的偏差,它為未來 AI 創(chuàng)新提供了最大的自由度,同時(shí)仍堅(jiān)持當(dāng)前的慣例。

高精度訓(xùn)練和推理

測(cè)試提議的 FP8 格式顯示,在廣泛的用例、架構(gòu)和網(wǎng)絡(luò)中,其精度相當(dāng)于 16 位精度。變壓器、計(jì)算機(jī)視覺和 GAN 網(wǎng)絡(luò)的結(jié)果都表明, FP8 訓(xùn)練精度與 16 位精度相似,但可以顯著提高速度。有關(guān)精度研究的更多信息,請(qǐng)參閱 FP8 Formats for Deep Learning 白皮書。

pYYBAGNE42eAKKP8AACCv9ceJTc299.png

圖 1.語言模型人工智能培訓(xùn)

在圖 1 中,不同的網(wǎng)絡(luò)使用不同的精度度量( PPL 和 Loss ),如圖所示。

pYYBAGNE42eAQ7-PAAAgaylpKC0333.png

圖 2.語言模型 AI 推理

在人工智能行業(yè)領(lǐng)先的基準(zhǔn) MLPerf Inference v2.1 中, NVIDIA Hopper 利用這種新的 FP8 格式在 BERT 高精度模型上實(shí)現(xiàn)了 4.5 倍的加速,在不影響精度的情況下獲得了吞吐量。

走向標(biāo)準(zhǔn)化

NVIDIA 、 Arm 和 Intel 以開放、無許可證的格式發(fā)布了此規(guī)范,以鼓勵(lì)行業(yè)廣泛采用。他們還將向 IEEE 提交該提案。

通過采用一種保持準(zhǔn)確性的可互換格式,人工智能模型將在所有硬件平臺(tái)上持續(xù)高效地運(yùn)行,并有助于推動(dòng)人工智能的發(fā)展。

鼓勵(lì)標(biāo)準(zhǔn)機(jī)構(gòu)和整個(gè)行業(yè)

關(guān)于作者

Shar Narasimhan 是 AI 的高級(jí)產(chǎn)品營銷經(jīng)理,專門從事 NVIDIA 的 Tesla 數(shù)據(jù)中心團(tuán)隊(duì)的深度學(xué)習(xí)培訓(xùn)和 OEM 業(yè)務(wù)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    9349

    瀏覽量

    377318
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5304

    瀏覽量

    106330
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    48996

    瀏覽量

    249241
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    廣凌高校標(biāo)準(zhǔn)化考場(chǎng)建設(shè)解決方案

    在教育信息與考試安全雙重驅(qū)動(dòng)下,標(biāo)準(zhǔn)化考場(chǎng)建設(shè)已成為高校提升考試管理水平的核心抓手。作為深耕教育信息領(lǐng)域的高新技術(shù)企業(yè),??廣凌科技(廣凌股份)憑借“高校
    的頭像 發(fā)表于 05-29 17:04 ?206次閱讀
    廣凌高校<b class='flag-5'>標(biāo)準(zhǔn)化</b>考場(chǎng)建設(shè)解決方案

    摩爾線程發(fā)布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    , 支持原生FP8數(shù)據(jù)類型,支持PyTorch 2.5.0 ,并通過多項(xiàng)針對(duì)MUSA計(jì)算平臺(tái)的性能優(yōu)化,進(jìn)一步提升了對(duì)AI模型和大規(guī)模數(shù)據(jù)處理的支持能力。 FP8原生支持,國產(chǎn)GPU的技術(shù)突破
    的頭像 發(fā)表于 05-11 16:41 ?681次閱讀

    瑞為技術(shù)牽頭制定的國家標(biāo)準(zhǔn)《信息技術(shù) 可擴(kuò)展的生物特征識(shí)別數(shù)據(jù)交換格式 第1部分:框架》正式發(fā)布

    圖像、步態(tài)圖像等模態(tài))也一同發(fā)布。 至此,瑞為已累計(jì)牽頭及參與的國家/行業(yè)標(biāo)準(zhǔn)近30項(xiàng),其中已發(fā)布實(shí)施的國家標(biāo)準(zhǔn)16項(xiàng)。 作為《信息技術(shù) 可
    的頭像 發(fā)表于 04-22 18:05 ?543次閱讀

    摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓(xùn)練策略和高性能算子庫,這兩大框架在國產(chǎn)全功能GPU上實(shí)現(xiàn)了高效的混合
    的頭像 發(fā)表于 03-17 17:05 ?597次閱讀
    摩爾線程GPU原生<b class='flag-5'>FP8</b>計(jì)算助力<b class='flag-5'>AI</b>訓(xùn)練

    智能零部件管理助力中電思儀的標(biāo)準(zhǔn)化管理

    。目前,SPM以其獨(dú)有的四大關(guān)鍵性技術(shù)優(yōu)勢(shì)獲得了合作伙伴的青睞。 項(xiàng)目評(píng)估表明SPM具有相當(dāng)大的降本潛力:作為模塊標(biāo)準(zhǔn)化的落地工具,以及企業(yè)提高核心競(jìng)爭(zhēng)力的有效手段,SPM平均降本潛力高達(dá)10%。在未來持續(xù)優(yōu)化后,如果所有
    發(fā)表于 02-14 14:03

    Arm正式發(fā)布芯粒系統(tǒng)架構(gòu)首個(gè)公開規(guī)范

    近期,Arm控股有限公司宣布其芯粒系統(tǒng)架構(gòu)(CSA)正式推出了首個(gè)公開規(guī)范。這一舉措旨在進(jìn)一步推動(dòng)芯粒技術(shù)的標(biāo)準(zhǔn)化進(jìn)程,并有效減少行業(yè)碎片現(xiàn)象,為芯片設(shè)計(jì)領(lǐng)域注入新的活力。 芯粒技術(shù)
    的頭像 發(fā)表于 02-08 15:19 ?597次閱讀

    Arm發(fā)布芯粒系統(tǒng)架構(gòu)首個(gè)公開規(guī)范

    近日,Arm控股有限公司(納斯達(dá)克股票代碼:ARM,以下簡(jiǎn)稱“Arm”)宣布了一項(xiàng)重要進(jìn)展,其芯粒系統(tǒng)架構(gòu)(CSA)已正式推出首個(gè)公開規(guī)范。這一舉措標(biāo)志著芯粒技術(shù)
    的頭像 發(fā)表于 01-24 14:07 ?530次閱讀

    今日看點(diǎn)丨Arm 發(fā)布芯粒系統(tǒng)架構(gòu)首個(gè)公開規(guī)范;納芯微推出車規(guī)級(jí)D類音頻功率放大器

    1. Arm 發(fā)布芯粒系統(tǒng)架構(gòu)首個(gè)公開規(guī)范,加速芯片技術(shù)演進(jìn) ? Arm 控股有限公司宣布其芯粒系統(tǒng)架構(gòu) (CSA) 正式推出首個(gè)公開規(guī)范,
    發(fā)表于 01-24 11:18 ?1363次閱讀

    FP8在大模型訓(xùn)練中的應(yīng)用

    越來越多的技術(shù)團(tuán)隊(duì)開始使用 FP8 進(jìn)行大模型訓(xùn)練,這主要因?yàn)?FP8 有很多技術(shù)優(yōu)勢(shì)。比如在新一代的 GPU 上,FP8 相對(duì)于 BF16 對(duì)矩陣乘算子這樣的計(jì)算密集型算子,NVIDIA
    的頭像 發(fā)表于 01-23 09:39 ?1167次閱讀
    <b class='flag-5'>FP8</b>在大模型訓(xùn)練中的應(yīng)用

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能。
    的頭像 發(fā)表于 12-17 17:47 ?849次閱讀

    如何使用FP8新技術(shù)加速大模型訓(xùn)練

    ,FP8 的詳細(xì)介紹可以參考此鏈接: https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples
    的頭像 發(fā)表于 12-09 11:30 ?1059次閱讀

    三星與SK海力士攜手推進(jìn)LPDDR6-PIM產(chǎn)品標(biāo)準(zhǔn)化

    AI)專用低功耗DRAM的標(biāo)準(zhǔn)化,從而更好地適應(yīng)當(dāng)前“端側(cè)AI”(on-device AI)的發(fā)展趨勢(shì)。
    的頭像 發(fā)表于 12-03 10:42 ?743次閱讀

    FP8數(shù)據(jù)格式在大型模型訓(xùn)練中的應(yīng)用

    本文主要介紹了 FP8 數(shù)據(jù)格式在大型模型訓(xùn)練中的應(yīng)用、挑戰(zhàn)及最佳實(shí)踐,展示了 FP8 在提升訓(xùn)練速度和效率方面的潛力和實(shí)際效果。
    的頭像 發(fā)表于 11-19 14:54 ?1666次閱讀
    <b class='flag-5'>FP8</b>數(shù)據(jù)<b class='flag-5'>格式</b>在大型模型訓(xùn)練中的應(yīng)用

    CAN技術(shù)的標(biāo)準(zhǔn)化之旅

    國際標(biāo)準(zhǔn)化組織 (ISO)于2024年5月27日發(fā)布了文件ISO 11898-1:2024;在此之前,于2024年3月22日,發(fā)布了文件ISO 11898-2:2024。自此,CAN (控制器局域網(wǎng)絡(luò))技術(shù)的所有協(xié)議及收發(fā)器完全
    的頭像 發(fā)表于 11-07 11:48 ?1126次閱讀

    FP8模型訓(xùn)練中Debug優(yōu)化思路

    目前,市場(chǎng)上許多公司都積極開展基于 FP8 的大模型訓(xùn)練,以提高計(jì)算效率和性能。在此,我們整理并總結(jié)了客戶及 NVIDIA 技術(shù)團(tuán)隊(duì)在 FP8 模型訓(xùn)練過程中的 debug 思路和方法,供大家參考。
    的頭像 發(fā)表于 09-06 14:36 ?908次閱讀
    <b class='flag-5'>FP8</b>模型訓(xùn)練中Debug優(yōu)化思路