一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Exaflop簡(jiǎn)史

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2022-08-03 09:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Exaflop 是衡量超級(jí)計(jì)算機(jī)性能的單位,表示該計(jì)算機(jī)每秒可至少進(jìn)行百億億次浮點(diǎn)運(yùn)算。

為了解決這個(gè)時(shí)代最復(fù)雜的問題,比如如何治療像新冠肺炎和癌癥這樣的疾病、以及如何緩解氣候變化等。計(jì)算機(jī)的計(jì)算量正在不斷增加。

所有這些重大挑戰(zhàn)將計(jì)算帶入了現(xiàn)今的百億億次級(jí)時(shí)代,頂級(jí)性能通常以 exaflops 來衡量。

什么是 Exaflop?

Exaflop 是衡量超級(jí)計(jì)算機(jī)性能的單位,表示該計(jì)算機(jī)每秒可以至少進(jìn)行 10^18 或百億億次浮點(diǎn)運(yùn)算。

Exaflop 中的 exa-前綴表示“百億億”,即 10 億乘以 10 億或1的后面有 18 個(gè)零。同樣,單個(gè) exabyte 的內(nèi)存子系統(tǒng)可以儲(chǔ)存百億億字節(jié)的數(shù)據(jù)。

exaflop 中的“flop”是浮點(diǎn)運(yùn)算的縮寫。exaflop/s 是表示系統(tǒng)每秒浮點(diǎn)運(yùn)算次數(shù)的單位。

浮點(diǎn)是指所有數(shù)字都用小數(shù)點(diǎn)表示的計(jì)算方法。

1000 Petaflop = 1 Exaflop

前綴 peta- 表示 10^15,即 1 的后面有 15 個(gè)零。因此 1 exaflop 等于 1000 petaflop。

c4a277d0-1263-11ed-ba43-dac502259ad0.png

1 exaflop 的計(jì)算量到底有多大?相當(dāng)于十億人中的每個(gè)人都拿著十億個(gè)計(jì)算器。

如果他們同時(shí)按下等號(hào),就是進(jìn)行了 1 個(gè) exaflop。

擁有 Big Red 200 和其他幾臺(tái)超級(jí)計(jì)算機(jī)的印第安納大學(xué)表示,exaflop 計(jì)算機(jī)的速度相當(dāng)于一個(gè)人每秒鐘進(jìn)行一次計(jì)算,并一直計(jì)算 31,688,765,000 年。

Exaflop 簡(jiǎn)史

在超級(jí)計(jì)算發(fā)展史的大部分時(shí)間里,一次浮點(diǎn)運(yùn)算就是一次,但隨著工作負(fù)載引入 AI ,這種情況也發(fā)生了變化。

人們開始使用最高的精度格式來表示數(shù)字,這種格式被稱為雙精度,由 IEEE 浮點(diǎn)運(yùn)算標(biāo)準(zhǔn)定義。它之所以被稱為雙精度或 FP64,是因?yàn)橛?jì)算中的每個(gè)數(shù)字都需要以 64 位用 0 或 1 表示的數(shù)據(jù)塊表示,而單精度為 32 位。

雙精度使用 64 位確保每個(gè)數(shù)字都精確到很細(xì)微的部分,比如 1.0001 + 1.0001 = 2.0002,而不是 1 + 1 = 2。

這種格式非常適合當(dāng)時(shí)的大部分工作負(fù)載,比如從原子到飛機(jī)等全部需要確保模擬結(jié)果接近于真實(shí)的模擬。

因此,當(dāng) 1993 年全球最強(qiáng)大的超級(jí)計(jì)算機(jī)榜單 TOP500 首次發(fā)布時(shí),衡量 FP64 數(shù)學(xué)性能的 LINPACK 基準(zhǔn)(又稱HPL)自然成為了默認(rèn)的衡量標(biāo)準(zhǔn)。

AI 大爆炸

十年前,計(jì)算行業(yè)發(fā)生了 NVIDIA 首席執(zhí)行官黃仁勛所說的 AI 大爆炸。

這種強(qiáng)大的新計(jì)算形式開始在科學(xué)和商業(yè)應(yīng)用上展現(xiàn)出重大成果,而且它運(yùn)用了一些非常不同的數(shù)學(xué)方法。

深度學(xué)習(xí)并不是模擬真實(shí)世界中的物體,而是在堆積如山的數(shù)據(jù)中篩選,以找到能夠帶來新洞察的模式。

這種數(shù)學(xué)方法需要很高的吞吐量,所以用經(jīng)過簡(jiǎn)化的數(shù)字(比如使用 1.01 而不是 1.0001)進(jìn)行大量計(jì)算要比用更復(fù)雜的數(shù)字進(jìn)行少量計(jì)算好得多。

因此 AI 使用 FP32、FP16 和 FP8 等低精度格式,通過 32 位、16 位和 8 位數(shù)讓用戶更快地進(jìn)行更多計(jì)算。

混合精度不斷發(fā)展

AI 使用 64 位數(shù)就如同在周末外出時(shí)帶著整個(gè)衣柜。

研究人員一直在積極地為 AI 尋找理想的低精度技術(shù)。

例如首個(gè) NVIDIA Tensor Core GPU——Volta,它使用了混合精度,并以 FP16 格式執(zhí)行矩陣乘法,然后用 FP32 累積結(jié)果以獲得更高的精度。

Hopper 通過 FP8 加速

最近,NVIDIA Hopper 架構(gòu)首次發(fā)布了速度更快的低精度 AI 訓(xùn)練方法。Hopper Transformer Engine 能夠自動(dòng)分析工作負(fù)載,盡可能采用 FP8 并以 FP32 累積結(jié)果。

在進(jìn)行計(jì)算密集度較低的推理工作,比如在生產(chǎn)中運(yùn)行 AI 模型時(shí),TensorFlow 和 PyTorch 等主要框架通過支持 8 位整數(shù)實(shí)現(xiàn)快速性能,因?yàn)檫@樣就不需要使用小數(shù)點(diǎn)來完成工作。

好消息是,NVIDIA GPU 支持上述所有精度格式,因此用戶可以實(shí)現(xiàn)每個(gè)工作負(fù)載的最優(yōu)加速。

去年,IEEE P3109 委員會(huì)開始為機(jī)器學(xué)習(xí)中使用的精度格式制定行業(yè)標(biāo)準(zhǔn)。這項(xiàng)工作可能還需要一到兩年的時(shí)間才能完成。

一些模擬軟件在低精度工作中大放異彩

雖然 FP64 在模擬工作中仍然很受歡迎,但當(dāng)?shù)途葦?shù)學(xué)能夠更快提供可用結(jié)果時(shí),許多人會(huì)使用后者。

c4d88d16-1263-11ed-ba43-dac502259ad0.png

影響 HPC 應(yīng)用程序性能的因素各不相同

例如,研究人員用 FP32 運(yùn)行廣受歡迎的汽車碰撞模擬器——Ansys LS-Dyna?;蚪M學(xué)也傾向于使用低精度數(shù)學(xué)。

此外,許多傳統(tǒng)的模擬開始在部分工作流程中采用 AI。隨著越來越多的工作負(fù)載使用 AI,超級(jí)計(jì)算機(jī)需要支持較低的精度才能有效運(yùn)行這些新興應(yīng)用。

基準(zhǔn)與工作負(fù)載同步發(fā)展

在認(rèn)識(shí)到這些變化后,包括 Jack Dongarra(2021 年圖靈獎(jiǎng)得主和 HPL 的貢獻(xiàn)者)在內(nèi)的研究人員在 2019 年首次發(fā)布了 HPL-AI,這項(xiàng)新基準(zhǔn)更適合測(cè)量新的工作負(fù)載。

Dongarra 在 2019 年的博客中表示:“無論是技術(shù)不斷優(yōu)化的傳統(tǒng)模擬,還是 AI 應(yīng)用,混合精度技術(shù)對(duì)于提高超級(jí)計(jì)算機(jī)的計(jì)算效率越來越重要。正如 HPL 實(shí)現(xiàn)了對(duì)雙精度能力的基準(zhǔn)測(cè)試一樣,這種基于 HPL 的新方法可以對(duì)超級(jí)計(jì)算機(jī)的混合精度能力進(jìn)行大規(guī)?;鶞?zhǔn)測(cè)試?!?/p>

尤利希超級(jí)計(jì)算中心主任 Thomas Lippert 同意了這一觀點(diǎn)。

他在去年發(fā)表的一篇博客中表示:“我們使用 HPL-AI 基準(zhǔn)是因?yàn)樗饶軌驕?zhǔn)確地衡量日益增加的 AI 和科學(xué)工作負(fù)載中的混合精度工作,也能反映準(zhǔn)確的 64 位浮點(diǎn)計(jì)算結(jié)果?!?/p>

現(xiàn)今的 Exaflop 系統(tǒng)

在 6 月的一份報(bào)告中,全球 20 個(gè)超級(jí)計(jì)算機(jī)中心提交了 HPL-AI 結(jié)果,其中有三個(gè)中心提供了超過 1 exaflop 的性能。

在這些系統(tǒng)中,橡樹嶺國家實(shí)驗(yàn)室的超級(jí)計(jì)算機(jī)在 HPL 上的 FP64 性能也超過了 1 exaflop。

c517a064-1263-11ed-ba43-dac502259ad0.png

2022 年 6 月 HPL-AI 結(jié)果的采樣器

兩年前,一非傳統(tǒng)系統(tǒng)首次達(dá)到 1 exaflop。這臺(tái)由 Folding@home 聯(lián)盟組裝的眾源超級(jí)計(jì)算機(jī)在呼吁幫助抵御新冠疫情后,達(dá)到了這一里程碑,到現(xiàn)在已有超過 100 萬臺(tái)計(jì)算機(jī)加入其中。

理論和實(shí)踐中的Exaflop

許多組織從那時(shí)起就已開始安裝理論峰值性能超過 1 exaflop 的超級(jí)計(jì)算機(jī)。需要注意的是,TOP500 榜單同時(shí)發(fā)布 Rmax(實(shí)際)和 Rpeak(理論)分?jǐn)?shù)。

Rmax 指計(jì)算機(jī)實(shí)際表現(xiàn)出的最佳性能。

Rpeak 是一切系統(tǒng)都處于高水平運(yùn)行時(shí)的最高理論性能,而這幾乎從未發(fā)生過。該數(shù)值的計(jì)算方法通常是將系統(tǒng)中的處理器數(shù)量乘以其時(shí)鐘速度,然后再將結(jié)果乘以處理器在一秒鐘內(nèi)可執(zhí)行的浮點(diǎn)運(yùn)算數(shù)。

因此,如果有人說他們的系統(tǒng)達(dá)到 1 exaflop,請(qǐng)?jiān)儐査f的是 Rmax(實(shí)際)還是Rpeak(理論)。

Exaflop 時(shí)代的眾多指標(biāo)

這也是新百億億次時(shí)代的眾多細(xì)微變化之一。

值得注意的是,HPL 和 HPL-AI 屬于合成基準(zhǔn),即它們衡量的是數(shù)學(xué)程序的性能,而不是真實(shí)世界的應(yīng)用。MLPerf 等其他基準(zhǔn)則基于真實(shí)世界中的工作負(fù)載。

最后,衡量系統(tǒng)性能的最佳標(biāo)準(zhǔn)當(dāng)然是它運(yùn)行用戶應(yīng)用程序的情況。該衡量標(biāo)準(zhǔn)不是基于 exaflop,而是基于投資回報(bào)率。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106405
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7663

    瀏覽量

    90797
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35162

    瀏覽量

    279853

原文標(biāo)題:什么是 Exaflop?

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    “諾基亞”推新款功能機(jī),搭載DeepSeek AI助手

    電子發(fā)燒友網(wǎng)綜合報(bào)道?最近諾基亞在京東自營旗艦店推出了兩款帶有AI功能的手機(jī),HMD101?4G?和HMD102?4G,售價(jià)分別為149元和169元,102相比101增加了攝像頭。 ? HMD101?4G?和HMD102?4G上沒有帶有諾基亞的Logo,而是使用了HMD品牌,官方宣稱采用諾基亞手機(jī)制造工藝與測(cè)試標(biāo)準(zhǔn)。通過主鍵30萬次按壓、耳機(jī)接口插拔3000次、USB插拔1萬次、滾筒測(cè)試200圈、-30℃~70℃24小時(shí)冷熱沖擊等測(cè)試。 ? 來源:諾基亞手機(jī)京東自營旗艦店 ? 在介紹頁面中,這兩款手機(jī)面向長輩、
    的頭像 發(fā)表于 07-20 00:04 ?45次閱讀
    “諾基亞”推新款功能機(jī),搭載DeepSeek AI助手

    廣州郵科直流變換電源直流48V/30A輸出:為高負(fù)載設(shè)備提供動(dòng)力

    在現(xiàn)代工業(yè)與電子科技的浪潮中,電源設(shè)備已經(jīng)不再是簡(jiǎn)單的電力供應(yīng)工具,而是保障系統(tǒng)穩(wěn)定運(yùn)行的關(guān)鍵。你是否曾在高負(fù)載設(shè)備運(yùn)行時(shí),因電壓不足導(dǎo)致性能下降,甚至設(shè)備故障?這時(shí),一款高效且穩(wěn)定的電源設(shè)備顯得尤為重要。今天,我們?yōu)榇蠹医榻B廣州郵科的直流變換電源,它以直流48V/30A的強(qiáng)大輸出能力,成為高負(fù)載設(shè)備的最佳選擇。
    的頭像 發(fā)表于 07-18 18:07 ?9次閱讀
    廣州郵科直流變換電源直流48V/30A輸出:為高負(fù)載設(shè)備提供動(dòng)力

    CCLink IE轉(zhuǎn)ModbusTCP網(wǎng)關(guān)配置無紙記錄器(上篇)

    本研究案例采用CCLink IE轉(zhuǎn)ModbusTCP網(wǎng)關(guān)技術(shù),實(shí)現(xiàn)了將記錄儀數(shù)據(jù)傳輸至三菱PLCPLC的過程。具體操作步驟如下所述。 在確保無紙記錄儀與PT100傳感器傳感器的連接無誤后,應(yīng)將無紙記錄儀與個(gè)人計(jì)算機(jī)(PC)通過以太網(wǎng)線進(jìn)行連接,并為無紙記錄儀供電。隨后,需對(duì)無紙記錄儀的網(wǎng)絡(luò)參數(shù)進(jìn)行配置,包括IP地址及端口網(wǎng)絡(luò)端口號(hào)。在本例中,所設(shè)定的IP地址為192.168.1.111。具體連接方式如圖1所示。 配置無紙記錄儀的IP地址及網(wǎng)絡(luò)端口參數(shù) 注意:在完成IP地址
    的頭像 發(fā)表于 07-18 18:03 ?10次閱讀
    CCLink IE轉(zhuǎn)ModbusTCP網(wǎng)關(guān)配置無紙記錄器(上篇)

    多摩川編碼器助力自動(dòng)控制設(shè)備的智能革命

    在當(dāng)今科技飛速發(fā)展的時(shí)代,自動(dòng)控制設(shè)備正以令人矚目的速度改變著我們的生活和工作方式。從工業(yè)生產(chǎn)線上的精密機(jī)械到智能家居中的便捷設(shè)備,自動(dòng)控制技術(shù)無處不在。而在這場(chǎng)智能革命的背后,多摩川編碼器扮演著至關(guān)重要的角色,為自動(dòng)控制設(shè)備的高效、精準(zhǔn)運(yùn)行提供了強(qiáng)大的技術(shù)支持。
    的頭像 發(fā)表于 07-18 18:01 ?10次閱讀

    貨比三家還是得找源頭廠家#電子負(fù)載 #負(fù)載 #檢測(cè)設(shè)備

    檢測(cè)設(shè)備
    深圳市威爾華電子有限公司
    發(fā)布于 :2025年07月18日 18:01:34

    數(shù)字功放的崛起;技術(shù)優(yōu)勢(shì)與產(chǎn)品對(duì)比解析

    數(shù)字功放的崛起;技術(shù)優(yōu)勢(shì)與產(chǎn)品對(duì)比解析
    的頭像 發(fā)表于 07-18 17:59 ?11次閱讀
    數(shù)字功放的崛起;技術(shù)優(yōu)勢(shì)與產(chǎn)品對(duì)比解析

    人形機(jī)器人進(jìn)化簡(jiǎn)史

    最近火爆全網(wǎng)的機(jī)器人格斗直播,盡管有很多瑕疵,賽博朋克感依然讓人驚呼科幻走入現(xiàn)實(shí)。
    的頭像 發(fā)表于 07-18 14:58 ?177次閱讀

    《電子發(fā)燒友電子設(shè)計(jì)周報(bào)》聚焦硬科技領(lǐng)域核心價(jià)值 第13期:2025.05.26--2025.05.30

    標(biāo)準(zhǔn)簡(jiǎn)史; IEEE Std 802.3df 和 IEEE P802.3dj 標(biāo)準(zhǔn)的更新; 助力下一代超大規(guī)模數(shù)據(jù)中心; 3、前沿技術(shù)公開課--知存科技+知名高校教授打造存內(nèi)計(jì)算系列課程 (值得
    發(fā)表于 05-30 19:39

    機(jī)器人和自動(dòng)化的未來(1)

    時(shí)代的到來,不僅標(biāo)志著技術(shù)的飛躍,也預(yù)示著社會(huì)結(jié)構(gòu)和生活方式的巨大變革。1.1機(jī)器人簡(jiǎn)史:從幻想到現(xiàn)實(shí)談到機(jī)器人,人們很容易
    的頭像 發(fā)表于 04-19 08:34 ?283次閱讀
    機(jī)器人和自動(dòng)化的未來(1)

    五金清洗機(jī)的簡(jiǎn)史與未來發(fā)展趨勢(shì)解析

    想象一下,身處在繁忙的工業(yè)車間里,金屬零件堆積如山,等待著清洗。你或許會(huì)問:“這些金屬零件如何才能恢復(fù)到如新般的光澤?”這就要提到五金清洗機(jī)的神奇之處。它不僅能高效清潔,還象征著工業(yè)發(fā)展的智能化與自動(dòng)化。今天,讓我們一起走進(jìn)五金清洗機(jī)的歷史長河,探索它的演變、技術(shù)進(jìn)步以及未來的發(fā)展趨勢(shì)。五金清洗機(jī)的誕生背景和歷史沿革五金清洗機(jī)并非一夕之間的產(chǎn)物,它的誕生與工
    的頭像 發(fā)表于 04-10 16:33 ?480次閱讀
    五金清洗機(jī)的<b class='flag-5'>簡(jiǎn)史</b>與未來發(fā)展趨勢(shì)解析

    AI先鋒對(duì)話:DeepSeek爆火背后,戰(zhàn)略破局的新思考

    近日,阿丘科技聯(lián)合創(chuàng)始人鄭慧偉受邀參加由慎思行舉辦的《戰(zhàn)略簡(jiǎn)史》老友會(huì),與慎思行老羅、云南白藥戰(zhàn)略負(fù)責(zé)人顧嘉,一起探討AI將如何影響未來戰(zhàn)略這一時(shí)代命題。本次討論主要圍繞“DeepSeek火爆背后
    的頭像 發(fā)表于 02-27 15:11 ?651次閱讀
    AI先鋒對(duì)話:DeepSeek爆火背后,戰(zhàn)略破局的新思考

    英飛凌IGBT7系列芯片大解析

    上回書(英飛凌芯片簡(jiǎn)史)說到,IGBT自面世以來,歷經(jīng)數(shù)代技術(shù)更迭,標(biāo)志性的技術(shù)包括平面柵+NPT結(jié)構(gòu)的IGBT2,溝槽柵+場(chǎng)截止結(jié)構(gòu)的IGBT3和IGBT4,表面覆銅及銅綁定線的IGBT5等?,F(xiàn)今
    的頭像 發(fā)表于 01-15 18:05 ?1133次閱讀
    英飛凌IGBT7系列芯片大解析

    安森美(onsemi)的超聲波傳感器解決方案的未來趨勢(shì)和創(chuàng)新

    簡(jiǎn)要介紹超聲波傳感器的發(fā)展歷程,并結(jié)合當(dāng)前和未來的應(yīng)用,預(yù)測(cè)未來幾年超聲波傳感器的應(yīng)用領(lǐng)域。? ? ? 汽車超聲波傳感器簡(jiǎn)史 超聲波技術(shù)常用于檢測(cè)物體和發(fā)現(xiàn)固體材料中的缺陷,其首項(xiàng)專利可以追溯到上世紀(jì)30年代。一直
    的頭像 發(fā)表于 11-23 14:53 ?1730次閱讀

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.50】親歷芯片產(chǎn)線,輕松圖解芯片制造,揭秘芯片工廠的秘密

    的知識(shí)門檻低,又獨(dú)家揭秘了芯片制造工廠的運(yùn)營到管理,適用于更大讀者群。本書非常適合對(duì)芯片這個(gè)話題(不管是技術(shù)還是產(chǎn)業(yè)運(yùn)營等)感興趣的IC從業(yè)者和大眾讀者。 相信閱讀過《芯路》《半導(dǎo)體簡(jiǎn)史》《圖解
    發(fā)表于 11-04 15:38

    【「ARM MCU嵌入式開發(fā) | 基于國產(chǎn)GD32F10x芯片」閱讀體驗(yàn)】+書籍整體概況

    系統(tǒng)的概念,ARM簡(jiǎn)史,以及前期的準(zhǔn)備工作,視頻時(shí)長112min。 第二章介紹GD32F10x的架構(gòu),包含計(jì)算機(jī)架構(gòu),Cortex-M3架構(gòu);第三章通用輸入/輸出端口GPIO介紹,內(nèi)容非常豐富,介紹
    發(fā)表于 08-25 22:48