一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

“算力”的分層定義-初級算力

澎峰科技PerfXLab ? 來源:澎峰科技PerfXLab ? 作者:澎峰科技PerfXLab ? 2023-07-27 14:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“算力”(Computility,也被稱為計(jì)算能力或計(jì)算力)通常而言是指計(jì)算機(jī)、服務(wù)器、GPU或其他硬件設(shè)備執(zhí)行計(jì)算任務(wù)的速度和能力。算力的英文名是computility。其中的compu-是計(jì)算的詞根,表達(dá)“算”的含義,-utility是效用、實(shí)用的意思。computility用來表達(dá)計(jì)算的能力,即算力。近年來,“算力”被全社會高度關(guān)注,同時(shí)對于算力的準(zhǔn)確量化描述也非?;靵y,例如:

“每秒算力可達(dá)116億億次”

問題:執(zhí)行的啥計(jì)算任務(wù)呀?也沒有講數(shù)據(jù)類型(整型?浮點(diǎn)數(shù)?),也不提精度(整型多少位?雙精浮點(diǎn)?單精度浮點(diǎn)?),也不講是AI算力還是通用算力,等等。

由此,也出現(xiàn)了“已有算力不夠用,新建算力用不了”的怪事。本系列文章試圖澄清算力的各種信息,并提出算力分層定義的觀點(diǎn),總共分為三層:

初級算力:即硬件spec.描述的算力,應(yīng)該采用FLOPS、TOPS加“計(jì)算類型和精度”,加“算力類型”(CPU通用算力,GPU算力,DSA算力)準(zhǔn)確描述。該層最重要的是計(jì)算芯片架構(gòu)的設(shè)計(jì)能力和半導(dǎo)體制造工藝,當(dāng)下,多數(shù)情況描述的算力多么強(qiáng)大都只是指初級算力。(注釋:DSA(Domain Specific Architecture,特定領(lǐng)域架構(gòu))在本文泛指市面上講得NPU、TPU、XPU等等專用加速卡。)

中級算力:即計(jì)算硬件通過基礎(chǔ)計(jì)算軟件層,向算法和應(yīng)用層提供的實(shí)際計(jì)算的能力,在實(shí)踐中初級算力要轉(zhuǎn)換為中級算力面臨兩個(gè)問題:一是是否可行,二是轉(zhuǎn)換效率?;旧希ㄓ盟懔梢杂肔inpack等測試基準(zhǔn)進(jìn)行衡量(求解線性方程),AI算力的衡量可以使用AIPerf、MLPerf等衡量。該層最重要的是計(jì)算基礎(chǔ)軟件棧的軟件能力,具體指高性能計(jì)算庫、異構(gòu)計(jì)算框架、領(lǐng)域編譯器等。用戶只會為有效算力而付費(fèi)。

高級算力:各種算法和應(yīng)用被封裝成領(lǐng)域服務(wù),用戶可以直接獲得跨領(lǐng)域的具體能力,也許可以叫FAAS,用戶為具體服務(wù)而付費(fèi)。該層最重要的是對于領(lǐng)域和應(yīng)用場景核心算法的大規(guī)模并行化算法的構(gòu)建能力。

對算力分層描述的重要意義在于:

更為準(zhǔn)確描述一個(gè)計(jì)算中心執(zhí)行計(jì)算任務(wù)的能力。

急需提升我國對于計(jì)算基礎(chǔ)軟件層的重視程度。

使“算力”從低層次商品向高層次商品發(fā)展,促進(jìn)實(shí)現(xiàn)算力商業(yè)化。

“初級算力”如何準(zhǔn)確描述

關(guān)于“算力”的量詞介紹

浮點(diǎn)數(shù)運(yùn)算能力通常使用以下單位描述:

FLOPS(Floating-Point Operations Per Second) - 這是衡量計(jì)算機(jī)或其他設(shè)備執(zhí)行浮點(diǎn)運(yùn)算速度的基本單位,表示每秒鐘可以執(zhí)行多少次浮點(diǎn)運(yùn)算(加、減、乘和除等運(yùn)算)。FLOPS 以前通常用于衡量大規(guī)??茖W(xué)計(jì)算和數(shù)值模擬等需要雙精度浮點(diǎn)數(shù)計(jì)算的應(yīng)用程序,現(xiàn)在也被用于描述AI高精度訓(xùn)練算力。

1 GFLOPS(Giga-FLOPS),表示每秒鐘執(zhí)行十億次浮點(diǎn)運(yùn)算(10^9)。

1 TFLOPS(Tera-FLOPS),表示每秒鐘執(zhí)行1萬億次浮點(diǎn)運(yùn)算(10^12)。

1 PFLOPS(Peta-FLOPS),表示每秒鐘執(zhí)行1千萬億次浮點(diǎn)運(yùn)算(10^15)。

1 EFLOPS(Exa-FLOPS),表示每秒鐘執(zhí)行1百億億次浮點(diǎn)運(yùn)算(10^18)。

1 ZFLOPS(Zetta-FLOPS),表示每秒鐘執(zhí)行十億億億次浮點(diǎn)運(yùn)算(10^21)。

1 YFLOPS(Yotta-FLOPS),表示每秒鐘執(zhí)行1萬億億億次浮點(diǎn)運(yùn)算(10^24)。

整型數(shù)據(jù)運(yùn)算能力通常使用TOPS(Tera Operations Per Second)來描述,即每秒多少萬億次(10^12)。對于64位CPU處理器,指的就是64位整型數(shù)據(jù)的處理能力。但在GPU和DSA的領(lǐng)域,描述多少TOPS,可能是INT32,也有可能是INT8,還有可能是INT4。(備注:對于CPU性能的強(qiáng)弱,還有DMIPS(Dhrystone Million Instructions executed Per Second)來描述,即每秒執(zhí)行多少百萬條指令)。

關(guān)于“算力”的計(jì)算精度

在科學(xué)計(jì)算領(lǐng)域,?FLOPS以前通常指雙精度浮點(diǎn)數(shù)(FP64)?,F(xiàn)在也被用于人工智能領(lǐng)域,但通常指的是其他精度(FP32/FP16/BF16/INT8等類型),同時(shí)還引入了一些新的浮點(diǎn)數(shù)格式。下面是一些常見的計(jì)算中使用的浮點(diǎn)數(shù)格式:

FP64:雙精度浮點(diǎn)數(shù),占用64位存儲空間,通常用于大規(guī)模科學(xué)計(jì)算、工程計(jì)算等需要高精度計(jì)算的算法。

FP32:單精度浮點(diǎn)數(shù),占用32位存儲空間。與雙精度浮點(diǎn)數(shù)相比,存儲空間較小但精度較低,部分科學(xué)計(jì)算和工程計(jì)算也可以使用FP32,但通常也用于神經(jīng)網(wǎng)絡(luò)的前向推理和反向傳播計(jì)算。

FP16:半精度浮點(diǎn)數(shù),占用16位存儲空間。存儲空間更小但精度進(jìn)一步降低,通常用于模型訓(xùn)練過程中參數(shù)和梯度的計(jì)算。

BF16: 用于半精度矩陣乘法計(jì)算(GEMM)的浮點(diǎn)數(shù)格式,占用16位存儲空間。相對于FP16,在保持存儲空間相同的情況下能夠提高運(yùn)算精度和效率。

TF32:TensorFLoat-32,是NVIDIA定義的使用TensorCore的中間計(jì)算格式。

INT8:8位整數(shù),用于量化神經(jīng)網(wǎng)絡(luò)的計(jì)算,由于存儲和計(jì)算都相對于浮點(diǎn)數(shù)更加高效,在低功耗、嵌入式系統(tǒng)和邊緣設(shè)備等領(lǐng)域有著廣泛的應(yīng)用。用TOPS(Tera Operations Per Second,每秒處理的萬億級別的操作數(shù))作為計(jì)算性能的單位。

INT4:4位整數(shù),只能表示-8到7的16個(gè)整數(shù)。因?yàn)樾碌牧炕夹g(shù)出現(xiàn),追求更低的存儲空間,減少計(jì)算量和更高的算力密度,而產(chǎn)生的新格式。

其他標(biāo)準(zhǔn)的整數(shù)類型,16位整型INT16,32位整型INT32,deng64位整型等。

wKgZomTCBl-Aa5wmAAIsDpUYFJU676.png

9. 現(xiàn)在你看到這個(gè)計(jì)算中心,每秒可以計(jì)算多多多少次。就需要留意”計(jì)算格式/計(jì)算精度”了。另外,引入了POPS這個(gè)名詞,POPS是神經(jīng)網(wǎng)絡(luò)處理器(NNP)性能的單位,全稱為“Per Second Operations Per Second”,即每秒鐘的計(jì)算數(shù)量,這個(gè)單位似乎使用頻率不高。

wKgZomTCBoqAJ0VmAAEVBw9kT-U516.png

A800的初級算力規(guī)格(圖1)

A100的卡有7項(xiàng)算力規(guī)格描述。

這里面的計(jì)算格式描述就有6種。

wKgZomTCBrWABf0QAAOXFMpxG2I180.png

intel CPU的初級算力規(guī)格(圖2)

另外,神經(jīng)網(wǎng)絡(luò)處理器(NNP)性能描述雖然引入了POPS作為單位,全稱為“Per Second Operations Per Second”,即每秒鐘的計(jì)算數(shù)量。也同樣存在類似的問題,也少人使用。

關(guān)于通用算力和專用算力有差異!

(圖1)NVIDIA A100,硬件算力是9.7TFLOPS

(圖2)Intel的i9-12900K,硬件算力才0.8192TFLOPS

硬件算力為啥差一個(gè)數(shù)量級呀,是intel不要臉了嗎?

當(dāng)然不是,這是因?yàn)镚PU和CPU的設(shè)計(jì)目標(biāo)不同,算力分為通用算里和專用算力(GPU算力、AI算力)。GPU在設(shè)計(jì)時(shí)專注于進(jìn)行大量并行計(jì)算,因此它們采用了更多的小計(jì)算單元(即ALU)和更多的流處理器,這使得它們能夠在單位時(shí)間內(nèi)完成更多的計(jì)算。而CPU則更加注重單線程處理能力和數(shù)據(jù)緩存,具有更多指令集條數(shù)、更高效的緩存和更快的時(shí)鐘速度,每個(gè)計(jì)算單元大,但數(shù)量相對較少。這就是為什么GPU的算力可以達(dá)到數(shù)以TFLOPS級別,而CPU通常只能達(dá)到數(shù)百GFLOPS的原因。這也是通用算力和AI算力的根本性差異。

CPU堆核心數(shù)和GPU堆核心數(shù)也不是一個(gè)概念。

wKgZomTCBvGAHCvJAAtA2XIGaww544.png

A100有了6912個(gè)FP32 CUDA Core

wKgaomTCBw-AdY4PAACtwxEh_5I984.png

i9-12900K有8個(gè)性能核加8個(gè)能效核

展開一點(diǎn)點(diǎn),GPU和CPU的核心雖然都是進(jìn)行運(yùn)算的單元(ALU)。CPU的設(shè)計(jì)目標(biāo)是滿足各種可能的應(yīng)用,強(qiáng)調(diào)通用性,例如各種辦公軟件,網(wǎng)絡(luò)服務(wù),用戶交互軟件等等。GPU和DSA強(qiáng)調(diào)某一些領(lǐng)域和算法的大規(guī)模并行計(jì)算,例如圖像渲染,深度學(xué)習(xí)等;

關(guān)于超算、智算、超腦等

超級計(jì)算機(jī)的TOP500排名的性能指標(biāo),包括Rmax(最大性能)和Rpeak(理論性能)。Rmax是指超級計(jì)算機(jī)在實(shí)際運(yùn)行中所能達(dá)到的最大計(jì)算性能,即每秒鐘所能計(jì)算的浮點(diǎn)數(shù)的數(shù)量(FLOPS)。而Rpeak是指超級計(jì)算機(jī)按照其設(shè)計(jì)時(shí)理論上所能達(dá)到的最大計(jì)算性能,實(shí)際上Rmax值往往會低于Rpeak值。排名靠前的超級計(jì)算機(jī)通常具備更高的計(jì)算性能、更強(qiáng)的可擴(kuò)展性和更高的能效比。盡管TOP500排行榜的排名主要依據(jù)性能指標(biāo),但也會考慮其他因素,如超級計(jì)算機(jī)應(yīng)用領(lǐng)域、處理器類型、計(jì)算節(jié)點(diǎn)數(shù)量等。相對比較嚴(yán)謹(jǐn)。

世界第一臺E級超算是美國橡樹嶺國家實(shí)驗(yàn)室(ORNL)的Frontier,在2022 年 6 月高性能計(jì)算的TOP500 榜單中,F(xiàn)rontier 位列第一名,速度為 1.685 EFLOPS。(題外話:有新聞?wù)f該超算出現(xiàn)大量故障,機(jī)器甚至于無法完整運(yùn)行一整天。不知現(xiàn)在怎樣了?)

wKgaomTCB4qAGGMIAADur5344UQ065.png

世界TOP 500超級計(jì)算機(jī)排行榜 Frontier超算 國內(nèi)某算力中心

現(xiàn)在,您應(yīng)該知道“每秒算力可達(dá)116億億次”的算力中心,通常只是混淆描述算力規(guī)模,根本無法和TOP500的超算1.685 EFLOPS類比了吧!這些算力中心基本無法進(jìn)行科學(xué)計(jì)算,甚至于在運(yùn)行類似ChatGPT這種AI大模型實(shí)際能效比也不高。

所以,對于描述算力中心的描述,我國還出現(xiàn)的“智算”、“超級大腦”等名詞。如果基礎(chǔ)軟件不行,也就徒?!俺跫壦懔Α钡膕pec參數(shù)和猛力造詞,比氣勢!

智算出處:《后漢書·荀彧傳論》:“常以為中賢以下,道無求備,智筭有所研疎,原始未必要末,斯理之不可全詰者也?!?br />
審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7662

    瀏覽量

    90760
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1197

    瀏覽量

    15647
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    力系列基礎(chǔ)篇——101:從零開始了解

    相信大家已經(jīng)感受到,我們正處在一個(gè)人工智能時(shí)代。如果要問在人工智能時(shí)代最重要的是什么?那必須是:!
    的頭像 發(fā)表于 04-24 08:05 ?1002次閱讀
    <b class='flag-5'>算</b>力系列基礎(chǔ)篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>101:從零開始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    智能規(guī)模超通用,大模型對智能提出高要求

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)是設(shè)備通過處理數(shù)據(jù),實(shí)現(xiàn)特定結(jié)果輸出的計(jì)算能力,常用FLOPS作為計(jì)量單位。FLOPS是Floating-point Operations Per Second
    的頭像 發(fā)表于 02-06 00:08 ?7275次閱讀

    大茉莉X16-P,5800M大稱王稱霸

    Rykj365
    發(fā)布于 :2024年01月25日 14:54:52

    rx580,rx580顯卡,rx588,rx588顯卡 精選資料分享

    已下是rx580顯卡9-11 Mh 沒有開啟計(jì)算模式,挖幾分種重啟自動開啟,計(jì)算模式只支持WIN1022-28 Mh 原版BIOS,開啟時(shí)序,并設(shè)置超頻29-32 Mh 正常,
    發(fā)表于 07-23 06:59

    何為

    由基于CPU芯片的服務(wù)器所提供的,主要用于基礎(chǔ)通用計(jì)算。日常提到的云計(jì)算、邊緣計(jì)算等都屬于基礎(chǔ),它為移動計(jì)算、物聯(lián)網(wǎng)等提供計(jì)算支持?;A(chǔ)
    的頭像 發(fā)表于 05-13 14:36 ?8709次閱讀

    如何創(chuàng)建網(wǎng)絡(luò)

    網(wǎng)大腦作為網(wǎng)絡(luò)的中樞核心,主要實(shí)現(xiàn)感知、網(wǎng)統(tǒng)一調(diào)度、
    的頭像 發(fā)表于 06-20 16:05 ?3054次閱讀

    網(wǎng)絡(luò)的架構(gòu)

    網(wǎng)絡(luò)的核心特征,是它通過,實(shí)現(xiàn)了對資源、網(wǎng)絡(luò)資源的全面接管,可以讓網(wǎng)絡(luò)實(shí)時(shí)感知用戶的
    的頭像 發(fā)表于 08-17 09:32 ?6280次閱讀

    如何定義AI中心新實(shí)踐

    9月3日上午, “盡其用·AI中心建設(shè)新實(shí)踐”云端AI產(chǎn)業(yè)論壇在2022世界人工智能大會上隆重召開,來自人工智能
    發(fā)表于 09-05 10:48 ?1388次閱讀

    網(wǎng)絡(luò):和網(wǎng)絡(luò)的關(guān)系

    網(wǎng)絡(luò)的核心特征,是它通過,實(shí)現(xiàn)了對資源、網(wǎng)絡(luò)資源的全面接管,可以讓網(wǎng)絡(luò)實(shí)時(shí)感知用戶的
    的頭像 發(fā)表于 12-14 16:09 ?5158次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>網(wǎng)絡(luò):<b class='flag-5'>算</b><b class='flag-5'>力</b>和網(wǎng)絡(luò)的關(guān)系

    網(wǎng)絡(luò)是什么意思

    網(wǎng)絡(luò)是什么意思 東數(shù)西想必大家都知道,很長一段時(shí)間內(nèi)“東數(shù)西”都是熱議焦點(diǎn),要知道在數(shù)字經(jīng)濟(jì)時(shí)代,
    的頭像 發(fā)表于 12-14 17:55 ?5590次閱讀

    一文讀懂:什么是“”?

    定義即計(jì)算能力(ComputingPower)?!吨袊?b class='flag-5'>算
    的頭像 發(fā)表于 12-22 08:27 ?9383次閱讀
    一文讀懂:什么是“<b class='flag-5'>算</b><b class='flag-5'>力</b>”?

    科技云報(bào)到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?

    科技云報(bào)到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?
    的頭像 發(fā)表于 01-16 10:24 ?465次閱讀

    中心的如何衡量?

    作為當(dāng)下科技發(fā)展的重要基礎(chǔ)設(shè)施,其的衡量關(guān)乎其能否高效支撐人工智能、大數(shù)據(jù)分析等智能應(yīng)用的運(yùn)行。以下是對智中心算衡量的詳細(xì)闡述:一、
    的頭像 發(fā)表于 01-16 14:03 ?2462次閱讀
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    【一文看懂】什么是端側(cè)

    向您介紹全方面端側(cè):1.端側(cè)定義2.端側(cè)
    的頭像 發(fā)表于 02-24 12:02 ?1305次閱讀
    【一文看懂】什么是端側(cè)<b class='flag-5'>算</b><b class='flag-5'>力</b>?