91人妻人人澡人人爽人,音影先锋AV一区二区三区四区五区,熟女国产欧美

? 從廣義上講，能運(yùn)行AI 算法的芯片都叫AI芯片。CPU、GPU、FPGA、NPU、ASIC都能執(zhí)行AI算法，但在執(zhí)行效率層面上有巨大的差異。CPU可以快速執(zhí)行復(fù)雜的數(shù)學(xué)計(jì)算，但同時執(zhí)行多項(xiàng)任務(wù)時，CPU性能開始下降，目前行業(yè)內(nèi)基本確認(rèn)CPU不適用于AI計(jì)算。

CPU+xPU的異構(gòu)方案成為大算力場景標(biāo)配，GPU為應(yīng)用最廣泛的AI芯片。目前業(yè)內(nèi)廣泛認(rèn)同的AI芯片類型包括GPU、FPGA、NPU等。由于CPU負(fù)責(zé)對計(jì)算機(jī)的硬件資源進(jìn)行控制調(diào)配，也要負(fù)責(zé)操作系統(tǒng)的運(yùn)行，在現(xiàn)代計(jì)算系統(tǒng)中仍是不可或缺的。GPU、FPGA等芯片都是作為CPU的加速器而存在，因此目前主流的AI計(jì)算系統(tǒng)均為CPU+xPU的異構(gòu)并行。CPU+GPU是目前最流行的異構(gòu)計(jì)算系統(tǒng)，在HPC、圖形圖像處理以及AI訓(xùn)練/推理等場景為主流選擇。IDC數(shù)據(jù)顯示，2021年中國AI芯片市場中，GPU市占率為89%。

NPU 在人工智能算法上具有較高的運(yùn)行效率。為了適應(yīng)某個特定領(lǐng)域中的常見的應(yīng)用和算法而設(shè)計(jì)，通常稱之為“特定域架構(gòu)（Domain Specific Architecture，DSA）”芯片，NPU（神經(jīng)網(wǎng)絡(luò)處理器）屬于其中一種，常被設(shè)計(jì)用于神經(jīng)網(wǎng)絡(luò)運(yùn)算的加速。以華為手機(jī) SoC 麒麟 970 為例，NPU 對圖像識別神經(jīng)網(wǎng)絡(luò)的運(yùn)算起到了顯著加速效果，使其圖像識別速度明顯優(yōu)于同代競品的表現(xiàn)。

目前已量產(chǎn)的 NPU 或搭載 NPU 模塊的芯片眾多，其他知名的芯片包括谷歌 TPU、華為昇騰、特斯拉 FSD、特斯拉 Dojo 等。各家廠商在計(jì)算核心的設(shè)計(jì)上有其差異，例如谷歌 TPU 的脈動陣列，華為昇騰的達(dá)芬奇架構(gòu)。

以谷歌 TPU 及計(jì)算核心結(jié)構(gòu)脈動陣列為例，對比其相較于 CPU、GPU 的區(qū)別：

CPU 和 GPU 均具有通用性，但以頻繁的內(nèi)存訪問導(dǎo)致資源消耗為代價。CPU 和 GPU 都是通用處理器，可以支持?jǐn)?shù)百萬種不同的應(yīng)用程序和軟件。對于 ALU 中的每一次計(jì)算，CPU、GPU 都需要訪問寄存器或緩存來讀取和存儲中間計(jì)算結(jié)果。由于數(shù)據(jù)存取的速度往往大大低于數(shù)據(jù)處理的速度，頻繁的內(nèi)存訪問，限制了總吞吐量并消耗大量能源。

谷歌 TPU 并非通用處理器，而是將其設(shè)計(jì)為專門用于神經(jīng)網(wǎng)絡(luò)工作負(fù)載的矩陣處理器。TPU 不能運(yùn)行文字處理器、控制火箭引擎或執(zhí)行銀行交易，但它們可以處理神經(jīng)網(wǎng)絡(luò)的大量乘法和加法，速度極快，同時消耗更少的能量，占用更小的物理空間。TPU 內(nèi)部設(shè)計(jì)了由乘法器和加法器構(gòu)成的脈動陣列。在計(jì)算時，TPU 將內(nèi)存中的參數(shù)加載到乘法器和加法器矩陣中，每次乘法執(zhí)行時，結(jié)果將傳遞給下一個乘法器，同時進(jìn)行求和。所以輸出將是數(shù)據(jù)和參數(shù)之間所有乘法結(jié)果的總和。在整個海量計(jì)算和數(shù)據(jù)傳遞過程中，完全不需要訪問內(nèi)存。這就是為什么 TPU 可以在神經(jīng)網(wǎng)絡(luò)計(jì)算上以低得多的功耗和更小的占用空間實(shí)現(xiàn)高計(jì)算吞吐量。

脈動陣列本質(zhì)上是在硬件層面多次重用輸入數(shù)據(jù)，在消耗較小的內(nèi)存帶寬的情況下實(shí)現(xiàn)較高的運(yùn)算吞吐率。

脈動陣列結(jié)構(gòu)簡單，實(shí)現(xiàn)成本低，但它靈活性較差，只適合特定運(yùn)算。然而，AI 神經(jīng)網(wǎng)絡(luò)需要大量卷積運(yùn)算，卷積運(yùn)算又通過矩陣乘加實(shí)現(xiàn)，正是脈動陣列所適合的特定運(yùn)算類型。脈動陣列理論最早在 1982 年提出，自谷歌 2017 年首次將其應(yīng)用于 AI 芯片 TPU 中，這項(xiàng)沉寂多年的技術(shù)重回大眾視野，多家公司也加入了脈動陣列行列，在自家加速硬件中集成了脈動陣列單元。

NPU 已經(jīng)在 AI 運(yùn)算加速領(lǐng)域獲得了廣泛應(yīng)用。在數(shù)據(jù)中心獲得大規(guī)模應(yīng)用的 NPU 案例即 TPU，已被谷歌用于構(gòu)建數(shù)據(jù)中心的超級計(jì)算機(jī)，執(zhí)行特定神經(jīng)網(wǎng)絡(luò)的訓(xùn)練任務(wù)。在用戶端，手機(jī)、汽車、智能安防攝像頭等設(shè)備開始搭載 AI 計(jì)算功能，通常是利用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型執(zhí)行圖像處理等工作，此時 NPU 通用性差的劣勢被縮小，高算力、高能耗比的優(yōu)勢被放大，因而得到了廣泛的應(yīng)用。在終端設(shè)備中，NPU 常以模塊的形式包含在 SoC 內(nèi)部，對 AI 運(yùn)算進(jìn)行加速，例如特斯拉自動駕駛芯片 FSD 均包含 NPU。

模型訓(xùn)練需要規(guī)模化的算力芯片部署于智能服務(wù)器，CPU 不可或缺，但性能提升遭遇瓶頸，CPU+xPU 異構(gòu)方案成為大算力場景標(biāo)配。其中 GPU 并行計(jì)算優(yōu)勢明顯，CPU+GPU 成為目前最流行的異構(gòu)計(jì)算系統(tǒng)，而NPU 在特定場景下的性能、效率優(yōu)勢明顯，推理端應(yīng)用潛力巨大，隨著大模型多模態(tài)發(fā)展，硬件需求有望從GPU 擴(kuò)展至周邊編解碼硬件。AI 加速芯片市場上，英偉達(dá)憑借其硬件產(chǎn)品性能的先進(jìn)性和生態(tài)構(gòu)建的完善性處于市場領(lǐng)導(dǎo)地位，在訓(xùn)練、推理端均占據(jù)領(lǐng)先地位。根據(jù) Liftr Insights 數(shù)據(jù)，2022 年數(shù)據(jù)中心AI 加速市場中，英偉達(dá)份額達(dá)82%。

編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

cpu

cpu

+關(guān)注

關(guān)注
68

文章
11080

瀏覽量
217065
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4946

瀏覽量
131231
AI芯片

AI芯片

+關(guān)注

關(guān)注
17

文章
1983

瀏覽量
35910
xpu

xpu

+關(guān)注

關(guān)注
0

文章
12

瀏覽量
8102

原文標(biāo)題：AI芯片第二極：xPU性能、技術(shù)全方位分析

文章出處：【微信號：AI_Architect，微信公眾號：智能計(jì)算芯世界】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

CPU+xPU的異構(gòu)方案解析 cpu和gpu有啥區(qū)別

評論