Arm 為在各類技術(shù)領(lǐng)域運(yùn)行無(wú)處不在的人工智能 (AI) 奠定了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。這得益于我們行業(yè)領(lǐng)先的架構(gòu)可在全球數(shù)十億臺(tái)多樣化設(shè)備上支持各種計(jì)算工作負(fù)載。
Arm 始終專注于快速地進(jìn)行架構(gòu)演進(jìn),確保我們領(lǐng)先的生態(tài)系統(tǒng)能夠適應(yīng)未來(lái)的技術(shù)趨勢(shì)和不斷變化的計(jì)算需求。雖然 AI 的迅猛崛起似乎是最近才出現(xiàn)的現(xiàn)象,但過(guò)去二十多年來(lái),Arm 一直致力于為 AI 創(chuàng)新奠定基礎(chǔ),先是在 Armv7 架構(gòu)中引入了高級(jí)單指令多數(shù)據(jù) (SIMD) 擴(kuò)展,初探機(jī)器學(xué)習(xí) (ML) 工作負(fù)載,再是如今的 Armv9 架構(gòu),我們?cè)?Arm CPU 上集成了用于加速和保護(hù)如大語(yǔ)言模型 (LLM) 等先進(jìn)的生成式 AI 工作負(fù)載的特性。
可伸縮矩陣擴(kuò)展 (SME) 就是其中的一項(xiàng)創(chuàng)新特性,旨在滿足當(dāng)今 AI 和 ML 工作負(fù)載日益增長(zhǎng)的復(fù)雜性和功耗需求。除了加速當(dāng)今的 AI 發(fā)展之外,SME 還為 Arm 架構(gòu)提供了靈活性,便于管理不斷發(fā)展的生成式 AI 工作負(fù)載。
可伸縮矩陣擴(kuò)展及其特性
SME 是 Armv9-A 架構(gòu)中引入的指令集架構(gòu) (ISA) 擴(kuò)展,可加速 AI 和 ML 工作負(fù)載,并為 Arm CPU 上運(yùn)行的 AI 和 ML 應(yīng)用提供更高的性能、能效和靈活性。具體而言是通過(guò)以下特性實(shí)現(xiàn)的:
顯著提升 Arm CPU 上的矩陣和矢量處理吞吐量和效率;
通過(guò)引入外積指令,減少內(nèi)存帶寬壓力,盡可能地復(fù)用寄存器中加載的數(shù)據(jù);
擴(kuò)展壓縮用戶數(shù)據(jù),在不增加內(nèi)存負(fù)載帶寬的情況下提高輸入元素的吞吐量;
支持多種存儲(chǔ)和計(jì)算數(shù)據(jù)類型,使其成為適用于當(dāng)前和未來(lái)多種用例的靈活解決方案;
允許在實(shí)現(xiàn)中選擇介于 128 至 2048 位的 Streaming Vector Length (SVL),從而實(shí)現(xiàn) SVL^2 的矩陣-矩陣乘法吞吐量。
SME2 在 SME 的基礎(chǔ)上增加了多矢量指令,允許在矩陣和矢量運(yùn)算中復(fù)用架構(gòu)狀態(tài) (ZA Array),并具有更高吞吐量的矢量處理能力。這有助于通過(guò)壓縮 AI 格式來(lái)減少內(nèi)存帶寬并節(jié)省功耗,從而實(shí)現(xiàn)矢量和矩陣加速的平衡。SME2 還能夠靈活地動(dòng)態(tài)去量化,并解壓縮 2 位和 4 位權(quán)重,以節(jié)省內(nèi)存帶寬。在生成式 AI 工作負(fù)載日益復(fù)雜和耗電加劇的背景下,這些特性非常重要,同時(shí)也彰顯了 Arm 致力于應(yīng)對(duì) AI 無(wú)止盡的能源需求。
SME 和 SME2 的關(guān)鍵用例
SME 可加速如生成式 AI 和經(jīng)典 ML 網(wǎng)絡(luò),以及計(jì)算機(jī)視覺(jué) (CV) 等各種類型的 AI 和 ML 工作負(fù)載。具體的實(shí)現(xiàn)途徑是 SME 能夠處理矩陣乘矩陣、矩陣乘矢量和多個(gè)矢量乘矢量運(yùn)算,以及 ML 執(zhí)行過(guò)程中所需的前處理和后處理階段。我們預(yù)計(jì),SME 將有益于不同市場(chǎng)的各種 AI 用例,包括:
結(jié)合了 ML 和經(jīng)典 CV/DSP 方法的應(yīng)用,例如電影攝影、媒體處理、駕駛員監(jiān)控、數(shù)字化座艙、音頻處理、先進(jìn)駕駛輔助系統(tǒng) (ADAS) L2+ 和實(shí)時(shí)語(yǔ)音助手等。
利用小語(yǔ)言模型和 LLM 的用例,包括聊天機(jī)器人、對(duì)話摘要和虛擬助手等。
矢量處理、矩陣處理和量化
要了解 SME 的工作原理,有必要解釋一下它所支持的不同 AI 處理技術(shù),以及 SME 和 Armv9 架構(gòu)為每種技術(shù)帶來(lái)的好處。其中包括:
矢量處理
矩陣處理
矩陣乘法
量化
矢量處理
在 AI 和 ML 語(yǔ)境中,矢量代表數(shù)值和數(shù)據(jù)點(diǎn)的一維數(shù)組,通常用于對(duì)神經(jīng)網(wǎng)絡(luò)中的特征、輸入或權(quán)重進(jìn)行編碼。矢量處理常用于現(xiàn)代 AI 框架和庫(kù),例如 TensorFlow 和 PyTorch 等。利用此方法,AI 算法可以高效應(yīng)對(duì)復(fù)雜計(jì)算,更快地處理大型數(shù)據(jù)集,從而縮短訓(xùn)練時(shí)間,提高性能。SME 包含矢量指令,可并行計(jì)算多個(gè)值,而不是按順序處理每個(gè)值,從多方面大大加快了 AI 計(jì)算。
矩陣處理
矩陣是數(shù)值和數(shù)據(jù)點(diǎn)的二維數(shù)組,在包括 ML 和深度學(xué)習(xí)在內(nèi)的各種 AI 技術(shù)中發(fā)揮著至關(guān)重要的作用。通過(guò) SME 進(jìn)行矩陣處理需要對(duì)這些矩陣進(jìn)行運(yùn)算,以提高基于 AI 的核心工作負(fù)載的性能和效率,包括線性代數(shù)運(yùn)算(如矩陣乘法)和神經(jīng)網(wǎng)絡(luò)。
矩陣乘法
矩陣乘法是 AI 和 ML 工作負(fù)載以及科學(xué)模擬和計(jì)算機(jī)視覺(jué)等其他計(jì)算工作負(fù)載的重要組成部分。矩陣-矩陣乘法運(yùn)算對(duì) CPU 上的 AI 加速越來(lái)越重要,并顯著受益于 SME。Arm 架構(gòu)隨時(shí)間推移不斷演進(jìn),通過(guò)引入新特性提高了這些運(yùn)算的性能和效率。例如:
Armv7 增加了高級(jí) SIMD 擴(kuò)展,也稱為 Arm Neon 指令。
Armv8.4-A 支持 8 位整數(shù)點(diǎn)積指令。
Armv8.6-A 支持各種數(shù)據(jù)類型的矢量?jī)?nèi)整數(shù)和浮點(diǎn)矩陣乘法指令,包括新的 BFloat16 數(shù)據(jù)類型。
Armv9-A 包括可伸縮矢量擴(kuò)展 2 (SVE2),用于數(shù)字信號(hào)處理器 (DSP)、媒體和通用矢量化。
Armv9.2-A 引入了 SME。
量化
量化涉及降低數(shù)值的精度,通常是從浮點(diǎn)表示法轉(zhuǎn)換為定點(diǎn)表示法。SME 使用該過(guò)程來(lái)減少 AI 和 ML 模型的內(nèi)存帶寬、占用空間以及計(jì)算復(fù)雜性,進(jìn)而提高其效率,這對(duì)計(jì)算密集型生成式 AI 工作負(fù)載非常重要。這意味著它們可以部署在資源受限的設(shè)備上,如智能手機(jī)、移動(dòng)設(shè)備、嵌入式系統(tǒng)和物聯(lián)網(wǎng)設(shè)備等。
Arm 架構(gòu)長(zhǎng)期致力支持 AI 特性
過(guò)去二十年來(lái),Arm 一直致力于在架構(gòu)上添加 AI 特性、規(guī)范和指令。2003 年首次發(fā)布的 Armv7 架構(gòu)增加了高級(jí) SIMD 擴(kuò)展,也稱為 Arm Neon 指令。Neon 將寄存器視為由相同數(shù)據(jù)類型的元素組成的一維矢量,指令可同時(shí)對(duì)多個(gè)元素進(jìn)行操作。隨后 Armv8 架構(gòu)增加了一系列 AI 的規(guī)范和指令,包括點(diǎn)積指令、矢量?jī)?nèi)矩陣乘法指令和 BFloat16 支持。它還改進(jìn)了高級(jí) SIMD 擴(kuò)展,將矢量寄存器的數(shù)量增加了一倍,并增加了浮點(diǎn)支持。所有這些改進(jìn)和新增特性的目的都是用于加速 AI 和 ML 性能,以應(yīng)對(duì)不斷發(fā)展的 AI 工作負(fù)載。除了 SVE2、SME 和新的 SME2 之外,Armv9 架構(gòu)還集成包含了所有這些特性、規(guī)范和指令。
SME 的核心優(yōu)勢(shì)
Armv9 架構(gòu)上的 SME 顯著提高了 Arm CPU 對(duì)現(xiàn)有 AI 和 ML 工作負(fù)載的處理能力,從而在各種 AI 驅(qū)動(dòng)的設(shè)備和應(yīng)用中帶來(lái)速度更快、響應(yīng)更靈敏的用戶體驗(yàn)。它還能加速一系列使用矩陣運(yùn)算的應(yīng)用,如 DSP、科學(xué)計(jì)算、增強(qiáng)現(xiàn)實(shí) (AR)、虛擬現(xiàn)實(shí) (VR) 和圖像處理等等,AI 和 ML 在所有這些應(yīng)用中都扮演著日益重要的角色。
與能夠以多種不同數(shù)據(jù)格式運(yùn)行各種神經(jīng)網(wǎng)絡(luò)的 Arm CPU 類似,SME 也提供了靈活性,旨在滿足不斷發(fā)展的 AI 和 ML 工作負(fù)載日益復(fù)雜的要求。這將確保 Arm 架構(gòu)在快速發(fā)展的 AI 時(shí)代及未來(lái)仍適用于至關(guān)重要的計(jì)算工作負(fù)載。展望未來(lái),我們將繼續(xù)在指令集中添加更多 AI 功能,以助益 Arm 領(lǐng)先的生態(tài)系統(tǒng),讓我們的合作伙伴能夠?yàn)槠?AI 解決方案提供更高的性能、創(chuàng)新特性和可擴(kuò)展性。
基于 AI 的 Arm 架構(gòu)創(chuàng)新
SME 體現(xiàn)了 Arm 在架構(gòu)方面的不斷創(chuàng)新。隨著 AI 的不斷發(fā)展壯大,SME 將確保 Arm CPU 能夠高效地處理新的高能耗生成式 AI 工作負(fù)載,從而在數(shù)十億臺(tái) Arm 技術(shù)驅(qū)動(dòng)的設(shè)備上提供更好的 AI 體驗(yàn)。這將夯實(shí) Arm 持續(xù)作為全球 AI 基石的地位。
-
ARM
+關(guān)注
關(guān)注
134文章
9349瀏覽量
377329 -
cpu
+關(guān)注
關(guān)注
68文章
11075瀏覽量
216981 -
AI
+關(guān)注
關(guān)注
88文章
35069瀏覽量
279401 -
SME
+關(guān)注
關(guān)注
0文章
9瀏覽量
7190
原文標(biāo)題:Armv9 SME 賦能 AI 創(chuàng)新
文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
Arm下一代指令架構(gòu)“Armv9”已經(jīng)問(wèn)世
十年來(lái)最大技術(shù)革新!Arm發(fā)布Armv9架構(gòu)!不受美國(guó)EAR約束,華為可獲授權(quán)!
安謀科技:十年磨一劍的Armv9架構(gòu),下半年將有終端面市
基于ARMv7架構(gòu)的Cortex系列
在armv8架構(gòu)中Arch32切換到Arch64是如何運(yùn)作的
淺析Armv9-A構(gòu)架上的可伸縮矩陣擴(kuò)展(SME)
重磅!Arm正式推出Armv9架構(gòu)

淺談ARM發(fā)布Armv9的三大改進(jìn)
Arm公司正式發(fā)布了該公司的新一代Armv9架構(gòu)的首個(gè)細(xì)節(jié)

淺談Armv9的三個(gè)技術(shù)特性及引發(fā)的市場(chǎng)競(jìng)爭(zhēng)力
ARMv9架構(gòu)能否解決中國(guó)“缺芯”之急?
Arm推出三款基于Armv9架構(gòu)的全新CPU內(nèi)核
Armv8架構(gòu)和Armv9架構(gòu)的區(qū)別分析
移動(dòng)端芯片性能提升,Armv9架構(gòu)新升級(jí)引發(fā)關(guān)注
Armv9 CPU中SVE2的實(shí)際用例

評(píng)論