電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)當(dāng)下,快速發(fā)展的 AI 正不斷賦予邊緣設(shè)備越來越先進(jìn)的智能性,使邊緣設(shè)備勝任越來越重要的任務(wù)。為應(yīng)對邊緣側(cè)持續(xù)增長的 AI 需求,Arm 近日發(fā)布以全新基于 Armv9 架構(gòu)的超高能效 CPU——Arm Cortex-A320 以及對 Transformer 網(wǎng)絡(luò)具有原生支持的 Ethos-U85 AI 加速器為核心的邊緣AI 計(jì)算平臺,可支持運(yùn)行超 10 億參數(shù)的端側(cè) AI 模型。
全新超高能效 Arm Cortex-A320 CPU 引領(lǐng)邊緣 AI 變革
據(jù) Arm 物聯(lián)網(wǎng)事業(yè)部業(yè)務(wù)拓展副總裁馬健分享,此次全新推出的 Cortex-A320 是 Arm 首個(gè)基于 Armv9 架構(gòu)的超高能效 CPU,為物聯(lián)網(wǎng)應(yīng)用專門優(yōu)化,將徹底變革邊緣 AI。在ML性能方面,Cortex-A320 相較于前代超高能效 CPU (Cortex-A35) 提升了高達(dá) 10 倍的 ML 計(jì)算能力。其能效較 Cortex-A520(Arm 的高能效 Armv9.2 CPU)提升了 50%,進(jìn)一步降低了功耗。在標(biāo)量計(jì)算性能方面,Cortex-A320 的性能比前代 Cortex-A35 提高了 30%,帶來了更強(qiáng)的通用計(jì)算能力。
馬健指出,隨著對支持更大規(guī)模、多模態(tài) AI 模型的硬件需求不斷增長,系統(tǒng)的內(nèi)存需求也在迅速提升。因此,具備更高內(nèi)存訪問性能的系統(tǒng)變得尤為必要,以滿足更復(fù)雜的應(yīng)用場景。相比 Cortex-M,Cortex-A 處理器支持更大的可尋址內(nèi)存空間,并能夠更靈活地管理多層次內(nèi)存訪問延遲。
同時(shí),隨著邊緣 AI 負(fù)載變得越來越復(fù)雜,對更強(qiáng)大、更靈活的操作系統(tǒng)進(jìn)行系統(tǒng)管理的需求也在增加。而傳統(tǒng)的 Cortex-M 一般只能跑實(shí)時(shí)操作系統(tǒng),但功能豐富的操作系統(tǒng)可以使得設(shè)備管理更加靈活。
Cortex-A320 具備支持多種操作系統(tǒng)的能力,無論是如 FreeRTOS 和 Zephyr 的實(shí)時(shí)操作系統(tǒng) (RTOS),還是如 Linux 和 Android 的功能豐富的操作系統(tǒng),都能提供高效支持。與此同時(shí),憑借 Arm的 A處理器架構(gòu)優(yōu)勢,Cortex-A320 可開箱即用地支持 Linux,并且能夠輕松移植安卓及其他現(xiàn)有的功能豐富的操作系統(tǒng)。此外,Cortex-A320 最高可支持四核共享集群,可根據(jù)不同需求靈活擴(kuò)展,滿足各種應(yīng)用場景的需求。
Cortex-A320 還為現(xiàn)有的物聯(lián)網(wǎng)領(lǐng)域的 Cortex-A 產(chǎn)品提供了靈活的升級路徑。無論是從 Cortex-A35 遷移,還是從全球出貨量最高的基于 Armv8 架構(gòu)的 Cortex-A 處理器 Cortex-A53 升級,Cortex-A320 都提供了理想的 Armv9 遷移方案,并帶來了眾多優(yōu)勢,包括更先進(jìn)的安全性、廣泛的 Armv9 軟件生態(tài)的支持,以及更高的計(jì)算性能。
此外,隨著邊緣應(yīng)用場景日趨復(fù)雜,以及設(shè)備端軟件及數(shù)據(jù)價(jià)值日益凸顯,安全性問題比以往任何時(shí)候都更為關(guān)鍵,Cortex-A320 充分利用了 Armv9 增強(qiáng)的安全性和AI 計(jì)算特性。在安全性方面,Secure EL2 增強(qiáng)了 TrustZone 內(nèi)部的隔離性,支持更安全地運(yùn)行軟件容器。指針驗(yàn)證/分支目標(biāo)識別 (PACBTI)可有效緩解跳轉(zhuǎn)和返回編程中的指針安全隱患。內(nèi)存標(biāo)記擴(kuò)展 (MTE)通過內(nèi)存標(biāo)記機(jī)制,使黑客更難利用漏洞進(jìn)行攻擊,提高整體系統(tǒng)安全性。
AI 計(jì)算能力增強(qiáng)方面,Armv9 具有增強(qiáng)的 Neon 和可伸縮向量擴(kuò)展 (SVE2) 技術(shù),提供更高效的 ML 計(jì)算能力。其還支持例如 BFloat16 等新數(shù)據(jù)類型,提高 AI 計(jì)算的精度和能效。不僅如此,新增的矩陣乘法指令能夠優(yōu)化 AI 和 ML 計(jì)算性能,加速神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練任務(wù)。
Cortex-A320 與 Ethos-U85 深度配合,相得益彰
Arm Cortex-A320 CPU 和 Ethos-U85 NPU 是此次發(fā)布的邊緣 AI 計(jì)算平臺的兩大核心。該平臺具備強(qiáng)大的計(jì)算能力,比去年的基于 Cortex-M85 搭配 Ethos-U85 的平臺提升了8倍的 ML 計(jì)算性能,帶來了顯著的 AI 計(jì)算能力突破。
該邊緣 AI 計(jì)算平臺并不是 CPU 和 AI 加速器的簡單堆疊,而是實(shí)現(xiàn)了深度配合,讓 CPU 和 NPU 相得益彰。馬健指出,去年 Arm 推出的集成了 Cortex-M85 和 Ethos-U85 的 Arm Corstone 物聯(lián)網(wǎng)參考設(shè)計(jì)平臺,顯著提升了端側(cè) Transformer 網(wǎng)絡(luò)的執(zhí)行效率。隨著此次邊緣 AI 計(jì)算平臺的發(fā)布,Ethos-U85 驅(qū)動程序已經(jīng)完成更新,使得 Cortex-A320 能夠直接驅(qū)動 Ethos-U85,無需額外搭載 Cortex-M。
Cortex-A320 可以為 Ethos-U85 提供更高的內(nèi)存容量與帶寬,讓大模型在 Ethos-U85 上的執(zhí)行如虎添翼;任何開發(fā)者們不希望在 Ethos-U85 上運(yùn)行的 AI 操作,可以回退到 Cortex-A320,利用其 Neon/SVE2 引擎更靈活有效地在 CPU 上執(zhí)行。例如,在連續(xù)圖像檢測任務(wù)中,通常會優(yōu)先在 AI 加速器上運(yùn)行,以提高能效。而對于單張圖像的處理,在 CPU 上執(zhí)行可能更高效。這使智能物聯(lián)網(wǎng)與消費(fèi)類電子生態(tài)系統(tǒng)能夠在正確的時(shí)間,并在合適的地方運(yùn)行最適合的工作負(fù)載。
將 Arm Kleidi 擴(kuò)展到物聯(lián)網(wǎng)
邊緣 AI 普及面臨的最主要障礙之一是軟件開發(fā)和部署的復(fù)雜性,這正是 Armv9 邊緣 AI 計(jì)算平臺軟件生態(tài)系統(tǒng)發(fā)揮優(yōu)勢的關(guān)鍵所在。去年,Arm 推出了 Kleidi 軟件庫,并將其引入了智能手機(jī)和服務(wù)器市場,它包含優(yōu)化 AI 負(fù)載在 Arm CPU 上執(zhí)行的 KleidiAI 和加速機(jī)器視覺的 KleidiCV。如今,Arm 將 Kleidi 擴(kuò)展到了物聯(lián)網(wǎng)領(lǐng)域,以加速 AI 性能表現(xiàn)。
KleidiAI 是一套專為 AI 框架開發(fā)者設(shè)計(jì)的計(jì)算內(nèi)核,讓開發(fā)者可以無縫地在 Arm CPU 上獲取最佳性能,適用于各類設(shè)備。它支持如 Neon 和 SVE2 等 Armv9 架構(gòu)的關(guān)鍵特性,大幅提升了 AI 的計(jì)算效率。此外,KleidiAI 已經(jīng)集成到多個(gè)主流 AI 框架,包括 Llama.cpp、ExecuTorch 和 LiteRT(通過 XNNPACK)它可以加速 Meta Llama 3 和 Phi-3 等主流AI 大模型,進(jìn)一步釋放 AI 計(jì)算性能。
更好地支持 Deepseek 等深度模型優(yōu)化
談及對AI推理應(yīng)用模型的支持,馬健表示:“在百模爭霸的時(shí)代,模型的架構(gòu)還在不斷地改變,一些新的數(shù)據(jù)可以讓模型變得更聰明或者有一些推理功能。深度的優(yōu)化也已經(jīng)開始熱火朝天地進(jìn)行起來了,DeepSeek 就是個(gè)非常好的例子。Deepseek 的 R1 模型已達(dá)到了 15 億參數(shù),跑在 Arm 全新的邊緣 AI 計(jì)算平臺上,理論上是綽綽有余的?!?br />
此外,馬健還表示,模型的大小有時(shí)候并不與 AI 加速器的 TOPS 直接相關(guān),而是更多受到內(nèi)存帶寬和內(nèi)存容量的限制。Arm 有一系列的 Cortex-A 處理器,從超高的性能到超高的能效。這一系列處理器可以有不同的內(nèi)存配置。不同的內(nèi)存配置可以適配不同大小的參數(shù)規(guī)模。
在AI時(shí)代,最重要的是更加貼近市場和應(yīng)用,從整體上來思考產(chǎn)業(yè)發(fā)展的趨勢和需求。Arm Cortex CPU 選擇豐富,能夠全面滿足邊緣 AI 應(yīng)用場景的需求,比如 Cortex-X925 適用于非常高端的機(jī)器人領(lǐng)域,而Cortex- A320用在對能效有極致追求的邊緣應(yīng)用。此外,NPU 方面在不久的未來也將會有AI新產(chǎn)品加入。
由此可以看到,Arm 早已在邊緣側(cè)進(jìn)行了前瞻性布局。此次發(fā)布的 Arm 邊緣 AI 計(jì)算平臺能高效執(zhí)行復(fù)雜的 AI 任務(wù),同時(shí)保證系統(tǒng)的安全性、可靠性和數(shù)據(jù)完整性。在 AI 推理時(shí)代,Arm 將繼續(xù)引領(lǐng)行業(yè)發(fā)展。
-
ARM
+關(guān)注
關(guān)注
134文章
9270瀏覽量
373501
發(fā)布評論請先 登錄
相關(guān)推薦
Nordic nRF54 系列芯片:開啟 AI 與物聯(lián)網(wǎng)新時(shí)代?
Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計(jì)算與嵌入式開發(fā)
搶先試用此芯Armv9 AI PC開發(fā)套件瑞莎“星睿O6”

Arm Cortex-A320 CPU助力嵌入式設(shè)備實(shí)現(xiàn)高能效AI計(jì)算

詳解Arm Cortex-A320 CPU的特性
Arm發(fā)布基于Armv9架構(gòu)的Cortex-A320處理器
Arm推出全球首個(gè)Armv9邊緣AI計(jì)算平臺
當(dāng)我問DeepSeek AI爆發(fā)時(shí)代的FPGA是否重要?答案是......
AI賦能邊緣網(wǎng)關(guān):開啟智能時(shí)代的新藍(lán)海
研華AI Agent引領(lǐng)工業(yè)物聯(lián)網(wǎng)應(yīng)用革新
Arm平臺引領(lǐng)AI云計(jì)算革新
基于Armv9架構(gòu)的MediaTek天璣8400移動芯片問世
研華科技邊緣AI平臺榮獲2024年IoT邊緣計(jì)算卓越獎
Arm推出AI優(yōu)化的Arm終端CSS以及新的Arm Kleidi軟件

評論