一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Arm Helium技術(shù)誕生的由來 為何不直接采用Neon?

瑞薩MCU小百科 ? 來源:Arm社區(qū) ? 2024-02-29 17:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

經(jīng)過 Arm 研究團(tuán)隊多年的不懈努力,Arm 于 2019 年推出了適用于 Armv8?M 架構(gòu)的 Arm Cortex-M 矢量擴(kuò)展技術(shù) (MVE)——Arm Helium 技術(shù)。起初,當(dāng)我們面臨 Cortex?M 處理器數(shù)字信號處理 (DSP) 性能亟待提升的需求時,我們首先想到的是采用現(xiàn)有的 Neon 技術(shù)。

然而,面對典型的 Cortex?M 應(yīng)用的面積限制條件下又需要支持多個性能的需求,意味著我們?nèi)孕鑿念^開始。作為一種較輕的惰性氣體,以氦氣 (Helium) 作為研究項目的名稱似乎再合適不過了。該研究項目主要針對中端處理器,旨在實(shí)現(xiàn)數(shù)據(jù)路徑寬度增加兩倍的情況下將性能提高四倍,而這正與氦氣的原子量 (4) 和原子序數(shù) (2) 不謀而合。

最終,在許多數(shù)字信號處理 (DSP) 和機(jī)器學(xué)習(xí) (ML) 內(nèi)核上,我們成功地實(shí)現(xiàn)了提升四倍的目標(biāo)。毋庸置疑,“Helium” 已經(jīng)深入人心,成為 Cortex-M 處理器系列 MVE 的品牌名。

要想打造具備良好 DSP 性能的處理器,主要關(guān)鍵在于可為其提供足夠的數(shù)據(jù)處理帶寬。在 Cortex?A 處理器上,128 位 Neon 負(fù)載可以輕松地從數(shù)據(jù)緩存中直接提取。

但是,Cortex?M 處理器通常沒有緩存,而是使用低延遲靜態(tài)隨機(jī)存取存儲器 (SRAM) 作為主內(nèi)存。對于許多系統(tǒng)來說,無法將 SRAM 路徑(通常只有 32 位)拓寬到 128 位,因此導(dǎo)致面臨內(nèi)存操作停滯長達(dá)四個周期的可能性。同樣,乘加 (MAC) 指令中使用的乘法器需要很大的面積,在小型 Cortex?M 處理器上使用四個 32 位乘法器是不切實(shí)際的。

就面積限制層面而言,最小的 Cortex-M 處理器與能夠亂序執(zhí)行指令且功能強(qiáng)大的 Cortex?A 處理器的大小可能相差幾個數(shù)量級。因此,在創(chuàng)建 M 系列架構(gòu)時,我們必須認(rèn)真考慮充分利用每一個 gate。

為了充分利用現(xiàn)有硬件,我們需要確保高成本資源(如通往內(nèi)存的連接和乘法器)在每個周期都保持同時繁忙的狀態(tài)。在高性能處理器(如 Cortex?M7)上,可以通過矢量 MAC 雙發(fā)射來達(dá)成這一目標(biāo)。

此外,還有一個重要的目標(biāo),即在一系列不同的產(chǎn)品上提高 DSP 性能,而不僅局限于高端產(chǎn)品上。想要解決以上這些問題,需要借鑒參考幾十年前的矢量鏈理念中的一些技術(shù)。

44d96f8c-d6ba-11ee-a297-92fbcf53809c.png

上圖顯示了在四個時鐘周期內(nèi)交替執(zhí)行的矢量負(fù)載 (VLDR) 和矢量 MAC (VMLA) 指令序列。這需要 128 位寬的內(nèi)存帶寬和四個 MAC 塊,并且它們有一半時間處于空閑狀態(tài)??梢钥吹?,每條 128 位寬的指令被分成大小相等的四個片段,MVE 架構(gòu)稱之為“節(jié)拍”(標(biāo)為 A 至 D)。無論元素大小如何,這些節(jié)拍始終是 32 位計算值,因此一個節(jié)拍可以包含一個 32 位 MAC,或四個 8 位 MAC。由于負(fù)載和 MAC 硬件是分開的,這些節(jié)拍的執(zhí)行可以重疊,如下圖所示。

44eae46a-d6ba-11ee-a297-92fbcf53809c.png

即使 VLDR 加載的值被隨后的 VMLA 使用,指令仍可以重疊。這是因為 VMLA 的節(jié)拍 A 只依賴于上一個周期發(fā)生的 VLDR 的節(jié)拍 A,因此節(jié)拍 A 和 B 與節(jié)拍 C 和 D 便會自然重疊。在這個例子中,我們可以獲得與 128 位數(shù)據(jù)帶寬處理器相同的性能,但硬件數(shù)量只有后者的一半。“節(jié)拍式”執(zhí)行的概念可以高效地實(shí)施多個性能點(diǎn)。例如,下圖顯示了只有 32 位數(shù)據(jù)帶寬的處理器如何處理相同的指令。這一點(diǎn)充滿吸引力,因為它能使單發(fā)射標(biāo)量處理器的性能翻倍(在八個周期內(nèi)對八個 32 位值加載和執(zhí)行 MAC),但卻沒有雙發(fā)射標(biāo)量指令那樣的面積和功耗需求。

44fdfff0-d6ba-11ee-a297-92fbcf53809c.png

MVE 支持?jǐn)U展到每周期四拍的實(shí)現(xiàn)方式,此時節(jié)拍式執(zhí)行將簡化為更傳統(tǒng)的 SIMD 方法。這有助于在高性能處理器上保持可控的實(shí)現(xiàn)復(fù)雜度。

節(jié)拍式執(zhí)行聽起來很不錯,但也會給架構(gòu)的其他部分帶來一些值得關(guān)注的挑戰(zhàn)。

由于多條部分執(zhí)行的指令可以同時運(yùn)行,因此中斷和故障處理可能會變得相當(dāng)復(fù)雜。例如,如果上圖中 VLDR 的節(jié)拍 D 出現(xiàn)故障,通常情況下,實(shí)施必須回滾 VMLA 的節(jié)拍 A 在上一周期對寄存器文件的寫入。我們的理念是讓每個 gate 都物盡其用,而在回滾的情況下緩沖舊數(shù)據(jù)值與這一理念相悖。

為了避免這種情況,處理器會針對異常情況存儲一個特殊的 ECI 值,用于指示已經(jīng)執(zhí)行了后續(xù)指令的哪些節(jié)拍。在異常返回時,處理器便以此來確定要跳過哪些節(jié)拍。能夠快速跳出指令而無需回滾或等待指令完成,基于此保持 Cortex-M 具備的快速和確定性中斷處理能力。

如果指令會跨越節(jié)拍邊界,我們又會遇到時間跨越問題。這種交叉行為通常出現(xiàn)在拓寬/縮窄運(yùn)算中。Neon 架構(gòu)中的 VMLAL 指令就是一個典型的例子,它可以將 32 位值矢量乘加到 64 位累加器中。遺憾的是,為了保持乘法器輸出的完整范圍,通常需要進(jìn)行這類拓寬運(yùn)算。MVE 使用通用的 “R” 寄存器文件來處理累加器,從而解決了這一問題。

此外,這樣還減少了對矢量寄存器的寄存壓力,使 MVE 只需使用 Neon 架構(gòu)中一半的矢量寄存器就能獲得良好的性能。在矢量架構(gòu)中,通常不會像 MVE 一樣廣泛使用通用的寄存器文件,因為寄存器文件往往與矢量單元相距甚遠(yuǎn)。在亂序執(zhí)行指令的高性能處理器上尤為如此,因為物理距離過大會限制性能。不過,正因如此,我們恰恰能夠?qū)⒌湫?Cortex?M 處理器的較小規(guī)模特性轉(zhuǎn)化為我們的優(yōu)勢。

為確保重疊執(zhí)行達(dá)到良好的平衡且無停滯,每條指令都應(yīng)嚴(yán)格描述 128 位的工作,不能多也不能少。由此也會帶來一些挑戰(zhàn)。

憑借研究員們辛勤不懈的努力,以及充分參考架構(gòu)書籍中所涉的所有內(nèi)容,MVE 成功地將一些非??量痰墓摹⒚娣e和中斷延遲限制轉(zhuǎn)化為優(yōu)勢。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19899

    瀏覽量

    235441
  • 寄存器
    +關(guān)注

    關(guān)注

    31

    文章

    5435

    瀏覽量

    124610
  • sram
    +關(guān)注

    關(guān)注

    6

    文章

    786

    瀏覽量

    116004
  • 數(shù)字信號處理
    +關(guān)注

    關(guān)注

    16

    文章

    567

    瀏覽量

    46764
  • 乘法器
    +關(guān)注

    關(guān)注

    9

    文章

    212

    瀏覽量

    37979

原文標(biāo)題:Helium技術(shù)講堂 | 為何不直接采用Neon?

文章出處:【微信號:瑞薩MCU小百科,微信公眾號:瑞薩MCU小百科】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    智能時代的“導(dǎo)航大腦”:組合導(dǎo)航技術(shù)為何不可或缺?

    當(dāng)自動駕駛精準(zhǔn)停入暴雨中的車位,無人機(jī)穿越城市峽谷鎖定目標(biāo),AUV在無衛(wèi)星信號的海底保持航向——這些場景的背后,是組合導(dǎo)航技術(shù)在默默支撐。它融合衛(wèi)星、慣性等多源數(shù)據(jù),重新定義了人類對時空的掌控力。但為何它能在眾多導(dǎo)航方案中脫穎而出?
    的頭像 發(fā)表于 07-11 16:21 ?129次閱讀
    智能時代的“導(dǎo)航大腦”:組合導(dǎo)航<b class='flag-5'>技術(shù)</b><b class='flag-5'>為何不</b>可或缺?

    在IAR Embedded Workbench for Arm中使用Arm Cortex-R52 NEON

    隨著嵌入式系統(tǒng)變得越來越智能,對嵌入式處理器的要求也越來越高。為了更好應(yīng)對汽車、醫(yī)療和工業(yè)機(jī)器人等領(lǐng)域?qū)η度胧教幚砥鞯囊螅?b class='flag-5'>Arm推出了采用Armv8-R架構(gòu)的Cortex-R52。Cortex-R52相對之前的處理器引入了很多新的特性,其中一個就是
    的頭像 發(fā)表于 06-05 09:57 ?870次閱讀
    在IAR Embedded Workbench for <b class='flag-5'>Arm</b>中使用<b class='flag-5'>Arm</b> Cortex-R52 <b class='flag-5'>NEON</b>

    RA8T1基于480MHz Arm Cortex-M85、搭載Helium和TrustZone的電機(jī)控制微控制器技術(shù)手冊

    RA8T1 系列 32 位微控制器 (MCU) 基于高達(dá) 480MHz 的 Arm^?^ Cortex-M85^?^ 內(nèi)核,采用 Helium? 技術(shù)和 TrustZone ^?^ ,
    的頭像 發(fā)表于 05-15 17:17 ?322次閱讀
    RA8T1基于480MHz <b class='flag-5'>Arm</b> Cortex-M85、搭載<b class='flag-5'>Helium</b>和TrustZone的電機(jī)控制微控制器<b class='flag-5'>技術(shù)</b>手冊

    激光雷達(dá)在自動駕駛中為何不可替代?

    109.6%。在很多車企不斷追求純視覺的當(dāng)下,為何激光雷達(dá)的銷量反而“逆勢”增長?激光雷達(dá)在自動駕駛中為何不可替代? 其實(shí)環(huán)境感知作為自動駕駛的“元感官”,在保證車輛安全、提高決策效率方面發(fā)揮著至關(guān)重要的作用。而在眾多感知手段中,LiDAR以其精準(zhǔn)的距離測
    的頭像 發(fā)表于 05-11 09:15 ?327次閱讀
    激光雷達(dá)在自動駕駛中<b class='flag-5'>為何不</b>可替代?

    AI MCU# 瑞薩RA8T1搭載 Helium 和 TrustZone 的電機(jī)控制MCU 詳細(xì)介紹

    ?-M85內(nèi)核,采用Helium? 技術(shù)。 Renesas ElectronicsRA8T1具有高達(dá)2MB代碼閃存(帶雙組、背景和SWAP操作)、12KB數(shù)據(jù)閃存,以及1MBSRAM(帶奇偶校驗
    的頭像 發(fā)表于 03-03 14:26 ?1108次閱讀
    AI MCU# 瑞薩RA8T1搭載 <b class='flag-5'>Helium</b> 和 TrustZone 的電機(jī)控制MCU 詳細(xì)介紹

    應(yīng)變片的由來與原理

    應(yīng)變片的由來和原理
    的頭像 發(fā)表于 02-26 15:07 ?1396次閱讀
    應(yīng)變片的<b class='flag-5'>由來</b>與原理

    極海G32R501數(shù)據(jù)手冊# 內(nèi)置FPU,支持 Arm Helium,實(shí)時控制 MCU

    (MVE)的Arm Helium^TM^技術(shù),集成高性能感知,控制外設(shè)和靈活的外設(shè)互聯(lián)系統(tǒng),支持-40°C~105°/125°C的寬環(huán)境工作溫度,適用于新能源逆變器、商業(yè)電源、工業(yè)自動化、新能源汽車等廣泛
    的頭像 發(fā)表于 02-19 13:58 ?1595次閱讀
    極海G32R501數(shù)據(jù)手冊# 內(nèi)置FPU,支持 <b class='flag-5'>Arm</b> <b class='flag-5'>Helium</b>,實(shí)時控制 MCU

    ARM技術(shù)是什么?國內(nèi)有哪些ARM廠家呢?一起來了解一下!

    。通過采用動態(tài)功耗管理技術(shù),如動態(tài)電壓頻率調(diào)控(DVFS)等,ARM處理器可以根據(jù)系統(tǒng)負(fù)載情況動態(tài)調(diào)整功耗水平,以達(dá)到性能和功耗的平衡。 高度可定制 :ARM提供IP核授權(quán)模式,芯片廠
    發(fā)表于 11-18 16:35

    開關(guān)電源輸出電容容值的選擇:為何不能太小也不能太大?

    開關(guān)電源作為現(xiàn)代電子設(shè)備中的關(guān)鍵組件,其穩(wěn)定性和效率對系統(tǒng)的整體性能至關(guān)重要。在開關(guān)電源的設(shè)計中,輸出電容的選擇是一個重要的環(huán)節(jié),容值的大小直接影響到電源的紋波抑制、動態(tài)響應(yīng)、啟動時間以及成本和體積
    的頭像 發(fā)表于 10-23 15:52 ?3410次閱讀

    實(shí)際項目開發(fā)中為何選擇ARM? Cortex?-M4 內(nèi)核的HK32MCU?

    深圳市航順芯片技術(shù)研發(fā)有限公司(以下簡稱“航順芯片”)攜手立創(chuàng)商城為電子工程師帶來了一場酣暢淋漓的產(chǎn)品選型解密直播。期間,航順芯片資深應(yīng)用技術(shù)專家EddieYang與觀眾分享了關(guān)于ARM
    的頭像 發(fā)表于 10-22 17:19 ?901次閱讀
    實(shí)際項目開發(fā)中<b class='flag-5'>為何</b>選擇<b class='flag-5'>ARM</b>? Cortex?-M4 內(nèi)核的HK32MCU?

    TPA3255 Vmid為何不設(shè)置為7V的一半3.5V,而要設(shè)置為6V?

    問題1. 參考設(shè)計運(yùn)放Vmid加電壓是因為輸入范圍是-0.3V-7V? 問題2. Vmid為何不設(shè)置為7V的一半3.5V,而要設(shè)置為6V?這樣是不是輸入信號最高1Vpp? 問題3. B點(diǎn)到底該不該
    發(fā)表于 10-12 06:59

    8位單片機(jī)為何不會被高端單片機(jī)取代?

    )應(yīng)用:8位單片機(jī)應(yīng)用廣泛,包括汽車電子、家用電器、醫(yī)療設(shè)備、工業(yè)自動化和消費(fèi)電子產(chǎn)品。它們通常是低成本、低功耗和實(shí)時控制應(yīng)用的首選。 8位單片機(jī)為何不會被高端單片機(jī)取代? 8位單片機(jī)為各種嵌入式系統(tǒng)
    發(fā)表于 09-24 16:51

    Arm如何賦能無處不在的AI

    作為人工智能 (AI) 的創(chuàng)新基礎(chǔ),眾多企業(yè)都在使用通用且應(yīng)用廣泛的 Arm 計算平臺。迄今為止,合作伙伴基于 Arm 架構(gòu)的芯片出貨量已逾 2,800 億顆。如今,Arm 已為各類技術(shù)
    的頭像 發(fā)表于 09-14 09:38 ?910次閱讀

    Arm精銳超級分辨率技術(shù)解析

    近日,Arm 推出了 Arm 精銳超級分辨率技術(shù) (Arm Accuracy Super Resolution, Arm ASR),這是一款
    的頭像 發(fā)表于 09-03 11:28 ?1386次閱讀
    <b class='flag-5'>Arm</b>精銳超級分辨率<b class='flag-5'>技術(shù)</b>解析

    TPA3110與TPA3255在PBTL模式下的電路輸出接法為何不一致?

    如題,請教下,TPA3110與TPA3255在PBTL模式下的電路輸出接法為何不一致? 1. TPA3255:PBTL模式,out1與out3連接,out2與out4連接。這個我的理解就相當(dāng)于單獨(dú)
    發(fā)表于 08-08 07:23