一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何克服Amdahl定律的影響呢?

Arm社區(qū) ? 來源:Arm社區(qū) ? 2024-01-12 14:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Arm Helium 技術(shù)誕生的由來

克服 Amdahl 定律的影響

在前幾篇文章中,我們介紹了采用 Arm Helium 技術(shù)(也稱為 MVE)的 Armv8.1-M 架構(gòu)如何處理矢量指令。但問題是,每當(dāng)代碼被矢量化時,Amdahl 定律的影響很快便會顯現(xiàn),讓人措手不及。如果您不了解 Amdahl 定律,可以簡單理解為,Amdahl 定律表明算法中無法并行化的部分很快就會成為性能瓶頸。例如,如果有 50% 的工作負載可以并行化,那么即使這部分工作負載可以無限并行,最多也只能將速度提高二倍。不知您作何感受,如果我能將某件事情無限并行化,但速度卻只能提升二倍,這種微不足道的提升一定會讓我感到非常惱火!在設(shè)計 Helium 時,我們必須考慮矢量指令及其相關(guān)聯(lián)的一切內(nèi)容,這樣才能最大限度地提高性能。

串行代碼在循環(huán)處理中很常見,串行代碼造成的開銷可能相當(dāng)大,特別是對于小循環(huán)。下面的內(nèi)存復(fù)制代碼就是一個很好的例子:

a85c54ac-b112-11ee-8b88-92fbcf53809c.png

循環(huán)迭代計數(shù)的遞減和返回循環(huán)頂端的條件分支占循環(huán)指令的 50%。許多小型 Cortex-M 處理器沒有分支預(yù)測器(小型 Cortex-M 處理器的面積效率極高,這意味著許多分支預(yù)測器比整個 Cortex-M 處理器還要大幾倍)。因此,由于分支損失,運行時開銷實際上高于 50%。通過在多次迭代中攤銷開銷,循環(huán)展開可以幫助減少開銷,但會增加代碼大小,并使代碼的矢量化過程更加復(fù)雜。

鑒于許多 DSP 內(nèi)核都有小循環(huán),因此在 Helium 研究項目中解決這些問題至關(guān)重要。許多專用 DSP 處理器支持零開銷循環(huán)。一種實現(xiàn)方法是使用 REPEAT 指令,告訴處理器將下面的指令重復(fù) N 次:

a8745e44-b112-11ee-8b88-92fbcf53809c.png

處理器必須記錄多項數(shù)據(jù):

循環(huán)開始的地址

需要分支回到循環(huán)開始前所剩余的指令數(shù)

剩余的循環(huán)迭代次數(shù)

在處理中斷時,跟蹤記錄所有這些數(shù)據(jù)可能會造成問題,因此一些 DSP 只需要延遲中斷,直到循環(huán)完成。如果要執(zhí)行大量的迭代,這可能需要相當(dāng)長的時間,而且完全不符合 Cortex-M 處理器應(yīng)該實現(xiàn)的快速和確定性中斷延遲的需求。這種方法也不適用于處理精確故障,如權(quán)限違規(guī)導(dǎo)致的內(nèi)存管理故障異常 (MemManage)。另一種方法是增加額外的寄存器來處理循環(huán)狀態(tài)。但這些新寄存器必須在異常進入和返回時保存和恢復(fù),而這又會增加中斷延遲。為了解決這個問題,Armv8.1-M 采用了一對循環(huán)指令:

a8a57cb8-b112-11ee-8b88-92fbcf53809c.png

該循環(huán)首先執(zhí)行 While Loop Start (WLS) 指令,該指令將循環(huán)迭代計數(shù)復(fù)制到 LR,循環(huán)迭代計數(shù)為零時,分支到循環(huán)結(jié)束。還有一條 Do Loop Start (DLS) 指令,可用于設(shè)置一個循環(huán),在該循環(huán)中至少始終執(zhí)行一次迭代。Loop End (LE) 指令檢查 LR 以確認是否還需要一次迭代,如果需要,則分支返回起點。有趣的是,處理器可以緩存 LE 指令提供的信息(即循環(huán)開始和結(jié)束的位置),因此在下一次迭代時,處理器甚至可以在獲取 LE 指令之前分支回到循環(huán)的起點。因此,處理器執(zhí)行的指令序列如下所示:

a8b82142-b112-11ee-8b88-92fbcf53809c.png

在循環(huán)末尾添加循環(huán)指令有一個很好的副作用,如果緩存的循環(huán)信息刷新,該指令將重新執(zhí)行。然后,重新執(zhí)行 LE 指令將重新填充緩存。如下圖所示,由于無需保存循環(huán)開始和結(jié)束地址,因此現(xiàn)有的快速中斷處理功能得以保留。

a8d2dcd0-b112-11ee-8b88-92fbcf53809c.png

除了第一次迭代和從中斷恢復(fù)時的一些設(shè)置外,所有時間實際上都花在了內(nèi)存復(fù)制而不是循環(huán)處理上。此外,由于處理器事先知道指令的順序,因此總能用正確的指令填充流水線。這樣就消除了流水線清空和由此導(dǎo)致的分支損失。因此,我們可以將這一循環(huán)矢量化,不必再擔(dān)心 Amdahl 定律的影響,我們(暫時)克服了這些困難。

在對代碼進行矢量化時,一個循環(huán)通常以不同類型的指令開始和結(jié)束,例如矢量加載 (VLDR) 和矢量乘加 (VMLA)。執(zhí)行這樣的循環(huán)時,會產(chǎn)生一長串不間斷的交替 VLDR/VMLA 操作(如下圖所示)。這種不間斷的鏈條使處理器能夠從指令重疊中獲得最大益處,因為它甚至可以從一個循環(huán)迭代結(jié)束重疊到下一個迭代開始,從而進一步提高性能。關(guān)于指令重疊的更多信息,可參閱:《Arm Helium 技術(shù)誕生的由來:為何不直接采用 Neon?》

a8edba5a-b112-11ee-8b88-92fbcf53809c.png

當(dāng)需要處理的數(shù)據(jù)量不是矢量長度的倍數(shù)時,矢量化代碼就會出現(xiàn)問題。典型的解決方案是先處理全矢量,然后用一個串行/非矢量化尾部清理循環(huán)來處理剩余的元素。不知不覺中,Amdahl 定律又出現(xiàn)了,真是令人不勝其煩!Helium 中的矢量可容納 16 個 8 位數(shù)值,因此在我們對 31 字節(jié)的 memcpy 函數(shù)進行矢量化時,僅有不到一半的拷貝將由尾部循環(huán)連續(xù)執(zhí)行,而不是由矢量指令并行執(zhí)行。

為了解決這個問題,我們增加了循環(huán)指令的尾部預(yù)測變體(如 WLSTP、LETP)。對于這些尾部預(yù)測循環(huán),LR 保存的是要處理的矢量元素的個數(shù),而不是要執(zhí)行的循環(huán)迭代的次數(shù)。循環(huán)開始指令 (WLSTP) 有一個大小字段(下面 memcpy 函數(shù)示例中的“.8”),用于指定要處理的元素的寬度。

a9040440-b112-11ee-8b88-92fbcf53809c.png

如果您曾見過其他優(yōu)化的 memcpy 例程,可能會對這個例子的簡單程度感到驚訝,但對于 Helium 來說,這已經(jīng)是最好的完全矢量化解決方案所需要的一切了。具體工作原理如下:處理器使用大小字段和剩余元素的數(shù)量來計算剩余迭代次數(shù)。

如果最后一次迭代要處理的元素個數(shù)少于矢量長度,則矢量末尾相應(yīng)數(shù)量的元素將被禁用。因此,在上文復(fù)制 31 個字節(jié)的例子中,Helium 會在第一次迭代時并行復(fù)制 16 個字節(jié),然后在下一次迭代時并行復(fù)制 15 個字節(jié)。這不僅可以避免 Amdahl 定律的影響,實現(xiàn)該有的性能,還可以完全消除串行尾碼,減少代碼量,簡化開發(fā)過程。

由于面臨高性能目標和嚴格的面積/中斷延遲限制,我們在設(shè)計 Helium 時就像在設(shè)計一個多維拼圖,且其中一半的形狀是已經(jīng)固定的。架構(gòu)中看似毫不相干的部分可以相互作用,產(chǎn)生意想不到的效果或助力解決一些有趣的難題。

整個 Helium 研究團隊和我都無比期待看到 Helium 技術(shù)能夠為全新的應(yīng)用帶來有力的支持。目前 Cortex-M 已有三款產(chǎn)品支持 Helium 技術(shù)——Cortex-M52、Cortex-M55 和 Cortex-M85,我迫不及待看到 Helium 技術(shù)持續(xù)賦能我們生態(tài)伙伴的 AI 創(chuàng)新應(yīng)用。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19896

    瀏覽量

    235358
  • dsp
    dsp
    +關(guān)注

    關(guān)注

    556

    文章

    8158

    瀏覽量

    357708
  • 寄存器
    +關(guān)注

    關(guān)注

    31

    文章

    5434

    瀏覽量

    124576
  • ARM技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    22

    瀏覽量

    7535
  • Cortex-M
    +關(guān)注

    關(guān)注

    2

    文章

    231

    瀏覽量

    30391

原文標題:Helium 技術(shù)講堂 | 克服 Amdahl 定律的影響

文章出處:【微信號:Arm社區(qū),微信公眾號:Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    電力電子中的“摩爾定律”(1)

    本文是第二屆電力電子科普征文大賽的獲獎作品,來自上海科技大學(xué)劉賾源的投稿。著名的摩爾定律中指出,集成電路每過一定時間就會性能翻倍,成本減半。那么電力電子當(dāng)中是否也存在著摩爾定律?1965年,英特爾
    的頭像 發(fā)表于 05-10 08:32 ?262次閱讀
    電力電子中的“摩爾<b class='flag-5'>定律</b>”(1)

    摩爾定律是什么 影響了我們哪些方面

    摩爾定律是由英特爾公司創(chuàng)始人戈登·摩爾提出的,它揭示了集成電路上可容納的晶體管數(shù)量大約每18-24個月增加一倍的趨勢。該定律不僅推動了計算機硬件的快速發(fā)展,也對多個領(lǐng)域產(chǎn)生了深遠影響。
    的頭像 發(fā)表于 01-07 18:31 ?1410次閱讀

    電荷守恒定律與電流的關(guān)系 電荷守恒定律與能量守恒定律的區(qū)別

    電荷守恒定律與電流的關(guān)系 電荷守恒定律與電流之間存在著密切的關(guān)系。電荷守恒定律指出,在任何物理過程中,電荷的總量保持不變。這意味著電荷既不能被創(chuàng)造,也不能被銷毀,只能從一個物體轉(zhuǎn)移到另一個物體,或者
    的頭像 發(fā)表于 12-16 14:45 ?1067次閱讀

    電荷守恒定律的定義 電荷守恒定律與電場的關(guān)系

    電荷守恒定律的定義 電荷守恒定律是一個基本的物理定律,它指出在一個封閉系統(tǒng)(或孤立系統(tǒng))中,電荷的總量保持不變。這意味著電荷既不能被創(chuàng)造,也不能被銷毀,它只能從一種形式轉(zhuǎn)移到另一種形式,或者從一個
    的頭像 發(fā)表于 12-16 14:41 ?1628次閱讀

    歐姆定律與電路分析技巧

    歐姆定律是電路分析中的基石,它描述了電流、電壓和電阻之間的基本關(guān)系。在進行電路分析時,掌握一些基于歐姆定律的技巧可以幫助我們更有效地理解和解決問題。以下是一些關(guān)于歐姆定律與電路分析技巧的討論: 一
    的頭像 發(fā)表于 10-28 15:31 ?1797次閱讀

    歐姆定律在新能源技術(shù)中的應(yīng)用

    歐姆定律是電氣工程和物理學(xué)中的一個基本定律,它描述了電流、電壓和電阻之間的關(guān)系。定律表明,通過導(dǎo)體兩點間的電流與這兩點間的電壓成正比,與導(dǎo)體的電阻成反比。數(shù)學(xué)表達式為:I = V / R,其中I
    的頭像 發(fā)表于 10-28 15:28 ?993次閱讀

    歐姆定律的實際應(yīng)用實例

    歐姆定律是電氣工程和物理學(xué)中的一個基本定律,它描述了電流、電壓和電阻之間的關(guān)系。這個定律由德國物理學(xué)家喬治·西蒙·歐姆在1827年首次提出,其公式為 V = IR,其中 V 代表電壓(伏特),I
    的頭像 發(fā)表于 10-28 15:27 ?4391次閱讀

    歐姆定律的常見誤區(qū)

    歐姆定律是電磁學(xué)中的一個基本定律,它描述了電流、電壓和電阻之間的關(guān)系。這個定律以德國物理學(xué)家喬治·西蒙·歐姆的名字命名,他在1827年首次發(fā)表了這一定律。盡管歐姆
    的頭像 發(fā)表于 10-28 15:25 ?2808次閱讀

    歐姆定律對電子設(shè)備的影響

    歐姆定律對電子設(shè)備的影響是深遠且廣泛的,主要體現(xiàn)在以下幾個方面: 一、電路設(shè)計與優(yōu)化 精確計算電阻值 : 歐姆定律提供了一種方法來精確計算和調(diào)整電阻值,以實現(xiàn)所需的電流和電壓水平。這對于高精度
    的頭像 發(fā)表于 10-28 15:22 ?749次閱讀

    歐姆定律和基爾霍夫定律的區(qū)別

    歐姆定律和基爾霍夫定律是電路學(xué)中兩個重要的定律,它們各自描述了電路中不同的現(xiàn)象和規(guī)律。以下是它們之間的主要區(qū)別: 一、定義與內(nèi)容 歐姆定律 定義:描述電流、電壓和電阻之間關(guān)系的基本
    的頭像 發(fā)表于 10-28 15:19 ?1457次閱讀

    歐姆定律與電阻關(guān)系

    歐姆定律與電阻之間存在密切的關(guān)系,這一關(guān)系在電路學(xué)中至關(guān)重要。以下是對歐姆定律與電阻關(guān)系的介紹: 一、歐姆定律的基本內(nèi)容 歐姆定律表明,在一段電路中,當(dāng)導(dǎo)體兩端的電壓一定時,通過導(dǎo)體的
    的頭像 發(fā)表于 10-28 15:15 ?3580次閱讀

    如何理解歐姆定律

    歐姆定律是電路學(xué)中的基本原理,它描述了導(dǎo)體中電流、電壓和電阻之間的關(guān)系。以下是對歐姆定律的介紹: 一、定義 歐姆定律表明,在一段電路中,當(dāng)導(dǎo)體兩端的電壓一定時,通過導(dǎo)體的電流與導(dǎo)體的電阻成反比;當(dāng)
    的頭像 發(fā)表于 10-28 15:11 ?3951次閱讀

    歐姆定律在電路中的應(yīng)用

    在電氣工程和電子技術(shù)領(lǐng)域,歐姆定律是一個不可或缺的基礎(chǔ)理論。它不僅幫助我們理解電路的工作原理,還在電路設(shè)計、故障診斷和性能優(yōu)化中發(fā)揮著關(guān)鍵作用。 一、歐姆定律的定義 歐姆定律是由德國物理學(xué)家喬治
    的頭像 發(fā)表于 10-28 15:06 ?3538次閱讀

    楞次定律怎么用手判斷 楞次定律怎么判斷感應(yīng)電流方向

    楞次定律是電磁感應(yīng)定律的一個重要部分,它描述了感應(yīng)電動勢和感應(yīng)電流的產(chǎn)生方向。在理解和應(yīng)用楞次定律時,我們可以借助右手定則來判斷感應(yīng)電流的方向。 一、楞次定律的基本概念 楞次
    的頭像 發(fā)表于 10-17 18:03 ?4808次閱讀

    克服設(shè)計難題-實現(xiàn)高性能接口

    電子發(fā)燒友網(wǎng)站提供《克服設(shè)計難題-實現(xiàn)高性能接口.pdf》資料免費下載
    發(fā)表于 08-28 09:41 ?0次下載
    <b class='flag-5'>克服</b>設(shè)計難題-實現(xiàn)高性能接口