一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于M55H的定制化backbone模型AxeraSpine

愛(ài)芯元智AXERA ? 來(lái)源:愛(ài)芯元智AXERA ? 2023-10-10 16:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

背景

Backbone模型是各種視覺(jué)任務(wù)訓(xùn)練的基石,視覺(jué)任務(wù)模型的性能和模型的速度都受backbone模型的影響,良好的backbone模型可以有效提高視覺(jué)任務(wù)模型的性能和精度。因此設(shè)計(jì)優(yōu)良的backbone模型對(duì)視覺(jué)任務(wù)模型的表現(xiàn)至關(guān)重要。目前存在低延遲且高性能的開(kāi)源模型已經(jīng)有很多,但這些模型的設(shè)計(jì)往往只考慮到了理論計(jì)算量,并沒(méi)有和實(shí)際的硬件條件相結(jié)合,因此這些模型部署到實(shí)際的硬件上,并不能發(fā)揮最大的速度潛能。針對(duì)這個(gè)挑戰(zhàn),為了發(fā)揮backbone模型的最大潛力,我們?cè)贛55H平臺(tái)上,基于MobileNetV2模型定制了適用于M55H平臺(tái)的backbone模型AXSpine系列,相比于原始MobileNetV2模型,AXSpine-Middle在精度提升的同時(shí),速度提升了50%,硬件的MAC利用率大幅提高,在多個(gè)具體任務(wù)上達(dá)到80%以上。另外還有多組通過(guò)裁剪或者擴(kuò)充的AXSpine系列模型提供,以供不同延遲和精度要求的視覺(jué)任務(wù)進(jìn)行選擇。

性能指標(biāo)

以下展示AXSpine-Middle模型和MobileNetV2模型在愛(ài)芯元智M55H平臺(tái)上不同分辨率的性能對(duì)比,數(shù)據(jù)集采用ImageNet數(shù)據(jù)集,精度均在224x224分辨率條件下進(jìn)行測(cè)試,更多AXSpine模型指標(biāo)在文章末尾表格中:

模型名稱 Input shape acc1(224 x 224 標(biāo)準(zhǔn)輸入條件下) M55H 幀率(@vnpu111)
MobileNetV2 1x3x576x320 71.88 124 fps
MobileNetV2 1x3x288x160 71.88 373.7 fps
AXSpine-Middle 1x3x576x320 72.87 186 fps
AXSpine-Middle 1x3x1280x720 72.87 36.5 fps
AXSpine-Middle 1x3x1920x1080 72.87 19.4 fps

相關(guān)模型介紹

3.1 MobileNetV2

MobileNetV2是google提出的用于移動(dòng)端的backbone模型,具有精度高、計(jì)算量小的特點(diǎn),在移動(dòng)端設(shè)備上推理效果顯著。MobileNetV2模型的基本組成塊為倒置殘差卷積,由兩組1x1的卷積和一組3x3的depthwise卷積構(gòu)成。1x1卷積主要作用為對(duì)depthwise卷積做升/降維,3x3的depthwise卷積則在升維的空間上進(jìn)行卷積運(yùn)算,這種架構(gòu)可以在保證表達(dá)能力的同時(shí)有效地增強(qiáng)計(jì)算效率。隨后,這種倒置殘差卷積結(jié)構(gòu)進(jìn)行若干次的堆疊,構(gòu)造成為MobileNetV2模型。

3.2 地平線相關(guān)模型

地平線公司也在自身平臺(tái)上專門對(duì)backbone模型進(jìn)行了優(yōu)化,并推出了VarGENet和MixVarGENet等系列模型,其基本塊如下圖所示:

8ea7a980-6743-11ee-939d-92fbcf53809c.png

8ebce9da-6743-11ee-939d-92fbcf53809c.jpg

8ea7a980-6743-11ee-939d-92fbcf53809c.png

3.3 特斯拉相關(guān)模型

特斯拉相關(guān)模型為RegNet,RegNet為何凱明的相關(guān)工作,旨在用超參數(shù)搜索的方式,指導(dǎo)模型設(shè)計(jì)的相關(guān)工作,在低運(yùn)算量的條件下,取得了相對(duì)優(yōu)良的精度,由于沒(méi)有用到depthwise卷積,在GPU模型上表現(xiàn)良好,被特斯拉硬件采用。其基本結(jié)構(gòu)與resnet等同,如下所示:

8ed53e2c-6743-11ee-939d-92fbcf53809c.jpg

模型優(yōu)化

相對(duì)于MobileNetV2官方實(shí)現(xiàn),AXSpine模型做了以下改動(dòng):

●將MobileNetV2的所有的depthwise卷積修改為小channel size的group卷積;

●將模型第二層的倒置殘差卷積替換為一個(gè)簡(jiǎn)單的3x3 conv層;

●對(duì)不滿足硬件通道對(duì)齊的層進(jìn)行硬件通道對(duì)齊;

● 減小部分層的expand_ratio提高運(yùn)算速度;

● 將原有的5層stage結(jié)構(gòu),仿照convnext修改為4層stage結(jié)構(gòu)3393,速度提升,精度降低。

改動(dòng)詳細(xì)說(shuō)明

5.1 depthwise卷積修改為group卷積

由于邊緣側(cè)芯片的depthwise卷積的支持往往比較低效,這導(dǎo)致使用depthwise卷積的MobileNetV2無(wú)法發(fā)揮理論計(jì)算效率,在這里將depthwise卷積修改為group卷積,增強(qiáng)模型的表達(dá)能力,由于芯片組卷積,在特定channel的情況最為高效,因此將所有的depthwise卷積修改為特定channel數(shù)的group卷積。

8edf7298-6743-11ee-939d-92fbcf53809c.png8ea7a980-6743-11ee-939d-92fbcf53809c.png

5.2 替換第二層倒置殘差卷積

MobileNetV2的第一層為一個(gè)3x3的普通卷積,第二層為一個(gè)expand_ratio = 1 的倒置殘差卷積,在原有的MobileNetV2設(shè)計(jì)中,使用倒置殘差卷積的目的是為了減少計(jì)算量,然而當(dāng)修改為group卷積后,運(yùn)算量反倒大幅增加,因此將第二層的倒置殘差卷積的兩個(gè)堆疊的卷積層,修改為單個(gè)普通的3x3卷積。

8ef5d358-6743-11ee-939d-92fbcf53809c.jpg

8ea7a980-6743-11ee-939d-92fbcf53809c.png

5.3 對(duì)不滿通道對(duì)齊的卷積進(jìn)行對(duì)齊

硬件單元在計(jì)算的過(guò)程中,需要進(jìn)行數(shù)據(jù)對(duì)齊,如果不滿足數(shù)據(jù)對(duì)齊條件,就會(huì)降低運(yùn)算效率,M55H硬件也是一樣。因此,為了充分利用硬件的計(jì)算能力,需要對(duì)不滿足channel對(duì)齊的層進(jìn)行對(duì)齊操作,MobileNetV2模型中,部分層不滿足硬件對(duì)齊條件,這里需要對(duì)不滿足硬件對(duì)齊的層進(jìn)行向上補(bǔ)齊操作,不影響性能,表達(dá)能力有所提升。

5.4 減小expand_ratio

由于原有的depthwise卷積被替換成了group卷積,模型的表達(dá)能力大幅增強(qiáng),而我們修改MobileNetV2模型的最終目的是為了在保證精度的情況下,提升速度,因此在此處對(duì)expand_ratio進(jìn)行消減,將expand_ratio從6修改為4,第二層的expand_ratio由4再消減為2,理論上模型的計(jì)算量減少約30%,這種expand_同時(shí)也考慮到了M55H的調(diào)度特性,在實(shí)際的調(diào)度過(guò)程中,由于各層特征圖的大小得到了均衡,整體調(diào)度效率也得到了提升。

8f092c6e-6743-11ee-939d-92fbcf53809c.jpg

8ea7a980-6743-11ee-939d-92fbcf53809c.png

5.5 修改模型stage排布

借鑒convnext文章中的的思路,模型應(yīng)當(dāng)包含有4個(gè)stage,每個(gè)stage的比例大概為13:1較優(yōu),基于此判斷,對(duì)MobileNetV2模型的stage進(jìn)行重新劃分,將原有的stage排布按照39:3進(jìn)行排列,相比于直接削減channel數(shù)提升速度的方式,修改stage對(duì)模型精度的損傷較小,修改見(jiàn)下圖所示:

8f1adf4a-6743-11ee-939d-92fbcf53809c.jpg

總結(jié)

經(jīng)過(guò)對(duì)MobilenetV2模型的適應(yīng)性改動(dòng),愛(ài)芯元智發(fā)布了基于M55H芯片平臺(tái)的定制化模型AXSpine,相比于原版MobilenetV2模型,AXSpine-Middle模型具有更高的精度和達(dá)到50%提升的速度。得益于愛(ài)芯元智M55H平臺(tái)軟硬件聯(lián)合設(shè)計(jì)優(yōu)化,經(jīng)過(guò)改良后的AXSpine模型相較業(yè)界友商在單位算力情況下,展現(xiàn)出了強(qiáng)大的性能和延遲表現(xiàn)。此外除了AXSpine-Middle模型以外,還有若干組模型上架,以滿足不同的延遲和精度需求,總結(jié)表格如下,以下模型目前已應(yīng)用于多組視覺(jué)任務(wù)中,歡迎使用:

模型名稱 Input shape acc1(224 x 224 標(biāo)準(zhǔn)輸入條件下) M55H 幀率(@vnpu111)
MobileNetV2 1x3x576x320 71.88 124 fps
AXSpine-Small 1x3x576x320 71.59 227 fps
AXSpine-Middle 1x3x576x320 72.87 186 fps
AXSpine-Big 1x3x576x320 75.31 131 fps






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • GPU芯片
    +關(guān)注

    關(guān)注

    1

    文章

    305

    瀏覽量

    6171

原文標(biāo)題:愛(ài)芯分享 | 基于M55H的定制化backbone模型AxeraSpine

文章出處:【微信號(hào):愛(ài)芯元智AXERA,微信公眾號(hào):愛(ài)芯元智AXERA】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    集成Docker,解鎖 HMI/網(wǎng)關(guān)的定制應(yīng)用

    工業(yè)自動(dòng)領(lǐng)域?qū)?b class='flag-5'>定制HMI/網(wǎng)關(guān)的需求日益增長(zhǎng),而傳統(tǒng)設(shè)備因功能固化難以滿足快速迭代需求。宏集HMI&網(wǎng)關(guān)通過(guò)集成Docker技術(shù),賦予設(shè)備超強(qiáng)的靈活性和擴(kuò)展性,滿足企業(yè)的個(gè)性需求
    的頭像 發(fā)表于 05-22 11:06 ?124次閱讀
    集成Docker,解鎖 HMI/網(wǎng)關(guān)的<b class='flag-5'>定制</b><b class='flag-5'>化</b>應(yīng)用

    愛(ài)芯元智榮獲2025年度影響力汽車芯片大獎(jiǎng)

    近日,中國(guó)汽車芯片產(chǎn)業(yè)創(chuàng)新戰(zhàn)略聯(lián)盟與中國(guó)電子報(bào)聯(lián)合主辦的汽車芯片生態(tài)大會(huì)及頒獎(jiǎng)儀式在上海國(guó)際車展舉行,愛(ài)芯元智已規(guī)模量產(chǎn)的車規(guī)級(jí)芯片M55H斬獲“2025中國(guó)汽車芯片產(chǎn)業(yè)創(chuàng)新成果——年度影響力汽車芯片”大獎(jiǎng),M55H、
    的頭像 發(fā)表于 04-30 10:31 ?399次閱讀

    特朗普要叫停英偉達(dá)對(duì)華特供版 英偉達(dá)H20出口限制 或損失55億美元

    是“中國(guó)特供版”人工智能芯片;是英偉達(dá)公司為符合美國(guó)出口規(guī)定專門為中國(guó)市場(chǎng)開(kāi)發(fā)的定制芯片,H20芯片在訓(xùn)練AI模型方面不如英偉達(dá)其他芯片速度快;相比H100在性能上有了很大的閹割。但是
    的頭像 發(fā)表于 04-16 16:59 ?1180次閱讀

    H110M-K點(diǎn)位圖

    H110M-K點(diǎn)位圖
    發(fā)表于 04-14 14:51 ?14次下載

    基于RK芯片的主板定制:挑戰(zhàn)、機(jī)遇與發(fā)展趨勢(shì)

    隨著嵌入式系統(tǒng)和物聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,市場(chǎng)對(duì)于具備特定功能和性能的定制主板需求日益增長(zhǎng)。瑞芯微(Rockchip,簡(jiǎn)稱RK)憑借其高性能、低功耗的芯片產(chǎn)品,在平板電腦、電視盒子、人工智能等領(lǐng)域占據(jù)
    的頭像 發(fā)表于 03-27 14:50 ?491次閱讀
    基于RK芯片的主板<b class='flag-5'>定制</b><b class='flag-5'>化</b>:挑戰(zhàn)、機(jī)遇與發(fā)展趨勢(shì)

    RAKsmart美國(guó)裸機(jī)云服務(wù)器DeepSeek的高級(jí)定制部署方案

    在RAKsmart美國(guó)裸機(jī)云服務(wù)器上進(jìn)行DeepSeek的高級(jí)定制部署,需結(jié)合高性能硬件與靈活的軟件配置,以實(shí)現(xiàn)模型優(yōu)化、多任務(wù)并行及安全性提升。以下是針對(duì)企業(yè)級(jí)需求的詳細(xì)方案,主機(jī)推薦小編為您整理發(fā)布RAKsmart美國(guó)裸機(jī)
    的頭像 發(fā)表于 03-13 11:55 ?414次閱讀

    HFSS 自動(dòng)建模工具

    因工作需求,自己寫的HFSS參數(shù)自動(dòng)建模工具,目前只實(shí)現(xiàn)了常用的四種模型,可定制,如需可聯(lián)系 qq:1300038043 附件下載鏈接:https://pan.baidu.com
    發(fā)表于 02-27 17:44

    AI基礎(chǔ)模型提升癌癥診斷精確度,實(shí)現(xiàn)個(gè)性治療方案定制

    每位患者特有的醫(yī)療數(shù)據(jù)為其量身定制治療方案。 該研究的資深學(xué)者、放射腫瘤學(xué)副教授李瑞江表示:“多模態(tài)基礎(chǔ)模型是醫(yī)學(xué) AI 研究的一個(gè)新領(lǐng)域。最近已經(jīng)出現(xiàn)了一些醫(yī)學(xué)領(lǐng)域的視覺(jué)語(yǔ)言基礎(chǔ)模型,尤其是病理學(xué)領(lǐng)域,但當(dāng)前研究使用的仍是現(xiàn)有
    的頭像 發(fā)表于 02-11 09:22 ?922次閱讀
    AI基礎(chǔ)<b class='flag-5'>模型</b>提升癌癥診斷精確度,實(shí)現(xiàn)個(gè)性<b class='flag-5'>化</b>治療方案<b class='flag-5'>定制</b>

    新唐科技基于NuMaker-M55M1平臺(tái)的人臉識(shí)別系統(tǒng)

    人臉識(shí)別技術(shù)已成為現(xiàn)代科技的重要基石,廣泛應(yīng)用于安全監(jiān)控、門禁系統(tǒng)以及用戶身份認(rèn)證等領(lǐng)域。新唐科技基于 NuMaker-M55M1 平臺(tái)的人臉識(shí)別系統(tǒng),結(jié)合多種核心技術(shù)組件,包括圖像處理技術(shù)
    的頭像 發(fā)表于 01-20 10:31 ?684次閱讀

    安裝定制防震基座時(shí)需要哪些工具和設(shè)備

    安裝定制防震基座所需的工具和設(shè)備
    的頭像 發(fā)表于 12-30 15:28 ?554次閱讀
    安裝<b class='flag-5'>定制</b><b class='flag-5'>化</b>防震基座時(shí)需要哪些工具和設(shè)備

    可靈AI全球首發(fā)視頻模型定制功能,助力AI視頻創(chuàng)作

    屬于自己的專屬人臉模型。在模型定制完成后,用戶可以基于該模型生成包含同一人物鏡頭的多個(gè)視頻內(nèi)容,從而滿足用戶對(duì)于個(gè)性視頻創(chuàng)作的多樣
    的頭像 發(fā)表于 11-26 14:02 ?1210次閱讀

    TPS7H5001-SP最壞情況分析模型

    電子發(fā)燒友網(wǎng)站提供《TPS7H5001-SP最壞情況分析模型.pdf》資料免費(fèi)下載
    發(fā)表于 11-14 14:52 ?0次下載
    TPS7<b class='flag-5'>H</b>5001-SP最壞情況分析<b class='flag-5'>模型</b>

    浪潮信息發(fā)布KOS AI定制版,大幅提升大模型訓(xùn)練效率

    浪潮信息近期推出了“元腦服務(wù)器操作系統(tǒng)KOS AI定制版”,為人工智能領(lǐng)域帶來(lái)了革命性的變化。這款定制版操作系統(tǒng)通過(guò)簡(jiǎn)單的兩步操作,即可實(shí)現(xiàn)大模型訓(xùn)練環(huán)境的快速部署。
    的頭像 發(fā)表于 10-30 17:23 ?932次閱讀

    M12航插連接器與線束定制,為您的自動(dòng)設(shè)備提供專業(yè)互連支持

    隨著自動(dòng)技術(shù)的不斷進(jìn)步,設(shè)備的連接性能對(duì)于提高工作效率和可靠性至關(guān)重要。面對(duì)每個(gè)自動(dòng)項(xiàng)目的獨(dú)特需求,電子谷作為專業(yè)的連接器與線束制造商,特別推出M12航插連接器和線束的定制服務(wù),為
    的頭像 發(fā)表于 10-10 08:06 ?978次閱讀
    <b class='flag-5'>M</b>12航插連接器與線束<b class='flag-5'>定制</b>,為您的自動(dòng)<b class='flag-5'>化</b>設(shè)備提供專業(yè)互連支持

    基于MATLAB 的質(zhì)量守恒空模型(JFO 模型

    可有大佬會(huì)基于MATLAB 的質(zhì)量守恒空模型(JFO 模型
    發(fā)表于 07-05 23:32