一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Focus-DETR:30%Token就能實現(xiàn)SOTA性能,效率倍增

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-08-02 15:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

目前 DETR 類模型已經(jīng)成為了目標(biāo)檢測的一個主流范式。但 DETR 算法模型復(fù)雜度高,推理速度低,嚴(yán)重影響了高準(zhǔn)確度目標(biāo)檢測模型在端側(cè)設(shè)備的部署,加大了學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用之間的鴻溝。

來自華為諾亞、華中科技大學(xué)的研究者們設(shè)計了一種新型的 DETR 輕量化模型 Focus-DETR 來解決這個難題。

為實現(xiàn)模型性能和計算資源消耗、顯存消耗、推理時延之間的平衡,F(xiàn)ocus-DETR 利用精細設(shè)計的前景特征選擇策略,實現(xiàn)了目標(biāo)檢測高相關(guān)特征的精確篩選;繼而,F(xiàn)ocus-DETR 進一步提出了針對篩選后特征的注意力增強機制,來彌補 Deformable attention 遠距離信息交互的缺失。相比業(yè)界全輸入 SOTA 模型, AP 降低 0.5 以內(nèi),計算量降低 45%,F(xiàn)PS 提高 41%,并在多個 DETR-like 模型中進行了適配。

作者對多個 DETR 類檢測器的 GFLOPs 和時延進行了對比分析,如圖 1 所示。從圖中發(fā)現(xiàn),在 Deformable-DETR 和 DINO 中,encoder 的計算量分別是 decoder 計算量的 8.8 倍和 7 倍。同時,encoder 的時延大概是 decoder 時延的 4~8 倍。這表明,提升 encoder 的效率至關(guān)重要。

761e2780-2fb3-11ee-9e74-dac502259ad0.png

圖 1:多個 DETR 類檢測器的計算量和時延對比分析

網(wǎng)絡(luò)結(jié)構(gòu)

Focus-DETR 包括一個 backbone,一個由 dual-attention 組成的 encoder 和一個 decoder。前景選擇器(Foreground Token Selector)在 backbone 和 encoder 之間,是一個基于跨多尺度特征的自頂向下評分調(diào)制,用來確定一個 token 是否屬于前景。Dual attention 模塊通過多類別評分機制,選擇更細粒度的目標(biāo) token,然后將其輸入到一個自注意模塊來彌補 token 交互信息的缺失。

7648530c-2fb3-11ee-9e74-dac502259ad0.png

圖 2 :Focus-DETR 整體網(wǎng)絡(luò)結(jié)構(gòu)

計算量降低:前景篩選策略

目前已經(jīng)有一些對于前景 token 進行剪枝提升性能的方法。例如,Sparse DETR(ICLR2022)提出采用 decoder 的 DAM(decoder attention map)作為監(jiān)督信息。然而作者發(fā)現(xiàn),如圖 3 所示,Sparse DETR 篩選的 token 并不都是前景區(qū)域。作者認(rèn)為,這是由于 Sparse DETR 使用 DAM 來監(jiān)督前景 token 導(dǎo)致的,DAM 會在訓(xùn)練的時候引入誤差。而 Focus-DETR 使用 ground truth(boxes 和 label)來監(jiān)督前景的 token 的篩選。

765cdfd4-2fb3-11ee-9e74-dac502259ad0.png

圖 3:Focus-DETR 和 Sparse DETR 在不同 feature map 上保留的 token 對比

為了更好地訓(xùn)練前景篩選器,作者優(yōu)化了 FCOS 的前背景標(biāo)簽分配策略,如圖 4 所示。作者首先為不同特征映射的包圍框設(shè)置了一個大小范圍。與傳統(tǒng)的多尺度特征標(biāo)簽分配方法不同,它允許相鄰兩個特征尺度之間的范圍重疊,以增強邊界附近的預(yù)測能力。

對每個擁有步長7667b5a8-2fb3-11ee-9e74-dac502259ad0.png?的特征?7679683e-2fb3-11ee-9e74-dac502259ad0.png ,其中76882f54-2fb3-11ee-9e74-dac502259ad0.png代表多尺度特征的層級序號,7692d1e8-2fb3-11ee-9e74-dac502259ad0.png 代表在二維特征圖上的位置坐標(biāo),作者定義該特征在原圖上的映射位置為?769f6c1e-2fb3-11ee-9e74-dac502259ad0.png,那么?76a9bdc2-2fb3-11ee-9e74-dac502259ad0.png,因此?7679683e-2fb3-11ee-9e74-dac502259ad0.png 特征所對應(yīng)的標(biāo)簽應(yīng)該為: ?

76cd5a2a-2fb3-11ee-9e74-dac502259ad0.png

其中76e014e4-2fb3-11ee-9e74-dac502259ad0.png 代表坐標(biāo)和真值框中心之間的最大棋盤距離,76ea0a9e-2fb3-11ee-9e74-dac502259ad0.png 代表真值目標(biāo)框,76f2c8e6-2fb3-11ee-9e74-dac502259ad0.png 分別代表被第76882f54-2fb3-11ee-9e74-dac502259ad0.png層特征圖預(yù)測的目標(biāo)的尺度的最大值和最小值,由于尺度重疊設(shè)置,771367fe-2fb3-11ee-9e74-dac502259ad0.png。 ? 77227302-2fb3-11ee-9e74-dac502259ad0.png

圖 4. 前背景標(biāo)簽分配可視化

此外,來自不同特征映射的特征選擇的差異也被忽略,這限制了從最合適的分辨率選擇特征的潛力。

為彌補這一差距,F(xiàn)ocus-DETR 構(gòu)造了基于多尺度 feature map 的自頂向下的評分調(diào)制模塊,如圖 5 所示。

為了充分利用多尺度特征圖之間的語義關(guān)聯(lián),作者首先使用多層感知器 (MLP) 模塊來預(yù)測每個特征圖中的多類別語義得分。

考慮到高層語義特征,低層語義特征包含更豐富的語義信息,作者利用高層 feature map 的 token 重要性得分,作為補充信息來調(diào)制低層 feature map 的預(yù)測結(jié)果。

7733d976-2fb3-11ee-9e74-dac502259ad0.png

圖 5:top-down 前景篩選評分調(diào)制策略

細粒度特征增強策略

在依靠前期設(shè)計的前景篩選器得到較為準(zhǔn)確的前景特征后,F(xiàn)ocus-DETR 使用一種有效的操作來獲得更為細粒度的特征,利用這些細粒度特征以獲得更好的檢測性能。直觀地說,作者假設(shè)在這個場景中引入更細粒度的類別信息將是有益的?;谶@一動機,作者提出了一種新的注意力機制,并結(jié)合前景特征選擇,以更好地結(jié)合利用細粒度特征和前景特征。

如圖 2 所示,為了避免對背景 token 進行冗余的計算,作者采用了一種同時考慮位置信息和類別語義信息的堆疊策略。具體來說,預(yù)測器773e1cf6-2fb3-11ee-9e74-dac502259ad0.png?(?) 計算出的前景評分775505a6-2fb3-11ee-9e74-dac502259ad0.png和類別評分77660900-2fb3-11ee-9e74-dac502259ad0.png的乘積將作為作者最終的標(biāo)準(zhǔn)7774eed4-2fb3-11ee-9e74-dac502259ad0.png來確定注意力計算中涉及的細粒度特征,即:

7785bef8-2fb3-11ee-9e74-dac502259ad0.png ?

其中775505a6-2fb3-11ee-9e74-dac502259ad0.png77660900-2fb3-11ee-9e74-dac502259ad0.png分別代表前景得分和類別概率。 ?

與兩階段 Deformable DETR 的 query 選擇策略不同,F(xiàn)ocus-DETR 的多類別概率不包括背景類別 (?)。該模塊可以被視為一個 self-attention ,對細粒度特征進行增強計算。然后,已增強的特征將被 scatter 回原始的前景特征并對其進行更新。

實驗結(jié)果

主要結(jié)果

如表一所示,作者將 Focus-DETR 在 COCO 驗證集上和其他模型的性能進行比較??梢园l(fā)現(xiàn)同樣基于 DINO,F(xiàn)ocus-DETR 僅使用 30% token 的情況下,超過 Sparse DETR 2.2 個 AP。相比原始 DINO,僅損失 0.5 個 AP,但是計算量降低 45%,推理速度提升 40.8%。

77ac6a44-2fb3-11ee-9e74-dac502259ad0.png

表 1:總體對比實驗結(jié)果

模型效能分析

在圖 6 中,從不同模型的精度和計算量之間的關(guān)系來看,F(xiàn)ocus-DETR 在精度和計算復(fù)雜度之間達到了最好的平衡。整體來看對比其他模型,獲得了 SOTA 的性能。

77e93e24-2fb3-11ee-9e74-dac502259ad0.png

圖 6 不同模型測試精度和計算復(fù)雜度之間的關(guān)聯(lián)分析

消融實驗

如表 2 所示,作者針對模型設(shè)計進行消融實驗,以驗證作者提出的算法的有效性。

78083626-2fb3-11ee-9e74-dac502259ad0.png ?

表 2 本研究提出的前景特征剪枝策略和細粒度特征自注意力增強模塊對實驗性能的影響

1. 前景特征選擇策略的影響

直接使用前景得分預(yù)測 AP 為 47.8,增加 label assignment 策略生成的標(biāo)簽作為監(jiān)督,AP 提升 1.0。增加自上而下的調(diào)制策略,能夠提升多尺度特征圖之間的交互,AP 提升 0.4。這表明提出的策略對于提升精度是非常有效的。

如圖 7 可視化可以發(fā)現(xiàn),F(xiàn)ocus-DETR 可以精確地選擇多尺度特征上的前景 token。并且可以發(fā)現(xiàn),在不同尺度的特征度之間,可以檢測的物體存在重疊,這正是因為 Focus-DETR 使用了交疊的設(shè)置導(dǎo)致的。

7817ccbc-2fb3-11ee-9e74-dac502259ad0.png

圖 7 多尺度特征保留的 token

2. 自上而下的評分調(diào)制策略的影響

78791dbe-2fb3-11ee-9e74-dac502259ad0.png

表 3. 多尺度特征圖前景評分的關(guān)聯(lián)方法,作者嘗試自頂向下和自底向上的調(diào)制。

作者對比了自上而下的調(diào)制策略和自下而上的調(diào)制策略的影響,對比結(jié)果可以發(fā)現(xiàn),作者提出的自上而下的調(diào)制策略可以獲得更好的性能。

3. 前景保留比率對實驗性能的影響

78917abc-2fb3-11ee-9e74-dac502259ad0.png

表 4.Focus-DETR、Sparse DETR 和 DINO+Sparse DETR 保留前景 token 的比例

作者對比了不同的剪枝比例的性能,從實驗結(jié)果可以發(fā)現(xiàn),F(xiàn)ocus-DETR 在相同的剪枝比例情況下,均獲得了更優(yōu)的結(jié)果。

總結(jié)

Focus-DETR 僅利用 30% 的前景 token 便實現(xiàn)了近似的性能,在計算效率和模型精度之間取得了更好的權(quán)衡。Focus-DETR 的核心組件是一種基于多層次的語義特征的前景 token 選擇器,同時考慮了位置和語義信息。Focus-DETR 通過精確地選擇前景和細粒度特征,并且對細粒度特征進行語義增強,使得模型復(fù)雜度和精度實現(xiàn)更好平衡。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 檢測器
    +關(guān)注

    關(guān)注

    1

    文章

    891

    瀏覽量

    48565
  • FPS
    FPS
    +關(guān)注

    關(guān)注

    0

    文章

    35

    瀏覽量

    12187
  • DAM
    DAM
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    9634
  • MLP
    MLP
    +關(guān)注

    關(guān)注

    0

    文章

    57

    瀏覽量

    4532

原文標(biāo)題:華為 | Focus-DETR:30%Token就能實現(xiàn)SOTA性能,效率倍增

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    旋變位置不變的情況下,當(dāng)使能SOTA功能與關(guān)閉SOTA功能時,APP中DSADC采樣得到的旋變sin和cos兩者值不一樣,為什么?

    旋變位置不變的情況下,當(dāng)使能SOTA功能與關(guān)閉SOTA功能時,APP中DSADC采樣得到的旋變sin和cos兩者值不一樣,用示波器采的輸入到MCU端的差分電壓是一樣的,難道是SOTA使能后影響了MCU芯片內(nèi)部的等效阻抗嗎,有專家
    發(fā)表于 05-17 08:13

    NB81是否支持OneNet SOTA功能?應(yīng)該如何激活SOTA

    NB81是否支持OneNet SOTA功能? 可以支持,應(yīng)該如何激活SOTA?
    發(fā)表于 06-04 06:14

    使用OpenVINO?進行優(yōu)化后,為什么DETR模型在不同的硬件上測試時顯示不同的結(jié)果?

    通過模型優(yōu)化優(yōu)化了 DETR 模型。 在 SPR 計算機上使用優(yōu)化模型(DETR 模型)運行了benchmark_app,并節(jié)省了延遲和吞吐量。 在 Icelake 機器上運行了相同的benchmark_app和模型,并節(jié)省了延遲和吞吐量。 兩種結(jié)果均顯示出顯著差異
    發(fā)表于 03-05 10:27

    SOTA的定義是什么?常規(guī)的實現(xiàn)方式有哪些

    1.SOTA的定義SOTA即軟件在線升級(Software updates Over The Air),是指在不連接燒寫器的情況下,通過CAN、UART或其它通訊方式,實現(xiàn)應(yīng)用程序的更新。在進行
    發(fā)表于 02-14 06:14

    SOTA機制詳解

    1.SOTA的定義SOTA即軟件在線升級(Software updates Over The Air),是指在不連接燒寫器的情況下,通過CAN、UART或其它通訊方式,實現(xiàn)應(yīng)用程序的更新。在進行
    發(fā)表于 12-09 15:06 ?10次下載
    <b class='flag-5'>SOTA</b>機制詳解

    RT-DETR用114FPS實現(xiàn)54.8AP遠超YOLOv8

    最近,基于Transformer的端到端檢測器(DETR)已經(jīng)取得了顯著的性能。然而,DETR的高計算成本問題尚未得到有效解決,這限制了它們的實際應(yīng)用,并使它們無法充分利用無后處理的好處,如非最大值抑制(NMS)。
    的頭像 發(fā)表于 04-20 09:59 ?1385次閱讀

    通過A2B更新軟件—A2B如何給汽車應(yīng)用中的SOTA帶來變革

    無線軟件升級(SOTA)正迅速成為汽車OEM須開發(fā)和部署的重要能力。更新模塊、支持客戶、和通過附加特性帶來利潤的能力,使得掌握SOTA成為一個有吸引力的主張。本文討論SOTA為何出現(xiàn)在汽車環(huán)境中,如何部署
    的頭像 發(fā)表于 06-15 16:02 ?2264次閱讀
    通過A2B更新軟件—A2B如何給汽車應(yīng)用中的<b class='flag-5'>SOTA</b>帶來變革

    一種新型的DETR輕量化模型Focus-DETR

    作者對多個 DETR 類檢測器的 GFLOPs 和時延進行了對比分析,如圖 1 所示。從圖中發(fā)現(xiàn),在 Deformable-DETR 和 DINO 中,encoder 的計算量分別是 decoder
    的頭像 發(fā)表于 08-02 15:34 ?1049次閱讀
    一種新型的<b class='flag-5'>DETR</b>輕量化模型<b class='flag-5'>Focus-DETR</b>

    華為諾亞提出全新目標(biāo)檢測器Focus-DETR

    實現(xiàn)模型性能和計算資源消耗、顯存消耗、推理時延之間的平衡,Focus-DETR 利用精細設(shè)計的前景特征選擇策略,實現(xiàn)了目標(biāo)檢測高相關(guān)特征的精確篩選;繼而,
    的頭像 發(fā)表于 08-02 15:43 ?839次閱讀
    華為諾亞提出全新目標(biāo)檢測器<b class='flag-5'>Focus-DETR</b>

    人工智能SOTA什么意思

    人工智能SOTA什么意思 人工智能SOTA是機器學(xué)習(xí)領(lǐng)域中的一個術(shù)語,指的是目前能夠實現(xiàn)的最佳結(jié)果,SOTA是State of the art的縮寫,意為“最新技術(shù)”的最佳狀態(tài)。在人工
    的頭像 發(fā)表于 08-22 16:45 ?2.2w次閱讀

    DETR架構(gòu)的內(nèi)部工作方式分析

    這是一個Facebook的目標(biāo)檢測Transformer (DETR)的完整指南。 ? 介紹 DEtection TRansformer (DETR)是Facebook研究團隊巧妙地利
    的頭像 發(fā)表于 08-30 10:53 ?1315次閱讀
    <b class='flag-5'>DETR</b>架構(gòu)的內(nèi)部工作方式分析

    基于OpenVINO Python API部署RT-DETR模型

    RT-DETR 是在 DETR 模型基礎(chǔ)上進行改進的,一種基于 DETR 架構(gòu)的實時端到端檢測器,它通過使用一系列新的技術(shù)和算法,實現(xiàn)了更高效的訓(xùn)練和推理,我們將在 Python、C+
    的頭像 發(fā)表于 10-20 11:15 ?1593次閱讀
    基于OpenVINO Python API部署RT-<b class='flag-5'>DETR</b>模型

    基于OpenVINO C++ API部署RT-DETR模型

    RT-DETR 是在 DETR 模型基礎(chǔ)上進行改進的,一種基于 DETR 架構(gòu)的實時端到端檢測器,它通過使用一系列新的技術(shù)和算法,實現(xiàn)了更高效的訓(xùn)練和推理,在前文我們發(fā)表了《基于 Op
    的頭像 發(fā)表于 11-03 14:30 ?1534次閱讀
    基于OpenVINO C++ API部署RT-<b class='flag-5'>DETR</b>模型

    基于OpenVINO C# API部署RT-DETR模型

    RT-DETR 是在 DETR 模型基礎(chǔ)上進行改進的,一種基于 DETR 架構(gòu)的實時端到端檢測器,它通過使用一系列新的技術(shù)和算法,實現(xiàn)了更高效的訓(xùn)練和推理,在前文我們發(fā)表了《基于 Op
    的頭像 發(fā)表于 11-10 16:59 ?1153次閱讀
    基于OpenVINO C# API部署RT-<b class='flag-5'>DETR</b>模型

    MS-DETR和其他SOTA方法的對比

    混合監(jiān)督會產(chǎn)生比基線更低的一對一損失。x軸對應(yīng)epoch,y軸對應(yīng)一對一監(jiān)督的訓(xùn)練損失。虛線和實線分別對應(yīng)于Deformable DETR基線和MS - DETR的損失曲線。
    的頭像 發(fā)表于 01-23 14:14 ?927次閱讀
    MS-<b class='flag-5'>DETR</b>和其他<b class='flag-5'>SOTA</b>方法的對比