一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

詳解旋轉目標檢測方法與結果

中科院長春光機所 ? 來源:極市平臺 ? 作者:yangxue@知乎 ? 2021-03-19 11:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

極市導讀本文是今年剛被CVPR接收的文章,關于CSL的優(yōu)化版本Densely Coded Labels (DCL),優(yōu)化了過于厚重的預測層以及對類正方形目標檢測的不友好。附有相關代碼與demo展示。 》》加入極市CV技術交流群,走在計算機視覺的最前沿

一、介紹

Densely Coded Labels (DCL)是 Circular Smooth Label (CSL)(https://zhuanlan.zhihu.com/p/111493759)的優(yōu)化版本。DCL主要從兩方面進行了優(yōu)化:過于厚重的預測層以及對類正方形目標檢測的不友好。

文章地址:

Dense Label Encoding for Boundary Discontinuity Free Rotation Detection

https://arxiv.org/abs/2011.09670

代碼地址:

DCL-Tensorflow

https://github.com/yangxue0827/RotationDetection

二、厚重的預測層

CSL編碼方式與獨熱編碼(one-hot)均屬于稀疏編碼(Sparsely Coded Label, SCL)。稀疏編碼的一個明顯缺點是需要較長的位數來進行編碼,以CSL為例,下面這種公式是其編解碼的具體過程:

393ec71c-8695-11eb-8b86-12bb97331649.png

CSL編解碼過程

其中 , 和 分別表示角度范圍(默認是180)以及所劃分的角度類別。

那我們就可以計算出使用CSL編碼方式或獨熱編碼時的預測層厚度:

3994100a-8695-11eb-8b86-12bb97331649.png

CSL編碼方式與獨熱編碼的預測層厚度計算公式

其中 表示anchor的數量。

而使用回歸進行角度預測時的預測層厚度僅為:

回歸方法的預測層厚度

以 為例,CSL編碼方式與獨熱編碼的預測層厚度是1620,而基于回歸的預測層厚度只有9。這使得基于稀疏編碼方法的參數量(Params)和計算量(GFlops)相比基于回歸方法增加了26.40%和32.34%,造成模型訓練和測試的效率低下,如下表所示。

39e8b308-8695-11eb-8b86-12bb97331649.jpg

參數量(Params)和計算量(GFlops)的比較

因此,如何減短編碼長度是提高模型效率的關鍵。因此我們想到了密集編碼方法(Densely Coded Label, DCL),主要編碼方法有二值編碼(Binary Coded Label, BCL)和格雷編碼 (Gray Coded Label, GCL),它們的預測層厚度計算公式如下:

3a05eb80-8695-11eb-8b86-12bb97331649.jpg

二值編碼和格雷編碼的預測層厚度計算公式

同樣以 為例,它們所對應的預測層厚度只有72,只增加1.03%的參數量和1.26%的計算量,和回歸方法的效率幾乎一樣。下式是它們的編解碼過程,以二值編碼為例:

3a59f1f8-8695-11eb-8b86-12bb97331649.png

BCL編解碼過程

其中二值編碼和格雷編碼的編碼偽代碼:

3a82db4a-8695-11eb-8b86-12bb97331649.jpg

二值編碼和格雷編碼的編碼偽代碼

盡管編碼長度大大減少,但會引入幾個其他問題。

第一問題是二值編碼在一定程度上失去了相鄰角度之間的“距離遠近”,也就是相鄰值之間的編碼結果可能發(fā)生巨大變化,沒有了CSL方法中強調的容忍性。比如,3和4在三位的二進制編碼結果分別為011和100,如下表所示。

3aa66bfa-8695-11eb-8b86-12bb97331649.jpg

十進制數所對應的三位二值編碼和格雷編碼

可以看到所有三個位置都發(fā)生了變化,導致兩個角度預測的誤差很大。而格雷碼沒有這樣的問題,這是因為在一組數字的編碼中,任何兩個相鄰數的格雷碼只有一位不同。由于最大值和最小值之間也只有一位數字不同,因此格雷碼也稱為循環(huán)碼。格雷編碼的缺點也很明顯,盡管相鄰角度之間的編碼形式差別不大,但是具有較大差異的角度的編碼差異也不是很明顯,例如1(001)和6(101)。

第二個問題是所劃分的角度類別數需要是2的指數倍才能保證每一種編碼都對應一種角度,否則會有大量冗余的編碼(盡管實驗驗證這個問題影響不大)。如果將180度范圍劃分為 個類別,則每個劃分間隔的范圍為 。根據CSL文章中的計算公式,理論期望誤差和最大誤差分別是 和 ,這種大小的誤差在是可以忽略不計的。

為了更好比較稀疏編碼和密集編碼,下圖就是一個具體例子:

稀疏編碼和密集編碼的比較例子

三、類正方形目標檢測的不友好

不管是CSL還是DCL,為了避免角度周期性(PoA)和邊的交換性(EoE)問題,它們均采用了“角度分類+長邊定義法”的組合。長邊定義法有這樣一個問題,他無法較好定義一個類正方形目標,如下圖所示:

類正方形檢測問題

圖的左邊是gt,右邊是一種“視覺可行”的預測結果,之所以說“視覺可行”是因為此時的計算誤差非常大。這個誤差主要來源于角度(類正方形目標兩邊近似相等,因此盡管wh的順序相反,誤差依然很?。W屑氂^察可以發(fā)現這兩種框的角度差約等于 。其實使用周期為90的定義方法對類正方形目標來說更加合適(如OpenCV定義法),長邊定義法有明顯的缺陷。我的另一篇文章GWD詳細討論了這種問題,有一句話概括長邊定義法出現這種問題的原因:目標長寬比的減小使得評估(IoU)和損失( -norm)之間的不一致性逐漸被放大。

針對這個問題以及第一個問題中提到的容忍性的消失,我們設計了一個損失權重(ADARSW),具體公式如下:

ADARSW權重

具體的想法是通過預測和gt的十進制差值來引入容忍性,三角函數的引入來解決角度周期性和類正方形檢測問題(通過長寬比來調整 參數,從而調整三角函數的周期)。

四、實驗結果

下表是對角度離散化粒度 的消融實驗。盡管理論上越小,理論誤差越小,預測精度上限越高,但是會增加角度分類的難度。越大也不好,太大的話理論誤差太大,預測精度上限太低。一個合適的取值范圍是[180/32-180/256]。并且我們發(fā)現,基于分類的角度預測方法(CSL和DCL)比基于回歸方法在高精度 上更有優(yōu)勢,并且DCL比CSL效果更好,當然效率也更高。

角度離散化粒度的消融實驗

下表是對所提權重的消融實驗,主要列舉了DOTA數據集中10種長寬比比較小的類正方形目標,并驗證了ADARSW的有效性。

3c5bd5a2-8695-11eb-8b86-12bb97331649.png

ADARSW的消融實驗

下表是在不同數據集上對三種不同方法的比較,我們發(fā)現BCL》CSL》Reg.。

3c7e07ee-8695-11eb-8b86-12bb97331649.png

其他數據集上的效果驗證

下面兩個表格是所提方法在兩種數據集上的SOTA對比,DCL-based方法具有一定的優(yōu)勢。

3c9bb258-8695-11eb-8b86-12bb97331649.jpg

DOTA數據集上的SOTA方法對比

3cbd66aa-8695-11eb-8b86-12bb97331649.jpg

HRSC2016數據集上的SOTA方法對比

下圖是對DCL方法的所預測角度的特征可視化:

RetinaNet-DCL角度特征可視化

五、總結

基于角度分類預測的方法基本告一段落,CSL和DCL驗證了角度分類這條路子的可行性,那其實接下來可以研究如何更好分類,可以借鑒很多方向的分類損失設計,例如人臉識別。但是,這兩篇方法并沒有表現出角度分類這條路的優(yōu)越性,我所看到的優(yōu)勢僅僅是方法本身不存在邊界問題,也就是論文題目所寫的Boundary Discontinuity Free,但是代價是存在理論誤差以及模型參數量和計算量的增加。因此,最近我又回到了“角度回歸預測+新loss設計”這條路,一個工作是GWD(https://arxiv.org/abs/2101.11952),歡迎大家交流討論。

另外,簡單介紹一下我所寫的一個基于tensorflow框架的旋轉檢測benchmark:

https://github.com/yangxue0827/RotationDetection

支持的算法:RetinaNet、Faster-RCNN等baseline以及SCRDet (ICCV19)、R3Det (AAAI21)、RSDet (AAAI21)、CSL (ECCV20)、DCL (CVPR21)、GWD等創(chuàng)新方法;

支持的數據集:DOTA、HRSC2016、ICDAR2015、ICDAR2017 MLT、MSRA-TD500、UCAS-AOD、FDDB、OHD-SJTU、SSDD++;

提供大量不同的預訓練權重和訓練好的權重;

訓練可視化分析,以R3Det (AAAI21)為例:

SCRDet (ICCV19):https://arxiv.org/abs/1811.071263Det (AAAI21):https://arxiv.org/abs/1908.05612RSDet (AAAI21):https://arxiv.org/abs/1911.08299CSL (ECCV20):https://arxiv.org/abs/2003.05597DCL (CVPR21):https://arxiv.org/abs/2011.09670GWD:https://arxiv.org/abs/2101.11952R3Det (AAAI21):https://arxiv.org/abs/1908.05612

訓練可視化

統(tǒng)計量記錄

5. RotationDetection的總體框如下:

RotationDetection框架結構

6. demo:https://www.zhihu.com/zvideo/1289379563034636288
編輯:lyn

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 編碼
    +關注

    關注

    6

    文章

    969

    瀏覽量

    55798
  • 目標檢測
    +關注

    關注

    0

    文章

    227

    瀏覽量

    16029
  • 計算機視覺
    +關注

    關注

    9

    文章

    1709

    瀏覽量

    46788

原文標題:旋轉目標檢測方法解讀(DCL, CVPR2021)

文章出處:【微信號:cas-ciomp,微信公眾號:中科院長春光機所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    基于LockAI視覺識別模塊:C++目標檢測

    ::PaddleDet 類進行目標檢測,并通過lockzhiner_vision_module::vision::Visualize 函數將檢測結果可視化。 源代碼網址:https:/
    發(fā)表于 06-06 14:43

    基于LockAI視覺識別模塊:C++目標檢測

    本文檔基于瑞芯微RV1106的LockAI凌智視覺識別模塊,通過C++語言做的目標檢測實驗。本文檔展示了如何使用lockzhiner_vision_module::PaddleDet類進行目標
    的頭像 發(fā)表于 06-06 13:56 ?225次閱讀
    基于LockAI視覺識別模塊:C++<b class='flag-5'>目標</b><b class='flag-5'>檢測</b>

    氣密性檢測設備的檢測結果不精準?不實

    結果的關鍵因素是設備本身的精度和校準狀態(tài)。為了確保測量結果的準確性,需要定期對氣密性檢測設備進行校準和維護。若設備長時間未校準,或校準方法不正確,可導致試驗
    的頭像 發(fā)表于 04-03 14:09 ?249次閱讀
    氣密性<b class='flag-5'>檢測</b>設備的<b class='flag-5'>檢測</b><b class='flag-5'>結果</b>不精準?不實

    labview調用yolo目標檢測、分割、分類、obb

    labview調用yolo目標檢測、分割、分類、obb、pose深度學習,支持CPU和GPU推理,32/64位labview均可使用。 (yolov5~yolov12)
    發(fā)表于 03-31 16:28

    軒轅智駕紅外目標檢測算法在汽車領域的應用

    在 AI 技術蓬勃發(fā)展的當下,目標檢測算法取得了重大突破,其中紅外目標檢測算法更是在汽車行業(yè)掀起了波瀾壯闊的變革,從根本上重塑著汽車的安全性能、駕駛體驗與產業(yè)生態(tài)。
    的頭像 發(fā)表于 03-27 15:55 ?443次閱讀

    電池氣密性檢測結果的解讀與判定

    。本文將詳細講解電池氣密性檢測儀的結果解釋和判斷標準,幫助客戶了解檢測結果。電池氣密性檢測儀通常采用負壓差測試
    的頭像 發(fā)表于 02-28 15:04 ?472次閱讀
    電池氣密性<b class='flag-5'>檢測</b>儀<b class='flag-5'>結果</b>的解讀與判定

    精密空調操作使用方法詳解

    精密空調操作使用方法詳解
    的頭像 發(fā)表于 02-10 14:44 ?1052次閱讀
    精密空調操作使用<b class='flag-5'>方法</b><b class='flag-5'>詳解</b>

    探索對抗訓練的概率分布偏差:DPA雙概率對齊的通用域自適的目標檢測方法

    檢測目標檢測作為計算機視覺領域的核心任務,在閉集場景中已經取得了顯著的進展。然而,現有的方法通常假設類別集合是固定的,并依賴于大量的標注數據,這導致它們在處理跨域數據時,特別是在源
    的頭像 發(fā)表于 01-15 13:45 ?767次閱讀
    探索對抗訓練的概率分布偏差:DPA雙概率對齊的通用域自適的<b class='flag-5'>目標</b><b class='flag-5'>檢測</b><b class='flag-5'>方法</b>

    安泰功率放大器在管道內檢測智能球旋轉能量研究中的應用

    實驗名稱:管道內檢測智能球旋轉能量收集 研究方向:管道檢測 測試目的: 以管道內檢測智能球的運動特性分析為基礎,提出適用于智能球的旋轉壓電能
    的頭像 發(fā)表于 12-26 10:39 ?398次閱讀
    安泰功率放大器在管道內<b class='flag-5'>檢測</b>智能球<b class='flag-5'>旋轉</b>能量研究中的應用

    AI模型部署邊緣設備的奇妙之旅:目標檢測模型

    ,目標物體周圍復雜的背景信息可能會干擾分類結果,使得分類器難以專注于真正重要的區(qū)域。 在深入探討了圖像分類任務及其面臨的挑戰(zhàn)之后,我們現在將目光轉向一個更為復雜的計算機視覺問題——目標檢測
    發(fā)表于 12-19 14:33

    在樹莓派上部署YOLOv5進行動物目標檢測的完整流程

    目標檢測在計算機視覺領域中具有重要意義。YOLOv5(You Only Look One-level)是目標檢測算法中的一種代表性方法,以其
    的頭像 發(fā)表于 11-11 10:38 ?3746次閱讀
    在樹莓派上部署YOLOv5進行動物<b class='flag-5'>目標</b><b class='flag-5'>檢測</b>的完整流程

    使用MSP430掃描接口進行旋轉檢測

    電子發(fā)燒友網站提供《使用MSP430掃描接口進行旋轉檢測.pdf》資料免費下載
    發(fā)表于 10-23 10:22 ?0次下載
    使用MSP430掃描接口進行<b class='flag-5'>旋轉</b><b class='flag-5'>檢測</b>

    使用MSP430掃描接口和光學傳感器進行旋轉和線性運動檢測

    電子發(fā)燒友網站提供《使用MSP430掃描接口和光學傳感器進行旋轉和線性運動檢測.pdf》資料免費下載
    發(fā)表于 10-22 10:03 ?0次下載
    使用MSP430掃描接口和光學傳感器進行<b class='flag-5'>旋轉</b>和線性運動<b class='flag-5'>檢測</b>

    使用MSP430擴展掃描接口(ESI)進行LC傳感器旋轉檢測

    電子發(fā)燒友網站提供《使用MSP430擴展掃描接口(ESI)進行LC傳感器旋轉檢測.pdf》資料免費下載
    發(fā)表于 10-10 11:33 ?0次下載
    使用MSP430擴展掃描接口(ESI)進行LC傳感器<b class='flag-5'>旋轉</b><b class='flag-5'>檢測</b>

    旋轉變壓器的故障診斷方法

    旋轉變壓器作為電機或發(fā)電機的重要部件,其故障診斷對于確保設備的正常運行至關重要。以下是對旋轉變壓器故障診斷方法的詳細探討,旨在提供全面且深入的理解。
    的頭像 發(fā)表于 08-19 17:53 ?2376次閱讀