本文介紹的論文提出了一種新的實(shí)時(shí)通用語義分割體系結(jié)構(gòu)RGPNet,在復(fù)雜環(huán)境下取得了顯著的性能提升。
作者: Tom Hardy
首發(fā):3D視覺工坊微信公眾號
論文:RGPNet: A Real-Time General Purpose Semantic Segmentation (文末可下載)
論文鏈接:https://arxiv.org/abs/1912.01394
一、主要思想
本文提出了一種新的實(shí)時(shí)通用語義分割體系結(jié)構(gòu)RGPNet,在復(fù)雜環(huán)境下取得了顯著的性能提升。RGPNet由一個(gè)輕量級的非對稱編碼器-解碼器和一個(gè)適配器組成。適配器有助于從編碼器和解碼器之間的多層分布式表示中保留和細(xì)化抽象概念。它也有助于從較深層到較淺層的梯度流動(dòng)。大量實(shí)驗(yàn)表明,與目前最先進(jìn)的語義分割網(wǎng)絡(luò)相比,RGPNet具有更好的性能。
此外還證明了在保持性能的同時(shí),使用改進(jìn)的標(biāo)簽松弛技術(shù)和逐步調(diào)整大小可以減少60%的訓(xùn)練時(shí)間。論文還對應(yīng)用在資源受限的嵌入式設(shè)備上的RGPNet進(jìn)行了優(yōu)化,使推理速度提高了400%,性能損失可以忽略不計(jì)。RGPNet在多個(gè)數(shù)據(jù)集之間獲得了更好的速度和精度權(quán)衡。
二、創(chuàng)新點(diǎn)
1、提出的RGPNet作為一種通用的實(shí)時(shí)語義分割體系結(jié)構(gòu),它可以在單分支網(wǎng)絡(luò)中獲得高分辨率的深層特征,從而提高準(zhǔn)確性和降低延遲,在復(fù)雜的環(huán)境中具有競爭力。
2、引入一個(gè)適配器模塊來捕獲多個(gè)抽象級別,以幫助細(xì)分的邊界細(xì)化,適配器還通過添加較短的路徑來輔助漸變梯度流。
3、對于green AI,在訓(xùn)練期間采用漸進(jìn)式調(diào)整大小技術(shù),從而使訓(xùn)練時(shí)間和環(huán)境影響減少60%,并且采用一種改進(jìn)的標(biāo)簽松弛來消除低分辨率標(biāo)簽映射中的混疊效應(yīng)。
4、使用TensorRT(一個(gè)高性能深度學(xué)習(xí)推理平臺)優(yōu)化RGPNet,以便部署在邊緣計(jì)算設(shè)備上,從而使推理速度提高400%。
5、RGPNet在Cityscpes、CamVid和Mapillary數(shù)據(jù)集上分別實(shí)現(xiàn)了Resnet-101作為backbone 下80.9%、69.2%和50.2% mIoU以及Resnet-18作為backbone下74.1%、66.9%和41.7% mIoU。對于1024×2048分辨率的圖像,RGPNet在CityScapes數(shù)據(jù)集上單NVIDIA GTX2080Ti GPU下達(dá)到37.4 FPS。
三、網(wǎng)絡(luò)結(jié)構(gòu)
RGPNet的整體結(jié)構(gòu)如下所示,每個(gè)箭頭都有對應(yīng)的操作模式:
- 中間一列操作為編碼器
- 最右邊操作為解碼器
- “+”操作為適配器(Adaptor)
其中“+”詳細(xì)操作如下所示:
1、T(:)是一個(gè)轉(zhuǎn)換函數(shù),它用來減少編碼器模塊輸出通道數(shù)量并將其傳輸?shù)絘daptor。
2、D(:)和U(:)是下采樣和上采樣功能。
Adaptor有許多優(yōu)點(diǎn):
1、Adaptor聚合來自不同上下文和空間級別的特征。
2、通過引入較短的路徑,有助于梯度從較深的層流向較淺的層。
3、Adaptor允許使用輕量解碼器的不對稱設(shè)計(jì),這將減少卷積層,進(jìn)一步增強(qiáng)梯度流。因此,Adaptor使網(wǎng)絡(luò)適合于實(shí)時(shí)應(yīng)用,因?yàn)樗诒A艨臻g信息的同時(shí)提供了豐富的語義信息。
針對帶標(biāo)簽松弛的漸進(jìn)式調(diào)整:
論文采取了最大化像素周圍區(qū)域相似度分布,而不是單個(gè)像素級別的標(biāo)簽最大可能化,針對邊界類別,提出了邊界損失函數(shù)。
四、實(shí)驗(yàn)結(jié)果
多種網(wǎng)絡(luò)在Mapillary Vistas數(shù)據(jù)集上的測試結(jié)果:
幾種網(wǎng)絡(luò)在Mapillary Vistas數(shù)據(jù)集上的性能對比:
在CamVid數(shù)據(jù)集上的性能對比:
RGPNet使用TensorRT在GTX2080Ti和Xavier上速度對比:
綜合速度和準(zhǔn)確率以及實(shí)際部署下的性能,RGPNet都非常具有競爭力~!
推薦閱讀
重點(diǎn)介紹:1、3D視覺算法;2、vslam算法;3、圖像處理;4、深度學(xué)習(xí);5、自動(dòng)駕駛;6、技術(shù)干貨。博主及合伙人分別來國內(nèi)自知名大廠、??笛芯吭?,深研3D視覺、深度學(xué)習(xí)、圖像處理、自動(dòng)駕駛、目標(biāo)檢測、VSLAM算法等領(lǐng)域。
歡迎關(guān)注微信公眾號
審核編輯:符乾江
-
人工智能
+關(guān)注
關(guān)注
1806文章
48987瀏覽量
249104 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
9文章
1708瀏覽量
46758
發(fā)布評論請先 登錄
SMA接口在汽車電子復(fù)雜環(huán)境下的適應(yīng)性剖析

Matter 智能家居的通用語言
標(biāo)準(zhǔn)網(wǎng)絡(luò)時(shí)鐘系統(tǒng):數(shù)字時(shí)代的通用語法
SparseViT:以非語義為中心、參數(shù)高效的稀疏化視覺Transformer

【AIBOX應(yīng)用】通過 NVIDIA TensorRT 實(shí)現(xiàn)實(shí)時(shí)快速的語義分割

利用VLM和MLLMs實(shí)現(xiàn)SLAM語義增強(qiáng)

復(fù)雜環(huán)境下多無人智能車輛協(xié)同調(diào)控

使用語義線索增強(qiáng)局部特征匹配

手冊上新 |迅為RK3568開發(fā)板NPU例程測試
語義分割25種損失函數(shù)綜述和展望

評論