一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

華南理工開(kāi)源VISTA:雙跨視角空間注意力機(jī)制實(shí)現(xiàn)3D目標(biāo)檢測(cè)SOTA

新機(jī)器視覺(jué) ? 來(lái)源:機(jī)器之心 ? 作者:鄧圣衡、梁智灝、 ? 2022-04-07 09:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文提出了 VISTA,一種新穎的即插即用多視角融合策略,用于準(zhǔn)確的 3D 對(duì)象檢測(cè)。為了使 VISTA 能夠關(guān)注特定目標(biāo)而不是一般點(diǎn),研究者提出限制學(xué)習(xí)的注意力權(quán)重的方差。將分類(lèi)和回歸任務(wù)解耦以處理不平衡訓(xùn)練問(wèn)題。在 nuScenes 和 Waymo 數(shù)據(jù)集的基準(zhǔn)測(cè)試證明了 VISTA 方法的有效性和泛化能力。該論文已被CVPR 2022接收。

第一章 簡(jiǎn)介 LiDAR (激光雷達(dá))是一種重要的傳感器,被廣泛用于自動(dòng)駕駛場(chǎng)景中,以提供物體的精確 3D 信息。因此,基于 LiDAR 的 3D 目標(biāo)檢測(cè)引起了廣泛關(guān)注。許多 3D 目標(biāo)檢測(cè)算法通過(guò)將無(wú)序和不規(guī)則的點(diǎn)云進(jìn)行體素化,隨后利用卷積神經(jīng)網(wǎng)絡(luò)處理體素?cái)?shù)據(jù)。然而,3D 卷積算子在計(jì)算上效率低下且容易消耗大量?jī)?nèi)存。為了緩解這些問(wèn)題,一系列工作利用稀疏 3D 卷積網(wǎng)絡(luò)作為 3D 骨干網(wǎng)絡(luò)來(lái)提取特征。如圖 1 所示,這些工作將 3D 特征圖投影到鳥(niǎo)瞰圖 (BEV) 或正視圖 (RV) 中,并且使用各種方法從這些 2D 特征圖生成對(duì)象候選 (Object Proposals)。

9f641018-b607-11ec-aa7f-dac502259ad0.png

圖 1:?jiǎn)我暯菣z測(cè)和文章提出的基于 VISTA 的多視角融合檢測(cè)的對(duì)比 不同的視角有各自的優(yōu)缺點(diǎn)需要考慮。在 BEV 中,對(duì)象不相互重疊,每個(gè)對(duì)象的大小與距自我車(chē)輛 (ego-vehicle) 的距離無(wú)關(guān)。RV 是 LiDAR 點(diǎn)云的原生表征,因此,它可以產(chǎn)生緊湊和密集的特征。然而,無(wú)論是選擇 BEV 還是 RV,投影都會(huì)不可避免地?fù)p害 3D 空間中傳遞的空間信息的完整性。例如,由于 LiDAR 數(shù)據(jù)生成過(guò)程自身的特性和自遮擋效應(yīng),BEV 表征非常稀疏,并且它壓縮了 3D 點(diǎn)云的高度信息,在 RV 中,由于丟失了深度信息,遮擋和對(duì)象大小的變化會(huì)更加嚴(yán)重。顯然,從多個(gè)視角進(jìn)行聯(lián)合學(xué)習(xí),也就是多視角融合,為我們提供了準(zhǔn)確的 3D 目標(biāo)檢測(cè)的解決方案。先前的一些多視角融合算法從單個(gè)視角生成候選目標(biāo),并利用多視角特征來(lái)細(xì)化候選目標(biāo)。此類(lèi)算法的性能高度依賴(lài)于生成的候選的質(zhì)量;但是,從單一視角生成的候選沒(méi)有使用所有可用信息,可能導(dǎo)致次優(yōu)解的產(chǎn)生。其他工作根據(jù)不同視角之間的坐標(biāo)投影關(guān)系融合多視角特征。這種融合方法的準(zhǔn)確性依賴(lài)于另一個(gè)視角的相應(yīng)區(qū)域中可提供的補(bǔ)充信息;然而遮擋效應(yīng)是不可避免的,這會(huì)導(dǎo)致低質(zhì)量的多視角特征融合產(chǎn)生。 為了提高 3D 目標(biāo)檢測(cè)的性能,在本文中,給定從 BEV 和 RV 學(xué)習(xí)到的 3D 特征圖,我們提出通過(guò)雙跨視角空間注意力機(jī)制 (VISTA) 從全局空間上下文中生成高質(zhì)量的融合多視角特征用于預(yù)測(cè)候選目標(biāo),如圖 1 所示。所提出的 VISTA 利用源自Transformer 的注意機(jī)制,其中 Transformer 已經(jīng)被成功應(yīng)用于各種研究環(huán)境(例如自然語(yǔ)言處理、2D 計(jì)算機(jī)視覺(jué))中。與通過(guò)坐標(biāo)投影直接融合相比,VISTA 中內(nèi)置的注意力機(jī)制利用全局信息,通過(guò)將單個(gè)視角的特征視為特征元素序列,自適應(yīng)地對(duì)視角間的所有成對(duì)相關(guān)性進(jìn)行建模。為了全面建??缫暯窍嚓P(guān)性,必須考慮兩個(gè)視角中的局部信息,因此我們用卷積算子替換傳統(tǒng)注意力模塊中的 MLP,我們?cè)趯?shí)驗(yàn)部分展示了這樣做的有效性。盡管如此,如實(shí)驗(yàn)部分所示,學(xué)習(xí)視角之間的相關(guān)性仍然具有挑戰(zhàn)性。直接采用注意力機(jī)制進(jìn)行多視角融合帶來(lái)的收益很小,我們認(rèn)為這主要是由于 3D 目標(biāo)檢測(cè)任務(wù)本身的特性導(dǎo)致的。 一般來(lái)說(shuō),3D 目標(biāo)檢測(cè)任務(wù)可以分為兩個(gè)子任務(wù):分類(lèi)和回歸。正如先前一些工作(LaserNet, CVCNet) 中所闡述的,3D 目標(biāo)檢測(cè)器在檢測(cè)整個(gè) 3D 場(chǎng)景中的物體時(shí)面臨許多挑戰(zhàn),例如遮擋、背景噪聲和點(diǎn)云缺乏紋理信息。因此,注意力機(jī)制很難學(xué)習(xí)到相關(guān)性,導(dǎo)致注意力機(jī)制傾向于取整個(gè)場(chǎng)景的均值,這是出乎意料的,因?yàn)樽⒁饬δK是為關(guān)注感興趣的區(qū)域而設(shè)計(jì)的。因此,我們顯式地限制了注意力機(jī)制學(xué)習(xí)到的注意力圖 (Attention Map) 的方差,從而引導(dǎo)注意力模塊理解復(fù)雜的 3D 戶(hù)外場(chǎng)景中的有意義區(qū)域。此外,分類(lèi)和回歸的不同學(xué)習(xí)目標(biāo)決定了注意力模塊中學(xué)習(xí)的 queries 和 keys 的不同期望。不同物體各自的回歸目標(biāo)(例如尺度、位移)期望 queries 和 keys 了解物體的特性。相反,分類(lèi)任務(wù)推動(dòng)網(wǎng)絡(luò)了解物體類(lèi)的共性。不可避免地,共享相同的注意力建模會(huì)給這兩個(gè)任務(wù)的訓(xùn)練帶來(lái)沖突。此外,一方面,由于紋理信息的丟失,神經(jīng)網(wǎng)絡(luò)難以從點(diǎn)云中提取語(yǔ)義特征。另一方面,神經(jīng)網(wǎng)絡(luò)可以很容易地從點(diǎn)云中學(xué)習(xí)物體的幾何特性。這帶來(lái)的結(jié)果就是,在訓(xùn)練過(guò)程中,產(chǎn)生了以回歸為主導(dǎo)的困境。為了應(yīng)對(duì)這些挑戰(zhàn),我們?cè)谔岢龅?VISTA 中將這兩個(gè)任務(wù)解耦,以學(xué)習(xí)根據(jù)不同任務(wù)整合不同的線(xiàn)索。 我們提出的 VISTA 是一個(gè)即插即用的模塊,可以被用于近期的先進(jìn)的目標(biāo)分配 (Target Assignment) 策略中。我們?cè)?nuScenes 和 Waymo 兩個(gè)基準(zhǔn)數(shù)據(jù)集上測(cè)試了提出的基于 VISTA 的多視角融合算法。在驗(yàn)證集上的消融實(shí)驗(yàn)證實(shí)了我們的猜想。提出的 VISTA 可以產(chǎn)生高質(zhì)量的融合特征,因此,我們提出的方法優(yōu)于所有已公布開(kāi)源的算法。在提交時(shí),我們的最終結(jié)果在 nuScenes 排行榜上的 mAP 和 NDS 達(dá)到 63.0% 和 69.8%。在 Waymo 上,我們?cè)谲?chē)輛、行人和騎自行車(chē)人上分別達(dá)到了 74.0%、72.5% 和 71.6% 的 2 級(jí) mAPH。我們將我們的主要貢獻(xiàn)總結(jié)如下:

我們提出了一種新穎的即插即用融合模塊:雙跨視角空間注意力機(jī)制 (VISTA),以產(chǎn)生融合良好的多視角特征,以提高 3D 目標(biāo)檢測(cè)器的性能。我們提出的 VISTA 用卷積算子代替了 MLP,這能夠更好地處理注意力建模的局部線(xiàn)索。

我們將 VISTA 中的回歸和分類(lèi)任務(wù)解耦,以利用單獨(dú)的注意力建模來(lái)平衡這兩個(gè)任務(wù)的學(xué)習(xí)。我們?cè)谟?xùn)練階段將注意力方差約束應(yīng)用于 VISTA,這有助于注意力的學(xué)習(xí)并使網(wǎng)絡(luò)能夠關(guān)注感興趣的區(qū)域。

我們?cè)?nuScenes 和 Waymo 兩個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了徹底的實(shí)驗(yàn)。我們提出的基于 VISTA 的多視角融合可用于各種先進(jìn)的目標(biāo)分配策略,輕松提升原始算法并在基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)最先進(jìn)的性能。具體來(lái)說(shuō),我們提出的方法在整體性能上比第二好的方法高出 4.5%,在騎自行車(chē)的人等安全關(guān)鍵對(duì)象類(lèi)別上高出 24%。

9f7845e2-b607-11ec-aa7f-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2203.09704

代碼鏈接:https://github.com/Gorilla-Lab-SCUT/VISTA

第二章 雙跨視角空間注意力機(jī)制 對(duì)于大多數(shù)基于體素的 3D 目標(biāo)檢測(cè)器,它們密集地產(chǎn)生逐 pillar 的目標(biāo)候選,經(jīng)驗(yàn)上講,生成信息豐富的特征圖可以保證檢測(cè)質(zhì)量。在多視角 3D 目標(biāo)檢測(cè)的情況下,目標(biāo)候選來(lái)自融合的特征圖,因此需要在融合期間全面考慮全局空間上下文。為此,我們尋求利用注意力模塊捕獲全局依賴(lài)關(guān)系的能力進(jìn)行多視角融合,即跨視角空間注意力。在考慮全局上下文之前,跨視角空間注意力模塊需要聚合局部線(xiàn)索以構(gòu)建不同視角之間的相關(guān)性。因此,我們提出 VISTA,其中基于多層感知器 (MLP) 的標(biāo)準(zhǔn)注意力模塊被卷積層取代。然而,在復(fù)雜的 3D 場(chǎng)景中學(xué)習(xí)注意力是很困難的。為了采用跨視角注意力進(jìn)行多視角融合,我們進(jìn)一步解耦了 VISTA 中的分類(lèi)和回歸任務(wù),并應(yīng)用提出的注意力約束來(lái)促進(jìn)注意力機(jī)制的學(xué)習(xí)過(guò)程。 在本節(jié)中,我們將首先詳細(xì)介紹所提出的雙跨視角空間注意力機(jī)制(VISTA)的整體架構(gòu),然后詳細(xì)闡述所提出的 VISTA 的解耦設(shè)計(jì)和注意力約束。 2.1 整體架構(gòu)

9f8e3e7e-b607-11ec-aa7f-dac502259ad0.png

圖 2:VISTA 整體架構(gòu) 如圖 2 所示,VISTA 將來(lái)自?xún)蓚€(gè)不同視角的特征序列作為輸入,并對(duì)多視角特征之間的跨視角相關(guān)性進(jìn)行建模。與使用線(xiàn)性投影轉(zhuǎn)換輸入特征序列的普通注意力模塊不同,VISTA 通過(guò) 3x3 卷積操作子將輸入特征序列9fa1dc72-b607-11ec-aa7f-dac502259ad0.png投影到 queries9fb301aa-b607-11ec-aa7f-dac502259ad0.png9fc31d42-b607-11ec-aa7f-dac502259ad0.png中。為了將分類(lèi)和回歸解耦開(kāi),Q和K通過(guò)單獨(dú)的 MLP 投影到9fcff9fe-b607-11ec-aa7f-dac502259ad0.png。為了計(jì)算V的加權(quán)和作為跨視角輸出F,我們應(yīng)用縮放的點(diǎn)積來(lái)獲得跨視角注意力權(quán)重9fe113c4-b607-11ec-aa7f-dac502259ad0.png: ?

9ff6c372-b607-11ec-aa7f-dac502259ad0.png

并且輸出將是a009f60e-b607-11ec-aa7f-dac502259ad0.png。輸出F_i將被饋送到單個(gè)前饋網(wǎng)絡(luò)以FFN_i獲得最終結(jié)果。我們采用先前工作中廣泛使用的架構(gòu)作為我們的 FFN,以確保非線(xiàn)性和多樣性。我們提出的 VISTA 是一種單階段方法,可根據(jù)跨視角融合的特征直接生成候選目標(biāo);這樣的設(shè)計(jì)可以利用更多信息進(jìn)行準(zhǔn)確高效的 3D 目標(biāo)檢測(cè)。 ?2.2 解耦分類(lèi)和回歸任務(wù)? VISTA 將分類(lèi)和回歸任務(wù)解耦。在共享卷積算子之后,queries 和 keys 通過(guò)單獨(dú)的線(xiàn)性投影進(jìn)一步處理產(chǎn)生Q_i和K_i,然后它們將根據(jù)語(yǔ)義信息或幾何信息參與不同的注意力建模。這種解耦的動(dòng)機(jī)是分類(lèi)和回歸的監(jiān)督信號(hào)對(duì)訓(xùn)練造成的不同影響。 ? 給定場(chǎng)景中的 query 目標(biāo),為了分類(lèi),注意力模塊需要從全局上下文中的對(duì)象中聚合語(yǔ)義線(xiàn)索,以豐富融合特征中傳達(dá)的語(yǔ)義信息。這樣的目標(biāo)要求學(xué)習(xí)的 queries 和 keys 知道同一類(lèi)別的不同對(duì)象之間的共性,以使同一類(lèi)別的對(duì)象在語(yǔ)義上應(yīng)該相互匹配。然而,回歸任務(wù)不能采用相同的 queries 和 keys,因?yàn)椴煌膶?duì)象有自己的幾何特征(例如位移、尺度、速度等),回歸特征應(yīng)該在不同的對(duì)象上是多樣的。因此,在分類(lèi)和回歸的聯(lián)合訓(xùn)練過(guò)程中,共享相同的 queries 和 keys 會(huì)導(dǎo)致注意力學(xué)習(xí)發(fā)生沖突。 ? 此外,無(wú)論是單視角還是多視角,分類(lèi)和回歸結(jié)果都是從傳統(tǒng)的基于體素的 3D 目標(biāo)檢測(cè)器中的相同特征圖預(yù)測(cè)的。然而,由于 3D 場(chǎng)景的固有屬性,3D 點(diǎn)云中不可避免地存在遮擋和紋理信息丟失,3D 檢測(cè)器難以提取語(yǔ)義特征,給分類(lèi)學(xué)習(xí)帶來(lái)很大挑戰(zhàn)。相反,3D 點(diǎn)云傳達(dá)的豐富幾何信息減輕了網(wǎng)絡(luò)理解物體幾何屬性的負(fù)擔(dān),這是學(xué)習(xí)回歸任務(wù)的基礎(chǔ)。結(jié)果,在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,出現(xiàn)了分類(lèi)和回歸之間學(xué)習(xí)的不平衡現(xiàn)象,其中分類(lèi)的學(xué)習(xí)被回歸主導(dǎo)。這種不平衡的學(xué)習(xí)是基于 3D 點(diǎn)云的,包含分類(lèi)和回歸任務(wù)的 3D 目標(biāo)檢測(cè)中的常見(jiàn)問(wèn)題,這將對(duì)檢測(cè)性能產(chǎn)生負(fù)面影響。具體來(lái)說(shuō),3D 檢測(cè)器在具有相似幾何特征的不同對(duì)象類(lèi)別(例如卡車(chē)和公共汽車(chē))上不會(huì)很魯棒。 ? 為了緩解上述問(wèn)題,我們分別為語(yǔ)義和幾何信息分別建立注意力模型。注意力模塊的輸出是基于構(gòu)建的語(yǔ)義和幾何注意力權(quán)重的a01d3ee4-b607-11ec-aa7f-dac502259ad0.png。分類(lèi)和回歸的監(jiān)督分別應(yīng)用于a02f4eea-b607-11ec-aa7f-dac502259ad0.png,保證了相應(yīng)任務(wù)的有效學(xué)習(xí)。 ?2.3 注意力約束? 當(dāng)學(xué)習(xí)從全局上下文中對(duì)跨視角相關(guān)性進(jìn)行建模時(shí),所提出的 VISTA 面臨著許多挑戰(zhàn)。3D 場(chǎng)景包含大量背景點(diǎn)(大約高達(dá) 95%),只有一小部分是有助于檢測(cè)結(jié)果的興趣點(diǎn)。在跨視角注意力的訓(xùn)練過(guò)程中,海量的背景點(diǎn)會(huì)給注意力模塊帶來(lái)意想不到的噪音。此外,復(fù)雜 3D 場(chǎng)景中的遮擋效應(yīng)給注意力學(xué)習(xí)帶來(lái)了不可避免的失真。因此,注意力模塊傾向于關(guān)注不相關(guān)的區(qū)域。注意力學(xué)習(xí)不佳的極端情況是全局平均池化(GAP)操作,正如我們?cè)趯?shí)驗(yàn)部分中所展示的,沒(méi)有任何明確的監(jiān)督,直接采用注意力模塊進(jìn)行多視角融合會(huì)產(chǎn)生類(lèi)似于 GAP 的性能,這表明注意力模塊不能很好地對(duì)跨視角相關(guān)性建模。 ? 為了使注意力模塊能夠?qū)W⒂谔囟繕?biāo)而不是一般的點(diǎn),我們提出對(duì)學(xué)習(xí)的注意力權(quán)重的方差施加約束。利用提出的約束,我們使網(wǎng)絡(luò)能夠?qū)W習(xí)注意到特定目標(biāo)。通過(guò)將注意力方差約束與傳統(tǒng)的分類(lèi)回歸監(jiān)督信號(hào)相結(jié)合,注意力模塊專(zhuān)注于場(chǎng)景中有意義的目標(biāo),從而產(chǎn)生高質(zhì)量的融合特征。我們將提出的約束設(shè)定為訓(xùn)練期間的輔助損失函數(shù)。為簡(jiǎn)單起見(jiàn),我們忽略 batch 維度,給定學(xué)習(xí)的注意力權(quán)重a042f71a-b607-11ec-aa7f-dac502259ad0.png分別是 BEV 和 RV 中的 pillar 數(shù)量,xy 平面中 GT 框的尺度和中心位置的集合a0529972-b607-11ec-aa7f-dac502259ad0.png,其中a067b51e-b607-11ec-aa7f-dac502259ad0.png是場(chǎng)景中的框數(shù)量。對(duì)于 BEV 中的每個(gè) pillar,我們根據(jù)體素大小計(jì)算其中心的真實(shí)坐標(biāo),并得到集合a0793f78-b607-11ec-aa7f-dac502259ad0.png。每個(gè) GT 框的注意力權(quán)重通過(guò)以下方式獲得: ?

a0888258-b607-11ec-aa7f-dac502259ad0.png

然后我們?yōu)樗?GT 框制定方差約束如下:

a09c4612-b607-11ec-aa7f-dac502259ad0.png

其中N_q是b_q由包圍的 pillar 的數(shù)量,a0afa5c2-b607-11ec-aa7f-dac502259ad0.png計(jì)算給定向量的方差。 ?第三章 實(shí)現(xiàn)?3.1 體素化? 我們根據(jù) x,y,z 軸對(duì)點(diǎn)云進(jìn)行體素化。對(duì)于 nuScenes 數(shù)據(jù)集,體素化的范圍是[-51.2, 51.2]m, [-51.2,51.2]m 和[-5.0,3]m,以 x,y,z 表示。對(duì)于 Waymo 數(shù)據(jù)集,范圍為[-75.2,75.2]m、[-75.2,75.2]m 和[-2,4]m。除非特別提及,否則我們所有的實(shí)驗(yàn)都是在 x、y、z 軸的[0.1,0.1,0.1]m 的低體素化分辨率下進(jìn)行的。 ?3.2 數(shù)據(jù)增廣? 點(diǎn)云根據(jù) x,y 軸隨機(jī)翻轉(zhuǎn),圍繞 z 軸旋轉(zhuǎn),范圍為[-0.3925,0.3925]rad,縮放系數(shù)范圍為 0.95 到 1.05,平移范圍為[ 0.2,0.2,0.2]m 在 x,y,z 軸上。采用類(lèi)別平衡分組采樣和數(shù)據(jù)庫(kù)采樣來(lái)提高訓(xùn)練時(shí)正樣本的比例。 ?3.3 聯(lián)合訓(xùn)練? 我們?cè)诟鞣N目標(biāo)分配策略 (CBGS, OHS, CenterPoint) 上訓(xùn)練 VISTA。為了訓(xùn)練網(wǎng)絡(luò),我們計(jì)算不同目標(biāo)分配策略的原始損失函數(shù),我們建議讀者參考他們的論文以了解更多關(guān)于損失函數(shù)的細(xì)節(jié)。簡(jiǎn)而言之,我們將分類(lèi)和回歸考慮在內(nèi): ?

a0beff54-b607-11ec-aa7f-dac502259ad0.png

其中λ_1和λ_2是損失函數(shù)權(quán)重,a0d321c8-b607-11ec-aa7f-dac502259ad0.png是 GT 標(biāo)簽y和a0e7751a-b607-11ec-aa7f-dac502259ad0.png預(yù)測(cè)之間的分類(lèi)損失函數(shù),a0f4d714-b607-11ec-aa7f-dac502259ad0.png是 GT 框b和預(yù)測(cè)框a106d748-b607-11ec-aa7f-dac502259ad0.png的回歸損失函數(shù)。 ? 總損失函數(shù)L是a1181364-b607-11ec-aa7f-dac502259ad0.png的加權(quán)和:a124e648-b607-11ec-aa7f-dac502259ad0.png。我們將λ_1、λ_2和λ_3設(shè)置為 1.0、0.25、1.0。我們將 Focal loss 作為a13375be-b607-11ec-aa7f-dac502259ad0.png,并將 L1 損失作為a1475854-b607-11ec-aa7f-dac502259ad0.png。 ?第四章 實(shí)驗(yàn)

a155a97c-b607-11ec-aa7f-dac502259ad0.png

表一:nuScenes 測(cè)試集上的 3D 檢測(cè)結(jié)果

a1653a4a-b607-11ec-aa7f-dac502259ad0.png

表二:Waymo 測(cè)試集上的 3D 檢測(cè)結(jié)果 我們?cè)?nuScenes 數(shù)據(jù)集和 Waymo 數(shù)據(jù)集上評(píng)估 VISTA。我們?cè)谌N具有不同目標(biāo)分配策略的最先進(jìn)方法上測(cè)試 VISTA 的功效:CBGS、OHS 和 CenterPoint。 4.1 數(shù)據(jù)集和技術(shù)細(xì)節(jié) nuScenes 數(shù)據(jù)集包含 700 個(gè)訓(xùn)練場(chǎng)景、150 個(gè)驗(yàn)證場(chǎng)景和 150 個(gè)測(cè)試場(chǎng)景。數(shù)據(jù)集以 2Hz 進(jìn)行標(biāo)注,總共 40000 個(gè)關(guān)鍵幀被標(biāo)注了 10 個(gè)對(duì)象類(lèi)別。我們?yōu)槊總€(gè)帶標(biāo)注的關(guān)鍵幀組合 10 幀掃描點(diǎn)云以增加點(diǎn)數(shù)。平均精度 (mAP) 和 nuScenes 檢測(cè)分?jǐn)?shù) (NDS) 被應(yīng)用于我們的性能評(píng)估。NDS 是 mAP 和其他屬性度量的加權(quán)平均值,包括位移、尺度、方向、速度和其他框的屬性。在訓(xùn)練過(guò)程中,我們遵循 CBGS 通過(guò) Adam 優(yōu)化器和單周期學(xué)習(xí)率策略 (one-cycle) 優(yōu)化模型。 Waymo 數(shù)據(jù)集包含 798 個(gè)用于訓(xùn)練的序列,202 個(gè)用于驗(yàn)證的序列。每個(gè)序列的持續(xù)時(shí)間為 20 秒,并以 10Hz 的頻率采樣,使用 64 通道的激光雷達(dá),包含 610 萬(wàn)車(chē)輛、280 萬(wàn)行人和 6.7 萬(wàn)個(gè)騎自行車(chē)的人。我們根據(jù)標(biāo)準(zhǔn) mAP 和由航向精度 (mAPH) 加權(quán)的 mAP 指標(biāo)來(lái)評(píng)估我們的網(wǎng)絡(luò),這些指標(biāo)基于車(chē)輛的 IoU 閾值為 0.7,行人和騎自行車(chē)的人為 0.5。官方評(píng)估協(xié)議以?xún)蓚€(gè)難度級(jí)別評(píng)估方法:LEVEL_1 用于具有超過(guò) 5 個(gè) LiDAR 點(diǎn)的框,LEVEL_2 用于具有至少一個(gè) LiDAR 點(diǎn)的框。 4.2 與其他方法的比較 我們將提出的基于 VISTA 的 OHS 的測(cè)試結(jié)果提交給 nuScenes 測(cè)試服務(wù)器。為了對(duì)結(jié)果進(jìn)行基準(zhǔn)測(cè)試,我們遵循 CenterPoint 來(lái)調(diào)整訓(xùn)練分辨率并利用雙翻轉(zhuǎn)測(cè)試增強(qiáng)。由于我們的結(jié)果基于單一模型,因此我們的比較中不包括使用集成模型和額外數(shù)據(jù)的方法,測(cè)試性能見(jiàn)表一。我們提出的 VISTA 在 nuScenes 測(cè)試集上實(shí)現(xiàn)了最先進(jìn)的性能,在整體 mAP 和 NDS 中都大大優(yōu)于所有已發(fā)布的方法。特別是在摩托車(chē)和自行車(chē)上的表現(xiàn),mAP 上超過(guò)了第二好的方法 CenterPoint 高達(dá) 48%。具體來(lái)說(shuō),幾何相似類(lèi)別(例如卡車(chē)、工程車(chē)輛)的性能提升證實(shí)了我們提出的解耦設(shè)計(jì)的有效性。 為了進(jìn)一步驗(yàn)證我們提出的 VISTA 的有效性,我們將提出的 VISTA 應(yīng)用在 CenterPoint 上,并將測(cè)試結(jié)果提交到 Waymo 測(cè)試服務(wù)器。在訓(xùn)練和測(cè)試期間,我們遵循與 CenterPoint 完全相同的規(guī)則,測(cè)試性能見(jiàn)表二。VISTA 在所有級(jí)別的所有類(lèi)別中為 CenterPoint 帶來(lái)了顯著改進(jìn),優(yōu)于所有已發(fā)布的結(jié)果。 4.3 消融學(xué)習(xí)

a17ef110-b607-11ec-aa7f-dac502259ad0.png

表三:多視角融合消融學(xué)習(xí),實(shí)驗(yàn)在 nuScenes 驗(yàn)證集上進(jìn)行

a18fd3ae-b607-11ec-aa7f-dac502259ad0.png

表四:基于 VISTA 的先進(jìn)方法的性能提升,實(shí)驗(yàn)在 nuScenes 驗(yàn)證集上進(jìn)行 如表三所示,為了證明所提出的 VISTA 的優(yōu)越性,我們以 OHS 作為我們的基線(xiàn) (a) 在 nuScenes 數(shù)據(jù)集的驗(yàn)證集上進(jìn)行了消融研究。正如前文所述,如果沒(méi)有注意力約束,注意力權(quán)重學(xué)習(xí)的極端情況將是全局平均池化(GAP)。為了澄清,我們通過(guò) GAP 手動(dòng)獲取 RV 特征,并將它們添加到所有 BEV 特征上實(shí)現(xiàn)融合。這種基于 GAP 的融合方法 (b) 將基線(xiàn)的性能 mAP 降低到 59.2%,表明自適應(yīng)融合來(lái)自全局空間上下文的多視角特征的必要性。直接采用 VISTA 進(jìn)行多視角融合 (d),mAP 為 60.0%。當(dāng)將卷積注意力模塊替換為傳統(tǒng)的線(xiàn)性注意力模塊(c) 時(shí),整體 mAP 下降到 58.7%,這反映了聚合局部線(xiàn)索對(duì)于構(gòu)建跨視角注意力的重要性。在添加提出的注意力方差約束后,如 (e) 所示,整體 mAP 的性能提高到 60.4%。從 (d) 到(e)行的性能提升表明注意力機(jī)制可以通過(guò)注意力約束得到很好的引導(dǎo),使得注意力模塊能夠關(guān)注整個(gè)場(chǎng)景的興趣區(qū)域。然而,共享注意力建模會(huì)帶來(lái)分類(lèi)學(xué)習(xí)和回歸任務(wù)之間的沖突,在 3D 目標(biāo)檢測(cè)中,分類(lèi)任務(wù)將被回歸任務(wù)占主導(dǎo)地位。如(f)所示,在解耦注意力模型后,整體 mAP 的性能從 60.4% 提高到 60.8%,進(jìn)一步驗(yàn)證了我們的假設(shè)。 所提出的 VISTA 是一種即插即用的多視角融合方法,只需稍作修改即可用于各種最近提出的先進(jìn)目標(biāo)分配策略。為了證明所提出的 VISTA 的有效性和泛化能力,我們?cè)?CenterPoint、OHS 和 CBGS 上實(shí)現(xiàn)了 VISTA,它們是最近的先進(jìn)方法。這些方法代表基于 anchor 或 anchor-free 的不同主流目標(biāo)分配。我們?cè)?nuScenes 數(shù)據(jù)集的驗(yàn)證集上評(píng)估結(jié)果,所有方法都是基于他們的官方代碼庫(kù)。如表四所示,所有三個(gè)目標(biāo)分配策略在 mAP 和 NDS 分?jǐn)?shù)中都實(shí)現(xiàn)了很大的性能提升(在 mAP 和 NDS 中分別約為 1.3% 和 1.4%),表明所提出的 VISTA 可以通過(guò)跨視角空間注意力機(jī)制融合普遍高質(zhì)量的多視角特征。 我們?cè)诒砣姓故玖颂岢龅?VISTA 在一個(gè) RTX3090 GPU 上的運(yùn)行時(shí)間。未經(jīng)任何修改,基線(xiàn) (a) 以每幀 60 毫秒運(yùn)行。在基線(xiàn)中采用卷積注意力模塊 (d) 后,運(yùn)行時(shí)間增加到 64 毫秒。我們可以從 (e) 和(f)中觀察到,雖然應(yīng)用所提出的注意力方差約束不會(huì)影響推理速度,但解耦設(shè)計(jì)花費(fèi)了 5ms,但額外的延遲仍然可以忽略不計(jì)。以這樣的效率運(yùn)行,我們認(rèn)為所提出的 VISTA 完全符合實(shí)際應(yīng)用的要求。 4.4 VISTA 分析

a1a394a2-b607-11ec-aa7f-dac502259ad0.png

圖 3:具有((a)和(c))和沒(méi)有((b)和(d))注意方差約束的 VISTA 學(xué)習(xí)到的注意力權(quán)重的可視化。每行呈現(xiàn)一個(gè)場(chǎng)景,Query 框以紅色顯示,點(diǎn)的顏色越亮,點(diǎn)的注意力權(quán)重越高。

a1b761e4-b607-11ec-aa7f-dac502259ad0.png

圖 4:在有和沒(méi)有解耦設(shè)計(jì)的情況下的檢測(cè)結(jié)果的可視化。每行代表一個(gè)場(chǎng)景。淺色表示的框指的是 GT 框,深色表示的框表示正確的預(yù)測(cè)結(jié)果,不同強(qiáng)調(diào)色表示的框表示錯(cuò)誤的預(yù)測(cè)。 我們認(rèn)為,通過(guò)所提出的注意力約束訓(xùn)練的 VISTA 可以捕捉 BEV 和 RV 之間的全局和局部相關(guān)性,從而可以有效地執(zhí)行多視角融合以進(jìn)行準(zhǔn)確的框預(yù)測(cè)。為了生動(dòng)地展示注意力方差約束在訓(xùn)練 VISTA 中的有效性,我們?cè)趫D 3 中可視化了網(wǎng)絡(luò)在有和沒(méi)有注意力方差約束情況下構(gòu)建的的跨視角相關(guān)性。給定包含目標(biāo)視角(BEV)的框的區(qū)域以 query 源視角(RV),我們得到上述區(qū)域中每個(gè) pillar 的相應(yīng)跨視角注意力權(quán)重,并將權(quán)重映射回原點(diǎn)云以可視化。我們觀察到,在沒(méi)有注意力方差約束的情況下,學(xué)習(xí)到的注意力權(quán)重對(duì)于 RV 中的幾乎每個(gè) pillar 都保持較小的值,從而導(dǎo)致近似的全局平均池化操作。在圖 3(b)和 (d) 中,注意力模塊關(guān)注遠(yuǎn)離 query 汽車(chē)和行人的背景點(diǎn),每個(gè)聚焦區(qū)域的注意力權(quán)重相對(duì)較低。相反,用注意力方差約束訓(xùn)練的注意力模塊突出顯示具有相同 query 類(lèi)別的物體,如圖 3(a)和 (c) 所示。特別是對(duì)于 query 汽車(chē),通過(guò)注意力方差約束訓(xùn)練的注意力模塊成功地關(guān)注了場(chǎng)景中的其他汽車(chē)。 我們提出的 VISTA 的另一個(gè)關(guān)鍵設(shè)計(jì)是分類(lèi)和回歸任務(wù)的解耦。這兩個(gè)任務(wù)的各自的注意力建模緩解了學(xué)習(xí)的不平衡問(wèn)題,因此檢測(cè)結(jié)果更加準(zhǔn)確和可靠。為了展示我們?cè)O(shè)計(jì)的意義,我們?cè)趫D中展示了解耦前后的檢測(cè)結(jié)果。每行代表一個(gè)場(chǎng)景,左列顯示解耦后的結(jié)果,另一列顯示未解耦的結(jié)果。如圖 4(b)和 (d) 所示,沒(méi)有解耦設(shè)計(jì)的 3D 目標(biāo)檢測(cè)器很容易將物體 A 誤認(rèn)為具有相似幾何特性的另一個(gè)物體 B,我們將這種現(xiàn)象稱(chēng)為 A-to-B,例如公共汽車(chē)(紫色)到卡車(chē)(黃色)、公共汽車(chē)(紫色)到拖車(chē)(紅色)和自行車(chē)(白色)到摩托車(chē)(橙色),證明了分類(lèi)和回歸任務(wù)之間存在不平衡訓(xùn)練。此外,當(dāng)將右列與左列進(jìn)行比較時(shí),混淆的預(yù)測(cè)并不準(zhǔn)確。相反,具有解耦設(shè)計(jì)的 VISTA 成功區(qū)分了對(duì)象的類(lèi)別,并預(yù)測(cè)了緊密的框,如圖 4(a)和 (c) 所示,證明了所提出的解耦設(shè)計(jì)的功效。 第五章 總結(jié) 在本文中,我們提出了 VISTA,一種新穎的即插即用多視角融合策略,用于準(zhǔn)確的 3D 對(duì)象檢測(cè)。為了使 VISTA 能夠關(guān)注特定目標(biāo)而不是一般點(diǎn),我們提出限制學(xué)習(xí)的注意力權(quán)重的方差。我們將分類(lèi)和回歸任務(wù)解耦以處理不平衡訓(xùn)練問(wèn)題。我們提出的即插即用 VISTA 能夠產(chǎn)生高質(zhì)量的融合特征來(lái)預(yù)測(cè)目標(biāo)候選,并且可以應(yīng)用于各種目標(biāo)分配策略方法。nuScenes 和 Waymo 數(shù)據(jù)集的基準(zhǔn)測(cè)試證明了我們提出的方法的有效性和泛化能力。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2566

    文章

    53008

    瀏覽量

    767500
  • Vista
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    19903
  • 目標(biāo)檢測(cè)
    +關(guān)注

    關(guān)注

    0

    文章

    225

    瀏覽量

    16019

原文標(biāo)題:CVPR 2022 | 即插即用!華南理工開(kāi)源VISTA:雙跨視角空間注意力機(jī)制實(shí)現(xiàn)3D目標(biāo)檢測(cè)SOTA

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    華南理工大學(xué)EDP同學(xué)會(huì)理事會(huì)走進(jìn)虹科電子

    近日,由華南理工大學(xué)工商管理學(xué)院EDP同學(xué)會(huì)主辦的理事會(huì)專(zhuān)屬:會(huì)長(zhǎng)互訪(fǎng)——「走進(jìn)專(zhuān)精特新“小巨人”、瞪羚企業(yè)」活動(dòng)在廣州市黃埔區(qū)圓滿(mǎn)落幕。
    的頭像 發(fā)表于 06-24 10:57 ?377次閱讀

    海伯森3D閃測(cè)傳感器,工業(yè)檢測(cè)領(lǐng)域的高精度利器

    隨著信息技術(shù)的飛速進(jìn)步,第四次視覺(jué)革命深度融合“人”“機(jī)”“物”,基于光學(xué)原理的3D視覺(jué)檢測(cè)技術(shù)迎來(lái)爆發(fā)式發(fā)展,成為工業(yè)生產(chǎn)中更高效的檢測(cè)利器。3D視覺(jué)技術(shù)通過(guò)非接觸性、高速性、數(shù)據(jù)完
    的頭像 發(fā)表于 06-20 17:46 ?869次閱讀
    海伯森<b class='flag-5'>3D</b>閃測(cè)傳感器,工業(yè)<b class='flag-5'>檢測(cè)</b>領(lǐng)域的高精度利器

    Molex莫仕與3D打印機(jī)制造商Prusa Research達(dá)成合作

    Molex莫仕正與快速發(fā)展的3D打印新銳力量Prusa Research達(dá)成合作以實(shí)現(xiàn)共同發(fā)展。這家總部位于捷克的3D打印機(jī)制造商,擁有逾千名員工,致力于為全球多元化的忠誠(chéng)度極高的客戶(hù)
    的頭像 發(fā)表于 06-07 16:53 ?623次閱讀

    奧迪威攜手華南理工大學(xué)共建聯(lián)合創(chuàng)新實(shí)驗(yàn)室,校企深度合作助力產(chǎn)業(yè)升級(jí)

    2025年5月21日,廣東奧迪威傳感科技股份有限公司與華南理工大學(xué)聯(lián)合設(shè)立的創(chuàng)新實(shí)驗(yàn)室正式揭牌。
    的頭像 發(fā)表于 05-23 08:48 ?668次閱讀
    奧迪威攜手<b class='flag-5'>華南理工</b>大學(xué)共建聯(lián)合創(chuàng)新實(shí)驗(yàn)室,校企深度合作助力產(chǎn)業(yè)升級(jí)

    告別漫長(zhǎng)等待! 3D測(cè)量竟然可以如此的絲滑

    據(jù)進(jìn)行實(shí)時(shí)處理,快速得到全視角的彩色高精度2D圖像和3D點(diǎn)云。產(chǎn)品優(yōu)勢(shì)01高精度的在線(xiàn)3D檢測(cè)采用業(yè)界頂級(jí)的CMOS感光元件和超低畸變遠(yuǎn)心光
    的頭像 發(fā)表于 05-12 18:01 ?322次閱讀
    告別漫長(zhǎng)等待! <b class='flag-5'>3D</b>測(cè)量竟然可以如此的絲滑

    積木易搭上新3D空間掃描儀RayZoom G100,搭載3D高斯?jié)姙R+開(kāi)發(fā)者方案

    近日,積木易搭旗下子公司——武漢睿數(shù)信息技術(shù)有限公司(簡(jiǎn)稱(chēng)“睿數(shù)信息”)上新了一款手持式3D空間掃描儀——RayZoom G100。 ?RayZoom G100是一款通用型3D空間掃描
    的頭像 發(fā)表于 04-24 09:14 ?429次閱讀

    PINTECH品致攜手華南理工大學(xué)電力學(xué)院共促產(chǎn)教融合

    教育部協(xié)同育人,校企共赴產(chǎn)學(xué)之約2025年3月6日,華南理工大學(xué)電力學(xué)院黨委書(shū)記鄔智、副院長(zhǎng)郝艷捧率領(lǐng)學(xué)院領(lǐng)導(dǎo)班子到訪(fǎng)廣州德肯電子股份有限公司(PINTECH品致),圍繞教育部產(chǎn)學(xué)合作協(xié)同育人項(xiàng)目
    的頭像 發(fā)表于 03-07 15:42 ?731次閱讀
    PINTECH品致攜手<b class='flag-5'>華南理工</b>大學(xué)電力學(xué)院共促產(chǎn)教融合

    開(kāi)源項(xiàng)目!3D打印的遠(yuǎn)程控制速全驅(qū)汽車(chē)

    的結(jié)果非常滿(mǎn)意。我的目標(biāo)是建造一輛模擬真實(shí)汽車(chē)傳動(dòng)系統(tǒng)的3D打印遙控汽車(chē),而這輛遙控汽車(chē)在這方面基本上是成功的。然而,正如工程中的常見(jiàn)情況,總有優(yōu)化的空間。例如,差速器鎖在錯(cuò)誤角度關(guān)閉時(shí)容易損壞,這是一
    發(fā)表于 01-02 16:58

    TechWiz LCD 3D應(yīng)用:賓主液晶

    完成后在TechWiz LCD 3D中加載并進(jìn)行相關(guān)參數(shù)設(shè)置 2.2軟件中二色性染料摻雜的設(shè)置 此例需要設(shè)置染料摻雜 設(shè)置透過(guò)率,并設(shè)置濃度 添加偏振器 2.3執(zhí)行運(yùn)算 3. 結(jié)果查看 3.1 查看
    發(fā)表于 12-30 08:54

    一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

    機(jī)電系統(tǒng)中數(shù)據(jù)驅(qū)動(dòng)故障檢測(cè)模型的性能和可解釋性。引入了一種混合因果發(fā)現(xiàn)算法來(lái)發(fā)現(xiàn)監(jiān)測(cè)變量之間的繼承因果關(guān)系。順序連接因果變量的因果路徑用作接收?qǐng)?,使用多尺度卷積來(lái)提取特征?;诜謱?b class='flag-5'>注意力機(jī)制來(lái)聚合
    的頭像 發(fā)表于 11-12 09:52 ?1071次閱讀
    一種基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網(wǎng)絡(luò)

    關(guān)于\"OPA615\"的SOTA導(dǎo)大小的疑問(wèn)求解

    關(guān)于OPA615的SOTA部分,看datasheet的page9的figure22,我們可以知道導(dǎo)大小大概是35mA/V左右,并且可以知道其Chold輸出一般在5mA以?xún)?nèi),但是我從社區(qū)里面找到
    發(fā)表于 09-13 06:25

    海康微影DV式手持測(cè)溫?zé)嵯駜x助力提升科研效率

    今天給大家介紹的TA,是實(shí)驗(yàn)室里的“科研搭子”,曾助力華南理工大學(xué)電力學(xué)院研究團(tuán)隊(duì)科研成果榮登SCI核心期刊《Electric Power Systems Research》。
    的頭像 發(fā)表于 09-04 11:24 ?1110次閱讀

    透明塑料件噴粉3D掃描CAV全尺寸檢測(cè)逆向3D建模設(shè)計(jì)服務(wù)-CASAIM

    3D建模
    中科院廣州電子
    發(fā)布于 :2024年08月30日 10:04:53

    安寶特產(chǎn)品 安寶特3D Analyzer:智能的3D CAD高級(jí)分析工具

    安寶特3D Analyzer包含多種實(shí)用的3D CAD高級(jí)分析工具,包括自動(dòng)比對(duì)模型、碰撞檢測(cè)、間隙檢查、壁厚檢查,以及拔模和底切分析,能夠有效提升3D CAD模型
    的頭像 發(fā)表于 08-07 10:13 ?784次閱讀
    安寶特產(chǎn)品  安寶特<b class='flag-5'>3D</b> Analyzer:智能的<b class='flag-5'>3D</b> CAD高級(jí)分析工具

    廣東3D掃描鈑金件外觀尺寸測(cè)量3D偏差檢測(cè)對(duì)比解決方案CASAIM

    3D掃描
    中科院廣州電子
    發(fā)布于 :2024年07月22日 16:13:45