一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于圖像的3D目標(biāo)檢測是自動駕駛領(lǐng)域綜述

新機(jī)器視覺 ? 來源:自動駕駛之心 ? 作者:汽車人 ? 2022-11-15 10:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要

基于圖像的3D目標(biāo)檢測是自動駕駛領(lǐng)域的一個基本問題,也是一個具有挑戰(zhàn)性的問題,近年來受到了業(yè)界和學(xué)術(shù)界越來越多的關(guān)注。得益于深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于圖像的3D檢測取得了顯著的進(jìn)展。特別是,從2015年到2021年,已經(jīng)有超過200篇研究這個問題的著作,涵蓋了廣泛的理論、算法和應(yīng)用。

然而,到目前為止,還沒有一個調(diào)查來收集和組織這方面的知識。本文首次對這一新興的不斷發(fā)展的研究領(lǐng)域進(jìn)行了全面綜述,總結(jié)了基于圖像的3D檢測最常用的流程,并對其各個組成部分進(jìn)行了深入分析。此外,作者還提出了兩個新的分類法,將最先進(jìn)的方法組織成不同的類別,以期提供更多的現(xiàn)有方法的系統(tǒng)綜述,并促進(jìn)與未來作品的公平比較。

在回顧迄今為止所取得的成就的同時,作者也分析了當(dāng)前在該領(lǐng)域的挑戰(zhàn),并討論了基于圖像的3D目標(biāo)檢測的未來發(fā)展方向。

簡介

自動駕駛有可能從根本上改變?nèi)藗兊纳?,提高機(jī)動性,減少旅行時間、能源消耗和排放。因此,毫不奇怪,在過去的十年里,研究和工業(yè)界都在努力開發(fā)自動駕駛汽車。作為自動駕駛的關(guān)鍵技術(shù)之一,3D 目標(biāo)檢測已經(jīng)受到了很多關(guān)注。

特別是,最近,基于深度學(xué)習(xí)的3D 目標(biāo)檢測方法越來越受歡迎。根據(jù)輸入數(shù)據(jù)是圖像還是LiDAR信號(通常表示為點(diǎn)云) ,現(xiàn)有的3D目標(biāo)檢測方法可以大致分為兩類。與基于激光雷達(dá)的方法相比,僅從圖像中估計(jì)3D邊界框的方法面臨著更大的挑戰(zhàn),因?yàn)閺?D輸入數(shù)據(jù)中恢復(fù)3D信息是一個不適定的問題。

然而,盡管存在這種固有的困難,在過去的六年中,基于圖像的3D目標(biāo)檢測方法在計(jì)算機(jī)視覺(CV)領(lǐng)域得到了迅速發(fā)展。在這個領(lǐng)域的頂級會議和期刊上已經(jīng)發(fā)表了超過80篇論文,在檢測準(zhǔn)確性和推理速度方面取得了一些突破。

在本文中,作者首次全面和結(jié)構(gòu)化地綜述了基于深度學(xué)習(xí)技術(shù)的基于圖像的3D目標(biāo)檢測的最新進(jìn)展。特別地,本調(diào)研總結(jié)了該領(lǐng)域以前的研究工作,從開拓性的方法,再到最新的方法。

本文的主要貢獻(xiàn)可以歸納如下:

據(jù)作者所知,這是第一個基于圖像的自動駕駛3D檢測方法的綜述研究工作。本文回顧了80多種基于圖像的3D 檢測器和200多種相關(guān)的研究工作。

作者對這個問題的關(guān)鍵方面進(jìn)行了全面的回顧和深入的分析,包括數(shù)據(jù)集、評估指標(biāo)、檢測流程和技術(shù)細(xì)節(jié)。

作者提出了兩種新的分類方法,目的是幫助讀者更容易地獲得這個新的和不斷發(fā)展的研究領(lǐng)域的知識。

作者總結(jié)了基于圖像的3D 檢測的主要問題和未來的挑戰(zhàn),概述了一些潛在的研究方向。

任務(wù)

給定 RGB 圖像和相應(yīng)的相機(jī)參數(shù),基于圖像的3D目標(biāo)檢測的目標(biāo)是對感興趣的目標(biāo)進(jìn)行分類和定位。每個目標(biāo)都由其類別和3D世界空間中的邊界框表示。

一般來說,3D邊界框是通過它的位置[ x,y,z ] ,尺寸[ h,w,l ]和方向[ θ,φ,ψ ]相對于一個預(yù)定義的參考坐標(biāo)系(例如記錄數(shù)據(jù)的自車)來參數(shù)化的。在絕大多數(shù)自動駕駛情況下,只考慮繞Y軸的航向角θ (偏航角)。下圖在2D圖像平面和鳥瞰圖上顯示了一個示例結(jié)果。

e42f21d2-6422-11ed-8abf-dac502259ad0.png

雖然基于圖像的3D 目標(biāo)檢測的一般問題可以如上所述,但值得一提的是:

除了類別和3D 邊界框之外,一些基準(zhǔn)還需要額外的預(yù)測,例如 KITTI 數(shù)據(jù)集的2D 邊界框[5]和 nuScenes 數(shù)據(jù)集的速度/屬性[6]。

雖然最初只提供圖像和相機(jī)參數(shù),但輔助數(shù)據(jù)(如多目,CAD模型,激光雷達(dá)信號等)的采用在這個領(lǐng)域是常見的。

數(shù)據(jù)集和評估

數(shù)據(jù)集

常用數(shù)據(jù)集見下表:

e44ed8c4-6422-11ed-8abf-dac502259ad0.png

在這些數(shù)據(jù)集中,KITTI 3D [5]、nuScenes [6]和Waymo Open[11]是最常用的,極大地推動了3D檢測的發(fā)展。

在過去十年的大部分時間里,KITTI 3D 是唯一支持開發(fā)基于圖像的 3D 檢測器的數(shù)據(jù)集。KITTI 3D 提供分辨率為 1280×384 像素的前視圖像。2019 年引入了 nuScenes 和 Waymo Open數(shù)據(jù)集。

在 nuScenes 數(shù)據(jù)集中,六個攝像頭用于生成分辨率為 1600×900 像素的 360°視圖。同樣,Waymo Open 也使用 5 個同步攝像頭進(jìn)行 360°全景拍攝,圖像分辨率為 1920×1280 像素。

KITTI 3D 數(shù)據(jù)集

是在德國卡爾斯魯厄的白天和良好的天氣條件下捕獲的。它主要評估三個類別(汽車、行人和自行車)的目標(biāo),根據(jù)2D框的高度、遮擋和截?cái)鄬⑺鼈兎譃槿齻€難度級別。提供7481張訓(xùn)練圖和7518張測試圖。

nuScenes 數(shù)據(jù)集

包含在波士頓和新加坡拍攝的 1000 個 20 年代的場景。與 KITTI 3D 基準(zhǔn)測試不同的是,這些場景是在一天中的不同時間(包括夜晚)和不同的天氣條件下(例如雨天)捕獲的。3D 檢測任務(wù)有十個類別的目標(biāo),nuScenes 還為每個類別標(biāo)注屬性標(biāo)簽,例如汽車的移動或靜止,有或沒有騎手的自行車。

這些屬性可以看作是一個細(xì)粒度的類標(biāo)簽,并且在nuScenes benchmark中也考慮了屬性識別的準(zhǔn)確性。其分別提供28130幀、6019幀、6008幀用于訓(xùn)練、驗(yàn)證和測試(每幀6張圖)。

Waymo Open 數(shù)據(jù)集

涵蓋了 1150 個場景,分別在鳳凰城、山景城和舊金山在多種天氣條件下(包括夜間和雨天)拍攝。與 KITTI 3D 類似,Waymo Open 也根據(jù)每個 3D 邊界框中包含的 LiDAR 點(diǎn)的數(shù)量為 3D 檢測任務(wù)定義了兩個難度級別。其基準(zhǔn)中感興趣的目標(biāo)包括車輛、行人和騎自行車的人。其提供122200幀用于訓(xùn)練、30407幀用于驗(yàn)證、40077幀用于測試(每幀有5張圖)。

評估指標(biāo)

與 2D 目標(biāo)檢測相同,平均精度 (AP)構(gòu)成了 3D目標(biāo)檢測中使用的主要評估指標(biāo)。從其原始定義開始,每個數(shù)據(jù)集都應(yīng)用了特定的修改,從而產(chǎn)生了特定于數(shù)據(jù)集的評估指標(biāo)。

在這里,作者首先回顧一下原始的 AP 指標(biāo),然后介紹其在最常用的基準(zhǔn)測試中采用的變體,包括 KITTI3D、nuScenes 和 Waymo Open。

AP指標(biāo)回顧

最常用的一種方法,即真值 A 與預(yù)測的3D 邊界框 B 之間的交并比(IoU) ,定義為: IoU (A,B) = | A ∩ B | /| A ∪ B | 。

將匹配的IoU與一定的閾值進(jìn)行比較,用來判斷一個匹配預(yù)測是真正例(TP)還是假正例(FP)。然后,根據(jù)公式:r = TP/(TP + FN),p = TP/(TP + FP),其中 FN 表示假反例,可以從排序(通過置信度)檢測結(jié)果計(jì)算召回和精度。精度可以看作是召回的函數(shù),即 p (r)。此外,為了減少“擺動”對精度-召回曲線的影響,使用插值精度值計(jì)算 AP ,公式如下:

e47490c8-6422-11ed-8abf-dac502259ad0.png

其中 R是預(yù)定義的召回位置集和 pinterp (r)是插值函數(shù),定義為:

e4932b0a-6422-11ed-8abf-dac502259ad0.png

這意味著,不是在召回 r 處對實(shí)際觀察到的精度值進(jìn)行平均,而是采用大于或等于 r 的召回值的最大精度。

特殊的一些指標(biāo)

KITTI 3D 基準(zhǔn): KITTI 3D 采用 AP 作為主要指標(biāo),并引入了一些修改。第一種方法是在3D空間中進(jìn)行IoU的計(jì)算。此外,KITTI 3D 采納了Simonelli等[30]的建議,將上面的傳統(tǒng)AP指標(biāo)的 R11 = {0,1/10,2/10,3/10,... ,1}替換為 R40 = {1/40,2/40,3/40,... ,1} ,這是一個更密集的抽樣,去除了0的召回位置。

此外,由于目標(biāo)的高度不像自動駕駛場景中的其他目標(biāo)那么重要,鳥瞰(BEV)檢測,在一些工作中也被稱為3D 定位任務(wù)[31],[32],[33],可以被看作是3D 檢測的替代方案。

計(jì)算過程的主題,BEV AP,這項(xiàng)任務(wù)是相同的3D AP,但計(jì)算的 IoU 是在平面,而不是3D 空間。這個任務(wù)也包含在其他一些基準(zhǔn)測試中,比如 Waymo Open [11]。此外,KITTI 3D 還提出了一種新的度量方法——平均方向相似度(AOS)來評估方向估計(jì)的精度。AOS 表示為:

e4a74676-6422-11ed-8abf-dac502259ad0.png

方向相似性s(r)∈[0,1]定義為:

e4c638ba-6422-11ed-8abf-dac502259ad0.png

其中 D (r)表示在召回率r下的所有目標(biāo)檢測結(jié)果的集合,delta(i) θ 是檢測的估計(jì)值和真值方向之間的角度差。為了懲罰對單個目標(biāo)的多次檢測,KITTI 3D 強(qiáng)制 δi=1,如果檢測i已被分配到一個真值邊界框,如果它沒有被分配δi=0。請注意,所有 AP 指標(biāo)都是針對每個難度級別和類別獨(dú)立計(jì)算的。

Waymo Open Benchmark: Waymo Open 也采用了 AP 度量標(biāo)準(zhǔn),只做了一個小小的修改: 用 R21 = {0,1/20,2/20,3/20,... ,1}代替 傳統(tǒng)AP的R11。此外,考慮到精確的航向角預(yù)測對于自動駕駛至關(guān)重要,而 AP 指標(biāo)沒有航向的概念,Waymo Open 進(jìn)一步提出了以航向加權(quán)的 Average Precision (APH)作為其主要指標(biāo)。

具體來說,APH 將航向信息整合到精度計(jì)算中。每個真正例是由定義為min (| θ-θ* | ,2π-| θ-θ* |)/π 的航向精度加權(quán)的,其中 θ 和 θ* 是預(yù)測的航向角和真值航向角,以弧度[-π,π ]為單位。值得注意的是,APH 聯(lián)合評估3D檢測和方向估計(jì)的性能,而 AOS 只是為方向估計(jì)而設(shè)計(jì)的。

nuScenes Benchmatk: nuScenes提供了一種新的AP評估方法,特別是,它與一定的距離閾值(例如2m) 內(nèi),使用平面上的2D 中心距離來匹配預(yù)測和真值,而不是直接引入IoU。此外,nuScenes 計(jì)算 AP 作為精確召回曲線下的歸一化區(qū)域,其召回率和精確度均在10% 以上。最后,計(jì)算了匹配閾值 D = {0.5,1,2,4} m 和類集 C:

e47490c8-6422-11ed-8abf-dac502259ad0.png

然而,這個度量標(biāo)準(zhǔn)只考慮了目標(biāo)的定位,而忽略了其他方面的影響,比如維度和方向。為了彌補(bǔ)這一缺陷,nuScenes 還提出了一組TP 指標(biāo) ,用于分別使用所有真正例(在匹配過程中確定的中心距離 = 2m)來測量每個預(yù)測誤差。所有五個 TP 指標(biāo)都被設(shè)計(jì)為真正例,定義如下 :

平均平移誤差(ATE)是2D平面上目標(biāo)中心的歐氏距離(米為單位)。

平均尺度誤差(ASE)是方向和平移對齊后的3D IoU 誤差(1-IoU)。

平均方向誤差(AOE)是預(yù)測值和真值之間最小的偏航角差(以弧度為單位)。

平均速度誤差(AVE)是作為2D(以 m/s 為單位)速度差的 L2范數(shù)的絕對速度誤差。

平均屬性錯誤(AAE)定義為1減屬性分類精度(1-acc)。

此外,對于每個 TP 度量,nuScenes 還計(jì)算所有目標(biāo)類別的平均 TP 度量(mTP) :

e4fd0354-6422-11ed-8abf-dac502259ad0.png

其中 TPk 表示分類 c 的第k個TP 度量(例如 k = 1表示 ATE)。最后,為了將所有提到的指標(biāo)集成到一個標(biāo)量得分中,nuScenes 進(jìn)一步提出了 nuScenes 檢測得分(NDS) ,它結(jié)合了nuScenes 中定義的 mAP 和nuScenes 中定義的 mTPk:

e51af0f8-6422-11ed-8abf-dac502259ad0.png

框架

分類

作者將現(xiàn)有的基于圖像的3D檢測器分為兩類:

基于2D特征的方法。這些方法首先從2D特征中估計(jì)圖像平面中目標(biāo)的2D位置(以及其他項(xiàng)目,如方向、深度等) ,然后將2D檢測提升到3D空間中。

在此基礎(chǔ)上,這些方法也可以稱為“基于結(jié)果提升的方法”。此外,由于這些方法通常與2D檢測模型具有相似的結(jié)構(gòu),因此可以通過2D檢測中常用的分類法(即基于區(qū)域的方法和單目方法)進(jìn)一步對它們進(jìn)行分類。

基于3D特征的方法。這些方法基于3D特征對目標(biāo)進(jìn)行預(yù)測,從而可以直接在3D空間中對目標(biāo)進(jìn)行定位。此外,根據(jù)如何獲得3D 特征,這些方法可以進(jìn)一步分為“基于特征提升的方法”和“基于數(shù)據(jù)提升的方法”。顧名思義,前者通過提升2D特征來獲得3D特征,而后者直接從2D圖像轉(zhuǎn)換的3D數(shù)據(jù)中提取3D特征。

主流的一些基于圖像的3D目標(biāo)檢測方法如下圖所示:

e5301faa-6422-11ed-8abf-dac502259ad0.png

基于2D特征的方法

第一類是“基于2D特征的方法”。給定輸入圖像,他們首先從2D 特征中估計(jì)2D 位置,方向和尺寸,然后從這些結(jié)果(和其他一些中間結(jié)果)恢復(fù)3D 位置。因此,這些方法也可以稱為“基于結(jié)果提升的方法”。為了得到目標(biāo)的3D位置[ x,y,z ] ,一個直觀且常用的解決方案是使用 CNN 估計(jì)深度值,然后使用以下映射關(guān)系:

e5ec34ec-6422-11ed-8abf-dac502259ad0.png

將2D投影提升到3D空間,其中(Cx,Cy)是中心點(diǎn),f是焦距,(u,v)是目標(biāo)的2D位置。還要注意的是,這些方法只需要目標(biāo)中心的深度,這與需要密集深度圖的方法不同,例如偽激光雷達(dá)[34]。此外,由于這些方法在總體框架上類似于2D檢測器,為了更好地表示,作者將它們進(jìn)一步分為兩個子類: 基于區(qū)域的方法和單目方法。

基于區(qū)域的方法

基于區(qū)域的方法遵循在2D目標(biāo)檢測中R-CNN 系列的思想[35],[36],[37]。在這個框架中,從輸入圖像生成獨(dú)立于類別的區(qū)域proposal后,通過 CNN 從這些區(qū)域提取特征[37] ,[38]。最后,R-CNN 使用這些特性來進(jìn)一步完善proposal,并確定他們的類別標(biāo)簽。本文總結(jié)了基于區(qū)域的3D圖像檢測框架的新設(shè)計(jì)。

生成proposal: 與2D檢測領(lǐng)域中常用的proposal生成方法[39],[40]不同,生成3D檢測proposal的簡單方法是在地面平面上平鋪3D anchor(proposal的形狀模板) ,然后將它們投影到圖像平面上作為proposal。然而,這種設(shè)計(jì)通常會導(dǎo)致巨大的計(jì)算開銷。

為了減少搜索空間,Chen等[2],[1],[41]提出了開創(chuàng)性的Mono3D 和3DOP,分別使用基于單目和多目方法的領(lǐng)域特定先驗(yàn)(例如形狀,高度,位置分布等)去除低置信度的proposal。此外,Qin等[42]提出了另一種方案,在2D前視圖中估計(jì)一個目標(biāo)置信度圖,并且在后續(xù)步驟中只考慮具有高目標(biāo)置信度的潛在anchor。

總之,3DOP [1]和 Mono3D [2]使用幾何先驗(yàn)計(jì)算方案的置信度,而Qin等[42]使用網(wǎng)絡(luò)來預(yù)測置信度圖。使用區(qū)域proposal網(wǎng)絡(luò)(RPN)[37] ,檢測器可以使用來自最后共享卷積層的特征而不是外部算法來生成2D proposal,這節(jié)省了大部分計(jì)算成本,并且大量基于圖像的3D 檢測器[43],[44] ,[45],[46],[30],[17],[47],[48],[49],[50],[42],[51],[52],[53],[54]采用了這種設(shè)計(jì)。

引入空間信息: Chen等[47]將 RPN 和 R-CNN 結(jié)合的設(shè)計(jì)擴(kuò)展到多目3D檢測。他們提出分別從左右兩幅圖像中提取特征,并利用融合特征生成proposal,預(yù)測最終結(jié)果。這種設(shè)計(jì)允許 CNN 隱式地從多目中學(xué)習(xí)視差/深度,并被以下基于多目的3D 檢測器所采用[50],[55],[53]。同樣為了提供深度信息,Chen[45]提出了另一種方案,多融合單目3D 檢測。

具體而言,他們首先使用現(xiàn)成的深度估計(jì)器[56],[57]為輸入圖像生成深度圖,然后為 RGB圖和深度圖設(shè)計(jì)具有多種信息融合策略的基于區(qū)域的檢測器。值得注意的是,為單目圖像提供深度提示的策略是由幾個工作[58],[34],[33],[59],[60],[61],[62],[34],[63],[64],[65]。然而,Stereo R-CNN [47]和 Multi-Fusion [45]在高級范式中是相似的,因?yàn)樗鼈兌疾捎没趨^(qū)域的框架并引入另一個圖像(或地圖)來提供空間線索。

Single-Shot 方法

Single-Shot 目標(biāo)檢測器直接預(yù)測類概率并從每個特征位置回歸3D 框的其他屬性。因此,這些方法通常比基于區(qū)域的方法具有更快的推理速度,這在自動駕駛的情況下是至關(guān)重要的。在Single-Shot 方法中只使用 CNN 層也促進(jìn)了它們在不同硬件架構(gòu)上的部署。

此外,相關(guān)文獻(xiàn)[66],[18],[67],[21]表明,這些Single-Shot 檢測器也可以取得良好的性能?;谝陨显?,近年來許多方法都采用了這一框架。目前,在基于圖像的3D檢測中有兩種Single-Shot 原型。首先是anchor-based的,由[68]提出。

特別是,這個檢測器本質(zhì)上是一個定制的 RPN 單目3D 檢測,它為給定的圖像生成2D anchor和3D anchor。與類別無關(guān)的2D anchor不同,3D anchor的形狀通常與其語義標(biāo)簽有很強(qiáng)的相關(guān)性,例如,形狀為“1.5 m × 1.6 m × 3.5 m”的anchor通常是小汽車而不是行人。

因此,這種3D RPN 可以作為Single-Shot 的3D檢測器,并已被多種方法采用[60],[69],[70],[61]。此外,在2019年,Zhou等[18]提出了一個名為 CenterNet 的anchor-free Single-Shot 檢測器,并將其擴(kuò)展到基于圖像的3D檢測。特別地,這個框架將目標(biāo)編碼為一個單點(diǎn)(目標(biāo)的中心點(diǎn)) ,并使用關(guān)鍵點(diǎn)估計(jì)來找到它。

此外,幾個平行的head被用來估計(jì)目標(biāo)的其他屬性,包括深度,尺寸,位置和方向。盡管這個檢測器在架構(gòu)上看起來非常簡單,但是它在多個任務(wù)和數(shù)據(jù)集中都能達(dá)到很好的性能。后來,很多以下作品[71],[72],[73],[74],[75],[76],[77],[22],[21],[78],[79]采用了這種設(shè)計(jì)。

基于3D 特征的方法

另一個分支是“基于3D 特征的方法”。這些方法的主要特點(diǎn)是首先從圖像中生成3D特征,然后直接估計(jì)3D空間中包括3D位置在內(nèi)的3D邊界框的所有屬性。根據(jù)如何獲得3D特征,作者進(jìn)一步將這些方法分組為“基于特征提升的方法”和“基于數(shù)據(jù)提升的方法”。

基于特征提升的方法

基于特征提升的方法的總體思想是將圖像坐標(biāo)系中的2D圖像特征轉(zhuǎn)換為世界坐標(biāo)系中的3D體素特征。此外,現(xiàn)有的基于特征提升的方法[80],[81],[20],[82],[83]進(jìn)一步折疊沿垂直維度的3D 體素特征,對應(yīng)于目標(biāo)的高度,以在估計(jì)最終結(jié)果之前生成 BEV 特征。對于這類方法,關(guān)鍵問題是如何將2D圖像特征轉(zhuǎn)換為3D體素特征。

單目方法特征提升: 提出了一種基于檢索的檢測模型OFTNet 來實(shí)現(xiàn)特征提升。他們通過在前視圖特征區(qū)域積累對應(yīng)于每個體素的左下角(u1,v2)和右下角(u2,v2)的投影的2D 特征來獲得體素特征:

e6026d5c-6422-11ed-8abf-dac502259ad0.png

其中 V (x,y,z)和 F (u,v)表示給定體素(x,y,z)和像素(u,v)的特征。不同的是,Reading等以反向投影的方式實(shí)現(xiàn)特征提升[84]。

首先,將連續(xù)深度空間離散為多重空間,并將深度估計(jì)作為一個分類任務(wù),這樣深度估計(jì)的輸出就是這些空間的分布 D,而不是單個值。然后,每個特征像素 F (u,v)通過其在 D (u,v)中的相關(guān)深度二分概率來加權(quán),以生成3D平截頭體特征:

e627d772-6422-11ed-8abf-dac502259ad0.png

注意這個平截頭體特性是基于圖像深度坐標(biāo)系(u,v,d) ,這需要使用相機(jī)參數(shù)來生成體素特征,并與3D世界坐標(biāo)系(x,y,z)對齊。下圖顯示了這兩種方法。

e642ff48-6422-11ed-8abf-dac502259ad0.png

多目方法的特征提升: 由于有了先進(jìn)的立體匹配技術(shù),從多目圖像對中構(gòu)建3D 特征比從單目圖像中構(gòu)建更容易實(shí)現(xiàn)。Chen等[81]提出了深度立體幾何網(wǎng)絡(luò)(DSGN) ,實(shí)現(xiàn)了以多目圖像為輸入的特征提升。他們首先從多目對中提取特征,然后建立4D 平面掃描體遵循經(jīng)典的平面掃描方法[85] ,[86] ,[87] ,將左圖像特征和重新投影的右圖像特征以等間隔的深度值連接起來。然后,在生成用于預(yù)測最終結(jié)果的 BEV 圖之前,將這個4D 體轉(zhuǎn)換為3D 世界空間。

基于數(shù)據(jù)提升的方法

在基于數(shù)據(jù)提升的方法中,將2D 圖像轉(zhuǎn)換為3D 數(shù)據(jù)(例如點(diǎn)云)。然后從生成的數(shù)據(jù)中提取3D 特征。在本節(jié)中,作者首先介紹偽 LiDAR 流程,它將圖像提升到點(diǎn)云,以及為它設(shè)計(jì)的改進(jìn)。然后介紹了基于圖像表示的提升方法和其他提升方案。

偽激光雷達(dá)流程: 得益于深度估計(jì),視差估計(jì)和基于激光雷達(dá)的3D目標(biāo)檢測,一個新的流程被提出來建立基于圖像的方法和基于激光雷達(dá)的方法之間的橋梁。在這個流程中,作者首先需要從圖像估計(jì)密度深度圖[56] [57],(或視差圖[55],[88],然后將它們轉(zhuǎn)換為深度圖[34])。然后,使用公式導(dǎo)出像素(u,v)的3D位置(x,y,z)。通過將所有像素反向投影到3D 坐標(biāo)系中,可以生成偽 LiDAR 信號:

e6a6974c-6422-11ed-8abf-dac502259ad0.png

其中 N 是像素?cái)?shù)。之后,基于 LiDAR 的檢測方法[32],[89],[90],[91]可以使用偽 LiDAR 信號作為輸入。這個流程中使用的數(shù)據(jù)表示的比較如下圖所示。

e6b75730-6422-11ed-8abf-dac502259ad0.png

偽激光雷達(dá)流程的成功顯示了空間特征在這一任務(wù)中的重要性,突破了基于圖像的方法和基于激光雷達(dá)的方法之間的障礙,使其有可能應(yīng)用到其他領(lǐng)域的先進(jìn)技術(shù)。

提高深度圖(或由此產(chǎn)生的偽激光雷達(dá)信號)的質(zhì)量: 理論上,基于偽激光雷達(dá)的模型的性能很大程度上取決于深度圖的質(zhì)量,一些工作[34],[33],[92]通過采用不同的深度估計(jì)已經(jīng)證實(shí)了這一點(diǎn)。除了深度估計(jì)[56],[57],[93]和立體匹配[51],[88],[92]的改進(jìn)之外,還有其他一些方法可以提高深度圖的質(zhì)量。注意,視差中的一個較小的誤差將導(dǎo)致對遠(yuǎn)距離目標(biāo)的深度誤差較大,這是基于偽激光雷達(dá)的方法的主要弱點(diǎn)。

為此,You等[94]提出將視差cost量轉(zhuǎn)換為深度cost量,并直接端到端學(xué)習(xí)深度,而不是通過視差轉(zhuǎn)換。Peng等[50]采用了非均勻視差量化策略來保證均勻的深度分布,這也可以減少遠(yuǎn)距離目標(biāo)的視差深度變換誤差。此外,直接提高偽激光雷達(dá)信號的精度也是一種選擇。

為此,You等[94]建議使用廉價的稀疏激光雷達(dá)(例如4波束激光雷達(dá))來校正深度估計(jì)器的系統(tǒng)偏差。這些設(shè)計(jì)可以顯著提高產(chǎn)生的偽 LiDAR 信號的準(zhǔn)確性,特別是對于遠(yuǎn)距離目標(biāo)。

聚焦前景目標(biāo): 原有的偽激光雷達(dá)模型估計(jì)輸入圖像的完整視差/深度映射。這種選擇引入了大量不必要的計(jì)算成本,可能會分散網(wǎng)絡(luò)對前景目標(biāo)的注意力,因?yàn)橹挥袑?yīng)于前景目標(biāo)的像素是后續(xù)步驟的焦點(diǎn)。在此基礎(chǔ)上,提出了幾種改進(jìn)方法。

具體來說,類似于基于 LiDAR 的3D 檢測器 F-PointNet [32] ,Ma等[33]使用2D 邊界框去除背景點(diǎn)。此外,他們還提出了一種基于動態(tài)閾值的方案來進(jìn)一步去除噪聲點(diǎn)。與2D 邊界框相比,[59],[53],[54],[51]中的方法采用實(shí)例mask,這是一個更好的過濾器,但需要額外的數(shù)據(jù)與真值mask。

此外,Wang等[95]和 Li等[96]建議在深度估計(jì)階段解決這個問題。他們使用2D邊界框作為mask,將輸入圖像的像素分為前景和背景,并對前景像素應(yīng)用更高的訓(xùn)練權(quán)重。因此,前景區(qū)域的深度值比基線更準(zhǔn)確,從而提高了3D檢測性能。請注意,像素的可信度屬于前景/背景,可以作為額外的特征來增強(qiáng)偽 LiDAR 點(diǎn)[96]。

其他信息豐富輸入數(shù)據(jù): 如前所述,大多數(shù)基于偽激光雷達(dá)的方法只采用最終得到的偽激光雷達(dá)信號作為輸入。另一個改進(jìn)方向是用其他信息豐富輸入數(shù)據(jù)。Ma等人[33]使用基于注意力的模塊將每個像素的 RGB 特征與其相應(yīng)的3D 點(diǎn)融合。

此外,還利用 RoI 級的 RGB 特性為偽激光雷達(dá)信號提供補(bǔ)充信息。Pon等[53]建議使用像素級部分定位圖來增強(qiáng)偽 LiDAR 信號的幾何信息(類似于基于 LiDAR 的3D 檢測器[97])。特別地,他們使用 CNN 分支來預(yù)測3D邊界框中每個像素/點(diǎn)的相對位置,然后使用這個相對位置來豐富偽 LiDAR 信號。

端對端訓(xùn)練: 基于偽激光雷達(dá)的檢測方法一般分為深度估計(jì)和3D檢測兩部分,不能進(jìn)行端到端的訓(xùn)練。對于這個問題,Qi等[98]提出了一個可微表示變化(CoR)模塊,允許梯度從3D檢測網(wǎng)絡(luò)反向傳播到深度估計(jì)網(wǎng)絡(luò),整個系統(tǒng)可以從聯(lián)合訓(xùn)練中受益。

基于圖像表示的方法: 為了探索基于偽 LiDAR 的方法成功的根本原因,Ma等[63]提出了 PatchNet,一種基于圖像表示的原始偽 LiDAR 模型的等效實(shí)現(xiàn)[34] ,并取得了幾乎相同的性能。這表明,數(shù)據(jù)提升是偽激光雷達(dá)系列成功的關(guān)鍵,它將圖像坐標(biāo)系中的2D位置提升到世界坐標(biāo)系中的3D位置,而非數(shù)據(jù)表示。

Simonelli等[16]對 PatchNet 進(jìn)行了擴(kuò)展,通過使用置信度head對3D 邊界框進(jìn)行置信度評分,從而獲得更好的性能。大多數(shù)基于偽 LiDAR 方法的設(shè)計(jì)都可以很容易地用于基于圖像表示的方法。此外,受益于深入研究的2D CNN 設(shè)計(jì),基于圖像的數(shù)據(jù)提升模型可能具有更大的潛力[63]。

其他提升方法: 與以前引入的通過深度估計(jì)和實(shí)現(xiàn)數(shù)據(jù)提升的模型不同,Srivastava等[99]引入了另一種提升數(shù)據(jù)的方法。具體而言,他們使用生成對抗網(wǎng)絡(luò)(GAN)[100] ,[101]將前視圖轉(zhuǎn)換為 BEV 圖,其中生成器網(wǎng)絡(luò)旨在生成與給定圖像對應(yīng)的 BEV 圖,并且鑒別器網(wǎng)絡(luò)用于對生成的 BEV 圖進(jìn)行分類。

此外,Kim等[102]提出使用逆透視映射將前視圖像轉(zhuǎn)換為 BEV 圖像。在獲得 BEV 圖像后,這兩個工作可以使用基于 BEV 的3D 檢測器,如 MV3D [31]或 BirdNet [103]來估計(jì)最終結(jié)果。

組件比較

本節(jié),作者將比較3D 目標(biāo)檢測器的每個必需組件。與框架級設(shè)計(jì)相比,下面的設(shè)計(jì)通常是模塊化的,可以靈活地應(yīng)用于不同的算法。

特征提取

與 CV中的其他任務(wù)一樣,良好的特征表示是構(gòu)建高性能基于圖像的3D 檢測器的關(guān)鍵因素。最近的大多數(shù)方法使用標(biāo)準(zhǔn)的 CNN 作為它們的特征提取器,而一些方法偏離了這一點(diǎn),引入了更好的特征提取方法。

標(biāo)準(zhǔn)骨干網(wǎng)絡(luò)

雖然一般輸入數(shù)據(jù)只是 RGB 圖像,但基于特征提升的方法和基于數(shù)據(jù)提升的方法便于使用2D CNN [104],[105],[106],[107],[108],3D CNN [109],[110]和點(diǎn)式CNN [111],[112],[113]作為骨干網(wǎng)絡(luò)。

局部卷積

如下圖所示,Brazil an Liu [68]建議使用兩個平行的分支來分別提取空間不變特征和空間感知特征。

e6dbd2ae-6422-11ed-8abf-dac502259ad0.png

特別是,為了更好地捕捉單目圖像中的空間感知線索,他們進(jìn)一步提出了一種局部卷積: 深度感知卷積。提出的操作使用非共享卷積內(nèi)核來提取不同行的特征。最后,在估計(jì)最終結(jié)果之前,將空間感知特征與空間不變特征相結(jié)合。注意,非共享內(nèi)核將引入額外的計(jì)算成本,并且[68]也提出了這個方案的有效實(shí)現(xiàn)。

特征注意力機(jī)制

自Hu等[114]將注意機(jī)制[115]引入 CNN 以來,提出了許多注意力塊[114],[116],[117]。盡管這些方法的細(xì)節(jié)各不相同,但它們通常有著相同的關(guān)鍵思想: 按照特定維度(例如,通道維度)重新加權(quán)特性。

深度增強(qiáng)特征學(xué)習(xí)

為了提供 RGB 圖像中不可用的深度信息,一種直觀的方案是使用深度圖(通常從現(xiàn)成的模型或子網(wǎng)絡(luò)獲得)來增強(qiáng) RGB 特征[45] ,[58]。此外,還提出了一些有效的深度增強(qiáng)特征學(xué)習(xí)方法。尤其是,Ding等[60]提出了一種局部卷積網(wǎng)絡(luò),他們使用深度圖作為指導(dǎo)來學(xué)習(xí) RGB 圖像不同擴(kuò)張率的動態(tài)局部卷積濾波器

特征模擬

最近,一些方法提出在 LiDAR 模型的指導(dǎo)下學(xué)習(xí)基于圖像的模型的特征。特別是,Ye等[65]采用偽 LiDAR (數(shù)據(jù)提升)流程,并強(qiáng)制從偽 LiDAR 信號中學(xué)習(xí)的特征應(yīng)與從真正的 LiDAR 信號中學(xué)習(xí)的特征相似。同樣,Guo 等[82]將該機(jī)制應(yīng)用于基于特征提升的方法,并在轉(zhuǎn)換后的體素特征(或 BEV 特征)中進(jìn)行特征模擬。

此外,Chong等[3]將該方案推廣到結(jié)果提升方法。它們都將所學(xué)到的知識從基于激光雷達(dá)的模型轉(zhuǎn)移到潛在特征空間中的基于圖像的模型,這些工作的成功表明基于圖像的方法可以從特征模擬中受益。

特征對齊

在3D檢測任務(wù)中只考慮了偏航角。然而,當(dāng)顛簸/俯仰角度不為零時,這種設(shè)計(jì)將導(dǎo)致不對齊問題,下圖說明了這個問題。

e6f90b44-6422-11ed-8abf-dac502259ad0.png

為了這個問題,Zhou等[22]提出了一種特征對齊方案。特別地,他們首先使用子網(wǎng)絡(luò)估計(jì)自姿態(tài),然后設(shè)計(jì)一個特征轉(zhuǎn)移網(wǎng)絡(luò),根據(jù)估計(jì)的相機(jī)姿態(tài),在內(nèi)容級別和風(fēng)格級別上對齊特征。最后,他們使用校正后的特征來估計(jì) 3D 邊界框。

特征池化

Li等[118]為基于圖像的3D檢測提出了一個新的特征池化方案。如下圖所示,對于給定的3D anchor,他們從可見表面提取特征,并通過透視變換將其扭曲成規(guī)則形狀(例如7 × 7特征映射)。

e735edac-6422-11ed-8abf-dac502259ad0.png

然后,將這些特征映射結(jié)合起來,用于提煉最終結(jié)果的proposal。請注意,這些特征可以通過深度 ConvNetPest 投影進(jìn)一步增強(qiáng)。使用 RoI Pool [37]或 RoI Align [38]連接從2D anchor提取的特征。

結(jié)果預(yù)測

獲得 CNN 特征后,從提取的特征預(yù)測3D檢測結(jié)果。作者將結(jié)果預(yù)測的新穎設(shè)計(jì)分為不同的方面,并討論了這些方法。

多尺度預(yù)測

基線模型是使用最后一個 CNN 層的特征來預(yù)測結(jié)果[45] ,[34] ,[63] ,[16]。然而,這個方案的主要挑戰(zhàn)來自于目標(biāo)的不同尺度。特別是,CNN 通常分層提取特征,導(dǎo)致不同層次的特征有不同的感受野和語義層次。

因此,很難預(yù)測所有的目標(biāo)使用特定的層特征。為了解決這個問題,人們提出了許多方法,大致分為層次方法和核級方法。比如FPN、可變形卷積等,下圖是一個例子:

e754fc10-6422-11ed-8abf-dac502259ad0.png

分布外樣本

由于范圍、截?cái)?、遮擋等原因,不同的目?biāo)往往具有不同的特征,從一個統(tǒng)一的網(wǎng)絡(luò)中預(yù)測同一目標(biāo)可能不是最優(yōu)的?;谶@個問題,[63] ,[16] ,[77]采取了自組合策略。特別是,Ma等人[63]根據(jù)深度值(或 KITTI 3D 數(shù)據(jù)集定義的“難度”級別)將目標(biāo)分為三個簇,并使用不同的head并行預(yù)測它們。

Simonelli等[16]擴(kuò)展了這種設(shè)計(jì),為每個head增加了一個重新評分模塊。Zhang等[77]根據(jù)目標(biāo)的截?cái)嗉墑e將其解耦為兩種情況,并對其應(yīng)用不同的標(biāo)簽分配策略和損失函數(shù)。此外,Ma等[72]觀察到,一些遠(yuǎn)距離的目標(biāo)幾乎不可能準(zhǔn)確定位,減少它們的訓(xùn)練權(quán)重(或直接從訓(xùn)練集中移除這些樣本)可以提高整體性能。

這種策略的潛在機(jī)制具有相同的目標(biāo)[63] ,[16] ,[77] ,即避免從分布外的樣本分散到模型訓(xùn)練。

深度估計(jì)的投影建模

與獨(dú)立的深度估計(jì)任務(wù)相比,3D 檢測中的深度估計(jì)有更多的幾何先驗(yàn),投影建模是最常用的一種。特別地,3D目標(biāo)框的高度與其2D投影的高度之間的幾何關(guān)系可表示為:

e771b760-6422-11ed-8abf-dac502259ad0.png

其中d和f 分別表示目標(biāo)的深度和相機(jī)的焦距。2D檢測框的高度用來近似 H2D,因此他們可以使用估計(jì)的參數(shù)來計(jì)算粗略的深度。然而,當(dāng)使用2D 邊界框(表示為 Hbbox2D)的高度作為 H2D時,會引入外部噪聲,因?yàn)?H2D不等于Hbbox2D。為了緩解這個問題,Luet al。[75]提出了一種基于不確定性的方案,該方案在投影建模中對幾何不確定性進(jìn)行建模。

此外,Barabanau等[44]利用 CAD 模型對汽車的關(guān)鍵點(diǎn)進(jìn)行了標(biāo)注,并利用2D/3D 關(guān)鍵點(diǎn)的高度差來獲得深度。與之不同的是,Zhang等人[123]修正了上面的d計(jì)算公式,考慮了目標(biāo)的位置、維度和方向的相互作用,并建立了3D檢測框與其2D投影之間的關(guān)系。簡而言之,GUPNet [75]捕獲了噪聲透視投影建模中的不確定性,Barabanau等[44]通過重新標(biāo)記消除了噪聲,而 Zhang 等[123]通過數(shù)學(xué)建模解決了誤差。

多任務(wù)預(yù)測

作為多任務(wù)學(xué)習(xí)的3D 檢測。3D檢測可以看作是一個多任務(wù)的學(xué)習(xí)問題,因?yàn)樗枰瑫r輸出類別標(biāo)簽,位置,尺寸和方向。許多工作[131] ,[132] ,[133]已經(jīng)表明,CNN 可以從多任務(wù)的聯(lián)合訓(xùn)練中受益。同樣,Ma等[72]觀察到2D檢測可以作為單目3D檢測的輔助任務(wù),并為神經(jīng)網(wǎng)絡(luò)提供額外的幾何線索。

此外,Guo 等[82]發(fā)現(xiàn)這對多目3D檢測也是有效的。注意,在某些方法[68]、[30]、[34]、[33]、[63]中,2D 檢測是必需的組件,而不是輔助任務(wù)。發(fā)現(xiàn)額外的關(guān)鍵點(diǎn)估計(jì)任務(wù)可以進(jìn)一步豐富 CNN 的特征,估計(jì)的關(guān)鍵點(diǎn)可以用來進(jìn)一步優(yōu)化深度估計(jì)子任務(wù)[43] ,[78] ,[74]。

此外,深度估計(jì)也可以為3D檢測模型提供有價值的線索。具體而言,許多工作[23] ,[81] ,[82] ,[3]進(jìn)行了額外的深度估計(jì)任務(wù),以指導(dǎo)共享的 CNN 特征來學(xué)習(xí)空間特征,Parket 等[135]表明,大規(guī)模深度估計(jì)數(shù)據(jù)集的預(yù)訓(xùn)練可以顯著提高他們的3D檢測器的性能。

損失函數(shù)

損失函數(shù)是數(shù)據(jù)驅(qū)動模型不可缺少的一部分,3D 檢測的損失函數(shù)可以簡化為:

e7839598-6422-11ed-8abf-dac502259ad0.png

特別地,分類損失用于識別候選框的類別并給予置信度。位置損失 Lloc、維度損失 Ldim 和方向損失 Lori 分別用于回歸3D邊界框所需的項(xiàng),即位置、維度和方向。最后三個損失項(xiàng)目是可選的。特別是,lossLjoi,例如角點(diǎn)損失[58] ,可以在一個單損失函數(shù)中共同優(yōu)化位置、維數(shù)和方向。置信度損失 Lconf 被設(shè)計(jì)用來給檢測到的檢測框更好的置信度。最后,輔助損失可以引入額外的幾何線索到 CNN。具體的損失函數(shù)細(xì)節(jié)可詳見原文。

后處理

后處理從 CNN 獲得結(jié)果后,采用一些后處理步驟去除冗余檢測結(jié)果或改進(jìn)檢測結(jié)果。這些步驟大致可以分為兩類: 非極大值抑制(NMS)和后優(yōu)化。

NMS

傳統(tǒng) NMS: 一般來說,原始檢測結(jié)果有多個冗余邊界框覆蓋單個目標(biāo),NMS 的設(shè)計(jì)使得單個目標(biāo)僅被一個估計(jì)的邊界框覆蓋。下圖給出了傳統(tǒng) NMS 的偽代碼。

e797de90-6422-11ed-8abf-dac502259ad0.png

選擇最大分?jǐn)?shù)的邊界框,從檢測結(jié)果中去除所有與之有高重疊的邊界框。這個過程遞歸地應(yīng)用于其余的框中,以獲得最終的結(jié)果。

NMS 的變體: 為了避免移除有效目標(biāo),Bodlaet 等[145]只是降低了高重疊目標(biāo)的分?jǐn)?shù),而不是丟棄它們(Soft NMS)。[146]觀察分類評分與檢測框質(zhì)量之間的不匹配,并提出回歸分配評分,即 IoU 評分,以發(fā)揮(IoU Guided NMS))作用。由于單目3D 檢測器的主要問題是定位誤差[72] ,[80] ,其中深度估計(jì)是恢復(fù)目標(biāo)位置的核心問題,Shiet 等[127]使用方法來捕獲估計(jì)深度的不確定性,并使用深度不確定度 σ 深度來標(biāo)準(zhǔn)化應(yīng)用 NMS (Depth Guided NMS)時的得分 σ 深度。據(jù)[147] ,[148] ,非極大分?jǐn)?shù)的檢測框也可能具有高質(zhì)量的定位,并建議通過加權(quán)平均高重疊檢測框(加權(quán) NMS)來更新。

同樣,Heet 等[141]也采用加權(quán)平均機(jī)制,更新平均規(guī)則。特別地,他們在高斯分布下建立了檢測框各項(xiàng)的不確定度模型,然后設(shè)置了僅與 IoU 和不確定度(Softer NMS)相關(guān)的平均規(guī)則。劉等[149]建議對不同密度的目標(biāo)使用動態(tài) NMS 閾值 Ω(自適應(yīng) NMS)。

注意,上面提到的一些算法[145] ,[141] ,[148] ,[149] ,[146] ,[147]最初被提出用于2D檢測,但它們可以很容易地應(yīng)用于3D檢測。此外,[148] ,[141]也可以被視為后優(yōu)化方法,因?yàn)樗麄兂讼貜?fù)檢測,還在 NMS 過程中更新預(yù)測結(jié)果。

Kumaret 等[70]提出了一種可區(qū)分的 NMS 單目3D 檢測方法。通過這種設(shè)計(jì),損失函數(shù)可以直接對 NMS 后的結(jié)果進(jìn)行操作。此外,對于基于多攝像機(jī)的全景數(shù)據(jù)集,例如 nuScenes和 Waymo Open,需要全局 NMS 來消除重疊圖像的重復(fù)檢測結(jié)果。

后優(yōu)化

為了提高檢測框的質(zhì)量,一些方法選擇在后優(yōu)化步驟中通過建立幾何約束來進(jìn)一步細(xì)化 CNN 的輸出。

Brazil 和 Liu [68]提出了一種基于投影3D邊界框和2D邊界框的一致性來調(diào)整方向 θ 的后優(yōu)化方法。特別是,他們迭代添加一個小偏移量的預(yù)測取向 θ 和投影更新的3D檢測框到2D圖像平面。然后,他們選擇接受這個更新或通過檢查2D 邊界框和投影的3D 邊界框之間的相似性是增加還是減少來調(diào)整偏移量。

另一種后優(yōu)化方法是建立在目標(biāo)的3D 關(guān)鍵點(diǎn)和2D 關(guān)鍵點(diǎn)之間的一對一匹配的基礎(chǔ)上。具體來說,Li等[74]生成2D 關(guān)鍵點(diǎn)標(biāo)注(角點(diǎn)版本,可視化參見下圖):

e7b69af6-6422-11ed-8abf-dac502259ad0.png

然后用它們的3D 檢測器中的2D 關(guān)鍵點(diǎn)估計(jì)最終結(jié)果。之后,他們恢復(fù)世界空間中的3D 角點(diǎn),并將其投射到圖像平面中。最后,他們通過使用 Gauss-Newton [150]或 Levenberg-MarQuardt算法[151]最小化配對像素的像素距離來更新估計(jì)的參數(shù)。

利用輔助數(shù)據(jù)

由于缺乏輸入數(shù)據(jù)中的深度信息,從 RGB 圖像進(jìn)行3D 目標(biāo)檢測是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。為了更準(zhǔn)確地估計(jì)3D 邊界框,許多方法都試圖應(yīng)用輔助數(shù)據(jù)并提取RGB 圖像的互補(bǔ)特征。

CAD 模型

CAD 模型已經(jīng)被用作多個3D相關(guān)任務(wù)的輔助數(shù)據(jù),例如[153] ,[154] ,[155] ,以提供豐富的幾何細(xì)節(jié),并可以從公共數(shù)據(jù)集中收集。在基于圖像的3D目標(biāo)檢測任務(wù)中,CAD 模型主要有兩種考慮方式。

自動標(biāo)注

CAD 模型的主要應(yīng)用是自動生成細(xì)粒度的標(biāo)注,以提供更多的監(jiān)督信號。特別是,一些工作[156] ,[44] ,[78]從開源數(shù)據(jù)集中收集 CAD 模型,并在每個數(shù)據(jù)集上標(biāo)注固定數(shù)量的關(guān)鍵點(diǎn)。

然后,他們將每個真值的3D 邊界框綁定到其最接近的 CAD 模型(根據(jù)3D 維度) ,與所選 CAD 相關(guān)聯(lián)的3D 頂點(diǎn)被投影到圖像平面中以獲得2D 關(guān)鍵點(diǎn)標(biāo)注。

xiang等[15]和 Sunet 等[51]提出通過將整個 CAD 模型投影到圖像平面而不是預(yù)先定義的關(guān)鍵點(diǎn)來生成語義mask標(biāo)注。此外,實(shí)例mask可以通過深度排序來區(qū)分。請參見下圖。

e8218384-6422-11ed-8abf-dac502259ad0.png

特別地,類似于實(shí)例掩模的生成,他們將 CAD 模型投影到立體圖像中,并通過比較左右圖像中的投影坐標(biāo)來生成視差值。

總之,CAD 模型可以用來生成高質(zhì)量的標(biāo)注,包括關(guān)鍵點(diǎn)、實(shí)例mask和視差圖。

數(shù)據(jù)增強(qiáng)

CAD 模型也可以考慮數(shù)據(jù)增強(qiáng)。具體來說,復(fù)制粘貼策略[159]是一個強(qiáng)大的數(shù)據(jù)增強(qiáng)的策略,并已應(yīng)用于基于圖像的3D 檢測[58] [24]。特別是與直接復(fù)制和粘貼 RoI 紋理相比[160] [24],Alhaijaet 等[161]和 Manhardtet 等[58]使用 CAD 模型來增強(qiáng)城市駕駛場景。他們渲染高質(zhì)量的 CAD 模型,并將其覆蓋在真實(shí)的圖像之上。通過這種方式,更真實(shí)的合成圖像(見下圖)和更多的訓(xùn)練樣本與新的姿態(tài)產(chǎn)生。

e842bb9e-6422-11ed-8abf-dac502259ad0.png

LiDAR 信號

LiDAR 數(shù)據(jù)有豐富的空間信息,這是圖像數(shù)據(jù)所欠缺的。在這里,作者總結(jié)了現(xiàn)有的基于圖像的方法,只在訓(xùn)練階段應(yīng)用激光雷達(dá)信號,推理階段不引入額外開銷。

LiDAR作為監(jiān)督信號

總的來說,相關(guān)的技術(shù)貢獻(xiàn)可以大致分為以下幾類。

由激光雷達(dá)信號產(chǎn)生深度標(biāo)注。 幾乎所有的方法都需要深度圖,并且總是需要深度估計(jì)的子任務(wù)。LiDAR生成的深度圖更準(zhǔn)確。

利用激光雷達(dá)信號生成mask標(biāo)注。 有些工作[32] ,[53] ,[54] ,[34]使用激光雷達(dá)信號來生成實(shí)例mask。特別地,激光雷達(dá)點(diǎn)的語義標(biāo)簽可以通過檢查它們是否位于3D邊界框中來確定。然后他們將這些點(diǎn)投影到圖像平面上,并將mask標(biāo)簽分配給相應(yīng)的圖像像素。

在訓(xùn)練階段提供額外的指導(dǎo)。 從 LiDAR 信號訓(xùn)練的模型可以作為基于圖像的模型的教師網(wǎng)絡(luò),并通過知識蒸餾機(jī)制將學(xué)習(xí)的空間信息傳遞給基于圖像的方法[163]。

用 GAN 實(shí)現(xiàn)數(shù)據(jù)提升。 基于數(shù)據(jù)提升的方法在基于圖像的3D 檢測中很流行,GAN 為數(shù)據(jù)提升提供了潛在的選擇[99]。特別地,生成器網(wǎng)絡(luò)的目標(biāo)是輸出輸入的2D圖像的3D表示,而鑒別器網(wǎng)絡(luò)負(fù)責(zé)通過將數(shù)據(jù)與真實(shí)的 LiDAR 信號進(jìn)行比較來確定是否生成了數(shù)據(jù)。在該流程中,激光雷達(dá)信號僅在訓(xùn)練階段作為鑒別器網(wǎng)絡(luò)的輸入。在推理階段,去除鑒別器網(wǎng)絡(luò),并將生成器網(wǎng)絡(luò)的輸出反饋給一個現(xiàn)成的基于激光雷達(dá)的3D檢測器,以獲得最終的結(jié)果。

利用稀疏LiDAR信號進(jìn)行深度校正

許多現(xiàn)有的基于圖像的3D 檢測模型,特別是偽激光雷達(dá)系列,使用估計(jì)的深度映射來提供空間信息。然而,無論是單目深度估計(jì)[56] ,[57] ,[93]還是立體匹配[88] ,[55] ,深度圖的準(zhǔn)確性仍然不是很準(zhǔn)確,特別是對于遙遠(yuǎn)的目標(biāo)。特別是,深度估計(jì)方法確實(shí)能夠捕獲目標(biāo),但是它們不能精確地估計(jì)目標(biāo)的深度?;谶@一觀測結(jié)果,pseudo-LiDAR++[94]提議利用激光雷達(dá)信號來糾正這一系統(tǒng)誤差。更重要的是,只需要幾個點(diǎn)作為“地標(biāo)”,模擬的4光束 LiDAR可以顯著提高估計(jì)深度地圖的質(zhì)量。只有4束激光的激光雷達(dá)傳感器比64束要便宜兩個數(shù)量級。此外,還有一些其他的方法,如[31] ,[164] ,[32] ,[165] ,試圖將 RGB 圖像和完整的 LiDAR 信號融合到一個3D檢測模型中。

外部數(shù)據(jù)

眾所周知,額外的訓(xùn)練數(shù)據(jù)通??梢蕴岣呱窠?jīng)網(wǎng)絡(luò)的表示能力,緩解過擬合問題?;谶@種思想,許多工作建議使用額外的開源數(shù)據(jù)集來增加給定的訓(xùn)練數(shù)據(jù)。

深度估計(jì)的附加數(shù)據(jù)

深度估計(jì)是基于圖像的3D目標(biāo)檢測的一個核心子問題,許多工作已經(jīng)表明,引入附加的深度訓(xùn)練數(shù)據(jù)可以顯著提高3D檢測器的整體性能。在這里,作者根據(jù)所使用的數(shù)據(jù)集總結(jié)這些方法,并強(qiáng)調(diào)潛在的數(shù)據(jù)泄漏問題。

KITTI Depth: 為了提供深度信息,許多方法都會在一個更大的數(shù)據(jù)集上訓(xùn)練一個獨(dú)立的 CNN,KITTI Depth是最常用的一個,因?yàn)樗c KITTI 3D 具有相似的分布。具體來說,KITTI Depth 有23,488個訓(xùn)練樣本,而且許多工作在這個數(shù)據(jù)集上訓(xùn)練他們的深度估計(jì)器,并為 KITTI 3D 生成深度地圖。這些估計(jì)的深度圖可以作為輸入數(shù)據(jù)[34] ,[33] ,[59] ,[62] ,[63] ,[16] ,[166] ,[64] ,[65] ,[95]或增加輸入圖像[45] ,[60] ,[61] ,[130] ,[58]。

DDAD15M: 這個數(shù)據(jù)集是 DDAD 數(shù)據(jù)集的擴(kuò)展版本[167] ,包含大約15M 幅城市駕駛場景的圖像,用于深度估計(jì)。Parket 等[23]提出,與從頭開始訓(xùn)練和從 ImageNet 預(yù)訓(xùn)練模型進(jìn)行微調(diào)相比,這個大規(guī)模數(shù)據(jù)集的預(yù)訓(xùn)練可以提供網(wǎng)絡(luò)的豐富的幾何學(xué)之前,并大大提高最終性能。場景流程[168]。

場景流是一個合成的數(shù)據(jù)集,它提供了超過30K 的立體圖像對和密集的標(biāo)注。為了進(jìn)一步提高立體匹配的準(zhǔn)確性,許多工作,包括[45] ,[34] ,[53] ,[54] ,[94] ,[98] ,[63] ,在這個數(shù)據(jù)集上預(yù)訓(xùn)練立體網(wǎng)絡(luò)用于他們的3D 檢測器。

Data leakage: 如上所述,一些方法選擇在 KITTI Depth或 KITTI 多目上預(yù)訓(xùn)練一個子網(wǎng)絡(luò)。遺憾的是, KITTI Depth/多目訓(xùn)練集和 KITTI 3D 驗(yàn)證集之間存在重疊,這可能導(dǎo)致Data leakage問題。Wanget 等[34]意識到這個問題,建議從 KITTI 3D 的訓(xùn)練分裂提供的圖像重新訓(xùn)練他們的差異估計(jì)模型,但是單目深度估計(jì)器中的這個問題仍然存在。

更糟糕的是,單目3D 檢測器[34] ,[33] ,[60] ,[45] ,[62] ,[59] ,[61] ,[65] ,[63] ,[64] ,[130] ,[166]與預(yù)先計(jì)算的深度圖繼承了這個問題,這導(dǎo)致了 KITTI 3D 驗(yàn)證集上的不公平和不可靠的比較。最近,Simonelliet 等[16]重新討論了這個問題,并提供了一種新的訓(xùn)練/驗(yàn)證分割,通過比較每幅圖像對應(yīng)的 GPS 數(shù)據(jù)來避免重疊。不幸的是,他們的實(shí)驗(yàn)結(jié)果表明,不能完全修復(fù),建議未來的工作在建立他們的模型時考慮這個問題。

半監(jiān)督學(xué)習(xí)無標(biāo)記數(shù)據(jù)

由于現(xiàn)有的數(shù)據(jù)集通常只標(biāo)注收集數(shù)據(jù)的關(guān)鍵幀,存在大量未標(biāo)記的原始數(shù)據(jù),這些數(shù)據(jù)可以進(jìn)一步利用半監(jiān)督學(xué)習(xí)(SSL)方法。Penget 等[169]將偽標(biāo)記范式引入到單目3D 檢測中。特別是,他們使用帶標(biāo)注的關(guān)鍵幀訓(xùn)練一個基于 LiDAR 的模型,并為剩余的未標(biāo)記數(shù)據(jù)生成偽標(biāo)簽。

然后,利用偽標(biāo)注數(shù)據(jù)訓(xùn)練單目3D檢測器,并利用增強(qiáng)訓(xùn)練集進(jìn)行訓(xùn)練。請注意,這個方案涉及另一種輔助數(shù)據(jù),LiDAR 信號,以及更多的 SSL 方法,如[170] ,[171]沒有其他依賴關(guān)系,可以在未來的工作中進(jìn)行研究。

其他

CityScapes[172] 實(shí)例mask在許多基于圖像的3D 檢測器中起著重要作用,例如[59] ,[55] ,[53] ,[54] ,而3D 檢測數(shù)據(jù)集中沒有真值。除了使用 CAD 模型或 LiDAR 信號生成標(biāo)簽之外,Weng 和 Kitani [59]介紹了另一種訓(xùn)練分割網(wǎng)絡(luò)的方法。特別是,他們在 CityScapes 上預(yù)先訓(xùn)練他們的分割模型,CityScapes 包含了5000張自動駕駛場景中的像素標(biāo)注圖像,并在 KITTI 多目上對其進(jìn)行微調(diào)。然后他們確定分割網(wǎng)絡(luò)的權(quán)重并用它來預(yù)測系統(tǒng)中的mask。有些工作像[69] ,[22]需要估計(jì)自運(yùn)動來支持他們提出的設(shè)計(jì)。不幸的是,KITTI 3D 沒有提供這種標(biāo)注。在這種情況下,Brazil 等人[69]從 GPS/IMU 設(shè)備記錄的 KITTI 原始數(shù)據(jù)中獲得自運(yùn)動真值。

時間序列

時間線索對于人類視覺系統(tǒng)至關(guān)重要,最近的一項(xiàng)工作[69]將時間序列應(yīng)用于單目3D 檢測。特別地,Brazil 等[69]首先使用修改后的 M3D-RPN [68]來估計(jì)來自單獨(dú)圖像的3D 檢測框,然后連接相鄰幀的特征并估計(jì)相機(jī)的自運(yùn)動。最后,他們使用3D卡爾曼濾波器[173]來更新估計(jì)的檢測框,同時考慮到目標(biāo)的運(yùn)動和自車運(yùn)動。

值得注意的是,初始結(jié)果仍然是從單幀預(yù)測,并且3D卡爾曼濾波器主要用于更新結(jié)果,以保證圖像序列之間結(jié)果的時間一致性。從這個角度來看,這種方法可以看作是一種后處理。此外,利用3D卡爾曼濾波器,這種方法還可以預(yù)測目標(biāo)的速度,而不需要任何標(biāo)注。

多目

為了提供單目圖像中缺乏的深度信息,許多方法在其模型中使用立體對。多目圖像的主要應(yīng)用可以分為兩類: 生成更好的深度圖和豐富特征。從多目圖種生成更好的深度圖方法,包括基于偽激光雷達(dá)的方法和深度增強(qiáng)特征學(xué)習(xí)的方法,都需要深度圖作為輸入。

與單目深度估計(jì)相比,多目圖像[55] ,[88] ,[92]估計(jì)的深度圖一般更準(zhǔn)確,幾個工作[45],[33],[34]的實(shí)驗(yàn)表明,高質(zhì)量的深度圖(特別是前景區(qū)[95])可以顯著提高這些方法的最終性能。使用多目對豐富特征圖是另一個應(yīng)用方向。許多方法以不同的方式提出他們的解決方案,包括但不限于特征融合[47] ,[55] ,注意力機(jī)制[42] ,50 ,并建立更好的特征表示(如cost量[50] ,[81] ,[82])。

輸入數(shù)據(jù)作為分類

在上述部分中,作者總結(jié)了輔助數(shù)據(jù)的主要應(yīng)用,包括 CAD 模型,LiDAR 信號,外部數(shù)據(jù),時間序列和多目圖像。為了更好地說明這些數(shù)據(jù)對算法的影響,作者展示了現(xiàn)有方法在最常用的 KITTI 3D數(shù)據(jù)集上獲得的結(jié)果和使用的輔助數(shù)據(jù)。從這些結(jié)果中,作者可以發(fā)現(xiàn)以下觀察結(jié)果:

大多數(shù)方法在其模型中采用至少一種輔助數(shù)據(jù),這表明輔助數(shù)據(jù)的廣泛應(yīng)用,從單個圖像估計(jì)3D邊界框充滿挑戰(zhàn)。

立體圖像為基于圖像的3D檢測提供了最有價值的信息,在推理階段利用這類數(shù)據(jù)的方法的效果明顯優(yōu)于其他方法。

雖然視頻中的時間視覺特征對視知覺系統(tǒng)至關(guān)重要,但利用時間序列的方法只有一種[69] ,并鼓勵在未來的工作中更多地使用這類數(shù)據(jù)。

現(xiàn)有方法的性能得到迅速和不斷的改善。以沒有任何輔助數(shù)據(jù)的方法為例,KITTI 基準(zhǔn)(中等設(shè)置)的 SOTA 性能已經(jīng)從1.51(FQNet [122] ,發(fā)表于 AAAI’22)上升到16.46(MonoCon [134] ,發(fā)表于 CVPR’19) ,因?yàn)檩斎霐?shù)據(jù)可能在現(xiàn)有算法中是不同的,這些數(shù)據(jù)對3D 檢測器的好處也是不同的,不考慮他們使用的數(shù)據(jù)比較方法是不公平的。因此,作者認(rèn)為算法的基本輸入數(shù)據(jù)也可以作為分類學(xué),并且應(yīng)該在相同的設(shè)置下進(jìn)行比較。下表是基于圖像的3D 檢測器的輔助數(shù)據(jù)和結(jié)果。

e8848c36-6422-11ed-8abf-dac502259ad0.pnge8b696e0-6422-11ed-8abf-dac502259ad0.pnge9118794-6422-11ed-8abf-dac502259ad0.png

未來方向

深度估計(jì)

基于圖像的3D目標(biāo)檢測的性能很大程度上依賴于估計(jì)目標(biāo)的精確距離的能力。因此,分析和提高3D目標(biāo)檢測器的深度估計(jì)能力是一個發(fā)展方向。最近的許多工作,如[20] ,[49] ,[75] ,[92] ,[95] ,[25] ,試圖解決這個問題,提出了回歸目標(biāo)和損失函數(shù)的替代定義,并表明仍然有很大的改進(jìn)空間。

引入偽激光雷達(dá)方法[34] ,[33] ,[59] ,其中3D 目標(biāo)檢測器已經(jīng)與預(yù)先訓(xùn)練的深度估計(jì)器配對,并證明可以獲得更好的整體性能。雖然這是一個有希望的初步步驟,深度和檢測方法仍然是完全獨(dú)立的。為了克服這個問題,[98] ,[135]建議將3D檢測和深度估計(jì)加入到一個單一的多任務(wù)網(wǎng)絡(luò)中。他們證明,當(dāng)這兩個任務(wù)一起訓(xùn)練并且有可能從彼此中受益時,3D 檢測性能提高得更多。作者相信這些結(jié)果將顯示和驗(yàn)證深度和檢測結(jié)合的潛力,強(qiáng)調(diào)這將構(gòu)成相關(guān)的未來方向。

超越完全監(jiān)督的學(xué)習(xí)

創(chuàng)建3D 檢測數(shù)據(jù)集是一個極其昂貴和耗時的操作。它通常涉及不同技術(shù)(如激光雷達(dá)、全球定位系統(tǒng)、相機(jī))之間的協(xié)同作用,以及大量的標(biāo)注人員。標(biāo)注過程的要求非常高,即使有許多質(zhì)量檢查,也不可避免地會受到錯誤的影響。有鑒于此,作者需要看到幾乎所有的3D目標(biāo)檢測方法都是受到全面監(jiān)督的,即需要對3D邊界框標(biāo)注進(jìn)行訓(xùn)練。

與其他相關(guān)社區(qū)的完全監(jiān)督要求已經(jīng)放松的相反,深度估計(jì)[56] ,[185]或基于 LiDAR 的3D 檢測[186] ,[187] ,[188] ,[189] ,很少有人致力于探索半自監(jiān)督或自監(jiān)督方法[180] ,[190] ,[4]。在這方面,值得強(qiáng)調(diào)的方法在[180] ,其中引入了可微渲染模塊,使得開發(fā)輸入 RGB 圖像作為唯一的監(jiān)督來源。

另外,鑒于最近在通用場景(如 NeRF [191])和真實(shí)目標(biāo)(如[192] ,[193])的可微渲染領(lǐng)域取得的進(jìn)展,作者相信這個特殊的方向是非常有價值的,能夠潛在地放松對3D 框標(biāo)注的要求。

多模態(tài)

正如前面討論的,圖像數(shù)據(jù)和 LiDAR 數(shù)據(jù)都有它們的優(yōu)勢,一些方法,如[31] ,[89] ,[32] ,[164] ,[165] ,最近已經(jīng)開始將這兩種類型的數(shù)據(jù)集成到一個單一的模型中。然而,這一領(lǐng)域的研究還處于起步階段。此外,還可以考慮其他數(shù)據(jù)模式,以進(jìn)一步提高算法的準(zhǔn)確性和魯棒性。

例如,與激光雷達(dá)相比,Radar設(shè)備具有更長的傳感距離,可用于提高遠(yuǎn)距離目標(biāo)的精度。另外,Radar在雨天、霧天等極端天氣條件下更加穩(wěn)定。然而,雖然同步Radar數(shù)據(jù)已經(jīng)在一些數(shù)據(jù)集中提供了[6] ,[194] ,[195] ,但是只有少數(shù)幾種方法[195] ,[196] ,[197]研究如何使用它們。另一個例子是來自熱成像相機(jī)的數(shù)據(jù)[198] ,它提供了新的機(jī)會,通過處理不利的照明條件來提高檢測的準(zhǔn)確性。總之,理想的檢測算法應(yīng)該整合各種數(shù)據(jù),以覆蓋異質(zhì)性和極端條件。

時間序列

在現(xiàn)實(shí)世界中,人類駕駛員依靠連續(xù)的視覺感知來獲取周圍環(huán)境的信息。然而,該領(lǐng)域的大多數(shù)工作從單幀的角度解決了3D 檢測問題,這顯然是次優(yōu)的,只有一個最近的工作[69]開始考慮時間線索和約束。另一方面,大量的工作已經(jīng)證明了在許多任務(wù)中使用視頻數(shù)據(jù)的有效性,包括2D 檢測[199] ,[200] ,深度估計(jì)[201] ,[202] ,分割[203] ,[204]和基于激光雷達(dá)的3D 檢測[205] ,[206] ,[207]。

這些相關(guān)領(lǐng)域的成功表明了在3D檢測任務(wù)中利用視頻數(shù)據(jù)的潛力,并且通過引入時間數(shù)據(jù)和在時空中建立新的約束可以實(shí)現(xiàn)新的突破。關(guān)于序列的使用,一個特別有趣的未來方向是它們可以用于放松全面監(jiān)督的要求。如果結(jié)合已經(jīng)可用的輸入 RGB 圖像實(shí)際上,他們被證明是能夠自監(jiān)督深度估計(jì)[208]。

有鑒于此,有理由認(rèn)為,如果同樣的監(jiān)督也將用于恢復(fù)目標(biāo)的形狀和外觀,同樣的方法可以用于執(zhí)行3D 目標(biāo)檢測,正如[193] ,[180]所建議的。最后一個相關(guān)方向由速度估計(jì)表示。一些數(shù)據(jù)集,例如 nuScenes [6] ,實(shí)際上不僅需要估計(jì)目標(biāo)的3D 檢測框,還需要估計(jì)它們的速度。這引入了另一個極具挑戰(zhàn)性的任務(wù),需要通過使用多個圖像來解決。

泛化

泛化在自動駕駛汽車的安全性方面起著重要作用。在這方面,不幸的是,眾所周知,基于圖像的3D目標(biāo)檢測方法在測試看不見的數(shù)據(jù)集、目標(biāo)或具有挑戰(zhàn)性的天氣條件時,性能會有相當(dāng)大的下降。

在表5中可以找到一個例子,其中作者顯示了基于圖像的基線(連同 LiDAR 基線)在流行的 nuScenes 數(shù)據(jù)集的子集上的性能,這些子集包含雨水或夜間捕獲的圖像。在導(dǎo)致這種性能下降的許多因素中,幾乎所有基于圖像的3D 檢測器都是依賴于相機(jī)的。他們期望相機(jī)內(nèi)在參數(shù)在訓(xùn)練和測試階段之間保持不變。

克服這種局限性的初步嘗試已經(jīng)在[209]中得到了發(fā)展,但是作者相信這個方向應(yīng)該進(jìn)一步探索。另一個關(guān)鍵因素來自于這樣一個事實(shí),許多基于圖像的3D 目標(biāo)檢測方法依賴于數(shù)據(jù)集特定的目標(biāo)優(yōu)先級。平均目標(biāo)3D 范圍,以作出他們的預(yù)測。

如果測試在不同的數(shù)據(jù)集中的目標(biāo),如汽車,顯著偏離這些平均范圍,那么3D 檢測器可能會失敗。由于解決這個問題的努力非常有限[210] ,[211] ,[212] ,[213] ,并且獨(dú)特地集中在基于 LiDAR 的方法上,作者認(rèn)為這也構(gòu)成了相關(guān)的未來方向。

結(jié)論

本文提供了基于圖像的自動駕駛3D檢測的最新發(fā)展的綜合調(diào)查。作者已經(jīng)看到,從2015年到2021年,已經(jīng)發(fā)表了大量關(guān)于這一主題的論文。為了系統(tǒng)地總結(jié)這些方法,作者首先根據(jù)它們的高層結(jié)構(gòu)對現(xiàn)有方法進(jìn)行分類。然后,對這些算法進(jìn)行了詳細(xì)的比較,討論了3D檢測的每個必要組成部分,如特征提取,損失函數(shù),后處理等。

作者還討論了輔助數(shù)據(jù)在這一領(lǐng)域的應(yīng)用,支持需要一個系統(tǒng)的總結(jié),如本調(diào)查和更好的協(xié)議,以便在未來的工作中進(jìn)行公平的比較。最后,作者描述了這一領(lǐng)域的一些公開挑戰(zhàn)和潛在方向,這些挑戰(zhàn)和方向可能會在未來幾年激發(fā)新的研究。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 檢測器
    +關(guān)注

    關(guān)注

    1

    文章

    894

    瀏覽量

    48655
  • RGB
    RGB
    +關(guān)注

    關(guān)注

    4

    文章

    807

    瀏覽量

    59884
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1708

    瀏覽量

    46757

原文標(biāo)題:純視覺3D檢測綜述!一文詳解3D檢測現(xiàn)狀、趨勢和未來方向!

文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    卡車、礦車的自動駕駛和乘用車的自動駕駛在技術(shù)要求上有何不同?

    [首發(fā)于智駕最前沿微信公眾號]自動駕駛技術(shù)的發(fā)展,讓組合輔助駕駛得到大量應(yīng)用,但現(xiàn)在對于自動駕駛技術(shù)的宣傳,普遍是在乘用車領(lǐng)域,而對于卡車、礦車的
    的頭像 發(fā)表于 06-28 11:38 ?178次閱讀
    卡車、礦車的<b class='flag-5'>自動駕駛</b>和乘用車的<b class='flag-5'>自動駕駛</b>在技術(shù)要求上有何不同?

    海伯森3D閃測傳感器,工業(yè)檢測領(lǐng)域的高精度利器

    優(yōu)勢,解決了接觸式測量在效率、精度、適應(yīng)性上的瓶頸,尤其適合大批量生產(chǎn)、復(fù)雜結(jié)構(gòu)檢測、高附加值產(chǎn)品場景。在工業(yè)檢測領(lǐng)域,3D視覺已成為主流趨勢,推動“智能制造”向自
    的頭像 發(fā)表于 06-20 17:46 ?830次閱讀
    海伯森<b class='flag-5'>3D</b>閃測傳感器,工業(yè)<b class='flag-5'>檢測</b><b class='flag-5'>領(lǐng)域</b>的高精度利器

    淺析4D-bev標(biāo)注技術(shù)在自動駕駛領(lǐng)域的重要性

    感知領(lǐng)域的一項(xiàng)突破性創(chuàng)新,通過引入時間維度與全局視角,為自動駕駛系統(tǒng)提供了高精度、多模態(tài)的時空真值數(shù)據(jù),重塑了自動駕駛系統(tǒng)的開發(fā)范式。 4D-BEV標(biāo)注是什么? 4
    的頭像 發(fā)表于 06-12 16:10 ?337次閱讀

    新能源車軟件單元測試深度解析:自動駕駛系統(tǒng)視角

    )和AI模塊(如激光雷達(dá)目標(biāo)檢測)。例如,在測試自動駕駛路徑規(guī)劃模塊時,可同步注入CAN總線信號(車速、轉(zhuǎn)向角)和虛擬點(diǎn)云數(shù)據(jù)(模擬障礙物),實(shí)現(xiàn)多維度耦合驗(yàn)證。 ? 智能覆蓋率引導(dǎo): ? 通過
    發(fā)表于 05-12 15:59

    康謀分享 | 3DGS:革新自動駕駛仿真場景重建的關(guān)鍵技術(shù)

    3DGS技術(shù)為自動駕駛仿真場景重建帶來突破,通過3D高斯點(diǎn)精確表達(dá)復(fù)雜場景的幾何和光照特性,顯著提升渲染速度與圖像質(zhì)量??抵\aiSim平臺結(jié)合3
    的頭像 發(fā)表于 03-05 09:45 ?3391次閱讀
    康謀分享 | <b class='flag-5'>3</b>DGS:革新<b class='flag-5'>自動駕駛</b>仿真場景重建的關(guān)鍵技術(shù)

    ?超景深3D檢測顯微鏡技術(shù)解析

    ,確保產(chǎn)品質(zhì)量和生產(chǎn)效率。 在生物醫(yī)學(xué)領(lǐng)域,超景深3D檢測顯微鏡的應(yīng)用同樣令人矚目。傳統(tǒng)的顯微鏡在觀察細(xì)胞和組織時,往往只能獲取二維圖像,難以全面反映其真實(shí)結(jié)構(gòu)。而上海桐爾的技術(shù)能夠幫
    發(fā)表于 02-25 10:51

    【實(shí)戰(zhàn)】Python+OpenCV車道線檢測識別項(xiàng)目:實(shí)現(xiàn)L2級別自動駕駛必備(配套課程+平臺實(shí)踐)

    的一個必備技能——車道線檢測。本文將詳細(xì)介紹一個車道線檢測項(xiàng)目的過程,從圖像采集到車道線的準(zhǔn)確識別,看看在L2自動駕駛中,如何通過圖像處理技
    的頭像 發(fā)表于 12-16 15:42 ?1065次閱讀
    【實(shí)戰(zhàn)】Python+OpenCV車道線<b class='flag-5'>檢測</b>識別項(xiàng)目:實(shí)現(xiàn)L2級別<b class='flag-5'>自動駕駛</b>必備(配套課程+平臺實(shí)踐)

    淺析基于自動駕駛的4D-bev標(biāo)注技術(shù)

    4D-bev標(biāo)注技術(shù)是指在3D空間中以時間作為第四個維度進(jìn)行標(biāo)注的過程。4D-bev通常在地場景較為復(fù)雜的自動駕駛場景中使用,其可以通過精準(zhǔn)地跟蹤和記錄動態(tài)對象的運(yùn)動軌跡、姿勢變化以及
    的頭像 發(fā)表于 12-06 15:01 ?3240次閱讀
    淺析基于<b class='flag-5'>自動駕駛</b>的4<b class='flag-5'>D</b>-bev標(biāo)注技術(shù)

    使用STT全面提升自動駕駛中的多目標(biāo)跟蹤

    3D目標(biāo)跟蹤(3D MOT)在各種機(jī)器人應(yīng)用中發(fā)揮著關(guān)鍵作用,例如自動駕駛車輛。為了在駕駛時避免碰撞,機(jī)器人汽車必須可靠地跟蹤道路上的物體
    的頭像 發(fā)表于 10-28 10:07 ?650次閱讀
    使用STT全面提升<b class='flag-5'>自動駕駛</b>中的多<b class='flag-5'>目標(biāo)</b>跟蹤

    自動駕駛HiL測試方案 ——場景仿真3D演示#ADAS #自動駕駛 #VTHiL

    自動駕駛
    北匯信息POLELINK
    發(fā)布于 :2024年10月16日 10:55:35

    FPGA在自動駕駛領(lǐng)域有哪些優(yōu)勢?

    領(lǐng)域的主要優(yōu)勢: 高性能與并行處理能力: FPGA內(nèi)部包含大量的邏輯門和可配置的連接,能夠同時處理多個數(shù)據(jù)流和計(jì)算任務(wù)。這種并行處理能力使得FPGA在處理自動駕駛中復(fù)雜的圖像識別、傳感器數(shù)據(jù)處理等
    發(fā)表于 07-29 17:11

    FPGA在自動駕駛領(lǐng)域有哪些應(yīng)用?

    是FPGA在自動駕駛領(lǐng)域的主要應(yīng)用: 一、感知算法加速 圖像處理:自動駕駛中需要通過攝像頭獲取并識別道路信息和行駛環(huán)境,這涉及到大量的圖像
    發(fā)表于 07-29 17:09

    目標(biāo)檢測圖像識別的區(qū)別在哪

    目標(biāo)檢測圖像識別是計(jì)算機(jī)視覺領(lǐng)域中的兩個重要研究方向,它們在實(shí)際應(yīng)用中有著廣泛的應(yīng)用,如自動駕駛、智能監(jiān)控、醫(yī)療診斷等。盡管它們在某些方面
    的頭像 發(fā)表于 07-17 09:51 ?1795次閱讀

    目標(biāo)檢測與識別技術(shù)有哪些

    目標(biāo)檢測與識別技術(shù)是計(jì)算機(jī)視覺領(lǐng)域的重要研究方向,廣泛應(yīng)用于安全監(jiān)控、自動駕駛、醫(yī)療診斷、工業(yè)自動化等領(lǐng)
    的頭像 發(fā)表于 07-17 09:40 ?1322次閱讀