午夜成人资源在线国产日韩欧美极品 ,婷婷激情五月天激情婷婷

CVPR 2019的文章出來(lái)了，今天聊聊雙目的 3D object detection。這是一篇來(lái)自 DJI （大疆）與港科大合作的文章《Stereo R-CNN based 3D Object Detection for Autonomous Driving》，作者分別是 Peiliang Li，陳曉智(DJI，MV3D的作者)和港科大的 Shaojie Shen 老師。

論文鏈接，文中稱(chēng)代碼將開(kāi)源

https://arxiv.org/abs/1902.09738

1. Introduction

2018 年在 3D 檢測(cè)方面的文章層出不窮，也是各個(gè)公司無(wú)人駕駛或者機(jī)器人學(xué)部門(mén)關(guān)注的重點(diǎn)，包含了點(diǎn)云，點(diǎn)云圖像融合，以及單目 3D 檢測(cè)，但是在雙目視覺(jué)方面的貢獻(xiàn)還是比較少，自從 3DOP 之后。

總體來(lái)說(shuō)，圖像的檢測(cè)距離、圖像的 density 以及 context 信息，在 3D檢測(cè)中是不可或缺的一部分，因此作者在這篇文章中挖掘了雙目視覺(jué)做 3D檢測(cè)的的潛力。

2.Network Structure

整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)分為以下的幾個(gè)部分。

1). RPN部分，作者將左右目的圖像通過(guò)stereoRPN產(chǎn)生相應(yīng)的proposal。具體來(lái)說(shuō)stereo RPN是在FPN的基礎(chǔ)上，將每個(gè)FPN的scale上的feature map的進(jìn)行concat的結(jié)構(gòu)。

2). Stereo Regression，在RPN之后，通過(guò)RoiAlign的操作，得到each FPN scale下的left and right Roi features，然后concat相應(yīng)的特征，經(jīng)過(guò)fc層得到object class, stereo bounding boxes dimension還有viewpoint angle(下圖所示) 的值。這里解釋一下viewpoint，根據(jù)Figure3.，假定物

3). keypoint的檢測(cè)。這里采用的是類(lèi)似于mask rcnn的結(jié)構(gòu)進(jìn)行關(guān)鍵點(diǎn)的預(yù)測(cè)。文章定義了4個(gè)3D semantic keypoint，即車(chē)輛底部的3D corner point，同時(shí)將這4個(gè)點(diǎn)投影到圖像，得到4個(gè)perspective keypoint，這4個(gè)點(diǎn)在3D bbox regression起到一定的作用，我們?cè)谙乱徊糠衷俳榻B。

在keypoint檢測(cè)任務(wù)中，作者利用RoiAlign得到的14*14feature map，經(jīng)過(guò)conv，deconv最后得到6 * 28 * 28的feature map，注意到只有keypoint的u坐標(biāo)會(huì)提供2D Box以外的信息，因此，處于減少計(jì)算量的目的，作者aggregate每一列的feature，得到6 * 28的output，其中，前4個(gè)channel代表4個(gè)keypoint被投影到相應(yīng)的u坐標(biāo)的概率，后面兩個(gè)channel代表是left or right boundary上的keypoint的概率。

3. 3D Box Estimation

通過(guò)網(wǎng)絡(luò)回歸得到的 2D box 的 dimension，viewpoint，還有 keypoint，我們可以通過(guò)一定的方式得到3D box的位置。定義 3D box 的狀態(tài)x = [x, y, z, θ]。

Figure 5，給出了一些稀疏的約束。包含了特征點(diǎn)的映射過(guò)程。這里也體現(xiàn)了keypoint的用處。

上述公式即為約束方程，因此可以通過(guò)高斯牛頓的方法直接求解。具體可以參考論文的引文17。這里我們簡(jiǎn)單證明一下第一個(gè)公式。注意，這里的假設(shè)都是u，v坐標(biāo)都已經(jīng)經(jīng)過(guò)相機(jī)內(nèi)參的歸一化了。

4. Dense 3D Box Alignment

這里就回到shenshaojie老師比較熟悉的BA的過(guò)程了，由于part 3僅僅只是一個(gè)object level的深度，這里文章利用最小化左右視圖的RGB的值，得到一個(gè)更加refine的過(guò)程。定義如下的誤差函數(shù)

求解可以利用G20或者ceres也可以完成。整個(gè)alignment過(guò)程其實(shí)相對(duì)于深度的直接預(yù)測(cè)是更加robust的，因?yàn)檫@種預(yù)測(cè)方法，避免了全局的depth estimation中的一些invalid的pixel引起的ill problem的問(wèn)題。

5. experiment

作者在實(shí)驗(yàn)這塊達(dá)到了雙目視覺(jué)的state-of-the-art，同時(shí)對(duì)于各個(gè)module也做了很充足的實(shí)驗(yàn)（這塊請(qǐng)查看原論文）。

下面是圖a、b、c為處理結(jié)果示例，每幅圖像內(nèi)部上中下三部分，分別為左眼圖像檢測(cè)結(jié)果、右眼圖像檢測(cè)結(jié)果、鳥(niǎo)瞰視圖檢測(cè)結(jié)果。

圖a

圖b

圖c

6. Insight

最后談?wù)勎恼陆o我的一些 insights，首先，整個(gè)文章將傳統(tǒng)的 detection 的任務(wù)，結(jié)合了 geometry constraint 優(yōu)化的方式，做到了3D位置的估計(jì)，想法其實(shí)在不少文章sfm-learner之類(lèi)的文章已經(jīng)有體現(xiàn)過(guò)了，不過(guò)用在3Ddetection上面還是比較新穎，避免了做雙目匹配估計(jì)深度的過(guò)程。也屬于slam跟深度學(xué)習(xí)結(jié)合的一篇文章，感興趣的朋友可以繼續(xù)看看（下面鏈接）相關(guān)文章

arxiv.org/abs/1802.0552

談幾點(diǎn)我個(gè)人意義上的不足吧，首先耗時(shí)過(guò)程 0.28s 的 inference time，不過(guò)可能作者的重點(diǎn)也不在這個(gè)方面，特征的利用上可以更加有效率，在實(shí)現(xiàn)上。其次，能不能采用deep3dbox的方式預(yù)測(cè)dimension，然后添加入優(yōu)化項(xiàng)呢...總體來(lái)說(shuō)，是一篇不錯(cuò)的值得一讀的文章！

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴