摘要
基于單張RGB圖像在3D場(chǎng)景空間中定位行人對(duì)于各種下游應(yīng)用至關(guān)重要。目前的單目定位方法要么利用行人的包圍盒,要么利用他們身體的可見(jiàn)部分進(jìn)行定位。這兩種方法在現(xiàn)實(shí)場(chǎng)景中都引入了額外的誤差—擁擠的環(huán)境中有多個(gè)行人被遮擋。為了克服這一局限性,本文提出了一種新穎的人體姿態(tài)感知行人定位框架來(lái)模擬被遮擋行人的姿態(tài),從而實(shí)現(xiàn)在圖像和地面空間中的精確定位。這是通過(guò)提出一個(gè)輕量級(jí)的神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)完成的,確保了快速和準(zhǔn)確的預(yù)測(cè)缺失的身體部分的下游應(yīng)用。在兩個(gè)真實(shí)世界的數(shù)據(jù)集上進(jìn)行的綜合實(shí)驗(yàn)證明了該框架在預(yù)測(cè)行人丟失身體部位以及行人定位方面的有效性。
引言
為了緩解以往研究的局限性,本研究的目的是:
(1)從可見(jiàn)身體部位的位置有效地估計(jì)出被遮擋的身體部位;
(2)使用該估計(jì)器準(zhǔn)確地定位地面上被遮擋的行人。為此,受最近關(guān)于姿態(tài)估和單目行人定位的研究啟發(fā),本文提出了一種新穎的人體姿態(tài)感知行人定位框架。
首先提出了一種在圖像空間中模擬被遮擋行人姿態(tài)的方法。這是通過(guò)基于他們其他可見(jiàn)的身體部位或關(guān)節(jié)(如鼻子、肩膀、手腕或膝蓋)來(lái)估計(jì)他們身體缺失部分在圖像中的位置來(lái)完成的。為此,我們提出了一個(gè)輕量級(jí)的前饋神經(jīng)網(wǎng)絡(luò),并在Microsoft COCO中對(duì)被檢測(cè)行人的身體結(jié)構(gòu)關(guān)鍵點(diǎn)進(jìn)行訓(xùn)練,這是行人檢測(cè)中廣泛使用的開放基準(zhǔn)數(shù)據(jù)集。受martinez等人(2017)啟發(fā),腳部預(yù)測(cè)器的輕量化結(jié)構(gòu)使該框架能夠準(zhǔn)確有效地估計(jì)地面上行人的位置。為了估計(jì)行人可見(jiàn)關(guān)節(jié),我們使用了OpenPifPaf (Kreiss等人,2019年),一種最先進(jìn)的人體姿勢(shì)檢測(cè)器。這為我們提供了圖像空間中行人姿態(tài)的抽象表現(xiàn)。然后,對(duì)足部位置應(yīng)用單應(yīng)性變換,將坐標(biāo)從圖像平面轉(zhuǎn)換到地平面。
在兩個(gè)真實(shí)世界的數(shù)據(jù)集上進(jìn)行的實(shí)證明了本文提出的方法在估計(jì)行人在圖像空間中的位置方面的有效性。我們的評(píng)估還表明,與目前最先進(jìn)的方法相比,本文提出的方法在定位精度方面提高了60%以上。提出的框架是作為一種實(shí)用的解決方案,以在常見(jiàn)安裝場(chǎng)景的監(jiān)控?cái)z像頭中準(zhǔn)確地定位行人。然而,正如KITTI數(shù)據(jù)集所示,它也可以應(yīng)用于其他相機(jī)設(shè)置,如自動(dòng)駕駛汽車中估算單應(yīng)性變換的實(shí)用解決方案。
綜上所述,本文的貢獻(xiàn)如下:
(1)提出了一種基于其他可見(jiàn)部位的方法來(lái)估計(jì)被遮擋的身體部位(如腳)的位置。
(2)使用真實(shí)世界的數(shù)據(jù)進(jìn)行了一系列全面的實(shí)驗(yàn),并證明我們提出的框架可以準(zhǔn)確地估計(jì)腳的位置,并在定位精度方面優(yōu)于之前的方法。
方法
本研究旨在利用人體結(jié)構(gòu),改進(jìn)基于單一圖像的步行者定位方法。這是通過(guò)預(yù)測(cè)行人丟失的身體部位來(lái)實(shí)現(xiàn)的。為了實(shí)現(xiàn)這一目標(biāo),本文提出了一個(gè)包括三個(gè)主要步驟的框架。如下圖所示,首先使用最先進(jìn)的姿態(tài)檢測(cè)方法檢測(cè)圖像中的行人可見(jiàn)的身體部位和關(guān)節(jié)。然后對(duì)于每一個(gè)被檢測(cè)到的行人,我們從可見(jiàn)部分識(shí)別并預(yù)測(cè)他們的腳的位置,從而實(shí)現(xiàn)準(zhǔn)確定位。最后應(yīng)用單應(yīng)性變換來(lái)估計(jì)被測(cè)足的地平面坐標(biāo)。這些步驟在這個(gè)階段是分開的,但是它們有可能形成一個(gè)端到端系統(tǒng)。
接下來(lái)詳細(xì)介紹了該框架的三個(gè)步驟。
1、行人姿態(tài)估計(jì)
本文采用了一種名為OpenPifPaf (Kreiss et al.,2019)的最先進(jìn)的姿勢(shì)檢測(cè)器來(lái)檢測(cè)行人,并在圖像空間中找到他們對(duì)應(yīng)的身體部位和關(guān)節(jié)。讓表示為圖像空間中被檢測(cè)到的行人的集合。這里,n表示圖像中檢測(cè)到的人類總數(shù)。每一個(gè)
表示身體特定部位或關(guān)節(jié)在圖像空間中的位置。這里K表示姿勢(shì)檢測(cè)器可以識(shí)別的身體部位和關(guān)節(jié)的數(shù)量——在OpenPifPaf的情況下,最多可以識(shí)別17個(gè)關(guān)節(jié)。采用姿勢(shì)檢測(cè)器的優(yōu)點(diǎn)是,它通過(guò)將腳的位置投射到地平面上,從而便于精確定位。
為了準(zhǔn)確估計(jì)行人的位置,我們認(rèn)為在定位時(shí)應(yīng)考慮行人的腳位置。這是因?yàn)樵谝话闱闆r下,相機(jī)可能對(duì)現(xiàn)場(chǎng)有一個(gè)傾斜的透視視角,考慮到bertoni等人(2019)提出的行人身體的中心點(diǎn),將會(huì)給他們?cè)诘孛嫔系墓烙?jì)位置增加一個(gè)顯著的誤差。此外,遮擋導(dǎo)致關(guān)節(jié)可能丟失。為了克服這一挑戰(zhàn),我們建議從檢測(cè)到的關(guān)節(jié)中估計(jì)缺失的位置。
2、估計(jì)缺失的身體部位
本文方法可以基于行人在圖像空間中的其他可見(jiàn)身體部位,有效地預(yù)測(cè)行人缺失關(guān)節(jié)的位置。這種方法可以幫助我們解決基于包圍盒的定位方法對(duì)行人遮擋的局限性,通過(guò)可見(jiàn)的關(guān)節(jié)來(lái)估計(jì)遮擋的身體部位。該網(wǎng)絡(luò)能夠?qū)W習(xí)和預(yù)測(cè)身體各部位之間的協(xié)同模式,以及不同關(guān)節(jié)或身體各部位之間的距離。
下圖顯示了所提議的解決方案的總體流程。該網(wǎng)絡(luò)以人體可用部位的位置向量作為輸入,并估計(jì)缺失部位的位置。為了訓(xùn)練網(wǎng)絡(luò),我們提供一套完整的關(guān)節(jié),讓網(wǎng)絡(luò)學(xué)習(xí)不同身體部位的相對(duì)位置。該網(wǎng)絡(luò)架構(gòu)受到martinez等人(2017)的啟發(fā),因?yàn)樘岢龅募軜?gòu)受益于深度學(xué)習(xí)領(lǐng)域的各種改進(jìn),同時(shí)它仍然保持簡(jiǎn)單和輕量級(jí),以確保對(duì)下游應(yīng)用的快速響應(yīng)。我們進(jìn)行了消融研究,以發(fā)現(xiàn)適合我們應(yīng)用的最佳網(wǎng)絡(luò)架構(gòu)。在消融研究的基礎(chǔ)上,提出了一個(gè)具有兩個(gè)線性層和2048輸出特征的深度前饋神經(jīng)網(wǎng)絡(luò)。我們還在每個(gè)全連接層后采用了退出(Srivastava等人,2014年)和批處理標(biāo)準(zhǔn)化(Ioffe和Szegedy, 2015年),以防止過(guò)擬合。為了給我們的適應(yīng)網(wǎng)絡(luò)添加非線性,我們使用矯正線性單元(ReLus) (Nair和Hinton, 2010)作為神經(jīng)網(wǎng)絡(luò)中最常用的激活函數(shù)。
為了在擁擠環(huán)境中實(shí)現(xiàn)單目行人定位,我們使用該模型來(lái)預(yù)測(cè)行人的腳的位置。在COCO數(shù)據(jù)集上訓(xùn)練和評(píng)估模,首先選擇數(shù)據(jù)集中現(xiàn)有腳位置的那些檢測(cè)到的行人。接下來(lái),我們開發(fā)了一種數(shù)據(jù)增強(qiáng)技術(shù),并應(yīng)用于模擬現(xiàn)實(shí)場(chǎng)景,在這種場(chǎng)景中,攝像機(jī)對(duì)身體不同部位和關(guān)節(jié)的視角可能會(huì)被周圍的行人或物體遮擋。因此,我們隨機(jī)生成不同的行人解剖關(guān)鍵點(diǎn)組合,并將其增加到原始數(shù)據(jù)集,以豐富訓(xùn)練,并使網(wǎng)絡(luò)適應(yīng)真實(shí)的遮擋場(chǎng)景。通過(guò)這種方式,在保留實(shí)例的解剖約束的同時(shí),我們?cè)O(shè)法模擬在真實(shí)場(chǎng)景中發(fā)生的不同類型的遮擋。然后將所有檢測(cè)到的行人的邊界框左上角移動(dòng)到圖像坐標(biāo)的原點(diǎn),對(duì)關(guān)鍵點(diǎn)坐標(biāo)進(jìn)行歸一化,以標(biāo)準(zhǔn)化預(yù)測(cè)。
作為損失函數(shù),我們利用常用的二范數(shù)來(lái)學(xué)習(xí)行人腳在圖像空間中的坐標(biāo),從而最小化位置估計(jì)誤差。給定一組已知的非腳的關(guān)鍵點(diǎn),如鼻子、左肩或右手腕,以及它們相應(yīng)的左、右腳踝關(guān)鍵點(diǎn),表示損失函數(shù)為:
其中,w為網(wǎng)絡(luò)的導(dǎo)出權(quán)值,為模型估計(jì)的行人i在圖像空間中的腳位置,n是圖像中檢測(cè)到的行人數(shù)量。
3、地面位置估計(jì)
在第三階段,我們對(duì)估計(jì)的足部位置應(yīng)用單應(yīng)變換以確定地面空間坐標(biāo)
:
在這里,ui和vi反映了行人i在圖像空間中的位置,xi和yi代表了相應(yīng)的地面二維坐標(biāo)。單應(yīng)矩陣的8個(gè)未知參數(shù),可以使用一組在圖像空間和地面空間中手工測(cè)量的特征點(diǎn)來(lái)估計(jì)。
然后將最小二乘模型應(yīng)用于投影空間中相應(yīng)的線性方程組,確定估計(jì)的單應(yīng)性變換參數(shù)。求解齊次線性投影至少需要四個(gè)控制點(diǎn)。最后,給定一個(gè)行人的每個(gè)腳的位置,即可以在地面空間估計(jì)相應(yīng)的坐標(biāo)。
實(shí)驗(yàn)
為了準(zhǔn)確估計(jì)行人丟失的身體部位,我們?cè)?017年COCO訓(xùn)練數(shù)據(jù)集(Lin et al.,2014)上訓(xùn)練我們提出的網(wǎng)絡(luò)。此外,在SCS和KITTI兩個(gè)數(shù)據(jù)集上對(duì)所提出的框架進(jìn)行評(píng)估。
在這項(xiàng)工作中,我們將提出的框架與Monoloco方法和幾何基線方法進(jìn)行了比較。為了評(píng)估模塊的性能,使用了兩個(gè)常用的評(píng)估指標(biāo),即均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)。
下圖顯示了KITTI數(shù)據(jù)集上被遮擋行人的預(yù)測(cè)腳位置的三個(gè)例子。如圖所示,我們提出的網(wǎng)絡(luò)可以有效地預(yù)測(cè)圖像空間中被遮擋的行人腳的位置(綠圈)。同時(shí),可以看到,在遮擋行人的情況下,包圍框的底部中心點(diǎn)(黃圈)是完全偏離的。
此外,我們研究了估計(jì)行人缺失部分位置的誤差分布,這里稱為位置估計(jì)誤差。如下圖(a)所示,在圖像空間中,距離攝像機(jī)較近的行人的位置估計(jì)誤差明顯高于距離平臺(tái)較遠(yuǎn)的其他行人。這可能是由于相機(jī)角度的影響,接近相機(jī)的行人看起來(lái)更大但更短,這使得估計(jì)腳的位置不太準(zhǔn)確。
此外,利用單應(yīng)性變換將誤差投影到地面,在真實(shí)尺度上檢測(cè)定位誤差。從上圖(b)可以看出,雖然圖像空間的誤差較大,但距離攝像機(jī)更近的行人相對(duì)于距離更遠(yuǎn)的行人,其位置估計(jì)誤差較小,在圖像最遠(yuǎn)的部分,誤差可達(dá)1 m。這是由于傾斜圖像的尺度變化,圖像的尺度在上部較小,導(dǎo)致定位誤差在圖像空間中投影到地面上的誤差更大。
下表比較了我們提出的方法與兩種基線方法在行人定位中的RMSE和MAE??梢杂^察到,我們的方法在兩個(gè)數(shù)據(jù)集的評(píng)估指標(biāo)方面都顯著優(yōu)于Monoloco和幾何基線。
特別是,在行人完全可見(jiàn)的情況下,我們提出的框架實(shí)現(xiàn)了幾乎類似或略好于幾何基線的定位精度;在遮擋行人的情況下,我們的方法明顯優(yōu)于其他兩種基線方法,并且這種改進(jìn)隨著遮擋程度的提高而增加。
與最先進(jìn)的基線相比,我們的方法的更好的性能可以通過(guò)以下論點(diǎn)來(lái)證明。Monoloco將圖像平面中每個(gè)實(shí)例的邊界框的中心點(diǎn)反向投影到該實(shí)例的3D位置。幾何基線也使用實(shí)例邊界框的底部中心來(lái)定位行人。然而,這種方法可能不是特別準(zhǔn)確,因?yàn)樵谠S多現(xiàn)實(shí)世界的情況下,四肢可能是不對(duì)稱的延伸,或者包圍框可能沒(méi)有緊緊圍繞行人的輪廓。這種情況加上行人遮擋的情況會(huì)在位置估計(jì)過(guò)程中造成額外的誤差。另一方面,我們的方法不依賴于包圍框,而是使用各種可見(jiàn)關(guān)鍵點(diǎn)的共現(xiàn)來(lái)估計(jì)地面坐標(biāo)。
結(jié)論
本文提出了一種基于單目視覺(jué)的行人定位框架,為了解決擁擠環(huán)境下行人遮擋的問(wèn)題,我們使用一種輕量級(jí)的深度神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì)人體姿勢(shì)缺失的部分。在兩個(gè)真實(shí)世界的數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,與現(xiàn)有的最先進(jìn)的方法相比,該方法是有效的。我們提出的框架在實(shí)際情況下顯示了很好的性能,以準(zhǔn)確估計(jì)單應(yīng)性變換。這項(xiàng)工作的一個(gè)局限性是缺乏一種方法來(lái)估計(jì)預(yù)測(cè)位置的不確定性。因此,未來(lái)的研究方向可以是使用熱力圖或貝葉斯深度學(xué)習(xí)來(lái)量化預(yù)測(cè)位置的不確定性。作為另一個(gè)未來(lái)方向,可以利用行人在連續(xù)幀中的時(shí)間相關(guān)性來(lái)進(jìn)一步提高人體缺失部位的預(yù)測(cè)。
審核編輯:劉清
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103733 -
攝像機(jī)
+關(guān)注
關(guān)注
3文章
1706瀏覽量
61459 -
RGB
+關(guān)注
關(guān)注
4文章
807瀏覽量
59964 -
SCS
+關(guān)注
關(guān)注
0文章
20瀏覽量
10892 -
自動(dòng)駕駛汽車
+關(guān)注
關(guān)注
4文章
380瀏覽量
41348
原文標(biāo)題:基于單張RGB圖像定位被遮擋行人
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
RGB數(shù)字圖像顯示中錯(cuò)誤圖像分析
labview怎么實(shí)現(xiàn)人眼定位?
各遮擋物對(duì)UWB定位的影響
基于FPGA的Bayer到RGB圖像格式轉(zhuǎn)換設(shè)計(jì)
阿里巴巴介紹行人檢測(cè)與識(shí)別技術(shù)
淺述行人航位推算的室內(nèi)定位技術(shù)綜述

基于雙分支殘差網(wǎng)絡(luò)的行人再識(shí)別方法

基于姿態(tài)和并行化學(xué)習(xí)任務(wù)的行人再識(shí)別
基于多級(jí)梯度特征的紅外圖像行人檢測(cè)算法
基于視點(diǎn)與姿態(tài)估計(jì)的視頻監(jiān)控行人再識(shí)別
一種基于RGB-D圖像序列的協(xié)同隱式神經(jīng)同步定位與建圖(SLAM)系統(tǒng)

從單張圖像中揭示全局幾何信息:實(shí)現(xiàn)高效視覺(jué)定位的新途徑

如何應(yīng)對(duì)UWB室內(nèi)定位信號(hào)被遮擋

評(píng)論