FAIR和INRIA的合作研究提出一個在Mask-RCNN基礎(chǔ)上改進(jìn)的密集人體姿態(tài)評估模型DensePose-RCNN,適用于人體3D表面構(gòu)建等,效果很贊。并且提出一個包含50K標(biāo)注圖像的人體姿態(tài)COCO數(shù)據(jù)集,即將開源。
密集人體姿勢估計是指將一個RGB圖像中的所有人體像素點(diǎn)映射到人體的3D表面。
我們介紹了DensePose-COCO數(shù)據(jù)集,這是一個大型ground-truth數(shù)據(jù)集,在50000張COCO的圖像上手工標(biāo)注了圖像-人體表面(image-to-surface)的對應(yīng)點(diǎn)。
我們提出了DensePose-RCNN架構(gòu),這是Mask-RCNN的一個變體,以每秒多幀的速度在每個人體區(qū)域內(nèi)密集地回歸特定部位的UV坐標(biāo)。
DensePose-COCO數(shù)據(jù)集
我們利用人工標(biāo)注建立從二維圖像到人體表面表示的密集對應(yīng)。如果用常規(guī)方法,需要通過旋轉(zhuǎn)來操縱表明,導(dǎo)致效率低下。相反,我們構(gòu)建了一個包含兩個階段的標(biāo)注流程,從而高效地收集到圖像-表面的對應(yīng)關(guān)系的標(biāo)注。
如下所示,在第一階段,我們要求標(biāo)注者劃定與可見的、語義上定義的身體部位相對應(yīng)的區(qū)域。我們指導(dǎo)標(biāo)注者估計被衣服遮擋住的身體部分,因此,比如說穿著一條大裙子也不會使隨后的對應(yīng)標(biāo)注復(fù)雜化。
在第二階段,我們用一組大致等距的點(diǎn)對每個部位的區(qū)域進(jìn)行采樣,并要求注釋者將這些點(diǎn)與表面相對應(yīng)。為了簡化這個任務(wù),我們通過提供六個相同身體部分的預(yù)渲染視圖來展開身體部位的表面,并允許用戶在其中任何一個視圖上放置標(biāo)志。這允許注釋者通過從在六個選項中選擇一個,而不用手動旋轉(zhuǎn)表面來選擇最方便的視點(diǎn)。
我們在數(shù)據(jù)收集過程中使用了SMPL模型和SURREAL textures。
兩個階段的標(biāo)注過程使我們能夠非常有效地收集高度準(zhǔn)確的對應(yīng)數(shù)據(jù)。部位分割(part segmentation)和對應(yīng)標(biāo)注( correspondence annotation)這兩個任務(wù)基本是是同時進(jìn)行的,考慮到后一任務(wù)更具挑戰(zhàn)性,這很令人驚訝。我們收集了50000人的注釋,收集了超過500萬個人工標(biāo)注的對應(yīng)信息。以下是在我們的驗證集中圖像注釋的可視化:圖像(左),U(中)和V(右)是收集的注釋點(diǎn)的值。
DensePose-RCNN系統(tǒng)
與DenseReg類似,我們通過劃分表面來查找密集對應(yīng)。對于每個像素,需要確定:
它傾向于屬于哪個表面部位;
它對應(yīng)的部位的2D參數(shù)化的位置。
下圖右邊說明了對表面的劃分和“與一個部位上的點(diǎn)的對應(yīng)”。
我們采用具有特征金字塔網(wǎng)絡(luò)( FPN)的Mask-RCNN結(jié)構(gòu),以及ROI-Align池化以獲得每個選定區(qū)域內(nèi)的密集部位標(biāo)簽和坐標(biāo)。
如下圖所示,我們在ROI-pooling的基礎(chǔ)上引入一個全卷積網(wǎng)絡(luò),目的是以下兩個任務(wù):
生成每像素的分類結(jié)果以選擇表面部位
對每個部位回歸局部坐標(biāo)
在推理過程,我們的系統(tǒng)使用GTX1080 GPU在320x240的圖像上以25fps的速度運(yùn)行,在800x1100的圖像上以4-5fps的速度運(yùn)行。
DensePose-RCNN系統(tǒng)可以直接使用注釋點(diǎn)作為監(jiān)督。但是,我們通過在原本未標(biāo)注的位置上“修補(bǔ)”監(jiān)督信號的值進(jìn)行取得了更好的結(jié)果。為了達(dá)到這個目的,我們采用一種基于學(xué)習(xí)的方法,首先訓(xùn)練一個“教師”網(wǎng)絡(luò):一個完全卷積神經(jīng)網(wǎng)絡(luò)(如下圖),它重新構(gòu)造了給定圖像的ground-truth值和segmentation mask。
我們使用級聯(lián)策略(cascading strategies)進(jìn)一步提高了系統(tǒng)的性能。通過級聯(lián),我們利用來自相關(guān)任務(wù)的信息,例如已經(jīng)被Mask-RCNN架構(gòu)成功解決的關(guān)鍵點(diǎn)估計和實(shí)例分割。這使我們能夠利用任務(wù)協(xié)同和不同監(jiān)督來源的互補(bǔ)優(yōu)勢。
-
3D
+關(guān)注
關(guān)注
9文章
2959瀏覽量
110707 -
RGB
+關(guān)注
關(guān)注
4文章
807瀏覽量
59909 -
INRIA
+關(guān)注
關(guān)注
0文章
2瀏覽量
6705
原文標(biāo)題:效果驚艷!FAIR提出人體姿勢估計新模型,升級版Mask-RCNN
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
【愛芯派 Pro 開發(fā)板試用體驗】人體姿態(tài)估計模型部署前期準(zhǔn)備
使用人體姿勢估算-3d-0001模型執(zhí)行human_pose_estimation_demo.exe時遇到錯誤怎么解決?
基于局部姿態(tài)先驗的深度圖像3D人體運(yùn)動捕獲方法
基于遺傳優(yōu)化的自適應(yīng)凸松弛人體姿勢估計
特倫托大學(xué)與Inria合作:使用GAN生成人體的新姿勢圖像

3D感應(yīng)技術(shù)TOF占用檢測人體跟蹤和人數(shù)統(tǒng)計
基于DensePose的姿勢轉(zhuǎn)換系統(tǒng),僅根據(jù)一張輸入圖像和目標(biāo)姿勢
3D打印技術(shù)未來有望打印出人體器官 以促進(jìn)醫(yī)學(xué)研究的發(fā)展
先臨三維攜手TechMed 3D推出人體3D掃描一體化解決方案

Yoga AI從單個圖像進(jìn)行3D姿勢估計

CVPR2023:IDEA與清華提出首個一階段3D全身人體網(wǎng)格重建算法
AI深度相機(jī)-人體姿態(tài)估計應(yīng)用

3D人體生成模型HumanGaussian實(shí)現(xiàn)原理

評論