我們已經(jīng)介紹過很多單目的動作捕捉方案,最近的單目動捕方案可以說大同小異,在原理上基本沒有什么區(qū)別,都是利用卷積神經(jīng)網(wǎng)絡(luò)識別對象,估算骨骼模型,再在此基礎(chǔ)上進行渲染。這些解決方案的困難也都類似,例如老大難的遮擋問題,腳踝處的識別和骨骼模型往往估計不準等等。
最近,清華、北航、南加州大學、馬克思普朗克研究所等的研究人員合作了一篇論文DoubleFusion: Real-time Capture of Human Performances with Inner Body Shapes from a Single Depth Sensor,提出了一種叫做DoubleFusion、基于單個深度攝像頭的解決方案,對人體動作捕捉識別有更好的效果。
簡單地講,DoubleFusion的原理是這樣的,一般深度攝像頭的動作捕捉來源于深度數(shù)據(jù),因此可以構(gòu)建人身體的表面形狀(即包含衣服在內(nèi)的外形數(shù)據(jù)),但這種方案難以在有遮擋的情況下實現(xiàn)捕捉,為了補足深度捕捉的缺憾,DoubleFusion將它和估算骨架模型的方案融合了起來,因此形成了一個“雙層表面表示”,外層是深度數(shù)據(jù)得到的表面重建的數(shù)據(jù),內(nèi)層則是骨架模型數(shù)據(jù),最終計算得到最合理的動作數(shù)據(jù)。我們看到的完整的身體模型,實際上是內(nèi)外兩層數(shù)據(jù)相互制約、相互融合的結(jié)果。
具體來說,DoubleFusion的輸入只有捕獲的深度數(shù)據(jù),而輸出是捕捉目標的雙層表面。在骨架估計方面,它采用最近出現(xiàn)的基于Mask-RCNN的模型SMPL,可以非常迅速的得到比較完美的骨架模型,在外表數(shù)據(jù)方面,采用同樣是近年來提出的捕獲方法DynamicFusion。外表數(shù)據(jù)生成一個節(jié)點圖,主要用于判斷姿勢變化方式,骨架數(shù)據(jù)同樣形成節(jié)點圖,主要用作判據(jù),盡量避免姿勢變化中違法骨骼連接的情況。
那么,這個方案的實際效果如何?
DoubleFusion方案比單方面骨架模型估計的方案效果更好,例如與BodyFusion相比較, 后者即使較緊身的衣服也會對結(jié)果產(chǎn)生影響,而前者捕捉的結(jié)果更為干凈、完整;另外DoubleFusion的每幀最大誤差更小,而且平均誤差也較小,在捕捉快速運動期間表現(xiàn)也要更好,還有,實時重建的身體形狀和顯示的目標穿著看起來也要更合理一些。
從性能上來說,測試環(huán)境中,DoubleFusion每一幀執(zhí)行6次ICP迭代,進行關(guān)節(jié)運動跟蹤需要21毫秒,9毫秒用于體積形狀和身體姿態(tài)的優(yōu)化;另外,輸入的深度數(shù)據(jù)屬于異步運行處理,算上運行時間不到1毫秒,綜合下來基本是每幀32毫秒。
然而,這種解決方案還是存在限制,例如,當用戶穿著較厚的衣服時,這個方案在捕捉過程中會將衣服的厚度都當成人的身體來計算,導致身體建模的誤差出現(xiàn);另外,目前的方案還無法處理人物對象之間的交互,不過按照論文的說法,這將會在未來的研究中得到解決。
最后,必須要說的是,這篇論文提出的解決方案效果可能比較好,但要實現(xiàn)它,深度攝像頭至少是必須品,而現(xiàn)在的市場上仍然有很大一部分智能手機沒有深度攝像頭,否則之前的普通攝像頭單目動捕也不至于備受關(guān)注。從這個方面來說,論文中解決方案的實用價值可能并沒有我們想象中那么大。
-
智能手機
+關(guān)注
關(guān)注
66文章
18627瀏覽量
183913 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103719 -
攝像頭
+關(guān)注
關(guān)注
61文章
4985瀏覽量
98473
原文標題:DoubleFusion:深度和骨架結(jié)合的解決方案
文章出處:【微信號:ARchan_TT,微信公眾號:AR醬】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論