一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種基于去遮擋和移除的3D交互手姿態(tài)估計框架

工程師鄧生 ? 來源:商湯學術 ? 作者:孟浩、金晟 ? 2022-09-14 16:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文主要介紹商湯智能感知終端團隊,發(fā)表在 ECCV 2022 上的工作。針對3D交互雙手姿態(tài)估計問題,作者采用分而治之的策略,把交互的雙手姿態(tài)估計問題,解耦成兩個單手姿態(tài)估計問題。

作者提出了一種基于去遮擋和移除的3D交互手姿態(tài)估計框架,補全目標手被遮擋的部分,并移除另一只有干擾的手。此外,作者還構建了一個大規(guī)模數(shù)據(jù)集Amodal InterHand Dataset (AIH),用以訓練手勢去遮擋和移除網(wǎng)絡。實驗結果表明,論文提出的框架在InterHand2.6M 和 Tzionas 兩個主流的公開數(shù)據(jù)集上,都獲得了顯著的性能提升。

7bb4cbfa-305d-11ed-ba43-dac502259ad0.png ? ? ?

Part 1動機和背景

7c04d99c-305d-11ed-ba43-dac502259ad0.jpg

圖1 本文算法(右)與baseline(左)的對比

手,是人和世界交互的主要工具。3D交互手姿態(tài)估計,指從單目彩色圖中,恢復出一個人兩只互相交互的手的骨架。它是人機交互、AR/VR、手語理解等諸多現(xiàn)實應用的基礎。 與被充分研究的單手姿態(tài)估計任務不同,交互手3D姿態(tài)估計是近兩年來剛興起的學術方向。

現(xiàn)存的工作會直接同時預測交互手的左右兩手的姿態(tài),而我們則另辟蹊徑,將交互手姿態(tài)估計任務,解耦成左右兩手分別的單手姿態(tài)估計任務。這樣,我們就可以充分利用當下單手姿態(tài)估計技術的最新進展。 然而相比通常的單手姿態(tài)估計任務來說,交互手姿態(tài)估計有以下兩個難點:一是左右手間可能存在的嚴重的遮擋,難以估計被遮擋的手的姿態(tài);二是左右手顏色紋理相近有歧義性,預測一只手的姿態(tài)可能會因另一只手的存在而被干擾。

為了解決這兩個困難,我們提出了去遮擋和移除框架,旨在預測一只手的姿態(tài)時,補全它被遮擋的部分,并移除有干擾的另一只手的部分。由圖1的示例可見,在用去遮擋和移除框架后,交互手的圖片會恢復右手被遮擋的部分,也會移除有干擾的左手的部分,進而轉換成右手的單手姿態(tài)估計任務。

此外,我們還構建了第一個大規(guī)模的合成交互手數(shù)據(jù)集(Amodal InterHand Dataset)。該數(shù)據(jù)集具有很多應用前景,如交互式雙手姿態(tài)估計、Amodal & modal的實例分割、以及手部去遮擋。

Part 2方法

7c365d00-305d-11ed-ba43-dac502259ad0.jpg

圖2 本文提出的框架示意圖

本文的框架包括三個部分:手部非模態(tài)分割模塊(HASM)、手部去遮擋和移除模塊(HDRM)、單手姿態(tài)估計模塊(SHPE)。

我們首先用HASM去分割圖像中左右手的模態(tài)和非模態(tài)掩碼,在得到掩碼后,我們可以分別定位左右兩手的位置并對圖片進行裁剪。

之后,我們利用HDRM恢復手被遮擋的部分并移除另一只有干擾的手。

這樣,一個交互手的圖片會被轉換成左右兩手的單個手的圖片,通過SHPE后可以得到左右手分別的姿態(tài)。

2.1 手部非模態(tài)分割模塊(HASM)

我們基于mmsegmentation框架,從交互手的圖片中分割出四種掩碼:左手可見區(qū)域、左手完整區(qū)域、右手可見區(qū)域和右手完整區(qū)域。

2.2 手部去遮擋和移除模塊(HDRM)

7c4e1c60-305d-11ed-ba43-dac502259ad0.jpg

圖3 HDRNet示意圖 以右手為例,首先根據(jù)2.1預測的掩碼,以右手完整部分掩碼為中心,裁剪得到圖片。

而HDRNet的輸入則有以下四部分拼接而成:(1)圖片右手被遮擋區(qū)域被涂黑;(2)右手可見部分掩碼;(3)I圖片左手多余區(qū)域被涂黑;(4)除左右兩手外的背景區(qū)域的掩碼。

我們借鑒經(jīng)典的inpainting方法中的網(wǎng)絡結構(UNet + Partial Convolutions),并在其中加入了一些Transformer結構,來增強圖像特征、擴大感受野,以及讓網(wǎng)絡關注更重要的圖像區(qū)域。

網(wǎng)絡HDRNet最終預測出右手被遮擋區(qū)域的像素,以及左手多余區(qū)域背后背景的像素,這樣最終預測結果即為單個右手的圖片。

2.3 單手姿態(tài)估計模塊(SHPE)

由于SHPE不是本文的重點,因此我們使用了一個簡單有效的開源方法MinimalHand作為我們的baseline。

Part3AIH虛擬交互手數(shù)據(jù)集

7c741712-305d-11ed-ba43-dac502259ad0.jpg

圖4 AIH數(shù)據(jù)集中的樣例 為了充分訓練我們提出的HDRM網(wǎng)絡,我們基于InterHand2.6M V1.0數(shù)據(jù)集,構建了第一個大規(guī)模的虛擬合成的Amodal交互手數(shù)據(jù)集(AIH)。

AIH有大約300萬樣本組成,其中AIH_Syn 有220萬樣本,AIH_Render有70萬樣本。前者是將InterHand2.6M V1.0數(shù)據(jù)集的單個右手或單個左手的圖片,進行復制粘貼,合成的交互手圖片。

后者是將InterHand2.6M V1.0數(shù)據(jù)集的雙手mesh裝飾上紋理,經(jīng)過隨機的旋轉和平移,最終渲染到隨機的數(shù)據(jù)集背景上得到的圖片。圖4展示了AIH數(shù)據(jù)集的可視化效果。

Part 4實驗結果

我們在 InterHand2.6M V1.0 和 Tzionas 兩個主流的數(shù)據(jù)集上做了實驗。如表1和表2所示,定量實驗表明,我們提出的算法,取得了最優(yōu)的精度。

而且在耗時方面,在Tesla P40機器上單個樣本預測,HDRM(我們的主要貢獻點)只需要0.6ms,占整個框架預測時間47.2ms中很小一部分。更多可視化效果見圖5。

表1InterHand2.6M V1.0 數(shù)據(jù)集的定量結果對比

7c9c08da-305d-11ed-ba43-dac502259ad0.jpg

表2Tzionas 數(shù)據(jù)集的定量結果對比

7cbac54a-305d-11ed-ba43-dac502259ad0.jpg7cd8c9dc-305d-11ed-ba43-dac502259ad0.jpg

圖5 更多可視化結果



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1807

    文章

    49029

    瀏覽量

    249587
  • 智能傳感器
    +關注

    關注

    16

    文章

    613

    瀏覽量

    55951
  • 計算機視覺
    +關注

    關注

    9

    文章

    1709

    瀏覽量

    46781

原文標題:ECCV 2022 | 基于去遮擋和移除的3D交互雙手姿態(tài)估計

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    3D AD庫文件

    3D庫文件
    發(fā)表于 05-28 13:57 ?5次下載

    基于RV1126開發(fā)板的人臉姿態(tài)估計算法開發(fā)

    人臉姿態(tài)估計是通過對張人臉圖像進行分析,獲得臉部朝向的角度信息。姿態(tài)估計是多姿態(tài)問題中較為關鍵
    的頭像 發(fā)表于 04-14 17:21 ?1664次閱讀
    基于RV1126開發(fā)板的人臉<b class='flag-5'>姿態(tài)</b><b class='flag-5'>估計</b>算法開發(fā)

    3D閃存的制造工藝與挑戰(zhàn)

    3D閃存有著更大容量、更低成本和更高性能的優(yōu)勢,本文介紹了3D閃存的制造工藝與挑戰(zhàn)。
    的頭像 發(fā)表于 04-08 14:38 ?1055次閱讀
    <b class='flag-5'>3D</b>閃存的制造工藝與挑戰(zhàn)

    一種以圖像為中心的3D感知模型BIP3D

    在具身智能系統(tǒng)中,3D感知算法是個關鍵組件,它在端側幫助可以幫助智能體理解環(huán)境信息,在云端可以用來輔助生成3D場景和3D標簽,具備重要的研究價值?,F(xiàn)有主流算法主要依賴于點云作為輸入
    的頭像 發(fā)表于 03-17 13:44 ?475次閱讀
    <b class='flag-5'>一種</b>以圖像為中心的<b class='flag-5'>3D</b>感知模型BIP<b class='flag-5'>3D</b>

    用于黑暗中視覺自我運動估計的新型主動照明框架

    本文提出一種新型主動照明框架,通過動態(tài)控制可移動光源主動照亮高紋理區(qū)域,顯著提升VO與VSLAM算法在極端光照條件下的性能。在真實機器人平臺上進行的實驗表明,相比傳統(tǒng)固定照明方法,本文方法可將姿態(tài)
    的頭像 發(fā)表于 02-28 14:29 ?400次閱讀
    用于黑暗中視覺自我運動<b class='flag-5'>估計</b>的新型主動照明<b class='flag-5'>框架</b>

    SciChart 3D for WPF圖表庫

    SciChart 3D for WPF 是個實時、高性能的 WPF 3D 圖表庫,專為金融、醫(yī)療和科學應用程序而設計。非常適合需要極致性能和豐富的交互
    的頭像 發(fā)表于 01-23 13:49 ?628次閱讀
    SciChart <b class='flag-5'>3D</b> for WPF圖表庫

    騰訊混元3D AI創(chuàng)作引擎正式發(fā)布

    近日,騰訊公司宣布其自主研發(fā)的混元3D AI創(chuàng)作引擎已正式上線。這創(chuàng)新性的創(chuàng)作工具將為用戶帶來前所未有的3D內容創(chuàng)作體驗,標志著騰訊在AI技術領域的又重大突破。 混元
    的頭像 發(fā)表于 01-23 10:33 ?598次閱讀

    騰訊混元3D AI創(chuàng)作引擎正式上線

    近日,騰訊公司宣布其自主研發(fā)的混元3D AI創(chuàng)作引擎已正式上線。這創(chuàng)新性的創(chuàng)作工具,標志著騰訊在3D內容生成領域邁出了重要步。 混元3D
    的頭像 發(fā)表于 01-22 10:26 ?593次閱讀

    一種3D交聯(lián)導電粘結劑用于硅負極Angew

    硅(Si)負極在高容量鋰離子電池(LIBs)中具有巨大潛力,但其實際應用受到嚴重體積膨脹和機械退化的阻礙。為了解決這些挑戰(zhàn),我們提出了一種創(chuàng)新的3D交聯(lián)導電聚噁二唑(POD)粘結劑,通過甘油(GL
    的頭像 發(fā)表于 01-20 13:56 ?603次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>3D</b>交聯(lián)導電粘結劑用于硅負極Angew

    Google DeepMind發(fā)布Genie 2:打造交互3D虛擬世界

    交互式體驗。 據(jù)了解,Genie 2是個自回歸潛在擴散模型,它基于大型視頻數(shù)據(jù)集進行訓練。通過自動編碼器,視頻中的潛在幀被傳遞到大型Transformer動力學模型中。該模型采用與大語言模型類似的因果掩碼進行訓練,從而實現(xiàn)了對3D
    的頭像 發(fā)表于 12-05 14:16 ?1040次閱讀

    文理解2.5D3D封裝技術

    隨著半導體行業(yè)的快速發(fā)展,先進封裝技術成為了提升芯片性能和功能密度的關鍵。近年來,作為2.5D3D封裝技術之間的一種結合方案,3.5D封裝技術逐漸走向前臺。
    的頭像 發(fā)表于 11-11 11:21 ?3538次閱讀
    <b class='flag-5'>一</b>文理解2.5<b class='flag-5'>D</b>和<b class='flag-5'>3D</b>封裝技術

    一種全新開源SfM框架MASt3R

    運動恢復結構(SfM)是計算機視覺領域個長期存在的問題,旨在根據(jù)每個相機拍攝的圖像來估計場景的3D幾何結構以及觀測該場景的相機的參數(shù)。由于它方便地同時為相機和地圖提供信息,因此構成了許多實用計
    的頭像 發(fā)表于 10-28 14:13 ?1928次閱讀
    <b class='flag-5'>一種</b>全新開源SfM<b class='flag-5'>框架</b>MASt<b class='flag-5'>3</b>R

    物聯(lián)網(wǎng)行業(yè)中的模具定制方案_3D打印材料選型分享

    3D打印材料介紹 3D打印技術是一種快速制造技術,它可以將數(shù)字模型轉化為實體物體。3D打印材料是3D打印技術中不可或缺的
    的頭像 發(fā)表于 09-25 10:59 ?753次閱讀
    物聯(lián)網(wǎng)行業(yè)中的模具定制方案_<b class='flag-5'>3D</b>打印材料選型分享

    3D封裝熱設計:挑戰(zhàn)與機遇并存

    隨著半導體技術的不斷發(fā)展,芯片封裝技術也在持續(xù)進步。目前,2D封裝和3D封裝是兩主流的封裝技術。這兩封裝技術在散熱路徑和熱設計方面有著各自的特點和挑戰(zhàn)。本文將深入探討2
    的頭像 發(fā)表于 07-25 09:46 ?2097次閱讀
    <b class='flag-5'>3D</b>封裝熱設計:挑戰(zhàn)與機遇并存

    3d打印機器人外殼模型ABS材料3D打印噴漆服務-CASAIM

    隨著科技的不斷發(fā)展,3D打印技術作為一種創(chuàng)新性的制造方式,正在改變我們的生活和制造業(yè)。它是一種通過逐層添加材料來構建物體的制造方法。該技術允許我們通過CAD(計算機輔助設計)軟件將數(shù)字模型轉換成實體物體。
    的頭像 發(fā)表于 07-21 15:10 ?611次閱讀