一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

清華&西電提出HumanMAC:人體動(dòng)作預(yù)測(cè)新范式

CVer ? 來源:CVer ? 2023-07-17 16:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

我們一篇關(guān)于人體動(dòng)作預(yù)測(cè)的研究工作被計(jì)算機(jī)視覺國(guó)際頂級(jí)會(huì)議ICCV 2023錄用,代碼[1]開源,demo講解[2]、項(xiàng)目主頁[3]、中文文檔[4]開放。

7d90cb98-23f2-11ee-962d-dac502259ad0.png

HumanMAC: Masked Motion Completion for Human Motion Prediction 主頁:https://lhchen.top/Human-MAC 論文:https://arxiv.org/abs/2302.03665 代碼:https://github.com/LinghaoChan/HumanMAC

人體動(dòng)作預(yù)測(cè)是計(jì)算機(jī)視覺和圖形學(xué)中的一個(gè)經(jīng)典問題,旨在提升預(yù)測(cè)結(jié)果的多樣性、準(zhǔn)確性,并在自動(dòng)駕駛、動(dòng)畫制作等多領(lǐng)域有非常多具體的應(yīng)用。本研究梳理了今年來大家對(duì)于該問題的建模方式,認(rèn)為以往的大多數(shù)工作對(duì)于動(dòng)作預(yù)測(cè)任務(wù)都是使用一種encoding-decoding的范式。這類范式大多是將觀測(cè)幀編碼進(jìn)隱空間,然后從隱空間解碼出預(yù)測(cè)幀。我們認(rèn)為這種方式存在三個(gè)缺點(diǎn):

大多數(shù)SOTA的方法需要多個(gè)loss作為目標(biāo)約束,需要精細(xì)化地調(diào)節(jié)多個(gè)loss之間的權(quán)重,需要極其繁重的調(diào)參工程。

大多數(shù)SOTA的方法需要多階段訓(xùn)練,特別是需要預(yù)訓(xùn)練encoder和decoder,這使得預(yù)測(cè)結(jié)果非常依賴于預(yù)訓(xùn)練的質(zhì)量。

對(duì)于這些方法來說,很難實(shí)現(xiàn)不同類別運(yùn)動(dòng)的切換,例如從“WalkDog”到“Sitting”的切換,這對(duì)于結(jié)果多樣性至關(guān)重要。出現(xiàn)這個(gè)現(xiàn)象的原因是這些方法所使用的訓(xùn)練數(shù)據(jù)包括很少這樣的切換。

為克服上述問題,我們提出了一種建模動(dòng)作預(yù)測(cè)問題的全新范式:掩碼動(dòng)作補(bǔ)全。如圖1(b)所示,我們認(rèn)為預(yù)測(cè)問題就是一種特殊的補(bǔ)全問題,可以借助diffusion model的補(bǔ)全能力解決上述挑戰(zhàn)。如果使用這種范式,我們是需要一個(gè)loss、訓(xùn)練一個(gè)階段就可以實(shí)現(xiàn)預(yù)測(cè),可以說是“大道至簡(jiǎn)”。并且由于我們建模了全局的動(dòng)作,模型很容易學(xué)習(xí)到平滑性,就能自動(dòng)實(shí)現(xiàn)動(dòng)作的切換。

7d99eed0-23f2-11ee-962d-dac502259ad0.jpg

encoding-decoding方式與掩碼運(yùn)動(dòng)補(bǔ)全的比較。(a)encoding-decoding的方法將觀測(cè)幀顯式地編碼到隱空間,然后將隱空間變量解碼為預(yù)測(cè)結(jié)果。(b)HumanMAC在訓(xùn)練階段由噪聲生成運(yùn)動(dòng)。在推理階段完成補(bǔ)全動(dòng)作的任務(wù)。

為了解決動(dòng)作抖動(dòng)等問題,我們借鑒了以往工作在頻域建模的思路[5][6],通過DCT變換,對(duì)數(shù)據(jù)在頻域進(jìn)行訓(xùn)練。也就是說,我們的diffusion model是動(dòng)作頻譜的生成模型,在輸出結(jié)果的時(shí)候只需要做iDCT變換即可復(fù)原動(dòng)作。為此,我們?cè)O(shè)計(jì)了一個(gè)補(bǔ)全算法:DCT-Completion。算法流程和示意圖如下。

7da1dfaa-23f2-11ee-962d-dac502259ad0.jpg

7da8a66e-23f2-11ee-962d-dac502259ad0.jpg

由于動(dòng)作預(yù)測(cè)的問題只是一個(gè)特殊的掩碼補(bǔ)全問題,我們可以靈活地使用mask實(shí)現(xiàn)各種“花式”可控動(dòng)作補(bǔ)全:

動(dòng)作切換

7dae2de6-23f2-11ee-962d-dac502259ad0.jpg

動(dòng)作切換

特定軀體可控動(dòng)作編輯

7db359d8-23f2-11ee-962d-dac502259ad0.jpg

特定軀體可控動(dòng)作編輯

在量化指標(biāo)上我們僅僅通過一個(gè)loss、一階段訓(xùn)練就可以和以往的工作不相上下了(我們還比較了最新的arxiv算法)。多樣性的指標(biāo)遜色于baseline方法的原因,主要來自于baseline方法生成的“多樣”結(jié)果存在大量的failure cases,詳情可以見論文和demo中的可視化結(jié)果比較。

7dbabf84-23f2-11ee-962d-dac502259ad0.jpg

主實(shí)驗(yàn)結(jié)果

在正文中,我們對(duì)網(wǎng)絡(luò)結(jié)構(gòu)、DCT設(shè)計(jì)、頻譜頻段選擇、網(wǎng)絡(luò)結(jié)構(gòu)、采樣步數(shù)、噪聲建模等進(jìn)行了精細(xì)的消融驗(yàn)證。同時(shí),由于以往研究的codebase計(jì)算效率太低,我們重新優(yōu)化了評(píng)估代碼并開源(加速上千倍),為后續(xù)研究者提供便利。

為了探究模型的泛化性能,我們還做了在H3.6M數(shù)據(jù)訓(xùn)練,在AMASS上做zero-shot預(yù)測(cè)實(shí)驗(yàn)的研究,效果也特別好。

7dc01e52-23f2-11ee-962d-dac502259ad0.jpg

AMASS上的zero-shot預(yù)測(cè)實(shí)驗(yàn)

這是我們基于對(duì)動(dòng)作生成任務(wù)全新理解,在動(dòng)作預(yù)測(cè)問題上的一個(gè)探索性工作。我們的大量實(shí)驗(yàn)表明這種框架的擴(kuò)展性非常好,還有很大的擴(kuò)展空間,歡迎大家關(guān)注我們的后續(xù)工作。

該研究是我和原來本科的同學(xué)多次交流獲得的靈感,在此也感謝一下母校。衷心感謝所有合作者,特別是Xiaobo全方位的指導(dǎo),讓我獲益匪淺(^_^)。P.S.: 該工作做完剛剛掛出arxiv的時(shí)候就有很多工業(yè)界的同行發(fā)郵件來交流,甚至希望部署到他們的產(chǎn)品線中,給予了我們極大的鼓舞,在此也向他們表示感謝。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3516

    瀏覽量

    50342
  • DCT
    DCT
    +關(guān)注

    關(guān)注

    1

    文章

    56

    瀏覽量

    20208
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1708

    瀏覽量

    46743

原文標(biāo)題:ICCV 2023 | 清華&西電提出HumanMAC:人體動(dòng)作預(yù)測(cè)新范式

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    范式間區(qū)別

    第二范式(2NF),其余范式以次類推。一般說來,數(shù)據(jù)庫只需滿足第三范式(3NF)就行了。下面我們舉例介紹第一范式(1NF)、第二范式(2NF
    發(fā)表于 10-22 11:40

    調(diào)原理圖和amp和PCB圖

    調(diào)原理圖和amp和PCB圖,PDF格式資料,比較清晰。
    發(fā)表于 09-26 16:31 ?77次下載

    synopsys&Mentor設(shè)計(jì)流程

    synopsys & Mentor 設(shè)計(jì)流程免費(fèi)下載。
    發(fā)表于 07-08 11:37 ?72次下載

    R&S FSL6臺(tái)式信號(hào)分析儀的功能特點(diǎn)及應(yīng)用范圍

    R&S?FSL 是一款多功能而且經(jīng)濟(jì)實(shí)用的信號(hào)分析儀。R&S?FSL全系列標(biāo)配28MHz的信號(hào)解調(diào)帶寬,遠(yuǎn)高于其他同類產(chǎn)品。無論是頻譜、噪聲系數(shù)、ACL
    發(fā)表于 12-09 09:46 ?1431次閱讀

    歐拉 Summit 2021 安全&可靠性&運(yùn)維專場(chǎng):主流備份技術(shù)探討

    在openEuler Summit 2021 安全&可靠性&運(yùn)維專場(chǎng)上,高沖對(duì)為數(shù)據(jù)安全而生,統(tǒng)信軟件備份還原工具分享。
    的頭像 發(fā)表于 11-10 17:42 ?2045次閱讀
    歐拉 Summit 2021 安全&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;可靠性&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;運(yùn)維專場(chǎng):主流備份技術(shù)探討

    485&amp;&amp;Modbus協(xié)議

    1.RS4851)485通信 --差分傳輸物理層: 通信引腳 A B使用雙絞線通信。發(fā)送器: 邏輯1: A&amp;gt;B AB之間電壓為+2V~+6V 邏輯0: A&amp;lt;B AB之間
    發(fā)表于 11-23 17:36 ?3次下載
    485&<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;Modbus協(xié)議

    存儲(chǔ)類&amp;作用域&amp;生命周期&amp;鏈接屬性

    目錄前言一、存儲(chǔ)類&amp;amp;作用域&amp;amp;生命周期&amp;amp;鏈接屬性的
    發(fā)表于 12-09 15:51 ?5次下載
    存儲(chǔ)類&<b class='flag-5'>amp</b>;作用域&<b class='flag-5'>amp</b>;生命周期&<b class='flag-5'>amp</b>;鏈接屬性

    2021 Kubernetes on AI &amp;amp;amp;amp; Edge Day圓滿舉行 共探邊緣云融合

    2021年12月11日-12日,由Linux基金會(huì)、LF AI &amp;DATA、LF Edge、CNCF、LFN等開源社區(qū)聯(lián)合舉辦,開源科技OSTech和西麗湖人才服務(wù)中心協(xié)辦的Kubernetes on AI &amp;
    的頭像 發(fā)表于 12-16 09:43 ?5548次閱讀
    2021 Kubernetes on AI &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; Edge Day圓滿舉行 共探邊緣云融合

    如何區(qū)分Java中的&amp;amp;和&amp;amp;&amp;amp;

    首先給i賦值為0,如果i大于10,并且i++等于1,則輸出“錯(cuò)誤”和i的值。否則輸出“正確”和i的值。分別用&amp;和&amp;&amp;運(yùn)行,觀察運(yùn)行結(jié)果的不同。
    的頭像 發(fā)表于 02-24 10:46 ?1926次閱讀
    如何區(qū)分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

    if(a==1 &amp;amp;&amp;amp; a==2 &amp;amp;&amp;amp; a==3),為true,你敢信?

    接下來咱們來嘗試解決這個(gè)問題。假設(shè) if(a==1&amp;&amp;a==12)是等于 true的,那么a肯定不可能是一個(gè)“普通的變量”。它勢(shì)必要有能力在執(zhí)行的時(shí)候能夠動(dòng)態(tài)改動(dòng)值。
    的頭像 發(fā)表于 05-08 11:01 ?1374次閱讀
    if(a==1 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==2 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==3),為true,你敢信?

    HarmonyOS &amp;amp;amp;amp;潤(rùn)和HiSpark 實(shí)戰(zhàn)開發(fā),“碼”上評(píng)選活動(dòng),邀您來賽?。?!

    出色的系統(tǒng) 助力優(yōu)秀的設(shè)備 為應(yīng)用開發(fā)者帶來豐富的體驗(yàn)與想象空間 正如當(dāng)HarmonyOS遇見潤(rùn)和HiSpark 這萬物互聯(lián)的時(shí)代 將由你的&amp;lt; 代碼 &amp;gt;來定義 潤(rùn)
    的頭像 發(fā)表于 04-11 15:33 ?1447次閱讀
    HarmonyOS &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;潤(rùn)和HiSpark 實(shí)戰(zhàn)開發(fā),“碼”上評(píng)選活動(dòng),邀您來賽?。。? />    </a>
</div>                              <div   id=

    你使用shell腳本中的2&amp;gt;&amp;amp;1了嗎?

    run_cmax > ./starrc_cmax.logs 2>&amp;1中的 2>&amp;1是啥意思?
    的頭像 發(fā)表于 07-30 14:44 ?2357次閱讀

    攝像機(jī)&amp;amp;amp;雷達(dá)對(duì)車輛駕駛的輔助

    攝像機(jī)&amp;amp;雷達(dá)擔(dān)負(fù)著可輔助駕駛員安全駕駛的、高級(jí)駕駛輔助系統(tǒng)的傳感功能。尼得科正在進(jìn)一步推進(jìn)攝像機(jī)&amp;amp;雷達(dá)的高性能化進(jìn)程。
    的頭像 發(fā)表于 11-26 10:02 ?1357次閱讀
    攝像機(jī)&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;雷達(dá)對(duì)車輛駕駛的輔助

    FS201資料(pcb &amp;amp; DEMO &amp;amp; 原理圖)

    電子發(fā)燒友網(wǎng)站提供《FS201資料(pcb &amp; DEMO &amp; 原理圖).zip》資料免費(fèi)下載
    發(fā)表于 07-16 11:24 ?2次下載

    onsemi LV/MV MOSFET 產(chǎn)品介紹 &amp;amp;amp; 行業(yè)應(yīng)用

    01直播介紹直播時(shí)間2024/10/281430直播內(nèi)容1.onsemiLV/MVMOSFET產(chǎn)品優(yōu)勢(shì)&amp;市場(chǎng)地位。2.onsemiLV/MVMOSFETRoadmap。3.onsemiT10
    的頭像 發(fā)表于 10-13 08:06 ?897次閱讀
    onsemi LV/MV MOSFET 產(chǎn)品介紹 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行業(yè)應(yīng)用