UC Berkeley大學的研究人員們利用深度姿態(tài)估計和深度學習技術(shù),讓智能體從單一視頻中學習人物動作,并生成近乎相同的結(jié)果。更重要的是,智能體還能將所學到的技能應用于不同環(huán)境中。以下是論智對其博文的編譯。
不論是像洗手這樣日常的動作,還是表演雜技,人類都可以通過觀察學習一系列技能。隨著網(wǎng)絡上越來越多視頻資源的出現(xiàn),想找到自己感興趣的視頻比之前更容易了。在YouTube,每分鐘都有300小時的視頻上傳成功。但是,對于機器來說,從如此大量的視覺數(shù)據(jù)中學習技能仍然困難。大多數(shù)動作模仿的學習方法都需要有簡潔地表示,例如從動作捕捉獲取的記錄。但想得到動作捕捉的數(shù)據(jù)可能也非常麻煩,需要大量設備。另外,動作捕捉系統(tǒng)也僅限于遮擋較少的室內(nèi)環(huán)境,所以有很多無法記錄的動作技能。那么,如果智能體可以通過觀看視頻片段來學習技能,不是很好嗎?
在這一項目中,我們提出了一種可以從視頻中學習技能的框架,通過結(jié)合計算機視覺和強化學習中出現(xiàn)的先進技術(shù),該框架能讓智能體學會視頻中出現(xiàn)的全部技能。例如給定一段單目視頻,其中一個人在做側(cè)手翻或后空翻,該系統(tǒng)的智能體就可以學習這些動作,并重現(xiàn)出一樣的行為,無需人類對動作進行標注。
從視頻中學習身體動作的技能最近得到很多人的關(guān)注,此前的技術(shù)大多依靠人們手動調(diào)整框架結(jié)構(gòu),對生成的行為有很多限制。所以,這些方法也僅在有限的幾種情境下使用,生成的動作看起來也不太自然。最近,深度學習在視覺模擬領(lǐng)域表現(xiàn)出了良好的前景,例如能玩雅達利游戲,機器人任務
框架
我們提出的框架包含三個階段:姿態(tài)估計、動作重建和動作模擬。在第一階段,框架首先對輸入的視頻進行處理,在每一幀預測人物動作。第二步,動作重建階段會將預測出的動作合并成參考動作,并對動作預測生成的人工痕跡做出修正。最后,參考動作被傳遞到動作模擬階段,其中的模擬人物經(jīng)過訓練,可以用強化學習模仿動作。
動作估計
給定一段視頻,我們用基于視覺的動作估計器預測每一幀演員的動作qt。該動作預測器是建立在人類網(wǎng)格復原這一工作之上的(akanazawa.github.io/hmr/),它用弱監(jiān)督對抗的方法訓練動作估計器,從單目圖像中預測動作。雖然在訓練該估計器的時候需要標注動作,不過一旦訓練完成,估計器在應用到新圖片上時就無需再次訓練了。
用于估計人物動作的姿態(tài)估計器
動作重建
姿態(tài)估計給視頻中的每一幀都做出了單獨的動作預測,但兩幀之間的預測可能會出現(xiàn)抖動偽影。另外,雖然近些年基于是覺得姿態(tài)估計器得到了很大進步,但有時它們也可能會出現(xiàn)較大失誤。所以,這一步的動作重建就是減少出現(xiàn)的偽影,從而生成更逼真的參考動作,能讓智能體更輕易地模擬。為了實現(xiàn)這一點,我們對參考動作進行了優(yōu)化Q={q0,q1,…,qt},以滿足以下目標:
其中l(wèi)p(Q^)是為了讓參考動作和原始動作預測更接近,lsm(Q^)是為了讓相鄰的幀之間的動作更相近,從而生成更流暢的動作。另外,wp和wsm是不同損失的權(quán)重。
這一過程可以顯著提高參考動作的質(zhì)量,并且修正一些人工生成的痕跡。
動作模擬
有了參考動作{q^0,q^1,…,q^t}之后,我們就可以訓練智能體模仿這些動作了。這一階段用到的強化學習方法和之前我們?yōu)槟M動作捕捉數(shù)據(jù)而提出的方法相似,獎勵函數(shù)僅僅是為了讓智能體的動作和重建后的參考動作之間的差異最小化。
這一方法表現(xiàn)得很好,我們的智能體可以學習很多雜技動作,每個動作只需要一段視頻就能學會。
結(jié)果
最終我們的智能體從YouTube上的視頻中學習了20多種不同的技能。
盡管智能體的形態(tài)有時和視頻中的人物不太一樣,但這一框架仍然能逼真地重現(xiàn)很多動作。除此之外,研究人員還用模擬的Atlas機器人模仿視頻動作。
使用模擬人物(智能體)的好處之一就是,在新環(huán)境下可以用模擬對象生成相應的動作。這里,我們訓練智能體在不規(guī)則平面上采取不同動作,而它所對應的原始視頻是在平地上運動的。
雖然和原始視頻中的環(huán)境大不相同,學習算法仍然能生成相對可靠的策略來應對不同路面情況。
總的來說,我們的框架采用的都是視頻模仿問題中常見的方法,關(guān)鍵是要將問題分解成更加易處理的組合部分,針對每個部分采取正確的方法,然后高效地把它們組合在一起。但是模擬視頻中的動作仍然是非常有挑戰(zhàn)性的工作,目前還有很多我們無法復現(xiàn)的視頻片段:
這種江南style的舞步,智能體就難以模仿
但是看到目前我們實現(xiàn)的成果,還是很振奮人心。未來我們還有很多需要改進的地方,希望這項工作能作為基礎,為智能體在未來處理大量視頻數(shù)據(jù)的能力奠定了基礎。
-
計算機視覺
+關(guān)注
關(guān)注
9文章
1709瀏覽量
46778 -
智能體
+關(guān)注
關(guān)注
1文章
305瀏覽量
11078 -
深度學習
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122794
原文標題:僅需一段視頻,伯克利研究者就讓智能體學會了雜技
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
2017全國深度學習技術(shù)應用大會
基于深度學習的異常檢測的研究方法
基于深度學習的異常檢測的研究方法
討論紋理分析在圖像分類中的重要性及其在深度學習中使用紋理分析
研究人員們提出了一系列新的點云處理模塊

谷歌發(fā)明自主學習機器人 結(jié)合了深度學習和強化學習兩種類型的技術(shù)
研究人員推出了一種新的基于深度學習的策略
研究人員開發(fā)了一種基于深度學習的智能算法
(KAIST)研究人員提供了一種深度學習供電的單應變電子皮膚傳感器
研究人員開發(fā)出深度學習算法用于患者的診斷
基于深度學習的二維人體姿態(tài)估計方法

基于深度學習的二維人體姿態(tài)估計算法

研究人員提出將深度學習技術(shù)引入細胞成像和分析中
AI深度相機-人體姿態(tài)估計應用

深度解析深度學習下的語義SLAM

評論