工程師們一直在試圖搭建更智能、可靠的機(jī)器人,比如之前火爆全網(wǎng)、來(lái)自波士頓動(dòng)力公司的機(jī)器狗Spot。它可以輕松上下樓梯、搬運(yùn)重物、巡查街道,等等。
波士頓動(dòng)力公司機(jī)器狗Spot按下把手開(kāi)門通過(guò)
機(jī)器狗由一個(gè)運(yùn)行著Android系統(tǒng)的遙控手柄控制,人們可以通過(guò)攝像頭隨時(shí)查看它的狀態(tài),并提供指引爬上爬下、行走翻身。這當(dāng)然很棒,但當(dāng)我們想給機(jī)器人傳達(dá)更復(fù)雜的動(dòng)作指令時(shí),在手柄上相應(yīng)的操作就繁瑣了很多。能不能開(kāi)發(fā)出一種更易用、直觀的人機(jī)交互方法,能讓我們更輕松地發(fā)送指令給機(jī)器人呢?與其在一個(gè)小屏幕上戳來(lái)戳去控制不同的機(jī)械參數(shù),能不能直接告訴機(jī)器人具體的指令,讓它去做什么呢?
近日,由李飛飛教授及來(lái)自斯坦福大學(xué)、加州理工、清華大學(xué)和英偉達(dá)的幾位學(xué)者組成的團(tuán)隊(duì)(Yunfan Jiang,Agrim Gupta,Zichen Zhang,Guanzhi?Wang,Yongqiang Dou,Yanjun Chen,Li Fei-Fei,Anima Anandkumar,Yuke Zhu,Linxi Fan)發(fā)推,分享他們?nèi)碌难芯拷Y(jié)果:VIMA(Vision-and-Language Navigation with Multi-Modal Transformers),一個(gè)使用多模態(tài)提示執(zhí)行各類任務(wù)的機(jī)械體操作系統(tǒng)。
也就是說(shuō),在Prompt中輸入文字、圖片、視頻,或任意的組合,VIMA就可以控制機(jī)械臂執(zhí)行相應(yīng)的動(dòng)作。
VIMA將多模態(tài)提示用于任務(wù)規(guī)范
?
VIMA能做什么?場(chǎng)景事例
輸入指令「把形狀一樣的物品放到綠色碗(圖片)里」給VIMA。
VIMA通過(guò)分析自然語(yǔ)言提示和圖像提示,識(shí)別出所有物品的位置,找到形狀一樣的兩個(gè)圓柱體,再找到和綠色碗,最后操作機(jī)械臂一次一次把兩個(gè)圓柱體放到了碗里。
?
輸入指令「把圖示物品(彩虹方塊)掃到圖示物品(紅框)內(nèi),不觸碰圖示物品(黃線)?!菇oVIMA,系統(tǒng)識(shí)別出所有物件的位置,隨后按照指示操作機(jī)械臂把彩虹方塊掃到紅框里,不觸碰黃線。
?
最后來(lái)看這個(gè)例子。
我們甚至可以在prompt教給它新的視覺(jué)概念,輸入指令「這是一個(gè)zup <灰色方框圖片>,這是一個(gè)blicket <灰色十字圖片>。將紅色的wug放在綠色的blicket上?!?/p>
VIMA識(shí)別到所有物體后,操作機(jī)械臂執(zhí)行相應(yīng)動(dòng)作。
?
?
?機(jī)械臂系統(tǒng)的組成結(jié)構(gòu)
VIMA主要由以下幾個(gè)部分組成:
Transformer編碼器和解碼器:用于對(duì)多模態(tài)提示進(jìn)行編碼和機(jī)器人臂的控制進(jìn)行解碼。
視覺(jué)和語(yǔ)言模塊:用于處理視覺(jué)和語(yǔ)言輸入,并將它們轉(zhuǎn)換為Transformer可以處理的令牌序列。
動(dòng)作執(zhí)行器:用于將機(jī)器人臂的控制信號(hào)轉(zhuǎn)換為物理動(dòng)作,并將其發(fā)送到機(jī)器人控制器。
數(shù)據(jù)集和基準(zhǔn):用于評(píng)估和比較不同的機(jī)器人學(xué)習(xí)方法,并提供訓(xùn)練和測(cè)試數(shù)據(jù)。
物理仿真器:用于在虛擬環(huán)境中模擬機(jī)器人的行為,并提供快速的反饋和調(diào)試機(jī)制。
這些組件共同構(gòu)成了VIMA的核心部分,使得它能夠接收多模態(tài)提示并執(zhí)行各種機(jī)器人任務(wù)。?
在VIMA中,GPT-3模型在第一部分被用作解碼器,用于生成導(dǎo)航指令,以指導(dǎo)機(jī)器人在環(huán)境中執(zhí)行導(dǎo)航任務(wù)。具體來(lái)說(shuō),VIMA-GPT是一個(gè)僅包含解碼器的架構(gòu),它通過(guò)對(duì)多模態(tài)提示進(jìn)行編碼,自回歸地解碼給定指令和交互歷史的下一個(gè)動(dòng)作,控制機(jī)器臂的運(yùn)動(dòng)。連接硬件后的VIMA成為了“一個(gè)具有體現(xiàn)性的AI代理:它可以感知環(huán)境并逐步在物理世界中采取行動(dòng)。”Fan說(shuō)到。
?
軟硬件結(jié)合的AI系統(tǒng)能做什么
團(tuán)隊(duì)共實(shí)現(xiàn)了17個(gè)不同的任務(wù),分為6大類:簡(jiǎn)單物體操作(Simple object manipulation)、視覺(jué)目標(biāo)達(dá)成(Visual goal reaching)、新概念理解(Novel concept grounding)、單次視頻模仿(One-shot video imitation)、視覺(jué)約束滿足(Visual constraint satisfaction)、視覺(jué)推理(Visual reasoning)。
?Fan在他的推文中提及:“多模態(tài)提示使得任務(wù)規(guī)范對(duì)用戶來(lái)說(shuō)更加容易和靈活。通過(guò)一個(gè)單一的模型,VIMA將視覺(jué)目標(biāo)達(dá)成、從視頻演示中進(jìn)行一次性模仿、學(xué)習(xí)新概念以及滿足安全約束等多種任務(wù)統(tǒng)一起來(lái)。而在以前的工作中,每個(gè)任務(wù)都需要不同的訓(xùn)練流程?!?/p>
作為一個(gè)機(jī)器人控制的框架,VIMA可以擴(kuò)展成為極其強(qiáng)大的工具。像是一個(gè)實(shí)體的小愛(ài)同學(xué),在學(xué)習(xí)完所有的步驟和物品之后,它可以你成為現(xiàn)實(shí)生活里的左膀右臂,例如:
家務(wù)。告訴它你想吃西紅柿炒雞蛋,VIMA在廚房里找到材料、開(kāi)火、放糖(北方同學(xué)大喜),自動(dòng)化炒菜。
教育。在學(xué)校的自習(xí)課替老師回答問(wèn)題,并在黑板上拿粉筆寫筆記,為學(xué)生提供定制練習(xí)和反饋。
娛樂(lè)。投籃后每次替你撿球送水的女同學(xué),一個(gè)VIMA機(jī)器人就能替代,甚至更體貼。
當(dāng)然,上面的例子過(guò)于理想了,但并不是不可能實(shí)現(xiàn)。
模型結(jié)構(gòu):編碼-解碼轉(zhuǎn)換器
?
結(jié)語(yǔ)
VIMA作為一個(gè)仍在開(kāi)發(fā)中的基礎(chǔ)模型,為智能機(jī)械體的發(fā)展方向指明了更切實(shí)的發(fā)展方向。它有可能使機(jī)器人更智能、更有用。而如此強(qiáng)大的工具將其所有內(nèi)容全部開(kāi)源:代碼、預(yù)訓(xùn)練模型、數(shù)據(jù)集和物理仿真基準(zhǔn)都可以免費(fèi)獲取和使用!代碼的透明度和可重復(fù)性被提高,更多的人可以使用和改進(jìn)VIMA框架,促進(jìn)了合作和知識(shí)共享,這對(duì)推動(dòng)機(jī)器人學(xué)習(xí)領(lǐng)域的發(fā)展起到了巨大的作用。
審核編輯:劉清
評(píng)論