一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

世界模型在實體機器人上能發(fā)揮多大的作用?

新機器視覺 ? 來源:機器之心 ? 作者:機器之心 ? 2022-07-01 10:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

世界模型在實體機器人上能發(fā)揮多大的作用?

教機器人解決現(xiàn)實世界中的復雜任務,一直是機器人研究的基礎問題。深度強化學習提供了一種流行的機器人學習方法,讓機器人能夠通過反復試驗改善其行為。然而,當前的算法需要與環(huán)境進行過多的交互才能學習成功,這使得它們不適用于某些現(xiàn)實世界的任務。 為現(xiàn)實世界學習準確的世界模型是一個巨大的開放性挑戰(zhàn)。在最近的一項研究中,UC 伯克利的研究者利用 Dreamer 世界模型的最新進展,在最直接和最基本的問題設置中訓練了各種機器人:無需模擬器或示范學習,就能實現(xiàn)現(xiàn)實世界中的在線強化學習。

a9d87b74-f879-11ec-ba43-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2206.14176.pdf Dreamer 世界模型是谷歌、多倫多大學等機構在 2021 年提出的一種。如下圖 2 所示,Dreamer 從過去經(jīng)驗的回放緩存中學習世界模型,從世界模型的潛在空間中想象的 rollout 中學習行為,并不斷與環(huán)境交互以探索和改進其行為。研究者的目標是在現(xiàn)實世界中推動機器人學習的極限,并提供一個強大的平臺來支持未來的工作。

a9f09240-f879-11ec-ba43-dac502259ad0.png

總體來說,這項研究的貢獻在于: 1、Dreamer on Robots。研究者將 Dreamer 應用于 4 個機器人,無需引入新算法直接在現(xiàn)實世界中展示了成功的學習成果。這些任務涵蓋了一系列挑戰(zhàn),包括不同的行動空間、感官模式和獎勵結構。

a9ff6b08-f879-11ec-ba43-dac502259ad0.gif

2、1 小時內(nèi)學會步行。研究者在現(xiàn)實世界中從零開始教四足機器人翻身、站起來并在 1 小時內(nèi)學會步行。

aa7a2906-f879-11ec-ba43-dac502259ad0.gif

此外,他們發(fā)現(xiàn)機器人會在 10 分鐘內(nèi)能學會承受推力或快速翻身并重新站起來。

aa9063c4-f879-11ec-ba43-dac502259ad0.gif

3、視覺拾取和放置。研究者訓練機械臂從稀疏獎勵中學會拾取和放置對象,這需要從像素定位對象并將圖像與本體感受輸入融合。此處學習到的行為優(yōu)于無模型智能體,并接近人類表現(xiàn)。

ab569580-f879-11ec-ba43-dac502259ad0.gif

abc96b78-f879-11ec-ba43-dac502259ad0.gif

4、開源。研究者公開發(fā)布了所有實驗的軟件基礎架構,它支持不同的動作空間和感官模式,為未來研究現(xiàn)實世界中機器人學習的世界模型提供了一個靈活的平臺。 方法 該研究利用 Dreamer 算法(Hafner et al., 2019; 2020)在物理機器人上進行在線學習(online learning),無需模擬器,總體架構如上圖 2 所示。Dreamer 從過去經(jīng)驗的回放緩沖區(qū)中學習世界模型,使用參與者 - 評價者算法從學習模型預測的軌跡中學習行為,并將其行為部署在環(huán)境中來不斷提升回放緩沖區(qū)。 該研究將學習更新與數(shù)據(jù)收集解耦,以滿足延遲要求并實現(xiàn)快速訓練而無需等待環(huán)境變化。在該研究的實現(xiàn)中,一個學習線程持續(xù)訓練世界模型和參與者 - 評價者行為,同時一個參與者線程并行計算環(huán)境交互動作。 世界模型是一個學習預測環(huán)境動態(tài)的深度神經(jīng)網(wǎng)絡,如下圖 3(a)所示。

abef699a-f879-11ec-ba43-dac502259ad0.png

世界模型可以被認為是機器人自主學習環(huán)境的快速模擬器,在探索現(xiàn)實世界時不斷改進其模型。世界模型基于循環(huán)狀態(tài)空間模型 (RSSM; Hafner et al., 2018),它由四個組件組成:

ac0362f6-f879-11ec-ba43-dac502259ad0.png

世界模型表征了與任務無關的動態(tài)知識,而參與者 - 評價者算法負責學習特定于當前任務的行為。如上圖 3(b) 所示。該研究從在世界模型的潛在空間中預測的 rollout 中學習行為,而無需解碼觀察結果。這可以在單個 GPU 上以 16K 的批大小進行大規(guī)模并行行為學習,類似于專門的現(xiàn)代模擬器 (Makoviychuk et al., 2021)。參與者 - 評價者算法由兩個神經(jīng)網(wǎng)絡組成:

ac16d4d0-f879-11ec-ba43-dac502259ad0.png

參與者網(wǎng)絡的作用是為每個潛在模型狀態(tài) s_t 學習成功動作的分布,以最大化未來預測任務獎勵(reward)的總和。評價者網(wǎng)絡通過時間差異學習來學習預測未來任務獎勵的總和(Sutton 和 Barto,2018 ),這允許算法學習長期策略。 與 Hafner et al. (2020) 相比,Dreamer 方法沒有訓練頻率超參數(shù),因為學習器優(yōu)化神經(jīng)網(wǎng)絡與數(shù)據(jù)收集并行進行,沒有速率限制。 實驗 研究者在 4 個機器人上評估了 Dreamer,為每個機器人分配了不同的任務,并將其性能與算法和人類基線進行比較,目的是評估近期學習世界模型的成功是否能夠直接在現(xiàn)實世界中實現(xiàn)樣本高效的機器人學習。 這些實驗代表了常見的機器人任務,例如運動、操縱和導航,帶來了各種各樣的挑戰(zhàn),包括連續(xù)和離散的動作、密集和稀疏的獎勵、本體感受和圖像觀察,以及傳感器融合。 A1 機器狗四足步行 如圖 4 所示,經(jīng)過一小時的訓練,Dreamer 學會了不斷地讓機器人從其背部翻過來、站起來,然后向前走。在訓練的前 5 分鐘,機器人設法從背部翻滾過來并用腳著地。20 分鐘后,它學會了如何站起來。大約 1 小時后,機器人學會了一種叉式步態(tài),以所需的速度向前行走。

ac232ed8-f879-11ec-ba43-dac502259ad0.png

在成功完成這項任務后,研究者用一根棍子反復敲打機器人的四足來測試算法的魯棒性,如圖 8 所示。在額外在線學習的 10 分鐘內(nèi),機器人會適應并承受推力或快速翻身站穩(wěn)。相比之下,SAC 也很快學會了翻身,但由于數(shù)據(jù)預算(data budget)太小,無法站立或行走。

ac3942ae-f879-11ec-ba43-dac502259ad0.png

UR5 多物體視覺拾取和放置 拾取和放置任務在倉庫和物流環(huán)境中很常見,需要機械臂將物品從一個箱子運輸?shù)搅硪粋€箱子。圖 5 展示了成功拾取和放置的循環(huán)。由于獎勵稀疏、需要從像素推斷對象位置以及多個移動對象的挑戰(zhàn)性動態(tài),該任務具有一定挑戰(zhàn)性。

ac4b85fe-f879-11ec-ba43-dac502259ad0.png

XArm 視覺拾取和放置 上面提到的 UR5 機器人是高性能工業(yè)機器人,但 XArm 是一種可訪問的低成本 7 DOF 操作,此處任務類似,需要定位和抓取一個柔軟的物體,將其從一個容器移到另一個容器并返回,如圖 6 所示。

ac68eefa-f879-11ec-ba43-dac502259ad0.png

Sphero 導航 此外,研究者還在視覺導航任務上評估了 Dreamer,該任務需要將輪式機器人操縱到固定目標位置,僅給定 RGB 圖像作為輸入。這里使用了 Sphero Ollie 機器人,一個帶有兩個可控電機的圓柱形機器人,研究者通過 2 Hz 的連續(xù)扭矩命令對其進行控制。鑒于機器人是對稱的,并且機器人只能獲得圖像觀察,它必須從觀察歷史中推斷出航向。

ac81211e-f879-11ec-ba43-dac502259ad0.png

2 小時內(nèi),Dreamer 學會了快速且始終如一地導航到目標,并保持在目標附近。如圖 7 所示,Dreamer 與目標的平均距離為 0.15(以區(qū)域大小為單位測量并跨時間步求平均值)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    29739

    瀏覽量

    212862
  • 算法
    +關注

    關注

    23

    文章

    4710

    瀏覽量

    95380

原文標題:1小時學會走路,10分鐘學會翻身,世界模型讓機器人迅速掌握多項技能

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】機器人入門的引路書

    ROS的全稱:Robot Operating System 機器人操作系統(tǒng) ROS的 目的 :ROS支持通用庫,是通信總線,協(xié)調(diào)多個傳感器 為了解決機器人里各廠商模塊不通用的問題,讓機器人快速開發(fā)
    發(fā)表于 04-30 01:05

    網(wǎng)線機器人領域如何發(fā)揮重要作用

    機器人制造領域正經(jīng)歷前所未有的變革,網(wǎng)絡產(chǎn)品作為連接機器人內(nèi)部系統(tǒng)與外部環(huán)境的關鍵紐帶,機器視覺、數(shù)據(jù)采集和遠程控制等環(huán)節(jié)發(fā)揮著決定性
    的頭像 發(fā)表于 04-27 13:33 ?339次閱讀

    伺服電動缸人形機器人中的應用

    集成高精密減速器、高性能電機、絲桿機構、傳感器以及伺服控制系統(tǒng),伺服電動缸保證更小體積的基礎實現(xiàn)了驅(qū)控一體化,從而滿足了人形機器人復雜場景的應用需求。四、提升性能與可靠性德邁傳動伺服電動缸的應用還
    發(fā)表于 02-06 09:04

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人的基礎模塊

    具身智能機器人的基礎模塊,這個是本書的第二部分內(nèi)容,主要分為四個部分:機器人計算系統(tǒng),自主機器人的感知系統(tǒng),自主機器人的定位系統(tǒng),自主機器人
    發(fā)表于 01-04 19:22

    《具身智能機器人系統(tǒng)》第10-13章閱讀心得之具身智能機器人計算挑戰(zhàn)

    閱讀《具身智能機器人系統(tǒng)》第10-13章,我對具身智能機器人的工程實踐有了全新認識。第10章從實時性角度剖析了機器人計算加速問題。機器人定位中的SLAM算法需要處理兩個計算密集型任務:
    發(fā)表于 01-04 01:15

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人模型

    近年來,人工智能領域的大模型技術多個方向上取得了突破性的進展,特別是機器人控制領域展現(xiàn)出了巨大的潛力。“具身智能
    發(fā)表于 12-29 23:04

    【「具身智能機器人系統(tǒng)」閱讀體驗】1.初步理解具身智能

    工智能 認知發(fā)展機器人學 進化機器人學 物理體現(xiàn)與互動 五、具身智能的現(xiàn)代技術方向 另外,隨著GPT等大語言模型的發(fā)展,這些技術也具身智能
    發(fā)表于 12-28 21:12

    《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型

    研讀《具身智能機器人系統(tǒng)》第7-9章,我被書中對大模型機器人技術融合的深入分析所吸引。第7章詳細闡述了ChatGPT for Robotics的核心技術創(chuàng)新:它摒棄了傳統(tǒng)的分層控制架構,創(chuàng)造性地
    發(fā)表于 12-24 15:03

    【「具身智能機器人系統(tǒng)」閱讀體驗】+數(shù)據(jù)具身人工智能中的價值

    嵌入式人工智能(EAI)將人工智能集成到機器人等物理實體中,使它們能夠感知、學習環(huán)境并與之動態(tài)交互。這種能力使此類機器人能夠人類社會中有效地提供商品及服務。 數(shù)據(jù)是一種貨幣化工具 數(shù)
    發(fā)表于 12-24 00:33

    《具身智能機器人系統(tǒng)》第1-6章閱讀心得之具身智能機器人系統(tǒng)背景知識與基礎模塊

    將大模型的\"大腦\"裝入物理實體的\"身軀\",讓AI真正走進現(xiàn)實世界。這種革新不僅體現(xiàn)在稚暉君開源的人形機器人方案,更在“AI教母”李飛飛的VoxPoser
    發(fā)表于 12-19 22:26

    復合機器人正逐漸倉儲物流領域發(fā)揮重要作用

    隨著智能倉儲物流技術的快速發(fā)展,復合機器人作為一種先進的自動化設備,正逐漸倉儲物流領域發(fā)揮重要作用。以下是一個復合機器人在智能倉儲物流的應
    的頭像 發(fā)表于 12-16 16:56 ?451次閱讀
    復合<b class='flag-5'>機器人</b>正逐漸<b class='flag-5'>在</b>倉儲物流領域<b class='flag-5'>發(fā)揮</b>重要<b class='flag-5'>作用</b>

    FOC電機機器人技術中的作用

    隨著工業(yè)自動化和智能制造的快速發(fā)展,機器人技術已成為現(xiàn)代工業(yè)的重要組成部分。電機作為機器人的動力源,其性能直接影響到機器人的工作效率和穩(wěn)定性。FOC電機以其高效、精確和靈活的特點,
    的頭像 發(fā)表于 11-21 15:20 ?1020次閱讀

    解鎖機器人視覺與人工智能的潛力,從“盲人機器”改造成有視覺能力的機器人

    正如人類依賴眼睛和大腦來解讀世界機器人也需要自己的視覺系統(tǒng)來有效運作。沒有視覺,機器人就如同蒙上雙眼的人類,僅能執(zhí)行預編程的命令,容易碰撞障礙物,并犯下代價高昂的錯誤。這正是機器人
    的頭像 發(fā)表于 10-12 09:56 ?789次閱讀
    解鎖<b class='flag-5'>機器人</b>視覺與人工智能的潛力,從“盲人<b class='flag-5'>機器</b>”改造成有視覺能力的<b class='flag-5'>機器人</b>(<b class='flag-5'>上</b>)

    構建語音控制機器人 - 線性模型機器學習

    2024-07-31 |Annabel Ng 該項目的[一篇博客文章]中,我介紹了運行機器人電機、處理音頻信號和調(diào)節(jié)電壓所需的電路的基礎知識。然而,機器人還沒有完全完成!盡管
    的頭像 發(fā)表于 10-02 16:31 ?575次閱讀
    構建語音控制<b class='flag-5'>機器人</b> - 線性<b class='flag-5'>模型</b>和<b class='flag-5'>機器</b>學習

    在生產(chǎn)制造業(yè)中,碼垛機器人發(fā)揮的重要作用

    ?在生產(chǎn)制造業(yè)中,碼垛機器人發(fā)揮著至關重要的作用,主要體現(xiàn)在以下幾個方面: ?一、題高生產(chǎn)效率 ?碼垛機器人能夠以很高的速度和精度進行碼垛作業(yè),遠遠超過人工碼垛的效率。它可以持續(xù)不間斷
    的頭像 發(fā)表于 09-02 15:51 ?421次閱讀