一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機器人如何獲得能夠有效泛化到各種現(xiàn)實世界物體和環(huán)境的技能?

Tensorflowers ? 來源:未知 ? 作者:胡薇 ? 2018-07-12 17:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

盡管設(shè)計一套能夠在受控環(huán)境中有效執(zhí)行重復(fù)任務(wù)的機器人系統(tǒng)(例如,在裝配線上組裝產(chǎn)品)十分平常,但設(shè)計一種能夠觀察周圍環(huán)境和確定最佳行動方案,同時對意外結(jié)果做出反應(yīng)的機器人卻非常困難。

不過,有兩種工具可以幫助機器人從經(jīng)驗中獲得這些技能:深度學(xué)習(xí)和強化學(xué)習(xí)。前者非常適合處理非結(jié)構(gòu)化的現(xiàn)實世界場景,而后者可以實現(xiàn)更長期的推理,同時展現(xiàn)出更復(fù)雜、更強大的順序決策能力。如果將這兩種技術(shù)結(jié)合,將有可能讓機器人不斷地從經(jīng)驗中學(xué)習(xí),使它們能夠通過數(shù)據(jù)而非人為設(shè)計來掌握基本的感覺運動技能。

設(shè)計用于機器人學(xué)習(xí)的強化學(xué)習(xí)算法本身提出了一系列挑戰(zhàn):現(xiàn)實世界的物體具有各種各樣的視覺和物理屬性,接觸力的細微差別都可能會使物體運動難以預(yù)測,并且相關(guān)物體可能會受到遮擋。此外,機器人傳感器本身具有噪聲,這也增加了復(fù)雜性。所有這些因素綜合到一起,使得學(xué)習(xí)一個通用解異常困難,除非訓(xùn)練數(shù)據(jù)足夠多樣化,然而,收集這樣的數(shù)據(jù)又十分耗時。

這就促使人們?nèi)ヌ剿饕环N能夠有效重用過往經(jīng)驗的學(xué)習(xí)算法,類似于我們之前一項關(guān)于抓取的研究,這項研究就受益于大數(shù)據(jù)集。不過,這項研究無法推斷動作的長期后果,而這一點對學(xué)習(xí)如何抓取十分重要。例如,如果多個物體聚集在一起,那么將其中一個分開(稱為“分割”)將使得抓取更容易,即使這樣做與成功抓取并無直接關(guān)聯(lián)。

分割示例

為了提高效率,我們需要采用脫策強化學(xué)習(xí),這種算法可以從數(shù)小時、數(shù)天或數(shù)周前收集的數(shù)據(jù)中學(xué)習(xí)。為了設(shè)計這樣一種可以利用從歷史互動中獲得的大量不同經(jīng)驗的脫策強化學(xué)習(xí)算法,我們將大規(guī)模分布式優(yōu)化與一個新的擬合深度 Q 學(xué)習(xí)算法(我們稱之為 QT-Opt)相結(jié)合。arXiv 上提供了預(yù)印本。

QT-Opt 是一種分布式 Q 學(xué)習(xí)算法,支持連續(xù)動作空間,非常適合解決機器人問題。為了使用 QT-Opt,我們首先使用已收集的數(shù)據(jù)以完全離線的方式訓(xùn)練模型。此過程不需要運行真正的機器人,因而更易于擴展。然后,我們在真正的機器人上部署并微調(diào)該模型,使用新收集的數(shù)據(jù)進一步訓(xùn)練模型。通過運行 QT-Opt,我們得以積累更多的離線數(shù)據(jù),這使得我們能夠訓(xùn)練出更好的模型,而這反過來又有利于收集更好的數(shù)據(jù),從而形成一個良性循環(huán)。

為了將這種方法應(yīng)用于機器人抓取,我們使用了 7 個現(xiàn)實世界的機器人,在 4 個月的時間里,機器人總共運行了 800 個小時。為了引導(dǎo)收集過程,我們首先使用手動設(shè)計的策略,成功率為 15-30%。在表現(xiàn)提升后,數(shù)據(jù)收集轉(zhuǎn)向?qū)W到的模型。策略利用相機圖像并返回手臂和抓手的移動方式。離線數(shù)據(jù)包含對 1000 多種不同物體的抓取。

使用的一些訓(xùn)練物體

通過過去的研究,我們已經(jīng)發(fā)現(xiàn)在機器人之間共享經(jīng)驗可以加快學(xué)習(xí)速度。我們將此訓(xùn)練和數(shù)據(jù)收集過程擴展到 10 個 GPU、7 個機器人和多個 CPU,因此得以收集和處理包含超過 580,000 次抓取嘗試的大型數(shù)據(jù)集。在這個過程的最后,我們成功訓(xùn)練了一種抓取策略,此策略在現(xiàn)實世界機器人上運行并且可以泛化到訓(xùn)練時未見過的各種具有挑戰(zhàn)性的物體。

七個機器人正在收集抓取數(shù)據(jù)

從量化角度來看,在關(guān)于以前未見過物體的 700 次抓取試驗中,QT-Opt 方法的抓取成功率達到 96%。先前基于監(jiān)督式學(xué)習(xí)的抓取方法的成功率為 78%,相比之下,新方法將錯誤率降低了五倍以上。

評估時使用的物體

為了使任務(wù)具有挑戰(zhàn)性,我們增加了物體尺寸、

紋理和形狀的多樣性

值得注意的是,策略展現(xiàn)出了標準機器人抓取系統(tǒng)中少見的各種閉環(huán)、反應(yīng)性行為:

? 當(dāng)面對一組無法一起拾起的聯(lián)鎖塊時,策略先將一個塊與其他塊分開,然后再將它拾起。

? 當(dāng)面對難以抓取的物體時,策略會推算出它應(yīng)該調(diào)整抓手位置并重新抓取,直到抓牢為止。

? 當(dāng)在一堆物體中抓取時,策略會探測不同的物體,直到抓手緊緊握住一個物體時才會將它拾起。

? 當(dāng)我們故意將物體從抓手上弄掉以擾亂機器人時(訓(xùn)練期間未經(jīng)歷過這種情況),它會自動重新調(diào)整抓手位置,進行另一次嘗試。

最重要的是,這些行為都并非人為設(shè)計。這些行為基于 QT-Opt 的自監(jiān)督式訓(xùn)練自動出現(xiàn),因為它們提高了模型的長期抓取成功率。

學(xué)到的行為示例

在左側(cè)的 GIF 中,策略針對移動的球進行更正

在右側(cè)的 GIF 中,策略在多次抓取嘗試后

成功拾起難以抓握的物體

此外,我們發(fā)現(xiàn) QT-Opt 使用較少的訓(xùn)練數(shù)據(jù)達到了較高的成功率,盡管收斂時間較長。這對機器人技術(shù)來說尤其令人興奮,因為,此領(lǐng)域的瓶頸通常是收集現(xiàn)實機器人數(shù)據(jù),而不是訓(xùn)練時間。將此策略與其他數(shù)據(jù)效率技術(shù)(例如我們之前關(guān)于抓取領(lǐng)域自適應(yīng)的研究)相結(jié)合,可以在機器人技術(shù)領(lǐng)域開辟一些有趣

總體而言,QT-Opt 算法是一種通用的強化學(xué)習(xí)方法,在現(xiàn)實世界機器人上表現(xiàn)非常出色。除獎勵定義外,QT-Opt 沒有任何特定于機器人抓取的限制。我們認為這是向更通用的機器人學(xué)習(xí)算法邁出的重要一步,并期待看到其他適用的機器人任務(wù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    29728

    瀏覽量

    212819
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122789
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    機器人測試:從虛擬現(xiàn)實,機器人如何才能變成真正的打工牛馬?

    從虛擬世界的算法優(yōu)化,現(xiàn)實中的 “抗造” 考驗,再到細節(jié)處的容錯能力,機器人的每一輪測試,本質(zhì)上都是在模仿人類 “打工人” 的成長路徑:先在練習(xí)中練熟
    的頭像 發(fā)表于 07-11 09:16 ?333次閱讀
    <b class='flag-5'>機器人</b>測試:從虛擬<b class='flag-5'>到</b><b class='flag-5'>現(xiàn)實</b>,<b class='flag-5'>機器人</b>如何才能變成真正的打工牛馬?

    詳細介紹機場智能指路機器人的工作原理

    負責(zé)接收旅客的語音指令,以便機器人理解旅客的需求。 環(huán)境感知與信息融合 :這些傳感器收集的信息會進行融合處理。例如,激光雷達提供的距離信息和攝像頭捕捉的視覺信息相結(jié)合,能讓機器人更準
    發(fā)表于 05-10 18:26

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】視覺實現(xiàn)的基礎(chǔ)算法的應(yīng)用

    : 一、機器人視覺:從理論到實踐 第7章詳細介紹了ROS2在機器視覺領(lǐng)域的應(yīng)用,涵蓋了相機標定、OpenCV集成、視覺巡線、二維碼識別以及深度學(xué)習(xí)目標檢測等內(nèi)容。通過學(xué)習(xí),我認識: 相機標定的重要性
    發(fā)表于 05-03 19:41

    AgiBot World Colosseo:構(gòu)建通用機器人智能的規(guī)模數(shù)據(jù)平臺

    AgiBot World Colosseo:構(gòu)建通用機器人智能的規(guī)模數(shù)據(jù)平臺 隨著人工智能在語言處理和計算機視覺領(lǐng)域取得突破,機器人技術(shù)仍面臨現(xiàn)實場景
    的頭像 發(fā)表于 03-12 11:42 ?1082次閱讀
    AgiBot World Colosseo:構(gòu)建通用<b class='flag-5'>機器人</b>智能的規(guī)模<b class='flag-5'>化</b>數(shù)據(jù)平臺

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人的基礎(chǔ)模塊

    非常重要的地位。 先說這個自主機器人的計算系統(tǒng)。計算系統(tǒng)是自主機器人的關(guān)鍵部件。自主機器人通過智能計算系統(tǒng)與物理世界交互,自主地完成任務(wù)。通常會包括幾個關(guān)鍵的模塊,分別是傳感模塊,感知
    發(fā)表于 01-04 19:22

    NVIDIA技術(shù)推動機器人仿真

    借助機器人仿真,開發(fā)人員能夠在基于物理學(xué)的現(xiàn)實世界數(shù)字呈現(xiàn)中對機器人進行虛擬訓(xùn)練、測試和驗證。
    的頭像 發(fā)表于 01-03 14:10 ?481次閱讀

    開源項目!能夠精確地行走、跳舞和執(zhí)行復(fù)雜動作的機器人—Tillu

    學(xué)習(xí)者和愛好者的理想伙伴。 創(chuàng)新設(shè)計 Tillu的設(shè)計靈感來自廣受歡迎的Otto DIY機器人,其設(shè)計過程包括在Fusion 360中進行CAD建模和精確的3D打印,以實現(xiàn)從堅固的伺服驅(qū)動腿部模塊
    發(fā)表于 01-02 17:24

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人大模型

    ,能夠利用\"思維鏈\"的技術(shù)將復(fù)雜任務(wù)分解為多個子任務(wù),以漸進的方式解決問題。這不僅提高了任務(wù)的成功率,也顯著增強了系統(tǒng)的魯棒性,使得機器人可以更高效地應(yīng)對復(fù)雜環(huán)境和多樣需求
    發(fā)表于 12-29 23:04

    【「具身智能機器人系統(tǒng)」閱讀體驗】1.初步理解具身智能

    影響與發(fā)展,提供了全球及國內(nèi)行業(yè)趨勢的見解。書中詳細討論了這一新興領(lǐng)域面臨的諸多挑戰(zhàn),從應(yīng)用的不確定性、昂貴的成本倫理問題,為讀者呈現(xiàn)了當(dāng)前形勢的現(xiàn)實視角。 接下來,書中深入探討了具身智能機器人的歷史
    發(fā)表于 12-28 21:12

    《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型

    和經(jīng)驗積累,使機器人能夠自主發(fā)現(xiàn)工藝規(guī)律,優(yōu)化作業(yè)參數(shù)。家庭服務(wù)機器人則采用混合任務(wù)規(guī)劃策略:將預(yù)訓(xùn)練的基礎(chǔ)技能與實時規(guī)劃相結(jié)合,靈活應(yīng)對開放環(huán)境
    發(fā)表于 12-24 15:03

    【「具身智能機器人系統(tǒng)」閱讀體驗】+數(shù)據(jù)在具身人工智能中的價值

    100 倍 。此外,Sim2Real 技術(shù)的進步也促進了技能與知識從模擬環(huán)境實際應(yīng)用的轉(zhuǎn)移。這項技術(shù)在虛擬空間中訓(xùn)練機器人和 AI 系統(tǒng),使它們
    發(fā)表于 12-24 00:33

    【「具身智能機器人系統(tǒng)」閱讀體驗】+初品的體驗

    提高機器人的自適應(yīng)性和自主性,賦能機器人在多種場景中的應(yīng)用。例如在家庭自動領(lǐng)域,具身智能機器人能夠感知家庭成員的日常習(xí)慣和需求,自動執(zhí)行清
    發(fā)表于 12-20 19:17

    《具身智能機器人系統(tǒng)》第1-6章閱讀心得之具身智能機器人系統(tǒng)背景知識與基礎(chǔ)模塊

    將大模型的\"大腦\"裝入物理實體的\"身軀\",讓AI真正走進現(xiàn)實世界。這種革新不僅體現(xiàn)在稚暉君開源的人形機器人方案,更在“AI教母”李飛飛的VoxPoser
    發(fā)表于 12-19 22:26

    機器人仿真的類型和優(yōu)勢

    機器人仿真使機器人工程師和研究人員能夠創(chuàng)建機器人及其環(huán)境的虛擬模型。這項技術(shù)支持在仿真的無風(fēng)險環(huán)境
    的頭像 發(fā)表于 10-14 10:43 ?1345次閱讀
    <b class='flag-5'>機器人</b>仿真的類型和優(yōu)勢

    通過多樣的幾何形狀來訓(xùn)練機器人從仿真現(xiàn)實轉(zhuǎn)換的裝配技能

    的部件。在多品種的小批量制造中(即小批量生產(chǎn)各種產(chǎn)品的流程),機器人還必須適應(yīng)不同的零件、姿態(tài)和環(huán)境。在保持高精度和高準確度的前提下實現(xiàn)這種適應(yīng)性是機器人技術(shù)所面臨的一大挑戰(zhàn)。 得益于
    的頭像 發(fā)表于 08-20 10:39 ?1469次閱讀
    通過多樣的幾何形狀來訓(xùn)練<b class='flag-5'>機器人</b>從仿真<b class='flag-5'>到</b><b class='flag-5'>現(xiàn)實</b>轉(zhuǎn)換的裝配<b class='flag-5'>技能</b>