一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種利用任何形式的先驗(yàn)策略來(lái)改進(jìn)初始化強(qiáng)化學(xué)習(xí)任務(wù)的探索的方法

倩倩 ? 來(lái)源:AI前線 ? 作者:谷歌 AI ? 2022-09-06 14:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

強(qiáng)化學(xué)習(xí)可以用于訓(xùn)練一種策略,使其能夠在試錯(cuò)的情況下來(lái)完成任務(wù),但強(qiáng)化學(xué)習(xí)面臨的最大挑戰(zhàn)就是,如何在具有艱難探索挑戰(zhàn)的環(huán)境中從頭學(xué)習(xí)策略。比如,考慮到 adroit manipulation 套件中的 door-binary-v0 環(huán)境所描述的設(shè)置,其中強(qiáng)化學(xué)習(xí)智能體必須在三維空間中控制一只手來(lái)打開(kāi)放在它前面的門(mén)。

由于智能體沒(méi)有收到任何中間獎(jiǎng)勵(lì),它無(wú)法衡量自己離完成任務(wù)有多遠(yuǎn),所以只能在空間里隨機(jī)探索,直至門(mén)被打開(kāi)為止。鑒于這項(xiàng)任務(wù)所需的時(shí)間以及對(duì)其進(jìn)行精準(zhǔn)的控制,這種可能性微乎其微。

對(duì)于這樣的任務(wù),我們可以通過(guò)使用先驗(yàn)信息來(lái)規(guī)避對(duì)狀態(tài)空間的隨機(jī)探索。這種先驗(yàn)信息有助于智能體了解環(huán)境的哪些狀態(tài)是好的,應(yīng)該進(jìn)一步探索。

我們可以利用離線數(shù)據(jù)(即由人類(lèi)演示者、腳本策略或其他強(qiáng)化學(xué)習(xí)智能體收集的數(shù)據(jù)),對(duì)策略進(jìn)行訓(xùn)練,并將之用于初始化新的強(qiáng)化學(xué)習(xí)策略。如果采用神經(jīng)網(wǎng)絡(luò)來(lái)表達(dá)策略,則需要將預(yù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)復(fù)制到新的強(qiáng)化學(xué)習(xí)策略中。這一過(guò)程使得新的強(qiáng)化學(xué)習(xí)策略看起來(lái)就像是預(yù)訓(xùn)練好的。但是,用這種幼稚的方式來(lái)進(jìn)行新的強(qiáng)化學(xué)習(xí)通常是行不通的,尤其是基于值的強(qiáng)化學(xué)習(xí)方法,如下所示。

7ca49590-2da6-11ed-ba43-dac502259ad0.jpg

用離線數(shù)據(jù)在 antmaze-large-diverse-v0 D4RL 環(huán)境中對(duì)一種策略進(jìn)行預(yù)訓(xùn)練(負(fù)向步驟對(duì)應(yīng)預(yù)訓(xùn)練)。然后,我們使用該策略來(lái)初始化 actor-crittic 的微調(diào)(從第 0 步開(kāi)始的正向步驟),以該預(yù)訓(xùn)練的策略作為初始 actor。crittic 是隨機(jī)初始化的。由于未經(jīng)訓(xùn)練的 critic 提供了一個(gè)糟糕的學(xué)習(xí)信號(hào),并導(dǎo)致良好的初始策略被遺忘,所以 actor 的性能會(huì)立即下降,并且不會(huì)恢復(fù)。

有鑒于此,我們?cè)凇疤S式強(qiáng)化學(xué)習(xí)”(Jump-Start Reinforcement Learning,JSRL)中,提出了一種可以利用任意一種與現(xiàn)存在的策略對(duì)任意一種強(qiáng)化學(xué)習(xí)算法進(jìn)行初始化的元算法。

JSRL 在學(xué)習(xí)任務(wù)時(shí)采用了兩種策略:一種是指導(dǎo)策略,另一種是探索策略。探索策略是一種強(qiáng)化學(xué)習(xí)策略,通過(guò)智能體從環(huán)境中收集的新經(jīng)驗(yàn)進(jìn)行在線訓(xùn)練,而指導(dǎo)策略是一種預(yù)先存在的任何形式的策略,在在線訓(xùn)練中不被更新。在這項(xiàng)研究中,我們關(guān)注的是指導(dǎo)策略從演示中學(xué)習(xí)的情景,但也可以使用許多其他類(lèi)型的指導(dǎo)策略。JSRL 通過(guò)滾動(dòng)指導(dǎo)策略創(chuàng)建了一個(gè)學(xué)習(xí)課程,然后由自我改進(jìn)的探索策略跟進(jìn),其結(jié)果是與競(jìng)爭(zhēng)性的 IL+RL 方法相比較或改進(jìn)的性能。

JSRL 方法

指導(dǎo)策略可以采取任何形式:它可以是一種腳本化的策略,一種用于強(qiáng)化學(xué)習(xí)訓(xùn)練的策略,甚至是一個(gè)真人演示者。唯一的要求是,指導(dǎo)策略要合理(也就是優(yōu)于隨機(jī)探索),而且可以根據(jù)對(duì)環(huán)境的觀察來(lái)選擇行動(dòng)。理想情況下,指導(dǎo)策略可以在環(huán)境中達(dá)到較差或中等的性能,但不能通過(guò)額外的微調(diào)來(lái)進(jìn)一步改善自己。然后,JSRL 允許我們利用這個(gè)指導(dǎo)策略的進(jìn)展,從而提到它的性能。

在訓(xùn)練開(kāi)始時(shí),我們將指導(dǎo)策略推出一個(gè)固定的步驟,使智能體更接近目標(biāo)狀態(tài)。然后,探索策略接手,繼續(xù)在環(huán)境中行動(dòng)以達(dá)到這些目標(biāo)。隨著探索策略性能的提高,我們逐漸減少指導(dǎo)策略的步驟,直到探索策略完全接管。這個(gè)過(guò)程為探索策略創(chuàng)建了一個(gè)起始狀態(tài)的課程,這樣在每個(gè)課程階段,它只需要學(xué)習(xí)達(dá)到之前課程階段的初始狀態(tài)。

這個(gè)任務(wù)是讓機(jī)械臂拿起藍(lán)色木塊。指導(dǎo)策略可以將機(jī)械臂移動(dòng)到木塊上,但不能將其拾起。它控制智能體,直到它抓住木塊,然后由探索策略接管,最終學(xué)會(huì)拿起木塊。隨著探索策略的改進(jìn),指導(dǎo)策略對(duì)智能體的控制越來(lái)越少。

與 IL+RL 基線的比較

由于 JSRL 可以使用先前的策略來(lái)初始化強(qiáng)化學(xué)習(xí),一個(gè)自然的比較是模仿和強(qiáng)化學(xué)習(xí)(IL+RL)方法,該方法在離線數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后用新的在線經(jīng)驗(yàn)對(duì)預(yù)訓(xùn)練的策略進(jìn)行微調(diào)。我們展示了 JSRL 在 D4RL 基準(zhǔn)任務(wù)上與具有競(jìng)爭(zhēng)力的 IL+RL 方法的比較情況。這些任務(wù)包括模擬機(jī)器人控制環(huán)境,以及來(lái)自人類(lèi)演示者的離線數(shù)據(jù)集、計(jì)劃者和其他學(xué)到的策略。在 D4RL 任務(wù)中,我們重點(diǎn)關(guān)注困難的螞蟻迷宮和 adroit dexterous manipulation 環(huán)境。

7cbf5b14-2da6-11ed-ba43-dac502259ad0.jpg

對(duì)于每個(gè)實(shí)驗(yàn),我們?cè)谝粋€(gè)離線數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后運(yùn)行在線微調(diào)。我們與專(zhuān)門(mén)為每個(gè)環(huán)境設(shè)計(jì)的算法進(jìn)行比較,這些算法包括 AWAC、IQL、CQL 和行為克隆。雖然 JSRL 可以與任何初始指導(dǎo)策略或微調(diào)算法結(jié)合使用,但我們使用我們最強(qiáng)大的基線——IQL,作為預(yù)訓(xùn)練的指導(dǎo)和微調(diào)。完整的 D4RL 數(shù)據(jù)集包括每個(gè)螞蟻迷宮任務(wù)的一百萬(wàn)個(gè)離線轉(zhuǎn)換。每個(gè)轉(zhuǎn)換是一個(gè)格式序列(S, A, R, S'),它指定了智能體開(kāi)始時(shí)的狀態(tài)(S),智能體采取的行動(dòng)(A),智能體收到的獎(jiǎng)勵(lì)(R),以及智能體在采取行動(dòng) A 后結(jié)束的狀態(tài)(S')。

7cdc6a10-2da6-11ed-ba43-dac502259ad0.jpg

7cf95134-2da6-11ed-ba43-dac502259ad0.jpg

在 D4RL 基準(zhǔn)套件的 antmaze-medium-diverse-v0 環(huán)境中的平均得分(最大值 =100)。即使在有限的離線轉(zhuǎn)換的情況下,JSRL 也可以改進(jìn)。

基于視覺(jué)的機(jī)器人任務(wù)

由于維度的限制,在復(fù)雜的任務(wù)中使用離線數(shù)據(jù)特別困難,比如基于視覺(jué)的機(jī)器人操縱。連續(xù)控制動(dòng)作空間和基于像素的狀態(tài)空間的高維度,給 IL+RL 方法帶來(lái)了學(xué)習(xí)良好策略所需的數(shù)據(jù)量方面的擴(kuò)展挑戰(zhàn)。為了研究 JSRL 如何適應(yīng)這種環(huán)境,我們重點(diǎn)研究了兩個(gè)困難的仿生機(jī)器人操縱任務(wù):無(wú)差別抓?。?,舉起任何物體)和實(shí)例抓取(即,舉起特定的目標(biāo)物體)。

7d1396d4-2da6-11ed-ba43-dac502259ad0.jpg

一個(gè)仿生機(jī)械臂被放置在一張有各種類(lèi)別物體的桌子前。當(dāng)機(jī)械臂舉起任何物體時(shí),對(duì)于無(wú)差別的抓取任務(wù),會(huì)給予稀疏的獎(jiǎng)勵(lì)。對(duì)于實(shí)例抓取任務(wù),只有在抓取特定的目標(biāo)物體時(shí),才會(huì)給予稀疏的獎(jiǎng)勵(lì)。

我們將 JSRL 與能夠擴(kuò)展到復(fù)雜的基于視覺(jué)的機(jī)器人環(huán)境的方法進(jìn)行比較,如 QT-Opt 和 AW-Opt。每種方法都可以獲得相同的成功演示的離線數(shù)據(jù)集,并被允許運(yùn)行多達(dá) 10 萬(wàn)步的在線微調(diào)。

在這些實(shí)驗(yàn)中,我們使用行為克隆作為指導(dǎo)策略,并將 JSRL 與 QT-Opt 相結(jié)合進(jìn)行微調(diào)。QT-Opt+JSRL 的組合比其他所有方法改進(jìn)得更快,同時(shí)獲得了最高的成功率。

7d26259c-2da6-11ed-ba43-dac502259ad0.jpg

7d3ccca2-2da6-11ed-ba43-dac502259ad0.jpg

使用 2 千次成功演示,無(wú)差別和實(shí)例抓取環(huán)境的平均抓取成功率。

結(jié)語(yǔ)

我們提出了 JSRL,它是一種利用任何形式的先驗(yàn)策略來(lái)改進(jìn)初始化強(qiáng)化學(xué)習(xí)任務(wù)的探索的方法。我們的算法通過(guò)在預(yù)先存在的指導(dǎo)策略中滾動(dòng),創(chuàng)建了一個(gè)學(xué)習(xí)課程,然后由自我改進(jìn)的探索策略跟進(jìn)。探索策略的工作被大大簡(jiǎn)化,因?yàn)樗鼜母咏繕?biāo)的狀態(tài)開(kāi)始探索。隨著探索策略的改進(jìn),指導(dǎo)策略的影響也隨之減弱,從而形成一個(gè)完全有能力的強(qiáng)化學(xué)習(xí)策略。在未來(lái),我們計(jì)劃將 JSRL 應(yīng)用于 Sim2Real 等問(wèn)題,并探索我們?nèi)绾卫枚喾N指導(dǎo)策略來(lái)訓(xùn)練強(qiáng)化學(xué)習(xí)智能體。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:如何使用先驗(yàn)策略有效地初始化強(qiáng)化學(xué)習(xí)?

文章出處:【微信號(hào):AI前線,微信公眾號(hào):AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    定義IO初始化結(jié)構(gòu)體

    由上述IOPORT相關(guān)功能的枚舉類(lèi)型我們可以知道,在對(duì)IOPORT模塊進(jìn)行初始化時(shí)需要根據(jù)情況配置它們。因此我們定義個(gè)IOPORT初始化的結(jié)構(gòu)體類(lèi)型IOPORT_Init_t,它的成員包括了由上述所有枚舉類(lèi)型所聲明的變量,因此
    的頭像 發(fā)表于 07-16 16:26 ?527次閱讀

    NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

    Lab 是個(gè)適用于機(jī)器人學(xué)習(xí)的開(kāi)源模塊框架,其模塊高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時(shí)支持模仿學(xué)習(xí)(模仿人類(lèi))和
    的頭像 發(fā)表于 07-14 15:29 ?559次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>腳本使用指南

    IM 系列設(shè)備過(guò)載保護(hù)機(jī)制下界面初始化中斷的底層邏輯與解決方案

    、過(guò)載保護(hù)機(jī)制與界面初始化的關(guān)聯(lián)基礎(chǔ) IM 系列設(shè)備的過(guò)載保護(hù)機(jī)制是保障設(shè)備安全運(yùn)行的核心功能,其通過(guò)傳感器實(shí)時(shí)采集設(shè)備運(yùn)行參數(shù),如電流、電壓、溫度、系統(tǒng)資源占用率等。旦這些參數(shù)超出預(yù)設(shè)閾值
    的頭像 發(fā)表于 06-27 09:58 ?78次閱讀

    三相無(wú)刷直流電機(jī)改進(jìn)型脈寬調(diào)制策略

    摘要:研究了一種改進(jìn)型無(wú)刷直流電機(jī)脈寬調(diào)制策略。在傳統(tǒng)的無(wú)刷直流電機(jī)脈寬調(diào)制技術(shù)的基礎(chǔ)上,針對(duì)調(diào)制期間開(kāi)關(guān)管斷開(kāi)時(shí)的電機(jī)繞組電流無(wú)法有效控制問(wèn)題,研究了一種基于六開(kāi)關(guān)電壓源型逆變器的四
    發(fā)表于 06-13 09:37

    使用MATLAB進(jìn)行無(wú)監(jiān)督學(xué)習(xí)

    無(wú)監(jiān)督學(xué)習(xí)一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無(wú)監(jiān)督學(xué)習(xí)旨在識(shí)別數(shù)據(jù)中隱藏的模式和關(guān)系,無(wú)需任何監(jiān)督或關(guān)于結(jié)果的
    的頭像 發(fā)表于 05-16 14:48 ?687次閱讀
    使用MATLAB進(jìn)行無(wú)監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>

    18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    本來(lái)轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級(jí)技術(shù)(如PPO、A3C、PlaNet等)的實(shí)現(xiàn)原理與編碼過(guò)程,旨在通過(guò)理論結(jié)合代碼的方式,構(gòu)建對(duì)強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?414次閱讀
    18個(gè)常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)<b class='flag-5'>方法</b>到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    AFE031初始化的過(guò)程應(yīng)該是什么?

    我現(xiàn)在工程中需要使用AFE031,在工作中遇到以下問(wèn)題,請(qǐng)高手可以指點(diǎn)一二: 1:如果在不燒入任何軟件的時(shí)候,參考電壓RFE1和REF2 是否就已經(jīng)存在?還是需要軟件對(duì)其進(jìn)行正確的初始化后才可以
    發(fā)表于 01-15 06:54

    OMAP5912多媒體處理器初始化參考指南

    電子發(fā)燒友網(wǎng)站提供《OMAP5912多媒體處理器初始化參考指南.pdf》資料免費(fèi)下載
    發(fā)表于 12-17 16:20 ?0次下載
    OMAP5912多媒體處理器<b class='flag-5'>初始化</b>參考指南

    STM32F407 MCU使用SD NAND?不斷電初始化失效解決方案

    STM32F407微控制器單元(MCU)與SD NAND的結(jié)合提供了強(qiáng)大的存儲(chǔ)解決方案。然而,不斷電初始化失效問(wèn)題可能會(huì)導(dǎo)致系統(tǒng)穩(wěn)定性和數(shù)據(jù)完整性受損。我們將STM32F407與SD NAND集成時(shí)可能遇到的初始化問(wèn)題,并提供專(zhuān)業(yè)的解決方案。
    的頭像 發(fā)表于 12-11 10:51 ?948次閱讀
    STM32F407 MCU使用SD NAND?不斷電<b class='flag-5'>初始化</b>失效解決方案

    請(qǐng)問(wèn)LMX2595配置時(shí)如何進(jìn)行初始化?

    寄存器的值如何確定?是按照我后期希望配置的鎖定數(shù)據(jù)來(lái)計(jì)算的寄存器值嗎?還是說(shuō)有個(gè)固定的值來(lái)初始化呢?感謝。
    發(fā)表于 11-12 06:51

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)如何做出決策,以最大化累積獎(jiǎng)勵(lì)。
    的頭像 發(fā)表于 11-05 17:34 ?1043次閱讀

    基于旋轉(zhuǎn)平移解耦框架的視覺(jué)慣性初始化方法

    精確和魯棒的初始化對(duì)于視覺(jué)慣性里程計(jì)(VIO)至關(guān)重要,因?yàn)椴涣嫉?b class='flag-5'>初始化會(huì)嚴(yán)重降低姿態(tài)精度。
    的頭像 發(fā)表于 11-01 10:16 ?969次閱讀
    基于旋轉(zhuǎn)平移解耦框架的視覺(jué)慣性<b class='flag-5'>初始化</b><b class='flag-5'>方法</b>

    TMS320C6000 McBSP初始化

    電子發(fā)燒友網(wǎng)站提供《TMS320C6000 McBSP初始化.pdf》資料免費(fèi)下載
    發(fā)表于 10-26 10:10 ?1次下載
    TMS320C6000 McBSP<b class='flag-5'>初始化</b>

    視頻引擎初始化失敗怎么回事

    視頻引擎初始化失敗是個(gè)常見(jiàn)的技術(shù)問(wèn)題,它可能由多種原因引起,包括軟件沖突、硬件問(wèn)題、驅(qū)動(dòng)程序問(wèn)題、系統(tǒng)設(shè)置錯(cuò)誤等。要解決這個(gè)問(wèn)題,需要對(duì)可能的原因進(jìn)行詳細(xì)的分析和診斷。 1. 軟件沖突 1.1
    的頭像 發(fā)表于 09-18 18:18 ?2863次閱讀

    Keil中變量不被初始化方法

    有些時(shí)候在我們的應(yīng)用過(guò)程中要求變量有連續(xù)性,或者現(xiàn)場(chǎng)保留,例如Bootloader跳轉(zhuǎn),某種原因的復(fù)位過(guò)程中我們有些關(guān)鍵變量不能被初始化,在不同的編譯環(huán)境下有不同的設(shè)置,本文就這個(gè)操作做總結(jié),分別
    的頭像 發(fā)表于 08-30 11:47 ?1526次閱讀
    Keil中變量不被<b class='flag-5'>初始化</b><b class='flag-5'>方法</b>