強(qiáng)化學(xué)習(xí)可以用于訓(xùn)練一種策略,使其能夠在試錯(cuò)的情況下來(lái)完成任務(wù),但強(qiáng)化學(xué)習(xí)面臨的最大挑戰(zhàn)就是,如何在具有艱難探索挑戰(zhàn)的環(huán)境中從頭學(xué)習(xí)策略。比如,考慮到 adroit manipulation 套件中的 door-binary-v0 環(huán)境所描述的設(shè)置,其中強(qiáng)化學(xué)習(xí)智能體必須在三維空間中控制一只手來(lái)打開(kāi)放在它前面的門(mén)。
由于智能體沒(méi)有收到任何中間獎(jiǎng)勵(lì),它無(wú)法衡量自己離完成任務(wù)有多遠(yuǎn),所以只能在空間里隨機(jī)探索,直至門(mén)被打開(kāi)為止。鑒于這項(xiàng)任務(wù)所需的時(shí)間以及對(duì)其進(jìn)行精準(zhǔn)的控制,這種可能性微乎其微。
對(duì)于這樣的任務(wù),我們可以通過(guò)使用先驗(yàn)信息來(lái)規(guī)避對(duì)狀態(tài)空間的隨機(jī)探索。這種先驗(yàn)信息有助于智能體了解環(huán)境的哪些狀態(tài)是好的,應(yīng)該進(jìn)一步探索。
我們可以利用離線數(shù)據(jù)(即由人類(lèi)演示者、腳本策略或其他強(qiáng)化學(xué)習(xí)智能體收集的數(shù)據(jù)),對(duì)策略進(jìn)行訓(xùn)練,并將之用于初始化新的強(qiáng)化學(xué)習(xí)策略。如果采用神經(jīng)網(wǎng)絡(luò)來(lái)表達(dá)策略,則需要將預(yù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)復(fù)制到新的強(qiáng)化學(xué)習(xí)策略中。這一過(guò)程使得新的強(qiáng)化學(xué)習(xí)策略看起來(lái)就像是預(yù)訓(xùn)練好的。但是,用這種幼稚的方式來(lái)進(jìn)行新的強(qiáng)化學(xué)習(xí)通常是行不通的,尤其是基于值的強(qiáng)化學(xué)習(xí)方法,如下所示。
用離線數(shù)據(jù)在 antmaze-large-diverse-v0 D4RL 環(huán)境中對(duì)一種策略進(jìn)行預(yù)訓(xùn)練(負(fù)向步驟對(duì)應(yīng)預(yù)訓(xùn)練)。然后,我們使用該策略來(lái)初始化 actor-crittic 的微調(diào)(從第 0 步開(kāi)始的正向步驟),以該預(yù)訓(xùn)練的策略作為初始 actor。crittic 是隨機(jī)初始化的。由于未經(jīng)訓(xùn)練的 critic 提供了一個(gè)糟糕的學(xué)習(xí)信號(hào),并導(dǎo)致良好的初始策略被遺忘,所以 actor 的性能會(huì)立即下降,并且不會(huì)恢復(fù)。
有鑒于此,我們?cè)凇疤S式強(qiáng)化學(xué)習(xí)”(Jump-Start Reinforcement Learning,JSRL)中,提出了一種可以利用任意一種與現(xiàn)存在的策略對(duì)任意一種強(qiáng)化學(xué)習(xí)算法進(jìn)行初始化的元算法。
JSRL 在學(xué)習(xí)任務(wù)時(shí)采用了兩種策略:一種是指導(dǎo)策略,另一種是探索策略。探索策略是一種強(qiáng)化學(xué)習(xí)策略,通過(guò)智能體從環(huán)境中收集的新經(jīng)驗(yàn)進(jìn)行在線訓(xùn)練,而指導(dǎo)策略是一種預(yù)先存在的任何形式的策略,在在線訓(xùn)練中不被更新。在這項(xiàng)研究中,我們關(guān)注的是指導(dǎo)策略從演示中學(xué)習(xí)的情景,但也可以使用許多其他類(lèi)型的指導(dǎo)策略。JSRL 通過(guò)滾動(dòng)指導(dǎo)策略創(chuàng)建了一個(gè)學(xué)習(xí)課程,然后由自我改進(jìn)的探索策略跟進(jìn),其結(jié)果是與競(jìng)爭(zhēng)性的 IL+RL 方法相比較或改進(jìn)的性能。
JSRL 方法
指導(dǎo)策略可以采取任何形式:它可以是一種腳本化的策略,一種用于強(qiáng)化學(xué)習(xí)訓(xùn)練的策略,甚至是一個(gè)真人演示者。唯一的要求是,指導(dǎo)策略要合理(也就是優(yōu)于隨機(jī)探索),而且可以根據(jù)對(duì)環(huán)境的觀察來(lái)選擇行動(dòng)。理想情況下,指導(dǎo)策略可以在環(huán)境中達(dá)到較差或中等的性能,但不能通過(guò)額外的微調(diào)來(lái)進(jìn)一步改善自己。然后,JSRL 允許我們利用這個(gè)指導(dǎo)策略的進(jìn)展,從而提到它的性能。
在訓(xùn)練開(kāi)始時(shí),我們將指導(dǎo)策略推出一個(gè)固定的步驟,使智能體更接近目標(biāo)狀態(tài)。然后,探索策略接手,繼續(xù)在環(huán)境中行動(dòng)以達(dá)到這些目標(biāo)。隨著探索策略性能的提高,我們逐漸減少指導(dǎo)策略的步驟,直到探索策略完全接管。這個(gè)過(guò)程為探索策略創(chuàng)建了一個(gè)起始狀態(tài)的課程,這樣在每個(gè)課程階段,它只需要學(xué)習(xí)達(dá)到之前課程階段的初始狀態(tài)。
這個(gè)任務(wù)是讓機(jī)械臂拿起藍(lán)色木塊。指導(dǎo)策略可以將機(jī)械臂移動(dòng)到木塊上,但不能將其拾起。它控制智能體,直到它抓住木塊,然后由探索策略接管,最終學(xué)會(huì)拿起木塊。隨著探索策略的改進(jìn),指導(dǎo)策略對(duì)智能體的控制越來(lái)越少。
與 IL+RL 基線的比較
由于 JSRL 可以使用先前的策略來(lái)初始化強(qiáng)化學(xué)習(xí),一個(gè)自然的比較是模仿和強(qiáng)化學(xué)習(xí)(IL+RL)方法,該方法在離線數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后用新的在線經(jīng)驗(yàn)對(duì)預(yù)訓(xùn)練的策略進(jìn)行微調(diào)。我們展示了 JSRL 在 D4RL 基準(zhǔn)任務(wù)上與具有競(jìng)爭(zhēng)力的 IL+RL 方法的比較情況。這些任務(wù)包括模擬的機(jī)器人控制環(huán)境,以及來(lái)自人類(lèi)演示者的離線數(shù)據(jù)集、計(jì)劃者和其他學(xué)到的策略。在 D4RL 任務(wù)中,我們重點(diǎn)關(guān)注困難的螞蟻迷宮和 adroit dexterous manipulation 環(huán)境。
對(duì)于每個(gè)實(shí)驗(yàn),我們?cè)谝粋€(gè)離線數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后運(yùn)行在線微調(diào)。我們與專(zhuān)門(mén)為每個(gè)環(huán)境設(shè)計(jì)的算法進(jìn)行比較,這些算法包括 AWAC、IQL、CQL 和行為克隆。雖然 JSRL 可以與任何初始指導(dǎo)策略或微調(diào)算法結(jié)合使用,但我們使用我們最強(qiáng)大的基線——IQL,作為預(yù)訓(xùn)練的指導(dǎo)和微調(diào)。完整的 D4RL 數(shù)據(jù)集包括每個(gè)螞蟻迷宮任務(wù)的一百萬(wàn)個(gè)離線轉(zhuǎn)換。每個(gè)轉(zhuǎn)換是一個(gè)格式序列(S, A, R, S'),它指定了智能體開(kāi)始時(shí)的狀態(tài)(S),智能體采取的行動(dòng)(A),智能體收到的獎(jiǎng)勵(lì)(R),以及智能體在采取行動(dòng) A 后結(jié)束的狀態(tài)(S')。
在 D4RL 基準(zhǔn)套件的 antmaze-medium-diverse-v0 環(huán)境中的平均得分(最大值 =100)。即使在有限的離線轉(zhuǎn)換的情況下,JSRL 也可以改進(jìn)。
基于視覺(jué)的機(jī)器人任務(wù)
由于維度的限制,在復(fù)雜的任務(wù)中使用離線數(shù)據(jù)特別困難,比如基于視覺(jué)的機(jī)器人操縱。連續(xù)控制動(dòng)作空間和基于像素的狀態(tài)空間的高維度,給 IL+RL 方法帶來(lái)了學(xué)習(xí)良好策略所需的數(shù)據(jù)量方面的擴(kuò)展挑戰(zhàn)。為了研究 JSRL 如何適應(yīng)這種環(huán)境,我們重點(diǎn)研究了兩個(gè)困難的仿生機(jī)器人操縱任務(wù):無(wú)差別抓?。?,舉起任何物體)和實(shí)例抓取(即,舉起特定的目標(biāo)物體)。
一個(gè)仿生機(jī)械臂被放置在一張有各種類(lèi)別物體的桌子前。當(dāng)機(jī)械臂舉起任何物體時(shí),對(duì)于無(wú)差別的抓取任務(wù),會(huì)給予稀疏的獎(jiǎng)勵(lì)。對(duì)于實(shí)例抓取任務(wù),只有在抓取特定的目標(biāo)物體時(shí),才會(huì)給予稀疏的獎(jiǎng)勵(lì)。
我們將 JSRL 與能夠擴(kuò)展到復(fù)雜的基于視覺(jué)的機(jī)器人環(huán)境的方法進(jìn)行比較,如 QT-Opt 和 AW-Opt。每種方法都可以獲得相同的成功演示的離線數(shù)據(jù)集,并被允許運(yùn)行多達(dá) 10 萬(wàn)步的在線微調(diào)。
在這些實(shí)驗(yàn)中,我們使用行為克隆作為指導(dǎo)策略,并將 JSRL 與 QT-Opt 相結(jié)合進(jìn)行微調(diào)。QT-Opt+JSRL 的組合比其他所有方法改進(jìn)得更快,同時(shí)獲得了最高的成功率。
使用 2 千次成功演示,無(wú)差別和實(shí)例抓取環(huán)境的平均抓取成功率。
結(jié)語(yǔ)
我們提出了 JSRL,它是一種利用任何形式的先驗(yàn)策略來(lái)改進(jìn)初始化強(qiáng)化學(xué)習(xí)任務(wù)的探索的方法。我們的算法通過(guò)在預(yù)先存在的指導(dǎo)策略中滾動(dòng),創(chuàng)建了一個(gè)學(xué)習(xí)課程,然后由自我改進(jìn)的探索策略跟進(jìn)。探索策略的工作被大大簡(jiǎn)化,因?yàn)樗鼜母咏繕?biāo)的狀態(tài)開(kāi)始探索。隨著探索策略的改進(jìn),指導(dǎo)策略的影響也隨之減弱,從而形成一個(gè)完全有能力的強(qiáng)化學(xué)習(xí)策略。在未來(lái),我們計(jì)劃將 JSRL 應(yīng)用于 Sim2Real 等問(wèn)題,并探索我們?nèi)绾卫枚喾N指導(dǎo)策略來(lái)訓(xùn)練強(qiáng)化學(xué)習(xí)智能體。
審核編輯 :李倩
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103622 -
智能體
+關(guān)注
關(guān)注
1文章
307瀏覽量
11078 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
269瀏覽量
11603
原文標(biāo)題:如何使用先驗(yàn)策略有效地初始化強(qiáng)化學(xué)習(xí)?
文章出處:【微信號(hào):AI前線,微信公眾號(hào):AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
定義IO初始化結(jié)構(gòu)體
NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

IM 系列設(shè)備過(guò)載保護(hù)機(jī)制下界面初始化中斷的底層邏輯與解決方案
三相無(wú)刷直流電機(jī)改進(jìn)型脈寬調(diào)制策略
使用MATLAB進(jìn)行無(wú)監(jiān)督學(xué)習(xí)

18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

AFE031初始化的過(guò)程應(yīng)該是什么?
OMAP5912多媒體處理器初始化參考指南

STM32F407 MCU使用SD NAND?不斷電初始化失效解決方案

請(qǐng)問(wèn)LMX2595配置時(shí)如何進(jìn)行初始化?
如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)
基于旋轉(zhuǎn)平移解耦框架的視覺(jué)慣性初始化方法

TMS320C6000 McBSP初始化

視頻引擎初始化失敗怎么回事
Keil中變量不被初始化方法

評(píng)論