人工智能和自主學(xué)習(xí)的最新發(fā)展表明,在棋盤游戲和電腦游戲等任務(wù)中取得了令人印象深刻的成果。然而,學(xué)習(xí)技術(shù)的適用性主要局限于模擬環(huán)境。
這種不適用于實(shí)際場景的主要原因之一是樣本效率低下,無法保證最先進(jìn)的強(qiáng)化學(xué)習(xí)的安全運(yùn)行。在強(qiáng)化學(xué)習(xí)理論中,你想根據(jù)一個特定的指標(biāo)來改善一個代理的行為。為了改進(jìn)這個度量,代理可以與環(huán)境交互,從中收集觀察結(jié)果和獎勵。可以用兩種不同的方式進(jìn)行改進(jìn): 論政策 和 非保險單 。
在政策性案例中,必須通過代理人與環(huán)境的直接互動來實(shí)現(xiàn)改進(jìn)。這種改進(jìn)在數(shù)學(xué)上很簡單,但由于不允許重復(fù)使用樣本,因此阻礙了樣本效率。當(dāng)代理行為得到改善時,代理必須與環(huán)境重新交互以生成新的 on 策略樣本。例如,在學(xué)習(xí)的早期階段, agentMIG 不適合與物理環(huán)境直接交互,因?yàn)樗男袨槭请S機(jī)的。在模擬任務(wù)中,樣本的可用性是無限的,有害行為的應(yīng)用沒有危險。然而,對于實(shí)際應(yīng)用,這些問題是嚴(yán)重的。
在關(guān)閉策略的情況下,可以通過與其他代理完成的環(huán)境的交互來改進(jìn)代理的行為。這允許樣本重用和更安全的交互,因?yàn)榕c環(huán)境交互的代理可以是專家。例如,人類可以通過移動機(jī)械臂來采集樣本。
政策外改善的缺點(diǎn)是難以獲得可靠的估計(jì)。在目前的技術(shù)狀況下,所提出的技術(shù)要么具有高偏差,要么具有高方差。此外,有些技術(shù)對必須如何與環(huán)境進(jìn)行交互有著具體而強(qiáng)烈的要求。
在這篇文章中,我討論了非參數(shù)非政策梯度( NOPG ),它具有更好的偏差方差權(quán)衡,并且對如何生成非政策樣本沒有什么要求。 NOPG 是由 Darmstadt 的智能自治系統(tǒng)實(shí)驗(yàn)室開發(fā)的,已經(jīng)被證明可以有效地解決一些經(jīng)典的控制問題,并克服了目前最先進(jìn)的非策略梯度估計(jì)中存在的一些問題。有關(guān)詳細(xì)信息,請參見 非參數(shù)的政策外政策梯度 。
強(qiáng)化學(xué)習(xí)與政策外梯度
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個子領(lǐng)域,其中一個代理(我在這篇文章中稱之為策略)與環(huán)境交互并觀察環(huán)境的狀態(tài)和獎勵信號。代理人的目標(biāo)是使累計(jì)折扣報酬最大化,如下式所示:
代理通常由一組參數(shù)來參數(shù)化使得它能夠利用梯度優(yōu)化使強(qiáng)化學(xué)習(xí)目標(biāo)最大化。坡度關(guān)于策略參數(shù)通常是未知的,并且很難以分析形式獲得。因此,你不得不用樣本來近似它。利用非策略樣本估計(jì)梯度主要有兩種方法:半梯度法和重要性抽樣法。
半梯度
這些方法在梯度展開中減少了一個項(xiàng),這導(dǎo)致了估計(jì)量的偏差。理論上,這個偏差項(xiàng)仍然足夠低,足以保證梯度收斂到正確的解。然而,當(dāng)引入其他近似源(例如有限樣本或臨界近似)時,不能保證收斂到最優(yōu)策略。在實(shí)踐中,經(jīng)常會觀察到性能不佳。
重要性抽樣
這些方法都是基于重要性抽樣校正的。這種估計(jì)通常會受到高方差的影響,并且這種方差在強(qiáng)化學(xué)習(xí)環(huán)境中會被放大,因?yàn)樗鼤S著情節(jié)的長度而倍增。涉及重要性抽樣的技術(shù)需要已知的隨機(jī)策略和基于軌跡的數(shù)據(jù)(與環(huán)境的順序交互)。因此,在這種情況下,不允許不完整的數(shù)據(jù)或基于人的交互。
非參數(shù)非政策梯度估計(jì)
強(qiáng)化學(xué)習(xí)理論的一個重要組成部分是 Bellman 方程。 Bellman 方程遞歸地定義了以下值函數(shù):
求梯度的一種方法是用非參數(shù)技術(shù)近似 Bellman 方程,并進(jìn)行解析求解。具體來說,可以構(gòu)造一個非參數(shù)的報酬函數(shù)和轉(zhuǎn)移函數(shù)模型。
通過增加采樣數(shù)和減少內(nèi)核帶寬,您將向右收斂到無偏解。更準(zhǔn)確地說,當(dāng)方差縮小到零時,這個估計(jì)量是一致的。
非參數(shù) Bellman 方程的求解涉及到一組線性方程組的求解,該方程組可以通過矩陣反演或共軛梯度等近似迭代方法獲得。這兩種方法都是重線性代數(shù)運(yùn)算,因此適合與 GPUs 并行計(jì)算。
求解非參數(shù) Bellman 方程后,梯度的計(jì)算變得非常簡單,可以使用自動微分工具,如 TensorFlow 或 PyTorch 來獲得。這些工具具有易于使用的 GPU 支持,與以前僅使用 CPU 的實(shí)現(xiàn)相比,這些工具已經(jīng)被證明實(shí)現(xiàn)了相當(dāng)大的加速。
特別是, IASL 團(tuán)隊(duì)在配備了四個 NVIDIA V100 GPUs 的 NVIDIA DGX 站 上測試了 TensorFlow 和 PyTorch 兩種算法。由于 NVIDIA DGX 站提供的 20 個 NVIDIA 核有助于利用多處理技術(shù)進(jìn)行多次評估,因此該機(jī)器非常適合于實(shí)證評估。有關(guān)實(shí)現(xiàn)代碼的更多信息,請參見 非參數(shù)政策外政策梯度 。
實(shí)證分析
為了評估 NOPG 相對于經(jīng)典的非政策梯度方法的性能,例如深度確定性策略梯度,或具有重要抽樣校正的 G-POMDP ,團(tuán)隊(duì)選擇了一些經(jīng)典的低維控制任務(wù):
線性二次型調(diào)節(jié)器
OpenAI 健身房秋千
手推車和電桿( Quanser 平臺)
OpenAI 健身山地車
我的團(tuán)隊(duì)的分析表明,與最先進(jìn)的技術(shù)相比,這種方法更具優(yōu)勢。在表示為 NOPG-S 和 NOPG-D 的圖中,我們分別展示了隨機(jī)策略和確定性策略的算法:
PWIS (路徑重要性抽樣)
DPG ( deterministicpolicy gradient ),一種半梯度方法
DDPG ( deep deterministicy policy gradient ),在其經(jīng)典的在線和離線模式下
該團(tuán)隊(duì)使用 OpenAI 基線 對在線版本的 DDPG 進(jìn)行編碼。
坡度的質(zhì)量
圖 1 LQR 任務(wù)中的梯度方向。與 DPG 技術(shù)相比,方差是有利的。
圖 1 描述了參數(shù)空間中的漸變方向。真梯度( TG )是理想的梯度方向。當(dāng) PWIS 的方差較大時, DPG 表現(xiàn)出較大的偏差,兩種方法都無法優(yōu)化策略。相反,這種同時具有隨機(jī)和確定性策略的方法顯示出更好的偏差/方差權(quán)衡,并允許更好和一致的策略改進(jìn)。
學(xué)習(xí)曲線
圖 2 該算法( NOPG-D , NOPG-S )比其他基線具有更好的采樣效率。在實(shí)際系統(tǒng)上,驗(yàn)證了所學(xué)習(xí)策略對車輛穩(wěn)定性的有效性。
圖 2 描述了算法關(guān)于一些經(jīng)典基線的學(xué)習(xí)曲線。該算法使用較少的樣本,取得了較好的效果。 cartpole 的最終策略已經(jīng)在一個真實(shí)的 cartpole 上進(jìn)行了測試,如右圖所示。
從人類示范中學(xué)習(xí)
該算法可以處理基于人類的數(shù)據(jù),而重要性抽樣技術(shù)并不直接適用。在這個實(shí)驗(yàn)中,研究小組提供了次優(yōu)的,人類演示的山地車任務(wù)軌跡。
圖3 在左邊,提供了關(guān)于演示次數(shù)的算法學(xué)習(xí)曲線。該圖附有 95% 的置信區(qū)間。右邊是一個人類演示和隨后的政策在空間狀態(tài)下的表現(xiàn)的例子。
左邊的圖 3 顯示, NOPG 可以在只有兩個次優(yōu)的演示或軌跡的情況下獲得一個有效的策略。然而,更大的數(shù)字有助于它學(xué)習(xí)稍微好一點(diǎn)的政策。右邊是一個人類演示的例子(橙色)和策略優(yōu)化的結(jié)果(綠色)。人體在位置和速度空間的演示是次優(yōu)的,因?yàn)樗枰嗟牟襟E來達(dá)到目標(biāo)位置。即使人類的演示是次優(yōu)的,算法也能找到一個接近最優(yōu)的策略。
今后的工作
博世人工智能中心 的一個應(yīng)用是節(jié)流閥控制器。節(jié)流閥是用來調(diào)節(jié)流體或氣體流量的技術(shù)裝置。由于其復(fù)雜的動力學(xué)和物理約束,該裝置的控制具有挑戰(zhàn)性。
由于參數(shù)設(shè)置困難,設(shè)計(jì)最先進(jìn)的控制器(如 PID 控制器)非常耗時。強(qiáng)化學(xué)習(xí)似乎特別適合這種應(yīng)用。然而,政策外數(shù)據(jù)的可用性加上系統(tǒng)的低維性(系統(tǒng)可以用襟翼的角度和角速度來描述),使得它特別適合于 NOPG 方法。
結(jié)論
在這篇文章中,您研究了非政策梯度估計(jì)的問題。最先進(jìn)的技術(shù),如半梯度法和重要性抽樣法,往往不能提供一個可靠的估計(jì)。我討論了 NOPG ,它是在達(dá)姆施塔特的 智能自治系統(tǒng)( IAS ) 實(shí)驗(yàn)室開發(fā)的。
在經(jīng)典和低維任務(wù)(如 LQR 、擺起擺錘和 cartopole )上, NOPG 方法是樣本有效的,與基線相比安全(也就是說,它可以向人類專家學(xué)習(xí))。雖然重要性抽樣不適用,但該方法也能從次優(yōu)的人類演示數(shù)據(jù)中學(xué)習(xí)。然而,由于非參數(shù)方法不適用于高維問題,該算法僅限于低維任務(wù)。您可以研究深度學(xué)習(xí)技術(shù)的適用性,以允許降維,以及 Bellman 方程的不同近似值的使用,從而克服非參數(shù)技術(shù)的問題。
關(guān)于作者
Samuele Tosatto 是達(dá)姆施塔特理工大學(xué)的博士生。他的主要研究方向是將強(qiáng)化學(xué)習(xí)應(yīng)用于現(xiàn)實(shí)世界的機(jī)器人技術(shù)。他認(rèn)為,獲得更有效的學(xué)習(xí)算法對于縮短強(qiáng)化學(xué)習(xí)與實(shí)際機(jī)器人技術(shù)之間的差距至關(guān)重要。
審核編輯:郭婷
-
控制器
+關(guān)注
關(guān)注
114文章
17088瀏覽量
184077 -
機(jī)器人
+關(guān)注
關(guān)注
213文章
29706瀏覽量
212689 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5560瀏覽量
122763
發(fā)布評論請先 登錄
18個常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實(shí)現(xiàn)

嵌入式AI技術(shù)之深度學(xué)習(xí):數(shù)據(jù)樣本預(yù)處理過程中使用合適的特征變換對深度學(xué)習(xí)的意義
詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

高強(qiáng)度鋼點(diǎn)焊技術(shù)研究進(jìn)展與應(yīng)用前景

數(shù)字化轉(zhuǎn)型背景下的設(shè)備管理系統(tǒng)進(jìn)化論

如何提高SMT生產(chǎn)效率
如何提高半導(dǎo)體設(shè)備防震基座的制造效率?

評論