多Agent 深度強(qiáng)化學(xué)習(xí)綜述
來源:《自動(dòng)化學(xué)報(bào)》,作者梁星星等
摘 要?近年來,深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning,DRL) 在諸多復(fù)雜序貫決策問題中取得巨大突破.由于融合了深度學(xué)習(xí)強(qiáng)大的表征能力和強(qiáng)化學(xué)習(xí)有效的策略搜索能力,深度強(qiáng)化學(xué)習(xí)已經(jīng)成為實(shí)現(xiàn)人工智能頗有前景的學(xué)習(xí)范式.然而,深度強(qiáng)化學(xué)習(xí)在多Agent 系統(tǒng)的研究與應(yīng)用中,仍存在諸多困難和挑戰(zhàn),以StarCraft II 為代表的部分觀測(cè)環(huán)境下的多Agent學(xué)習(xí)仍然很難達(dá)到理想效果.本文簡(jiǎn)要介紹了深度Q 網(wǎng)絡(luò)、深度策略梯度算法等為代表的深度強(qiáng)化學(xué)習(xí)算法和相關(guān)技術(shù).同時(shí),從多Agent 深度強(qiáng)化學(xué)習(xí)中通信過程的角度對(duì)現(xiàn)有的多Agent 深度強(qiáng)化學(xué)習(xí)算法進(jìn)行歸納,將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3 種主流形式.從訓(xùn)練架構(gòu)、樣本增強(qiáng)、魯棒性以及對(duì)手建模等方面探討了多Agent 深度強(qiáng)化學(xué)習(xí)中的一些關(guān)鍵問題,并分析了多Agent 深度強(qiáng)化學(xué)習(xí)的研究熱點(diǎn)和發(fā)展前景.
關(guān)鍵詞?多Agent 系統(tǒng),深度學(xué)習(xí),深度強(qiáng)化學(xué)習(xí),通用人工智能
強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL) 是機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域,學(xué)習(xí)如何將場(chǎng)景(環(huán)境狀態(tài))映射到動(dòng)作的策略,以獲取能夠反映任務(wù)目標(biāo)的最大數(shù)值型獎(jiǎng)賞信號(hào),即在給定的環(huán)境狀態(tài)下,決策選擇何種動(dòng)作去改變環(huán)境,使得獲得的收益最大[1].同監(jiān)督式的機(jī)器學(xué)習(xí)過程不同,在強(qiáng)化學(xué)習(xí)過程中Agent1不被告知應(yīng)該采用哪個(gè)動(dòng)作,而是通過不斷與環(huán)境交互,從而試錯(cuò)學(xué)習(xí)到當(dāng)前任務(wù)最優(yōu)或較優(yōu)的策略.這一學(xué)習(xí)范式能夠有效地解決在自然科學(xué)、社會(huì)科學(xué)以及工程應(yīng)用等領(lǐng)域中存在的序貫決策問題.在強(qiáng)化學(xué)習(xí)的發(fā)展歷史中,強(qiáng)化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的結(jié)合已有較長(zhǎng)的歷史[2],但是在復(fù)雜序列決策問題中始終沒有顯著的突破.然而,隨著深度學(xué)習(xí)(Deep learning,DL) 在復(fù)雜數(shù)據(jù)驅(qū)動(dòng)任務(wù)中展現(xiàn)出的卓越性能[3-4],一種融合了深度學(xué)習(xí)強(qiáng)大的特征表示能力和強(qiáng)化學(xué)習(xí)高效策略搜索能力的學(xué)習(xí)范式-深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning,DRL) 逐漸引起學(xué)者的廣泛關(guān)注,DRL 是將DL 引入到RL,將深度神經(jīng)網(wǎng)絡(luò)引入到RL 的值函數(shù)、策略函數(shù)或者環(huán)境模型的參數(shù)估計(jì)中.DRL 在游戲、機(jī)器人、自然語(yǔ)言處理等問題中,取得了令人矚目的成果[5-12].AlphaGo 的主要貢獻(xiàn)者David Silver 更是將現(xiàn)代人工智能定義為RL+DL[13],即DRL 才是人工智能的理想范式[14].趙冬斌等[7]?認(rèn)為人工智能將會(huì)是各國(guó)競(jìng)相爭(zhēng)奪的下一科技高地.
伴隨著DRL 在一些復(fù)雜單Agent 任務(wù)中的有效應(yīng)用,人們又將DRL 的研究成果轉(zhuǎn)移到了多Agent 系統(tǒng)(Multi-agent system,MAS) 的應(yīng)用中,以期獲得同樣的突破.MAS 由一組利用傳感器感知共享環(huán)境的自治、交互的Agent 組成,每個(gè)Agent獨(dú)立地感知環(huán)境,根據(jù)個(gè)人目標(biāo)采取行動(dòng),進(jìn)而改變環(huán)境[15].在現(xiàn)實(shí)世界中,存在許多MAS 的實(shí)例,例如資源調(diào)度管理[16]、擁塞處理[17-19]、通信傳輸[20]、自動(dòng)駕駛[21]、集群規(guī)劃[22-25]?等.
多Agent DRL (Multi-agent DRL,MADRL)是DRL 在MAS 中應(yīng)用的研究分支,理論基礎(chǔ)源于DRL.雖然將DRL 應(yīng)用于MAS 中有著許多研究,但據(jù)我們所知,尚沒有關(guān)于多Agent DRL 研究的綜述性報(bào)告,趙冬斌等[7]?對(duì)DRL 以及圍棋的發(fā)展進(jìn)行了綜述,但其出發(fā)點(diǎn)、綜述角度以及內(nèi)容安排與本文有較大不同,如表1 所示.本文在對(duì)近些年國(guó)內(nèi)外的研究現(xiàn)狀進(jìn)行分析與研究后,從MADRL 設(shè)計(jì)與實(shí)踐的角度出發(fā),對(duì)這一領(lǐng)域進(jìn)行歸納總結(jié).
本文首先對(duì)DRL 進(jìn)行基本的介紹,從策略表現(xiàn)的角度對(duì)當(dāng)前DRL 的兩個(gè)主要方向,即深度Q 網(wǎng)絡(luò)和深度策略梯度的發(fā)展進(jìn)行了描述.在第2 節(jié),我們首先分析了DRL 與MAS 的關(guān)系,描述了DRL與MAS 結(jié)合的優(yōu)勢(shì)與挑戰(zhàn); 同時(shí)我們利用部分可觀測(cè)的馬爾科夫決策過程對(duì)MADRL 問題進(jìn)行了模型設(shè)計(jì),用以表達(dá)MAS 的數(shù)學(xué)過程; 之后,根據(jù)當(dāng)前DRL 的實(shí)現(xiàn)結(jié)構(gòu)以及多Agent 在DRL 實(shí)現(xiàn)中通信過程的發(fā)生階段,將現(xiàn)有MADRL 劃分為全通信集中決策、全通信自主決策以及欠通信自主決策等三類,對(duì)每類決策架構(gòu)的當(dāng)前研究現(xiàn)狀進(jìn)行討論分析,對(duì)面向多Agent 學(xué)習(xí)的開放訓(xùn)練平臺(tái)進(jìn)行介紹; 在第3 節(jié),針對(duì)現(xiàn)有MADRL 仍面臨的一些關(guān)鍵問題,從MADRL 的學(xué)習(xí)訓(xùn)練框架、樣本增強(qiáng)、魯棒性研究以及對(duì)手建模等方面進(jìn)行研究,提出了當(dāng)前MADRL 可能發(fā)展的方向; 在第4 節(jié),對(duì)全文進(jìn)行總結(jié).
1 深度強(qiáng)化學(xué)習(xí)簡(jiǎn)介
深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)框架是20 世紀(jì)90 年代提出的強(qiáng)化學(xué)習(xí),由強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)結(jié)合發(fā)展而來,是機(jī)器學(xué)習(xí)的重要分支.在這一學(xué)習(xí)范式中,Agent 通過與環(huán)境的交互,不斷調(diào)整策略,進(jìn)而實(shí)現(xiàn)最大化累計(jì)獎(jiǎng)賞值的目標(biāo).強(qiáng)化學(xué)習(xí)利用馬爾科夫決策過程(Markov decision process,MDP) 對(duì)序貫決策問題進(jìn)行數(shù)學(xué)定義.
定義1 (馬爾科夫決策過程).?MDP 由一個(gè)五元組〈S,A,R,T,γ〉?定義,其中,S?表示由有限狀態(tài)集合組成的環(huán)境;A?表示可采取的一組有限動(dòng)作集;狀態(tài)轉(zhuǎn)移函數(shù)T?:S×A →Δ(S) 表示將某一狀態(tài)-動(dòng)作對(duì)映射到可能的后繼狀態(tài)的概率分布,Δ(S) 表示狀態(tài)全集的概率分布,對(duì)于狀態(tài)s,s′∈S?以及a∈A,函數(shù)T?確定了采取動(dòng)作a?后,環(huán)境由狀態(tài)s?轉(zhuǎn)移到狀態(tài)s′?的概率; 獎(jiǎng)賞函數(shù)R(s,a,s′) 定義了狀態(tài)轉(zhuǎn)移獲得的立即獎(jiǎng)賞;γ?是折扣因子,代表長(zhǎng)期獎(jiǎng)賞與立即獎(jiǎng)賞之間的權(quán)衡.
表1 與已發(fā)表相關(guān)論文的研究異同
Table 1 Research′s similarities and differences
與一般的MDP 不同,面向強(qiáng)化學(xué)習(xí)的MDP中包含感知函數(shù)Z?:s →z,如圖1 所示.在完全觀測(cè)環(huán)境下,Agent 獲取完全真實(shí)的環(huán)境狀態(tài),即z=s?(在對(duì)單Agent 討論時(shí),真實(shí)觀測(cè)和真實(shí)狀態(tài)通常不予區(qū)分).在學(xué)習(xí)過程中,RL 中的Agent在多個(gè)離散時(shí)間步同環(huán)境進(jìn)行交互,在時(shí)間步t,Agent 從環(huán)境中接收狀態(tài)空間S?中的狀態(tài)st,根據(jù)策略π(at|st),從可選動(dòng)作空間A?中選擇動(dòng)作at執(zhí)行,作用于環(huán)境,環(huán)境根據(jù)自身動(dòng)態(tài)性(獎(jiǎng)賞函數(shù)R(s,a,s′) 和狀態(tài)轉(zhuǎn)移函數(shù)T=P(st+1|st,at)),轉(zhuǎn)移到下一狀態(tài)st+1,并返回一個(gè)標(biāo)量的獎(jiǎng)賞值rt+1(獎(jiǎng)賞值是針對(duì)下一時(shí)刻的獎(jiǎng)賞,因而下標(biāo)是t+1).當(dāng)環(huán)境所處的狀態(tài)為終止?fàn)顟B(tài)或交互達(dá)到最大時(shí)間步,一次試驗(yàn)結(jié)束,進(jìn)入下一次試驗(yàn).返回值Rt=
是一個(gè)帶折扣γ ∈(0,1]的累計(jì)獎(jiǎng)賞值.Agent 的目標(biāo)是最大化每個(gè)狀態(tài)值的累積獎(jiǎng)賞期望值,即
圖1 MDP 示意圖
Fig.1 Diagram of MDP
經(jīng)典的強(qiáng)化學(xué)習(xí)策略學(xué)習(xí)方法包括了表格法(Tabular solution methods) 和近似法(Approximate solution methods).當(dāng)求解問題的狀態(tài)空間和動(dòng)作空間規(guī)模較小時(shí),往往采用基于表格法的強(qiáng)化學(xué)習(xí).表格法將全部的狀態(tài)值V(s) 或者狀態(tài)-動(dòng)作值Q(s,a) 存入到一個(gè)帶索引的表格中,決策時(shí)按指定索引查詢狀態(tài)或狀態(tài)-動(dòng)作值,并根據(jù)貪婪原則選擇動(dòng)作.在更新過程中,依據(jù)一次試驗(yàn)的結(jié)果,按索引對(duì)參與的狀態(tài)/狀態(tài)-動(dòng)作值以及相關(guān)的狀態(tài)-動(dòng)作值進(jìn)行更新.在現(xiàn)實(shí)世界中,我們以期解決的問題的狀態(tài)/動(dòng)作空間是連續(xù)且龐大的[1].在這種情況下,表格法由于容量有限,很難對(duì)所有值進(jìn)行存儲(chǔ),因而在實(shí)際操作中應(yīng)用范圍較窄,難以進(jìn)行擴(kuò)展.為了降低計(jì)算資源和存儲(chǔ)資源的開銷以及提高決策效率,我們需要通過近似的方法對(duì)狀態(tài)/狀態(tài)-動(dòng)作值進(jìn)行估計(jì).這類算法的應(yīng)用場(chǎng)景更為廣泛,是當(dāng)前強(qiáng)化學(xué)習(xí)研究的主要趨勢(shì).在近似法強(qiáng)化學(xué)習(xí)中,根據(jù)學(xué)習(xí)目的以及選擇動(dòng)作的依據(jù),即是否利用狀態(tài)值/狀態(tài)-動(dòng)作值函數(shù)的策略貪婪地選擇動(dòng)作,分為兩類:函數(shù)近似方法和策略梯度方法.在文獻(xiàn)[7] 中的第2 節(jié)中,對(duì)上述方法進(jìn)行了概述,本文不再贅述.
與基本的強(qiáng)化學(xué)習(xí)方法相比,DRL 將深度神經(jīng)網(wǎng)絡(luò)作為函數(shù)近似和策略梯度的近似函數(shù).雖然使用深度神經(jīng)網(wǎng)絡(luò)解決強(qiáng)化學(xué)習(xí)問題缺乏較好的理論保證,但深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大表現(xiàn)力使得DRL 的結(jié)果遠(yuǎn)超預(yù)期.在DRL 中,DL 同函數(shù)近似結(jié)合發(fā)展成為了深度Q 學(xué)習(xí),而策略梯度則發(fā)展為深度策略梯度.
1.1 深度Q 學(xué)習(xí)及其發(fā)展
在深度Q 網(wǎng)絡(luò)(Deep Q-network,DQN)[6,26]提出之前,強(qiáng)化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)(Neural network,NN) 的結(jié)合遭受著不穩(wěn)定和發(fā)散等問題的困擾.DQN 做了3 處改進(jìn),使用經(jīng)歷重放和目標(biāo)網(wǎng)絡(luò)穩(wěn)定基于DL 的近似動(dòng)作值函數(shù); 使用端到端方法,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN) 將原始圖片和游戲得分作為輸入,使模型僅需較少的領(lǐng)域知識(shí); 訓(xùn)練了可變的網(wǎng)絡(luò),其結(jié)果在多個(gè)任務(wù)中表現(xiàn)良好,超越人類專業(yè)玩家[14],如圖2所示,利用最近的4 幀視頻圖片作為狀態(tài)的描述,通過兩層卷積層,一層全連接層輸出Agent 可選動(dòng)作的值估計(jì),采用ε?貪婪選擇執(zhí)行動(dòng)作.DQN 的網(wǎng)絡(luò)參數(shù)更新方式為
其中,Q(st,at;θt) 表示t?時(shí)刻,狀態(tài)-動(dòng)作值估計(jì);
rt+1+γmaxaQ(st+1,a;θ-) 是作為臨時(shí)的目標(biāo)Q 值,用于穩(wěn)定神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),θ-?表示目標(biāo)網(wǎng)絡(luò)的參數(shù),γ?表示獎(jiǎng)賞的折扣率;θt?表示正在同環(huán)境交互的網(wǎng)絡(luò)的參數(shù),α?表示神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率.
標(biāo)準(zhǔn)Q 學(xué)習(xí)利用max 操作符使得目標(biāo)值過高估計(jì),Van Hasselt 等[27]?提出了Double DQN 用于平衡值估計(jì).在利用時(shí)序差分(Temporal difference,TD) 算法對(duì)目標(biāo)Q 值進(jìn)行更新時(shí),后繼狀態(tài)的動(dòng)作選擇來自于當(dāng)前網(wǎng)絡(luò)Q,而評(píng)估則來自于目標(biāo)網(wǎng)絡(luò)
將式(1) 中的
替換為
圖2 DQN 架構(gòu)
Fig.2 Framework of DQN
為了消除強(qiáng)化學(xué)習(xí)轉(zhuǎn)移樣本間的相關(guān)性,DQN使用經(jīng)歷重放機(jī)制,即在線存儲(chǔ)和均勻采樣早期交互的經(jīng)歷對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練.然而均勻采樣方法忽略了經(jīng)歷的重要性,Schaul 等[28]?提出了優(yōu)先經(jīng)歷重放,利用TD error 對(duì)經(jīng)歷的重要性進(jìn)行衡量,對(duì)重要性靠前的經(jīng)歷重放多次,進(jìn)而提高學(xué)習(xí)效率.
此外,在DQN 的模型結(jié)構(gòu)方面,也有著較大的改進(jìn).Wang 等[29]?設(shè)計(jì)了競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)(Dueling network),在Q?網(wǎng)絡(luò)輸出層的前一隱藏層輸出兩個(gè)部分,一部分估計(jì)了狀態(tài)值函數(shù)V(s),另一部分估計(jì)了相關(guān)動(dòng)作的優(yōu)勢(shì)函數(shù)A(s,a),在輸出層將二者相加進(jìn)而估計(jì)動(dòng)作值函數(shù)Q(s,a)=V(s)+A(s,a).這一結(jié)構(gòu)使得Agent 在策略評(píng)估過程中能夠更快地做出正確的動(dòng)作.Hausknecht 等[30]?將循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN) 引入DQN中,提出了深度循環(huán)Q 網(wǎng)絡(luò)(Deep recurrent Qnetwork,DRQN) 模型,在部分可觀測(cè)的強(qiáng)化學(xué)習(xí)任務(wù)中,性能超越了標(biāo)準(zhǔn)DQN.Sorokin 等[31]?提出了基于軟硬注意力機(jī)制的DQN,使用深度注意力RNN 對(duì)同任務(wù)相關(guān)的單元進(jìn)行了重點(diǎn)關(guān)注.Hessel等[32]?對(duì)現(xiàn)有DRL 中的6 種擴(kuò)展DQN 算法進(jìn)行了比較,根據(jù)各改進(jìn)對(duì)性能提升的貢獻(xiàn),提出了集成多種最優(yōu)改進(jìn)的組合版Rainbow 算法.Srouji 等[33]提出結(jié)構(gòu)控制網(wǎng)絡(luò)(Structured control net,SCN),將深度神經(jīng)網(wǎng)絡(luò)分解成為兩部分:線性控制模塊和非線性控制模塊,然后分別對(duì)獲得的編碼進(jìn)行處理,并將結(jié)果進(jìn)行加和,非線性控制模塊進(jìn)行全局控制而線性模塊對(duì)其進(jìn)行補(bǔ)充.
1.2 深度策略梯度及其發(fā)展
策略是將狀態(tài)空間映射到動(dòng)作空間的函數(shù)或者分布,策略優(yōu)化的目標(biāo)是尋找最優(yōu)的策略映射.DQN 算法主要應(yīng)用于離散動(dòng)作的空間任務(wù),面對(duì)連續(xù)動(dòng)作空間的任務(wù),基于策略梯度的DRL 算法能獲得更好的決策效果.
連續(xù)動(dòng)作空間的策略梯度算法分為隨機(jī)策略梯度算法(Stochastic policy gradient,SPG)[1]?和深度確定策略梯度算法(Deep deterministic policy gradient,DDPG)[34-35]?.
SPG 假設(shè)在連續(xù)控制問題研究中,策略選擇具有隨機(jī)性,服從某種分布(如高斯分布),在策略執(zhí)行過程中依概率進(jìn)行動(dòng)作選擇.SPG 計(jì)算式為πθ(a|s)=P[a|s,θ],表示在狀態(tài)為s?時(shí),動(dòng)作符合參數(shù)為θ?的概率分布,如高斯分布πθ(a|s)=
表示Agent 采取的動(dòng)作服從均值為μ(s,θ)、方差為σ(s,θ)2?的正態(tài)分布.在SPG 算法中,即使在相同的狀態(tài),每次所采取的動(dòng)作也可能是不同的.該算法的梯度計(jì)算為
其中,τ?表示試驗(yàn)過程,τ={s0,a0,r1,s1,a1,r2,···,sT-1,aT-1,rT,sT}?表示一次試驗(yàn)過程中每個(gè)時(shí)間步經(jīng)歷的狀態(tài)、采取的動(dòng)作以及獲得的獎(jiǎng)賞;R(τ)=
為試驗(yàn)過程中初始狀態(tài)的累積獎(jiǎng)賞.
DDPG 算法則假設(shè)策略生成的動(dòng)作是確定的,策略梯度的求解不需要在動(dòng)作空間采樣積分.與SPG 的策略表現(xiàn)度量η(θ)=E[Rt] 不同,DDPG的策略表現(xiàn)度量為η(θ)=Q(s,a),如果策略是最優(yōu)的,則狀態(tài)-動(dòng)作值是最大的.DDPG 計(jì)算式為a=μθ(s),表示在狀態(tài)s?下動(dòng)作的取值.在相同策略(即函數(shù)參數(shù)相同) 的情況下,同一狀態(tài)下動(dòng)作的選擇是唯一的.DDPG 算法的梯度計(jì)算式為
通過Q 函數(shù)直接對(duì)策略進(jìn)行調(diào)整,向著梯度上升的方向?qū)Σ呗赃M(jìn)行更新.
廣義上,DDPG 算法是SPG 的特例,當(dāng)SPG算法中的方差σ →0 時(shí),SPG 將會(huì)收斂到DDPG.SPG 算法的輸入需要狀態(tài)和動(dòng)作,而DDPG 算法的輸入僅依靠狀態(tài)空間,且當(dāng)動(dòng)作空間維度較高時(shí),DDPG 算法的學(xué)習(xí)效率優(yōu)于SPG 算法.
與DQN 采用的經(jīng)歷重放機(jī)制不同,深度策略梯度采用異步優(yōu)勢(shì)Actor-critic (AC) 框架(Asynchronous advantage actor-critic,A3C)[36],如圖3所示.利用CPU 多線程的功能異步執(zhí)行多個(gè)仿真過程,這一并行訓(xùn)練方法打破了訓(xùn)練樣本間的相關(guān)性.相比于傳統(tǒng)AC 算法,基于多線程并行訓(xùn)練的A3C 算法,結(jié)合優(yōu)勢(shì)函數(shù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),大幅度提升AC 算法的學(xué)習(xí)效率.此外,A3C 使用經(jīng)過tmax步的多步獎(jiǎng)賞信號(hào)更新值函數(shù)網(wǎng)絡(luò)-Critic 網(wǎng)絡(luò),并利用優(yōu)勢(shì)函數(shù)對(duì)Actor 網(wǎng)絡(luò)進(jìn)行更新,降低了值函數(shù)估計(jì)和策略梯度的方差.在A3C 的結(jié)構(gòu)基礎(chǔ)上,Babaeizadeh 等[37]?提出了CPU 和GPU 混合架構(gòu)的GPU-A3C (GA3C),引入了隊(duì)列系統(tǒng)和動(dòng)態(tài)調(diào)度策略,有效利用了GPU 的計(jì)算能力,大幅提升了A3C 的訓(xùn)練速度.Jaderberg 等[38]?提出了無監(jiān)督強(qiáng)化輔助學(xué)習(xí)(Unsupervised reinforcement and auxiliary learning,UNREAL) 算法,在訓(xùn)練A3C的過程中,兼顧訓(xùn)練兩類輔助任務(wù)來對(duì)算法進(jìn)行改進(jìn),一類是包括像素控制和隱藏層激活控制的控制任務(wù),另一類是回饋預(yù)測(cè)任務(wù).Wang 等[39]?結(jié)合長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long short-term memory,LSTM),提出了在不同任務(wù)間具有良好的泛化能力的堆棧LSTM-A3C 算法.
圖3 A3C 框架
Fig.3 Framework of A3C
在非線性優(yōu)化問題中,梯度的求解相對(duì)容易,但合適的優(yōu)化步長(zhǎng)困擾著函數(shù)優(yōu)化的速率.早期強(qiáng)化學(xué)習(xí)研究設(shè)置步長(zhǎng)退火因子,隨著迭代次數(shù)的增加,逐步減小步長(zhǎng).在強(qiáng)化學(xué)習(xí)任務(wù)中,大多數(shù)的策略梯度算法難以選擇合適的梯度更新步長(zhǎng),使得NN 訓(xùn)練處于振蕩不穩(wěn)定的狀態(tài).Schulman等[40]?提出了可信域策略優(yōu)化(Trust region policy optimization,TRPO) 處理隨機(jī)策略的訓(xùn)練過程,在訓(xùn)練中定義了新策略與舊策略的KL 散度,要求狀態(tài)空間中的每個(gè)點(diǎn)的KL 散度有界限,即
KL[πθold(·|st),πθ(·|st)]]≤δ,得到了代理優(yōu)化目標(biāo)
利用非線性約束極值方法將代理優(yōu)化目標(biāo)轉(zhuǎn)化為
進(jìn)而保證策略優(yōu)化過程穩(wěn)定提升,同時(shí)證明了期望獎(jiǎng)賞呈單調(diào)性增長(zhǎng).在此基礎(chǔ)上,該團(tuán)隊(duì)繼續(xù)提出了基于優(yōu)勢(shì)函數(shù)加權(quán)估計(jì)的廣義優(yōu)勢(shì)估計(jì)方法(Generalized advantage estimation,GAE),用以減少策略梯度估計(jì)方差[18].ACKTR[41]?以Actorcritic 框架為基礎(chǔ),引入TRPO 使算法穩(wěn)定性得到保證,然后加上Kronecker 因子分解以提升樣本的利用效率并使模型的可擴(kuò)展性得到加強(qiáng),相比于TRPO 在數(shù)據(jù)利用率和訓(xùn)練魯棒性上都有所提升,訓(xùn)練效率更高.Wang 等[42]?汲取其他DRL 算法的優(yōu)勢(shì),提出了基于經(jīng)驗(yàn)回放的Actor-critic 算法(Actor-critic with experience replay,ACER),采用n-step 的TD 估計(jì),利用偏差修正的截?cái)嘀匾葯?quán)重,以及后驗(yàn)TRPO 對(duì)網(wǎng)絡(luò)參數(shù)更新,提升了算法性能.TRPO 算法使用二階優(yōu)化算法獲得海塞矩陣,計(jì)算較為復(fù)雜,Schulman 等[43]?進(jìn)一步提出了僅使用一階優(yōu)化的近端策略優(yōu)化(Proximal policy optimization,PPO) 算法,對(duì)代理目標(biāo)函數(shù)簡(jiǎn)單限定了約束,簡(jiǎn)化了實(shí)現(xiàn)和調(diào)參過程,性能上優(yōu)于現(xiàn)階段其他策略梯度算法,表現(xiàn)出了同TRPO 算法相當(dāng)?shù)姆€(wěn)定性和可靠性.
2 MADRL 研究
本節(jié)首先對(duì)DRL 同MAS 間的關(guān)系進(jìn)行討論,分析DRL 與MAS 結(jié)合帶來的優(yōu)勢(shì)以及挑戰(zhàn).之后,考慮到單Agent 強(qiáng)化學(xué)習(xí)算法中環(huán)境的馬爾科夫?qū)傩栽贛AS 中并不適用,標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)模型及算法無法刻畫出環(huán)境的動(dòng)態(tài)性,我們對(duì)多Agent 的環(huán)境動(dòng)態(tài)性以及學(xué)習(xí)過程進(jìn)行描述與定義.在這一模型的描述基礎(chǔ)上,我們根據(jù)DRL 中的神經(jīng)網(wǎng)絡(luò)內(nèi)部各Agent 的信息交互發(fā)生階段(對(duì)外則表現(xiàn)為決策架構(gòu)形式),對(duì)當(dāng)下的MADRL 進(jìn)行分類,對(duì)每一個(gè)類型的現(xiàn)有研究進(jìn)行分析.最后,為方便相關(guān)學(xué)者的研究,給出了現(xiàn)有公開可用的多Agent 實(shí)驗(yàn)平臺(tái)介紹.
2.1 DRL 與MAS 的關(guān)系
多Agent 任務(wù)的復(fù)雜性使得預(yù)置的Agent 策略難以適應(yīng)多變的環(huán)境,Agent 必須依靠自身學(xué)習(xí)去尋找解決方案,逐步提升Agent 或者整個(gè)多Agent系統(tǒng)的性能.RL 算法便于理解,操作簡(jiǎn)單,為Agent在線學(xué)習(xí)提供了一種便于接受的范式.在DRL 之前,將RL 應(yīng)用于MAS 系統(tǒng)已有諸多研究綜述.早在2005 年,Panait 等[44]?就對(duì)協(xié)作多Agent 學(xué)習(xí)算法進(jìn)行了廣泛的分析,并將其分為兩類:單個(gè)學(xué)習(xí)者(團(tuán)體學(xué)習(xí)) 和多個(gè)學(xué)習(xí)者(并發(fā)學(xué)習(xí)).Shoham等[45]?對(duì)多Agent 學(xué)習(xí)進(jìn)行了一般性綜述,提出了一些有趣的基礎(chǔ)問題,并指出了該領(lǐng)域發(fā)展的5 個(gè)分支.Tuyls 等[46]?呈現(xiàn)了關(guān)于人工智能(Artificial intelligence,AI) 問題的多Agent 學(xué)習(xí)鳥瞰圖,描述了領(lǐng)域內(nèi)所取得的里程碑成就,并給出了當(dāng)時(shí)的開放挑戰(zhàn).Matignon 等[47]?側(cè)重于協(xié)作隨機(jī)博弈的獨(dú)立強(qiáng)化學(xué)習(xí)算法的發(fā)展.Bu?soniu 等[48]?對(duì)多Agent強(qiáng)化學(xué)習(xí)進(jìn)行了全面的調(diào)查,他們提出了多Agent強(qiáng)化學(xué)習(xí)的算法分類和相關(guān)屬性.Crandall 等[49]?對(duì)兩人重復(fù)博弈的算法進(jìn)行了概述,指出了多Agent問題的3 個(gè)屬性:安全性、合作性和折衷性,他們認(rèn)為這些屬性在各種不同的游戲中扮演著非常重要角色.M¨uller 等[50]?提出了一個(gè)面向應(yīng)用的多Agent概述,重點(diǎn)研究了使用或基于MAS 的應(yīng)用程序.Weiss[51]?在其關(guān)于多Agent 系統(tǒng)專著的第10 章對(duì)多Agent 學(xué)習(xí)算法進(jìn)行了描述,并對(duì)這些算法進(jìn)行了分類.Bloembergen 等[52]?對(duì)演化博弈論的相關(guān)研究進(jìn)行了概述,分析了多Agent 學(xué)習(xí)與演化博弈論間的關(guān)系.Hernandez-Leal 等[53]?從處理MAS 非平穩(wěn)性問題的角度出發(fā),將現(xiàn)有方法分為忽略、遺忘、響應(yīng)目標(biāo)對(duì)手、學(xué)習(xí)對(duì)手模型以及心智理論等5類.但是這些研究難以處理高維連續(xù)狀態(tài)空間與連續(xù)動(dòng)作空間的環(huán)境,必須對(duì)環(huán)境特征進(jìn)行抽取與人為定義,多個(gè)模塊的聯(lián)合進(jìn)一步提升了MAS 的求解難度.而且上述綜述都是從多Agent 研究的某一角度出發(fā),研究較早,關(guān)注點(diǎn)停留在DRL 興起前的研究算法,沒有對(duì)DRL 崛起后的多Agent 系統(tǒng)進(jìn)行研究.DRL 提供了一種端到端(End to end) 的學(xué)習(xí)方式,這一學(xué)習(xí)方式結(jié)合了深度神經(jīng)網(wǎng)絡(luò)的高容量特性,RL 決策高維連續(xù)空間的能力以及現(xiàn)有的硬件計(jì)算能力,克服了早期MAS 將任務(wù)分解的學(xué)習(xí)方式,降低了任務(wù)的求解復(fù)雜度,大幅提高了決策的穩(wěn)定性,為解決MAS 提供了一種新的思路.
此外,DRL 和MAS 的特性在一些方面可以優(yōu)勢(shì)互補(bǔ).DRL 訓(xùn)練往往需要大量樣本進(jìn)行訓(xùn)練,而MAS 系統(tǒng)的天生并發(fā)性,使得多個(gè)Agent 可以并發(fā)產(chǎn)生大量樣本,大大提升了樣本數(shù)量,加速學(xué)習(xí)過程以及達(dá)到更好的學(xué)習(xí)效果; MAS 的這一并發(fā)性,又使得多Agent 在分散架構(gòu)下能夠充分使用并行計(jì)算,提升了DRL 的學(xué)習(xí)效率; 在MAS 中,新來的Agent 能夠接替早些時(shí)候的Agent,這使得MADRL 相對(duì)于single-agent DRL 具有更強(qiáng)的魯棒性.現(xiàn)有的MAS 難以處理高維連續(xù)的環(huán)境,而DRL 能夠處理高維度的輸入,學(xué)習(xí)控制復(fù)雜的動(dòng)作;神經(jīng)網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu),又可以解決MAS 中的通信問題,克服人為定義通信方式的不足問題.MAS 同DRL 的結(jié)合,在帶來上述好處的同時(shí),也遭受著自身的以及結(jié)合帶來的問題:隨著Agent 數(shù)量的增加,決策輸出的動(dòng)作維度越來越大,動(dòng)作空間呈現(xiàn)指數(shù)增長(zhǎng)的趨勢(shì); 相對(duì)于單個(gè)Agent,多Agent 任務(wù)更加難以制定學(xué)習(xí)目標(biāo),單個(gè)Agent 學(xué)習(xí)的結(jié)果受全體Agent 的影響; 多Agent 的同步學(xué)習(xí),使得環(huán)境產(chǎn)生了非平穩(wěn)性,打破了DRL 學(xué)習(xí)的基本前提; 多Agent 中的探索,更容易使得策略的學(xué)習(xí)陷入惡性循環(huán),難以獲得良好的策略.
2.2 多Agent 學(xué)習(xí)模型
多Agent 集中決策過程獲取全局觀測(cè)并輸出全局聯(lián)合動(dòng)作的方式滿足MDP 屬性,同單Agent 的強(qiáng)化學(xué)習(xí)方法決策過程類似,可以應(yīng)用面向強(qiáng)化學(xué)習(xí)的MDP 對(duì)其進(jìn)行建模,在本節(jié)對(duì)這一數(shù)學(xué)過程進(jìn)行了描述,但這一方式在MAS 中應(yīng)用有許多缺點(diǎn),在第2.6 節(jié)中將進(jìn)行討論.多Agent 自主決策過程可以使用隨機(jī)博弈理論進(jìn)行描述,正則形式的博弈是MDP 在多Agent 的環(huán)境中的泛化形式,定義如下.
定義2 (正則形式的博弈,Normalform game).?有限參與者的正則形式的博弈由三元組〈N,A,u〉?組成,其中N?表示I?個(gè)Agent 的有限集合,i?表示Agent 的索引;A=A1×···×AI,其中,Ai?表示單個(gè)Agent 的有限動(dòng)作集合,向量a=(a1,···,aI)∈A?表示所有Agent 的一次動(dòng)作集合;u=(u1,···,uI),ui?:
表示單個(gè)Agent 的真實(shí)效用或者收益函數(shù).
正則形式的博弈描述了多Agent 的一次決策過程,但沒有對(duì)環(huán)境狀態(tài)進(jìn)行明確定義,不能夠描述多Agent 的環(huán)境特征以及動(dòng)態(tài)變化特性,如StarCraft II,自動(dòng)駕駛,多Agent 對(duì)抗等非平穩(wěn)的、不完全的、部分可觀測(cè)的環(huán)境特性.在現(xiàn)有強(qiáng)化學(xué)習(xí)以及隨機(jī)博弈理論的啟發(fā)下,自主決策的多Agent 決策過程可以建模為部分可觀測(cè)的MDP,定義如下(過程如圖4 所示).
定義3 (部分可觀測(cè)馬爾科夫決策過程,Partially observable MDP,POMDP).?面向多Agent 的POMDP 可由八元組G=〈N,S,A,R,T,γ,Z,O〉?定義.在POMDPG?中,N?表示參與決策Agent 的集合,i ∈N ≡{1,···,n}?表示單個(gè)Agent;s ∈S?表示環(huán)境的真實(shí)狀態(tài);aaa ∈AAA ≡An?表示參與決策的Agent 的動(dòng)作集合,ai∈Ai?表示單個(gè)Agent 執(zhí)行的動(dòng)作;T?:S×A×S →[0,1] 表示環(huán)境狀態(tài)轉(zhuǎn)移函數(shù),在狀態(tài)s?下,執(zhí)行聯(lián)合動(dòng)作a,轉(zhuǎn)移到狀態(tài)s′?的概率,即P(s′|s,a); 多Agent 獎(jiǎng)賞函數(shù)R:S×A×S →R,在狀態(tài)s?下,執(zhí)行聯(lián)合動(dòng)作a,轉(zhuǎn)移到狀態(tài)s′?獲得的立即獎(jiǎng)賞r(s,a,s′);z ∈Z≡Zn?表示Agent 對(duì)環(huán)境的部分帶噪聲(不完全信息) 觀測(cè),zi∈Zi?是單個(gè)Agent 對(duì)環(huán)境的觀測(cè);O?:S × N →Z 表示環(huán)境狀態(tài)s?下,單個(gè)Agent 的觀測(cè)狀態(tài)函數(shù)O(s,i)=zi;γ?是折扣因子,代表長(zhǎng)期獎(jiǎng)賞與立即獎(jiǎng)賞之間的權(quán)衡.
在多Agent 環(huán)境中,Agent 利用自身的動(dòng)作-觀測(cè)歷史τi∈Ti=(Zi×Ai)*?以及當(dāng)前時(shí)間步的觀測(cè)zi,決策Agent 采取動(dòng)作ai?的概率πi(ai|τi,zi) :Ti×Ui→[0,1],執(zhí)行后將該動(dòng)作-觀測(cè)添加到歷史存儲(chǔ)中τi←τi×(zi,ai).
在POMDP 中,單個(gè)Agent 的狀態(tài)-動(dòng)作值函數(shù)Q(zi,ai) 的貝爾曼方程表示為
a-i?表示狀態(tài)s?下,除Agenti?外的Agent 動(dòng)作集合;p(s|zi) 表示Agent 當(dāng)前局部觀測(cè)對(duì)應(yīng)的全局狀態(tài)的映射關(guān)系;π-i(a-i|τ-i,z-i))) 表示對(duì)手Agent 在該全局狀態(tài)下的聯(lián)合動(dòng)作概率;P(s′|s,a)表示全局狀態(tài)和聯(lián)合動(dòng)作到下一狀態(tài)的轉(zhuǎn)移函數(shù);r(s,a,s′) 表示該全局轉(zhuǎn)移下獲得的全局獎(jiǎng)賞;
表示該后繼狀態(tài)下對(duì)手Agent 的聯(lián)合觀測(cè)概率;
表示該后繼狀態(tài)與對(duì)手聯(lián)合觀測(cè)下,Agent 局部觀測(cè)狀態(tài)的概率.
圖4 面向多Agent 的POMDP Fig.4 Multi-agent-oriented POMDP
2.3 MADRL 分類
針對(duì)目前DRL 在多Agent 學(xué)習(xí)的最新研究進(jìn)展,根據(jù)DRL 中的神經(jīng)網(wǎng)絡(luò)內(nèi)部各Agent 的信息交互發(fā)生階段,本文將現(xiàn)有MADRL 算法分為以下3 類:
1) 全通信集中決策架構(gòu).該決策架構(gòu)中,多Agent 間的通信過程發(fā)生在神經(jīng)網(wǎng)絡(luò)內(nèi)部,多Agent通過自我學(xué)習(xí)通信協(xié)議,決策單元接收各Agent 處理后的局部觀測(cè)信息,對(duì)觀測(cè)信息進(jìn)行融合,獲得全局信息表征,進(jìn)而集中決策產(chǎn)生聯(lián)合動(dòng)作,以通信的方式指導(dǎo)單Agent 的動(dòng)作,如圖5(a) 所示.全通信集中決策架構(gòu)通過信息融合,感知全局信息,降低了環(huán)境噪聲帶來的信息損失,此外,通過集中決策方式,有力地對(duì)單Agent 的動(dòng)作進(jìn)行了協(xié)調(diào),使得多Agent 能夠按照一致的目標(biāo)開展行動(dòng).但這一架構(gòu)對(duì)系統(tǒng)的時(shí)效性要求較高,并對(duì)通信系統(tǒng)有很大的依賴,適用于通信時(shí)效性要求較低的強(qiáng)化學(xué)習(xí)場(chǎng)景或一臺(tái)PC 對(duì)多個(gè)Agent 控制的任務(wù).
2) 全通信自主決策架構(gòu).該決策架構(gòu)中,多Agent 間的通信過程發(fā)生在神經(jīng)網(wǎng)絡(luò)之前,單個(gè)Agent 利用自組網(wǎng)通信拓?fù)?接收對(duì)手2?Agent 的局部觀測(cè)信息以及歷史動(dòng)作,采用嵌入式的方法對(duì)接收信息進(jìn)行融合,并結(jié)合自身的觀測(cè)信息(以及對(duì)對(duì)手的推斷信息) 自主決策,進(jìn)而協(xié)作的完成任務(wù),如圖5(b) 所示.全通信自主決策架構(gòu)中各Agent 通過通信獲得環(huán)境的全局信息,結(jié)合對(duì)對(duì)手行為的推斷,自我學(xué)習(xí)協(xié)作的動(dòng)作,涌現(xiàn)出協(xié)同能力.該架構(gòu)對(duì)Agent 間通信時(shí)效性要求相對(duì)較低,適用于具備通信條件的RL 任務(wù).相對(duì)于全通信集中決策架構(gòu),全通信自主決策架構(gòu)在現(xiàn)實(shí)中應(yīng)用更加廣泛.
3) 欠通信自主決策架構(gòu).在該決策架構(gòu)中,多采用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),代表Agent 策略的神經(jīng)網(wǎng)絡(luò)之間沒有信息交互,單Agent 依靠自我觀測(cè)的能力,獲得部分(不完全) 環(huán)境信息,結(jié)合對(duì)對(duì)手的觀測(cè)與推斷,進(jìn)行自主決策,確定采取的行動(dòng),以期涌現(xiàn)出協(xié)同的聯(lián)合行為,協(xié)調(diào)一致的完成任務(wù)要求,如圖5(c) 所示.欠通信自主決策架構(gòu)僅依靠自我觀測(cè)能力,通過觀測(cè)與推斷對(duì)手行為,進(jìn)行自主決策,進(jìn)而涌現(xiàn)出協(xié)同能力.欠通信自主決策架構(gòu)不依賴通信,適用任一多Agent 環(huán)境.由于缺乏通信,欠通信自主決策架構(gòu)相對(duì)上述全通信決策結(jié)構(gòu),對(duì)環(huán)境的觀測(cè)是部分的、不完全的.這種部分觀測(cè)不僅包含觀測(cè)的信息有限,也包含觀測(cè)帶來的環(huán)境噪聲,受環(huán)境不確定因素的影響更大.此外,該結(jié)構(gòu)也面臨著對(duì)手策略變化帶來的環(huán)境非平穩(wěn)性問題.
2.4 全通信集中決策架構(gòu)
圖5 多Agent 決策示意圖
Fig.5 Diagram of multi-agent decision-making
早期的多Agent 集中決策架構(gòu)是關(guān)于多Agent的動(dòng)作和觀測(cè)的聯(lián)合模型,將多Agent 的聯(lián)合觀測(cè)映射到聯(lián)合行動(dòng),訓(xùn)練過程同單Agent 強(qiáng)化學(xué)習(xí)任務(wù)一致,如圖6(a) 所示.這一決策架構(gòu)將多Agent問題轉(zhuǎn)換為單Agent 問題,有效解決了Agent 數(shù)量少且固定、動(dòng)作空間小等MAS 任務(wù)中的多Agent間的協(xié)同問題.但是對(duì)于Agent 數(shù)量較多、動(dòng)作空間巨大的強(qiáng)化學(xué)習(xí)任務(wù),這一架構(gòu)將導(dǎo)致聯(lián)合觀測(cè)空間s ∈S=|O1|×|O2|×···×|On|?和聯(lián)合動(dòng)作空間a ∈A=|A1|×|A2|×···×|An|?隨Agent 數(shù)量增加呈指數(shù)級(jí)增長(zhǎng).此外,該架構(gòu)限定了任務(wù)中的Agent 的數(shù)量,不能在交互過程中擴(kuò)展Agent 的數(shù)量,即便是同樣的環(huán)境,不同數(shù)量的Agent 也需要單獨(dú)訓(xùn)練模型,泛化能力弱.
圖6 集中決策架構(gòu)輸出動(dòng)作分類
Fig.6 Output action classification of centralized decision architecture
在現(xiàn)有的多Agent DRL 研究問題中,人們通常將聯(lián)合動(dòng)作空間分解,聯(lián)合動(dòng)作可以看作是每個(gè)Agent 動(dòng)作的組合,聯(lián)合策略可以視作多個(gè)子策略的組合,這意味著神經(jīng)網(wǎng)絡(luò)的輸出是單個(gè)Agent的動(dòng)作分布,而不是聯(lián)合動(dòng)作分布,如圖6(b) 所示.這一改變使得動(dòng)作空間的大小由
降為
同樣,采樣類似的方式可以對(duì)觀測(cè)空間進(jìn)行分解.
在全通信集中決策架構(gòu)中,現(xiàn)有研究方法主要集中在隱藏層信息池化共享通信和雙向RNN 通信等兩種手段,通過神經(jīng)網(wǎng)絡(luò)的隱藏層間信息傳遞保證全通信條件下Agent 間的協(xié)商.
在基于隱藏層信息池化共享的決策架構(gòu)中,各Agent 通過內(nèi)部隱藏層的交互,在決策過程中進(jìn)行協(xié)商,進(jìn)而輸出協(xié)同的聯(lián)合動(dòng)作.Sukhbaatar 等[54]提出自主學(xué)習(xí)Agent 間通信協(xié)議的方法,采用包含模塊fi?的多層架構(gòu),利用當(dāng)前步的隱藏層輸出h?和計(jì)算獲得的通信輸出c?迭代地獲得下一決策所需的網(wǎng)絡(luò)輸入hK,并根據(jù)最終的網(wǎng)絡(luò)輸出q(hK) 選擇執(zhí)行動(dòng)作.如圖7 所示,sj?表示Agentj?的環(huán)境狀態(tài)觀測(cè),將所有Agent 的聯(lián)合觀測(cè)sss={s1,···,sJ}的相關(guān)狀態(tài)表征作為決策的輸入,輸出針對(duì)單個(gè)Agent 的聯(lián)合動(dòng)作的結(jié)果a={a1,···,aJ}.在中間的隱藏層中,設(shè)計(jì)出自身隱藏層信息和交互隱藏層信息融合的模塊fi,每個(gè)Agent 的模塊fi?接收兩個(gè)輸入向量:上一階段傳來的隱藏狀態(tài)
以及通信向量
并輸出下一隱藏層信息
其中通信信息為
隱藏層信息為
輸出的隱藏層信息為
σ?為非線性的激活函數(shù).該算法采用平均池化
可以克服Agent 數(shù)量不定,解決MAS 中算法難以擴(kuò)展Agent 數(shù)量的問題.
圖7 基于隱藏層信息池化共享的集中決策架構(gòu)
Fig.7 Centralized decision architecture based on shared pooling of hidden layers information
基于隱藏層信息池化共享通信的決策架構(gòu)人為設(shè)定通信協(xié)議,利用池化方法對(duì)信息進(jìn)行整合,雖然解決了Agent 間的通信問題以及擴(kuò)展問題,但針對(duì)缺乏先驗(yàn)知識(shí)的任務(wù),難以設(shè)計(jì)有效的通信協(xié)議.基于雙向RNN 通信的集中決策架構(gòu)利用雙向RNN 結(jié)構(gòu)的信息存儲(chǔ)特征,自學(xué)習(xí)Agent 間的通信協(xié)議,克服了通信協(xié)議設(shè)計(jì)對(duì)任務(wù)先驗(yàn)知識(shí)的剛性需求.Peng 等[55]?提出了基于AC 的多Agent 雙向協(xié)作網(wǎng)絡(luò)(Bidirectionally-coordinated network,BiCNet),Actor 和critic 網(wǎng)絡(luò)均使用雙向LSTM 架構(gòu)將Agent 串聯(lián),在訓(xùn)練過程中,雙向LSTM 自行學(xué)習(xí)通信協(xié)議,在輸入端利用Attention 機(jī)制從全局態(tài)勢(shì)信息中抽取每個(gè)Agent 的觀測(cè)輸入,輸出行動(dòng)集合,同樣采用基于Attention 機(jī)制的雙向LSTM對(duì)動(dòng)作集合進(jìn)行評(píng)價(jià).
通信協(xié)議的自我學(xué)習(xí)解決了Agent 間的信息傳遞規(guī)則,但不合適的獎(jiǎng)賞會(huì)帶來虛假獎(jiǎng)賞和產(chǎn)生懶惰Agent 等問題,Sunehag 等[56]?提出了全局獎(jiǎng)賞下的值分解網(wǎng)絡(luò),采用DQN 網(wǎng)絡(luò)結(jié)構(gòu),對(duì)每個(gè)Agent設(shè)立獨(dú)立Q 值,進(jìn)而求和獲得聯(lián)合行動(dòng)的Q 值.他們嘗試了RNN、Dueling Network 等多種組合,考慮了Agent 間多種通信程度,分別對(duì)全通信自主決策架構(gòu)、全通信集中決策架構(gòu)以及欠通信分自主決策架構(gòu)進(jìn)行了學(xué)習(xí)框架設(shè)計(jì),如圖8 所示.
Kong 等[57]?提出一種將集中決策同自主決策相結(jié)合的主-從多Agent RNN 學(xué)習(xí)架構(gòu),采用主-從架構(gòu),由中心Agent 指導(dǎo)多個(gè)真實(shí)執(zhí)行的Agent,充分利用自主決策和集中決策的優(yōu)勢(shì),其中主Agent融合分Agent 的觀測(cè)信息并總結(jié)出指導(dǎo)信息,分Agent 根據(jù)指導(dǎo)信息并結(jié)合自身局部觀測(cè)信息做出最終動(dòng)作選擇,類似于足球比賽中教練與球員間的關(guān)系.
2.5 全通信自主決策架構(gòu)
全通信集中決策架構(gòu)利用神經(jīng)網(wǎng)絡(luò)的隱藏層將各Agent 的信息進(jìn)行融合,使得其必須將部分觀測(cè)信息在單一的決策主體中進(jìn)行融合,集中地進(jìn)行決策,而全通信自主決策架構(gòu)只需在輸入端進(jìn)行通信,將信息進(jìn)行本地融合,自主的完成決策過程.
Foerster 等[58]?針對(duì)預(yù)定義通信協(xié)議在部分環(huán)境中不可用的問題,提出了自適應(yīng)的端到端的通信協(xié)議學(xué)習(xí)算法,將通信定義為一組動(dòng)作,Agent 利用自身觀測(cè)以及對(duì)手Agent 傳遞的通信動(dòng)作,采用時(shí)序RNN 架構(gòu)輸出通信和決策動(dòng)作,從而達(dá)到協(xié)同行動(dòng)的目的.根據(jù)通信動(dòng)作的連續(xù)性,將決策網(wǎng)絡(luò)的梯度更新方式分為增強(qiáng)和可微兩類,如圖9 所示,圖9(a) 表示增強(qiáng)更新的應(yīng)用架構(gòu),Agent 1 接受來自上一階段Agent 2 的通信動(dòng)作
并結(jié)合自身的觀測(cè)
經(jīng)過Action select 模塊,產(chǎn)生傳遞給Agent 2 的通信動(dòng)作
和對(duì)環(huán)境的動(dòng)作
利用增強(qiáng)算法的梯度傳播的思想對(duì)動(dòng)作進(jìn)行更新; 圖9(b) 表示可微更新動(dòng)作的應(yīng)用框架,通信動(dòng)作的產(chǎn)生不再通過動(dòng)作選擇模塊,而是直接將神經(jīng)網(wǎng)絡(luò)的通信結(jié)果經(jīng)過離散正規(guī)化單元(discretise/regularise unit,DRU) 后不經(jīng)選擇地傳遞給下一Agent,保證通信動(dòng)作具有可微性,進(jìn)而對(duì)決策網(wǎng)絡(luò)進(jìn)行更新.
通信動(dòng)作的學(xué)習(xí)雖然有一定的研究意義,但通信動(dòng)作的定義大多需要相關(guān)的領(lǐng)域知識(shí),人們更關(guān)注在既定通信協(xié)議下或自學(xué)習(xí)通信協(xié)議下,通過本地的態(tài)勢(shì)融合感知獲得決策的結(jié)果.在既定通信協(xié)議下,Usunier 等[59]?定義了一種短期、低層次的微操?gòu)?qiáng)化學(xué)習(xí)任務(wù),各Agent 將以通信的方式獲得的局部觀測(cè)進(jìn)行聯(lián)合編碼,利用用于推斷的貪婪MDP,通過多階段的對(duì)手行動(dòng)推理,自主產(chǎn)生協(xié)同行動(dòng),并利用零階梯度估計(jì)的后向傳播策略對(duì)行動(dòng)策略進(jìn)行更新.Mao 等[60]?提出了一般性的協(xié)作Actor-critic網(wǎng)絡(luò)(Actor-coordinate-critic net,ACCNet),在部分觀測(cè)的環(huán)境中從零學(xué)習(xí)Agent 間的通信協(xié)議,根據(jù)協(xié)作所處的階段,提出了AC-Cnet 架構(gòu),如圖10(b)所示.針對(duì)全通信的自主決策結(jié)構(gòu),他們?cè)O(shè)計(jì)了ACCNet 架構(gòu),對(duì)局部狀態(tài)進(jìn)行嵌入編碼,之后利用預(yù)定義/自學(xué)習(xí)通信協(xié)議對(duì)所有局部狀態(tài)編碼進(jìn)行聯(lián)合編碼,與待決策Agent 的局部狀態(tài)結(jié)合一同作為決策輸入,產(chǎn)生動(dòng)作.
圖8 多種架構(gòu)下的值分解網(wǎng)絡(luò)
Fig.8 Value decomposition network for multiple architecture
圖9 通信流示意圖
Fig.9 Diagram of communication flow
此外,針對(duì)個(gè)體獎(jiǎng)賞帶來的“囚徒困境”,自主決策也可采用聯(lián)合動(dòng)作評(píng)估方法,對(duì)行動(dòng)網(wǎng)絡(luò)進(jìn)行更新.在策略執(zhí)行過程中,Agent 依靠Actor 網(wǎng)絡(luò)做出行動(dòng)選擇,因而在訓(xùn)練階段采用聯(lián)合動(dòng)作的Critic函數(shù)對(duì)Actor 網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)更新,不會(huì)破壞執(zhí)行過程中的自主決策架構(gòu).Mao 等[60]?利用全局動(dòng)作獎(jiǎng)賞對(duì)策略進(jìn)行評(píng)估,有效克服了個(gè)體獎(jiǎng)賞帶來的問題.Yang 等[61]?提出平均場(chǎng)強(qiáng)化學(xué)習(xí),利用總體或鄰近Agent 間的平均相互作用近似Agent 間的相互作用,個(gè)體的最優(yōu)策略取決于全體動(dòng)態(tài),而全局動(dòng)態(tài)則根據(jù)個(gè)體策略集合改變,設(shè)計(jì)了面向多Agent 的平均場(chǎng)Q 學(xué)習(xí)和平均場(chǎng)Actor-critic 算法,并分析了解的收斂性.
2.6 欠通信自主決策架構(gòu)
圖10 決策-協(xié)同-評(píng)估網(wǎng)絡(luò)架構(gòu)
Fig.10 Actor-coordinator-critic net framework
同單Agent 的強(qiáng)化學(xué)習(xí)不同,多Agent 自主決策強(qiáng)化學(xué)習(xí)任務(wù)面臨著環(huán)境非平穩(wěn)性的問題.對(duì)單個(gè)Agent 而言,對(duì)手Agent 策略的變化使得環(huán)境的狀態(tài)轉(zhuǎn)移函數(shù)隨時(shí)間變化而變化,即
環(huán)境轉(zhuǎn)移函數(shù)可表示為
其中o-i,a-i?表示Agenti?的對(duì)手聯(lián)合觀測(cè)和聯(lián)合行動(dòng).在環(huán)境轉(zhuǎn)移函數(shù)中,轉(zhuǎn)移
ai,a-i) 是平穩(wěn)的,不隨時(shí)間改變; 然而,其他Agent 的策略學(xué)習(xí),使得聯(lián)合策略π(a-i|o-i) 發(fā)生變化,導(dǎo)致單個(gè)Agent 面臨的環(huán)境轉(zhuǎn)移
是非平穩(wěn)的.針對(duì)欠通信自主決策面臨的環(huán)境非平穩(wěn),Hernandez-Leal 等[53]?將早期強(qiáng)化學(xué)習(xí)中處理環(huán)境非平穩(wěn)問題的方法分為忽略、遺忘、響應(yīng)目標(biāo)對(duì)手、學(xué)習(xí)對(duì)手模型以及心智理論等五類,在此不再贅述.本文結(jié)合當(dāng)前DRL 的發(fā)展特性,從經(jīng)歷重放、協(xié)作中的“囚徒困境” 以及參數(shù)共享等方面對(duì)欠通信自主決策的MAS 進(jìn)行研究.
Tampuu 等[62]?開展了將DRL 應(yīng)用到多Agent環(huán)境中的開拓性研究,但沒有考慮環(huán)境的非平穩(wěn)性,通過設(shè)計(jì)不同的全局獎(jiǎng)賞函數(shù),采用兩個(gè)獨(dú)立自主的DQN 網(wǎng)絡(luò)對(duì)合作、競(jìng)爭(zhēng)和合競(jìng)等多Agent 強(qiáng)化學(xué)習(xí)任務(wù)進(jìn)行訓(xùn)練,取得了較好的效果.由于環(huán)境的非平穩(wěn)性,在自主Q 學(xué)習(xí)強(qiáng)化學(xué)習(xí)任務(wù)中,經(jīng)歷重放機(jī)制所存儲(chǔ)的經(jīng)歷不能反映當(dāng)前環(huán)境的動(dòng)態(tài)性.Omidshafiei 等[63]?忽略環(huán)境非平穩(wěn)問題,依舊利用經(jīng)歷重放機(jī)制,采用分散滯后深度RNN 的Q 網(wǎng)絡(luò)(Dec-HDRQNs) 架構(gòu),克服環(huán)境非平穩(wěn)帶來的值估計(jì)偏差.他們根據(jù)單Agent 的TD error 有選擇得對(duì)策略進(jìn)行更新
當(dāng)TD error 非負(fù)時(shí),采用正常學(xué)習(xí)率α?更新,否則使用較小的學(xué)習(xí)率進(jìn)行更新.此外,為了使得策略具有較好的泛化能力,他們采用多任務(wù)(Multi-task)對(duì)Dec-HDRQNs 的策略進(jìn)行過濾.Palmer 等[64]?則將Lenient 應(yīng)用到MADRL 中,隨訪問次數(shù)的增加而增大接受負(fù)TD error 的概率,并認(rèn)為在實(shí)驗(yàn)中先進(jìn)行普通Q 學(xué)習(xí),再進(jìn)行Double Q 學(xué)習(xí)的混合Q學(xué)習(xí)有更好的學(xué)習(xí)效果.Foerster 等[65]?則針對(duì)環(huán)境非平穩(wěn)性的來源,提出了離環(huán)境下的重要性采用方法,對(duì)內(nèi)存中的經(jīng)歷進(jìn)行了重用,并使用指紋法記錄環(huán)境中其余Agent 的動(dòng)態(tài)變化信息,使得經(jīng)歷重放機(jī)制在多Agent 環(huán)境中依然適用,離環(huán)境下的重要度采樣損失函數(shù)定義為
其中,
表示除Agenti?外,其他Agent 在當(dāng)前策略下的聯(lián)合動(dòng)作產(chǎn)生概率;
表示除Agenti?外,其他Agent 聯(lián)合動(dòng)作在離環(huán)境下的產(chǎn)生概率;yl?采用Q 學(xué)習(xí)的方式獲得.
受非全局獎(jiǎng)賞的影響,多Agent 合作存在“囚徒困境” 的問題,Mao 等[60]?提出了A-CCNet 架構(gòu),如圖10(a) 所示,針對(duì)欠通信的自主決策架構(gòu),設(shè)計(jì)了不依賴通信的A-CCNet 架構(gòu),各Agent 依據(jù)局部狀態(tài)做出動(dòng)作選擇,將局部的狀態(tài)-動(dòng)作同對(duì)手Agent 的決策結(jié)果相結(jié)合,進(jìn)行整體評(píng)價(jià).Leibo等[66]?利用純粹的自主Q 學(xué)習(xí)方法,為每個(gè)Agent單獨(dú)訓(xùn)練一套參數(shù),重點(diǎn)解決了社會(huì)困境中的“囚徒困境” 難題,揭示了社會(huì)困境如何影響Agent 間的合作.Facebook AI 研究室[67-68]?在DRL 中利用過往回報(bào)來調(diào)節(jié)自身行為,進(jìn)而獲得較好的合作策略.Menda 等[69]?提出事件驅(qū)動(dòng)的MADRL 方法,將Agent 的動(dòng)作分為宏觀和一般兩類動(dòng)作,宏觀動(dòng)作由事件驅(qū)動(dòng),而一般動(dòng)作則是自主決策,利用改進(jìn)的GAE 算法對(duì)策略進(jìn)行求解,允許Agent 在決策中異步執(zhí)行,克服了固定時(shí)間步混淆事件發(fā)生順序而帶來的不利影響.Lowe 等[70]?將DDPG 方法擴(kuò)展到多Agent 學(xué)習(xí),通過觀測(cè)對(duì)手過往行為對(duì)對(duì)手進(jìn)行建模,同時(shí)構(gòu)建全局Critic 函數(shù)對(duì)全局狀態(tài)-自主動(dòng)作進(jìn)行評(píng)估,并訓(xùn)練一組Agent 策略提高算法的魯棒性.
全局Critic 函數(shù)雖然克服了“囚徒困境” 問題,但對(duì)單個(gè)Agent 的Actor 網(wǎng)絡(luò)改進(jìn)指導(dǎo)不足,不能衡量單個(gè)Agent 策略對(duì)全局Q 值的影響程度,即信用分配問題.Foerster 等[71]?提出了基于Actorcritic 的反事實(shí)多Agent (Counterfactual multiagent,COMA) 策略梯度方法,采用集中的Critic函數(shù)對(duì)聯(lián)合動(dòng)作進(jìn)行評(píng)估,各Agent 利用獨(dú)自的Actor 策略網(wǎng)絡(luò)進(jìn)行決策.通過固定其他Agent 的行動(dòng),使用邊際法確定反事實(shí)的基線,進(jìn)而確定每個(gè)Agent 的信用分配
利用獲得優(yōu)勢(shì)函數(shù)
(z,(ai,a-i) 對(duì)策略網(wǎng)絡(luò)進(jìn)行增強(qiáng)更新,獲得的最好的實(shí)驗(yàn)效果超越了集中決策模型.
共享信息已被證明可以加速?gòu)?qiáng)化學(xué)習(xí)任務(wù)的優(yōu)化[72],尤其是多Agent 強(qiáng)化學(xué)習(xí)任務(wù).如果Agent是同質(zhì)的,則可以利用參數(shù)共享(Parameter sharing,PS) 的方式,即多個(gè)Agent 共用一套網(wǎng)絡(luò)參數(shù).在PS 機(jī)制下,Agent 在訓(xùn)練中可以使用全體Agent 的仿真經(jīng)歷.此外,同樣的策略網(wǎng)絡(luò),由于不同的Agent 接收不同的觀測(cè)狀態(tài)(也可以用相關(guān)的序號(hào)區(qū)分即便同觀測(cè)的Agent),因而Agent 間可以產(chǎn)生不同的動(dòng)作.Ellowitz[72]?用強(qiáng)化學(xué)習(xí)方法,模擬多Agent 優(yōu)化同一任務(wù)的系統(tǒng),研究了不同Agent 密度和策略共享的影響,發(fā)現(xiàn)PS 策略減少了達(dá)到漸近行為的時(shí)間,使得漸近行為獲得較好改善.Gupta 等[73]?將策略梯度、TD error 以及AC等3 種深度強(qiáng)化學(xué)學(xué)習(xí)算法應(yīng)用到部分可觀測(cè)的協(xié)作多Agent 環(huán)境中,在一系列離散和連續(xù)的動(dòng)作空間任務(wù)中,使用基于TRPO 的PS 并發(fā)訓(xùn)練模式加速了學(xué)習(xí)過程,并且驗(yàn)證了循環(huán)網(wǎng)絡(luò)的效果優(yōu)于前饋網(wǎng)絡(luò).Chu 等[74]?針對(duì)MADDPG 算法[73]?擴(kuò)展性較差的問題,提出了參數(shù)共享的MADDPG 算法(PS-MADDPG),并針對(duì)不同的應(yīng)用環(huán)境,提出了Actor-critic 網(wǎng)絡(luò)均共享、Actor 網(wǎng)絡(luò)共享而Critic網(wǎng)絡(luò)不共享、Actor 共享而critic 部分共享(共享的部分為公有特征抽取網(wǎng)絡(luò),如CNN 層) 等3 種Actor-critic 共享組合架構(gòu).
2.7 多Agent 實(shí)驗(yàn)平臺(tái)
強(qiáng)化學(xué)習(xí)過程需要不斷同環(huán)境進(jìn)行交互,環(huán)境對(duì)強(qiáng)化學(xué)習(xí)至關(guān)重要,相關(guān)單位與個(gè)人針對(duì)多Agent 強(qiáng)化學(xué)習(xí)研究開發(fā)了多種訓(xùn)練平臺(tái).
DeepMind 和暴雪公司合作,開發(fā)了一個(gè)基于星際爭(zhēng)霸II 游戲的強(qiáng)化學(xué)習(xí)平臺(tái)(StarCraft II learning environment,SC2LE)[75],描述了星際爭(zhēng)霸II 中的觀察、行動(dòng)和獎(jiǎng)勵(lì)規(guī)范,并提供了一個(gè)基于Python 的開源的接口來與游戲引擎進(jìn)行通信.除了主要的游戲地圖之外,該平臺(tái)還提供了一套專注于“星際爭(zhēng)霸II” 游戲的不同元素的迷你游戲.對(duì)于主要的游戲地圖,還提供了來自人類專業(yè)玩家的游戲數(shù)據(jù)的訓(xùn)練數(shù)據(jù)集.另外,還給出了從這個(gè)數(shù)據(jù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的初始基線結(jié)果,以預(yù)測(cè)游戲結(jié)果和玩家動(dòng)作(https://github.com/deepmind/pysc2).當(dāng)前針對(duì)星際爭(zhēng)霸游戲的DRL 研究主要集中在單元控制的微操(Micro-management) 層面,多采用狀態(tài)間雙方血線變化作為獎(jiǎng)賞.不同的訓(xùn)練結(jié)構(gòu)對(duì)狀態(tài)有不同的表示方法,可分為單元附近狀態(tài)的局部觀測(cè)與所有單元的全局觀測(cè).Usunier 等[59]?利用全通信自主決策架構(gòu),通過參數(shù)共享的方式訓(xùn)練單個(gè)網(wǎng)絡(luò)對(duì)多個(gè)同類Agent 進(jìn)行控制,使用無梯度估計(jì)對(duì)策略網(wǎng)絡(luò)進(jìn)行更新,相對(duì)其他算法,該方法最多可以控制15 個(gè)單元.Peng 等[55]?利用雙向LSTM 網(wǎng)絡(luò),搭建了全通信集中決策架構(gòu),集中的網(wǎng)絡(luò)決策輸出每個(gè)Agent 的動(dòng)作,在不同尺度上具有較好的效果,學(xué)習(xí)的動(dòng)作部分具有較好的可解釋性.Kong等[57]?結(jié)合了集中決策和自主決策的優(yōu)勢(shì),采用主-從架構(gòu)的全通信集中決策架構(gòu),在十個(gè)以上單位的對(duì)抗中,超越了之前的所有算法.Foerster 等[65]?通過指紋法和重要性權(quán)重的方法,重用歷史經(jīng)歷,采用欠通信的自主決策架構(gòu)在較小的戰(zhàn)斗場(chǎng)景中取得了不錯(cuò)的成績(jī).在之后的研究中,Foerster 等[71]?使用了集中的Critic 和分散的Actor 架構(gòu)的Actorcritic 算法,采用反事實(shí)的基線獲得動(dòng)作優(yōu)勢(shì)函數(shù),解決了多Agent 問題中的信用分配,在欠通信自主決策架構(gòu)中取得了最好的效果,而且能夠控制十個(gè)以上的單元.
上海交通大學(xué)開發(fā)了一種支持多Agent 強(qiáng)化學(xué)習(xí)研究和發(fā)展的MAgent 平臺(tái)[76],該平臺(tái)聚焦含成千上萬(wàn)Agent 的任務(wù)和應(yīng)用.在Agent 間的相互作用中,該平臺(tái)不僅能夠開展Agent 最優(yōu)策略學(xué)習(xí)的算法研究,而且能夠觀察和理解AI 社會(huì)中出現(xiàn)的個(gè)體行為和社會(huì)現(xiàn)象,包括溝通語(yǔ)言、領(lǐng)導(dǎo)力、利他主義.同時(shí),MAgent 具有高度的可擴(kuò)展性,可以在單個(gè)GPU 服務(wù)器上托管多達(dá)一百萬(wàn)個(gè)代理,還為AI 研究人員提供靈活的配置,以設(shè)計(jì)他們的定制環(huán)境和Agent,該平臺(tái)給出了基于欠通信自主決策的獨(dú)立Q 學(xué)習(xí)和A2C 的基線算法(https://github.com/geek-ai/MAgent).在MAgent 平臺(tái)中,Yang 等[61]?構(gòu)建了混合合作-競(jìng)爭(zhēng)的戰(zhàn)斗游戲,兩支包含64 個(gè)Agent 的隊(duì)伍進(jìn)行對(duì)抗,每個(gè)Agent 的狀態(tài)觀測(cè)來自于全局狀態(tài)觀測(cè),Q 值對(duì)自身動(dòng)作和周圍鄰居平均動(dòng)作的組合進(jìn)行評(píng)估,有效的將多體問題轉(zhuǎn)換為二體問題,并使用了平均場(chǎng)Q 學(xué)習(xí)和平均場(chǎng)AC 同平臺(tái)的獨(dú)立Q 學(xué)習(xí)和A2C 基線算法進(jìn)行了對(duì)比,平均場(chǎng)算法在勝率和累積獎(jiǎng)賞值中遠(yuǎn)超基線算法.Khan 等[77]?在MAgent 平臺(tái)中構(gòu)建了合作、競(jìng)爭(zhēng)以及合競(jìng)等3 種多Agent 環(huán)境,采用全通信的自主決策架構(gòu)的分布式多Agent 策略梯度算法,環(huán)境中的每個(gè)Agent 可以獲得其他Agent 的相對(duì)位置與速度、靜態(tài)障礙物的位置,在所有實(shí)驗(yàn)中使用包含100 個(gè)隱藏單元的兩層全連接層對(duì)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)進(jìn)行估計(jì).所有算法同全通信集中決策的A3C 和TRPO 的基線算法進(jìn)行比較,3 種環(huán)境下收斂速度明顯優(yōu)于基線算法.Chen 等[78]?提出了一種全通信自主決策下的多Agent 分散Q 學(xué)習(xí)架構(gòu),將全局觀測(cè)與聯(lián)合動(dòng)作進(jìn)行分解,利用分解的Agent 的值函數(shù)和剩余Agent 的聯(lián)合值函數(shù)獲得當(dāng)前狀態(tài)的值函數(shù),采用Duling 架構(gòu)的設(shè)計(jì)思想,采用分解Agent 的Q 值函數(shù)與當(dāng)前狀態(tài)值函數(shù)獲得當(dāng)前聯(lián)合動(dòng)作Q 值函數(shù).在MAgent 平臺(tái)下的戰(zhàn)斗場(chǎng)景中,同基線算法以及平均場(chǎng)Q 學(xué)習(xí)算法進(jìn)行了對(duì)比,從殺敵數(shù)量、單Agent 單步平均獎(jiǎng)賞和全體累積獎(jiǎng)賞等方面進(jìn)行分析,該算法架構(gòu)取得了很好的效果.
Brodeur 等[79]?提出了一個(gè)面向人工Agent 的家庭多模態(tài)環(huán)境(Household multimodal environment,HoME),在逼真的環(huán)境下,從視覺、音頻、語(yǔ)義、物理以及與對(duì)象和其他Agent 的交互等方面進(jìn)行學(xué)習(xí).HoME 基于SUNCG 數(shù)據(jù)集,集合了超過45 000 種不同的3D 房屋布局,這個(gè)尺度可以促進(jìn)學(xué)習(xí),泛化和遷移.該環(huán)境是一個(gè)開放源代碼,與OpenAI Gym 平臺(tái)兼容,可擴(kuò)展到強(qiáng)化學(xué)習(xí)、基于聲音的導(dǎo)航、機(jī)器人以及多Agent 學(xué)習(xí)等任務(wù)(https://github.com/HoMEPlatform/home-platform).HoME 側(cè)重于室內(nèi)3D環(huán)境下的圖像研究,利用該平臺(tái)進(jìn)行多Agent 研究的學(xué)者較少,但隨著圖像技術(shù)的發(fā)展,室內(nèi)異質(zhì)多Agent 協(xié)同也將是通用人工智能的熱點(diǎn)之一.
此外,Facebook AI 研究室提出一個(gè)面向即時(shí)戰(zhàn)略游戲(Real-time strategy game,RTS) 的廣泛的、輕量級(jí)的和靈活得多的Agent 強(qiáng)化學(xué)習(xí)平臺(tái)ELF (Extensive,lightweight and flexible research platform)[80],實(shí)現(xiàn)了具有3 種游戲環(huán)境(Mini-RTS、奪旗和塔防) 的高度可定制的RTS 引擎.該平臺(tái)在Environment-agent 通信拓?fù)?強(qiáng)化學(xué)習(xí)方法選擇游戲參數(shù)變化等方面靈活多樣,并且可以托管現(xiàn)有基于C/C++的游戲環(huán)境,如ALF(Arcade learning environment).同樣開發(fā)了相應(yīng)的Python 接口,利用Python 接口可以返回經(jīng)歷樣本,方便進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練(https://github.com/facebookresearch/ELF).ELF 提供的為兩人對(duì)抗的視頻游戲場(chǎng)景,同Starcraft 相比,Agent 數(shù)量較少,不是多Agent 研究的主流,多為對(duì)抗游戲的測(cè)試環(huán)境.
3 MADRL 中的關(guān)鍵問題及其展望
MADRL 決策架構(gòu)研究對(duì)當(dāng)前MAS 的強(qiáng)化學(xué)習(xí)決策結(jié)構(gòu)進(jìn)行了分析與討論,但MADRL 仍面臨著多Agent 訓(xùn)練要素的研究,即構(gòu)建何種訓(xùn)練結(jié)構(gòu)可以使得Agent 能夠不依賴人類知識(shí)而由弱到強(qiáng)的進(jìn)行學(xué)習(xí),如何構(gòu)建合適的模型能夠更加準(zhǔn)確的描述MAS,針對(duì)特定的MAS 采用何種決策架構(gòu)等;此外,PS 機(jī)制雖然使得單個(gè)Agent 擁有足量的訓(xùn)練樣本,但當(dāng)前MAS 系統(tǒng)仿真難度大,總體樣本數(shù)量依然有限,數(shù)據(jù)效率低,因而,需要利用已有樣本對(duì)整體樣本進(jìn)行增強(qiáng),滿足訓(xùn)練的樣本量需求以及如何提高數(shù)據(jù)效率; 同時(shí),DRL 訓(xùn)練通常面臨著對(duì)環(huán)境過擬合的問題,而MADRL 則面臨著對(duì)對(duì)手和環(huán)境的雙重過擬合問題,需要采用對(duì)抗機(jī)制提高M(jìn)ADRL 算法的魯棒性; 在自主決策架構(gòu)中,受限于不完全環(huán)境信息,需要充分考慮對(duì)手模型,學(xué)習(xí)對(duì)手行為,進(jìn)而產(chǎn)生協(xié)同行為; 另外,當(dāng)前多Agent 逆強(qiáng)化學(xué)習(xí)的研究仍是一片空白.本節(jié)針對(duì)這些實(shí)用技術(shù)展開分析與研究.
3.1 多Agent 訓(xùn)練要素研究
單個(gè)Agent 的DRL 任務(wù),只需要一個(gè)環(huán)境和部分環(huán)境參數(shù),經(jīng)過一定時(shí)間的訓(xùn)練就可以獲得“令人滿意” 的Agent.多Agent 任務(wù)相比單Agent 任務(wù)復(fù)雜許多,往往包含較多的因素,并且構(gòu)建復(fù)雜的多Agent 環(huán)境往往是不切實(shí)際的,而真實(shí)環(huán)境又難以獲得DRL 訓(xùn)練所需的大樣本.
AlphaGo Zero[7-8]?利用自博弈的學(xué)習(xí)方式,不依賴人類知識(shí),從零開始,訓(xùn)練出強(qiáng)大的圍棋Agent.雖然AlphaGo Zero 是面向單Agent 的強(qiáng)化學(xué)習(xí),但從訓(xùn)練過程分析,其采用了競(jìng)爭(zhēng)環(huán)境的多Agent共享參數(shù)訓(xùn)練框架,自博弈的雙方Agent 共用一套網(wǎng)絡(luò)參數(shù),增加了訓(xùn)練的樣本量,并通過對(duì)抗式的訓(xùn)練架構(gòu),在19×19 的簡(jiǎn)單環(huán)境中獲得了遠(yuǎn)遠(yuǎn)超越環(huán)境復(fù)雜度的強(qiáng)大Agent.在多Agent 學(xué)習(xí)中,可以使用類似的訓(xùn)練過程.Bansal 等[81]?針對(duì)Agent的行為容量受限于環(huán)境容量問題,即環(huán)境的復(fù)雜度限制了訓(xùn)練Agent 的復(fù)雜度上限,提出了一種同AlphaGo Zero 相似的對(duì)抗式的訓(xùn)練架構(gòu),該架構(gòu)是無模型的強(qiáng)化學(xué)習(xí)方法,通過從零開始的課程學(xué)習(xí),使得帶自博弈的對(duì)抗多Agent 環(huán)境可以訓(xùn)練出遠(yuǎn)比環(huán)境本身更復(fù)雜的行為.盡管這種對(duì)抗訓(xùn)練方式在單個(gè)獨(dú)立Agent 環(huán)境中取得很大成功,在多Agent也取得一些進(jìn)展,但并沒有類似AlphaGo Zero 的重大的突破.
除了對(duì)抗學(xué)習(xí)架構(gòu),博弈論方法為多Agent 研究提供了另外一種思路.Lanctot 等[82]?提出了基于近似最優(yōu)響應(yīng)的廣義MARL 算法,該算法利用聯(lián)合策略相關(guān)性評(píng)估策略的泛化能力,將DRL 策略和實(shí)證博弈論分析進(jìn)行混合,計(jì)算策略選擇的元策略,對(duì)自主強(qiáng)化學(xué)習(xí)、迭代最優(yōu)響應(yīng)、Double Oracle 以及虛構(gòu)對(duì)抗等工作進(jìn)行了泛化研究.
除了訓(xùn)練架構(gòu)的研究外,對(duì)如何構(gòu)建MADRL的模型也存在一定的討論.在對(duì)序貫決策的任務(wù)建模中,MDP 是當(dāng)前強(qiáng)化學(xué)習(xí)算法的主要模型,POMDP 則是多Agent 任務(wù)中的一種常見模型.但這一模型不是絕對(duì)的.演化博弈論同樣可以針對(duì)MADRL 進(jìn)行有效建模.在將博弈理論引入MAS的早期研究中,已經(jīng)建立了一般強(qiáng)化學(xué)習(xí)和演化博弈論核心的模仿者動(dòng)態(tài)(Replicator dynamics) 間的形式化聯(lián)系,在Bloembergen 的綜述[52]?中,他們對(duì)這一關(guān)系進(jìn)行了討論,采用無限學(xué)習(xí)率的極限,研究了由此產(chǎn)生的動(dòng)力學(xué)系統(tǒng),并深入了解了多Agent 系統(tǒng)的行為,如收斂性、穩(wěn)定性和魯棒性,對(duì)每個(gè)均衡的關(guān)注點(diǎn)和產(chǎn)生的回報(bào)給予額外的關(guān)注,同時(shí)對(duì)預(yù)期的聯(lián)合交互結(jié)果進(jìn)行評(píng)估.
在多Agent 任務(wù)的3 種決策架構(gòu)中,集中決策利用集中方法對(duì)多Agent 進(jìn)行協(xié)同,具有無法比擬的優(yōu)勢(shì),在實(shí)際的問題研究中,業(yè)界人士多采用這種架構(gòu)[16-19,22].但從理論研究上,研究者們更加關(guān)注多Agent 自主決策,希望通過學(xué)習(xí)、設(shè)定目標(biāo),使得Agent 在執(zhí)行任務(wù)時(shí)能夠自發(fā)形成期望的協(xié)同動(dòng)作.即便在未能預(yù)先知曉對(duì)手的任務(wù)中,訓(xùn)練出自治的Agent 也能夠有效、魯棒的進(jìn)行協(xié)作,對(duì)其他對(duì)手提供協(xié)同輔助.針對(duì)這種“點(diǎn)對(duì)點(diǎn)” 的協(xié)作已開展了部分研究[83-86],但仍留有很大的研究空間,而且在DRL 領(lǐng)域中還沒展開該“點(diǎn)對(duì)點(diǎn)” 的協(xié)作模式.
3.2 樣本增強(qiáng)技術(shù)研究
在真實(shí)系統(tǒng)上應(yīng)用強(qiáng)化學(xué)習(xí),數(shù)據(jù)采樣速度有限,導(dǎo)致強(qiáng)化學(xué)習(xí)訓(xùn)練樣本不足.Huang 等[87]?提出了增強(qiáng)生成對(duì)抗網(wǎng)絡(luò)(Enhanced GAN,EGAN)初始化強(qiáng)化學(xué)習(xí)Agent,EGAN 利用狀態(tài)-行為與后繼狀態(tài)-獎(jiǎng)賞之間的關(guān)系提高由GAN 生成的樣本的質(zhì)量,以實(shí)現(xiàn)更快的學(xué)習(xí).Kumar 等[88]為更好理解在線商務(wù)中顧客與產(chǎn)品間的關(guān)系,利用GAN 生成仿真交易訂單,針對(duì)在線商務(wù)交易的特點(diǎn),對(duì)在線訂單構(gòu)建了密集的低維表示,訓(xùn)練出ecGAN (e-Commerce GAN) 驗(yàn)證框架的合理性,并結(jié)合條件GAN 生成指定商品的訂單.該方法對(duì)多Agent 環(huán)境中的數(shù)據(jù)樣本生成提供了行之有效的架構(gòu).Andersen[89]?在其碩士畢業(yè)論文中研究了用于強(qiáng)化學(xué)習(xí)的人工訓(xùn)練樣本生成模型,利用膠囊網(wǎng)絡(luò)[90],結(jié)合條件GAN 對(duì)環(huán)境中的圖片類狀態(tài)進(jìn)行了生成,展示了生成數(shù)據(jù)對(duì)DQN 訓(xùn)練的好處.Corneil 等[91]?介紹了變分狀態(tài)表(Variational state tabulation,VaST),能夠?qū)⒕哂懈呔S狀態(tài)空間(例如視覺輸入空間) 的環(huán)境映射到抽象表格環(huán)境,使用高效的優(yōu)先掃描規(guī)劃方法更新狀態(tài)操作值.Nishio等[92]?提出了結(jié)合神經(jīng)情景控制(Neural episodic control)[93]?的NEC2DQN 架構(gòu),在學(xué)習(xí)的初始階段,加速了樣本匱乏任務(wù)的學(xué)習(xí)速度.這些方法使用現(xiàn)有的GAN 技術(shù)對(duì)樣本進(jìn)行生成,并不依賴環(huán)境的真實(shí)動(dòng)態(tài)性,適用于經(jīng)歷重放機(jī)制下的強(qiáng)化學(xué)習(xí)算法.
上述方法關(guān)注于樣本的真?zhèn)?雖然也有考慮生成樣本間的相關(guān)性,但并沒有考慮環(huán)境本身的轉(zhuǎn)移關(guān)系.在DRL 研究中,無模型方法數(shù)據(jù)利用低效,僅僅使用了轉(zhuǎn)移中的獎(jiǎng)賞信號(hào),忽視了樣本的轉(zhuǎn)移過程; 基于模型的方法有較高的數(shù)據(jù)效率,但所獲得的策略往往不是最優(yōu)解.Ha 等[94]?將無模型和基于模型的方法進(jìn)行結(jié)合-“世界模型”,利用少數(shù)轉(zhuǎn)移樣本,通過混合高斯分布的RNN 學(xué)習(xí)了虛擬環(huán)境模型,在虛擬環(huán)境中利用進(jìn)化算法求解策略取得很好的效果.在此基礎(chǔ)上,相關(guān)學(xué)者[95-97]?將“世界模型” 概念推廣到更廣闊的環(huán)境中進(jìn)行驗(yàn)證,這種夢(mèng)境下的學(xué)習(xí)彌補(bǔ)了Agent 同環(huán)境的多頻次交互.這一學(xué)習(xí)方式,為克服多Agent 環(huán)境中樣本不足提供了一種解決思路,但是如何對(duì)多Agent 環(huán)境中的非平穩(wěn)性進(jìn)行刻畫,還留有相當(dāng)大的研究空間.
3.3 魯棒性研究
在MAS 中,仿真環(huán)境同現(xiàn)實(shí)環(huán)境的差距巨大,這一困境導(dǎo)致在仿真環(huán)境中的策略學(xué)習(xí)的結(jié)果難以遷移; 另外,即使策略的學(xué)習(xí)樣本來自于現(xiàn)實(shí)環(huán)境,學(xué)習(xí)數(shù)據(jù)的不足也使得強(qiáng)化學(xué)習(xí)難以收斂.Pinto等[98]?利用存在對(duì)抗對(duì)手的環(huán)境,對(duì)Agent 進(jìn)行對(duì)抗訓(xùn)練操作,對(duì)手的對(duì)抗性隨Agent 能力增強(qiáng)而增強(qiáng)以此提高Agent 的魯棒性.Pattanaik 等[99]?發(fā)現(xiàn)即便很簡(jiǎn)單的干擾,都會(huì)使得DRL 算法性能大幅衰退,針對(duì)該問題他們提出了對(duì)抗攻擊的強(qiáng)化學(xué)習(xí)算法,設(shè)計(jì)了簡(jiǎn)單擾動(dòng)和基于梯度擾動(dòng)的兩種擾動(dòng)方式,并對(duì)DQN 和DDPG 情況下的擾動(dòng)以及對(duì)抗訓(xùn)練進(jìn)行了研究,提高算法在參數(shù)不確定環(huán)境中的魯棒性.Mhamdi 等[100]?認(rèn)為在仿真中可能產(chǎn)生的中斷是學(xué)習(xí)過程的一部分,Agent 要有能力在安全的中斷中進(jìn)行學(xué)習(xí),并將這些影響它們獎(jiǎng)勵(lì)的干擾與特定的狀態(tài)聯(lián)系起來,從而有效避免中斷,在聯(lián)合行動(dòng)學(xué)習(xí)者和自主學(xué)習(xí)者兩個(gè)學(xué)習(xí)框架中研究這個(gè)概念,并對(duì)動(dòng)態(tài)安全可中斷性進(jìn)行了定義,實(shí)驗(yàn)證明如果Agent 可以檢測(cè)到中斷,那么即使對(duì)于自主學(xué)習(xí)者,也可以修剪狀態(tài)以確保動(dòng)態(tài)安全中斷.上述研究通過建立帶有擾動(dòng)的環(huán)境提高Agent 的魯棒性.現(xiàn)有研究認(rèn)為在有限的時(shí)間內(nèi),DRL 總能在單Agent 任務(wù)中尋找到較優(yōu)的策略,這一學(xué)習(xí)過程的本質(zhì)是對(duì)訓(xùn)練環(huán)境的過擬合,因而在DL 用于克服過擬合的方法在單Agent 的DRL 任務(wù)中仍舊適用.而在多Agent 研究中的過擬合問題更加嚴(yán)重,不僅存在對(duì)環(huán)境的過擬合,同樣也存在著對(duì)對(duì)手的過擬合.雙重過擬合問題是MADRL 中的一大難點(diǎn),決定著MAS 能不能進(jìn)行可靠的應(yīng)用.
另外,從遷移學(xué)習(xí)派生出來的信息也可以推廣到多Agent 情景來克服MADRL 的弱魯棒性,如課程學(xué)習(xí).遷移學(xué)習(xí)算法利用學(xué)習(xí)中獲得的經(jīng)歷來對(duì)模型進(jìn)行泛化,以改善Agent 在不同但相關(guān)的任務(wù)中的學(xué)習(xí)效果.遷移泛化能力在非平穩(wěn)環(huán)境中的表現(xiàn)尤為重要,特別是多Agent 中對(duì)抗對(duì)手模型變化帶來的環(huán)境的不可預(yù)知的變化(協(xié)同Agent 的策略變化處于一種可獲知的變化).例如,如果對(duì)手經(jīng)常發(fā)生變化,已有的先驗(yàn)信息(以模型、規(guī)則或策略等形式)將有助于快速制定Agent 的策略.在現(xiàn)有的多Agent 學(xué)習(xí)中,重復(fù)使用對(duì)手過去的策略也有體現(xiàn),是當(dāng)前克服模型過擬合的一種通用手段[63,81,101].現(xiàn)有技術(shù)適用于單個(gè)獨(dú)立的Agent,重用遷移不同Agent 的信息仍是一個(gè)有待解決的問題,向Agent提供建議也是一個(gè)待發(fā)展的方向.
此外,在MAS 中,環(huán)境中的Agent 在交互中產(chǎn)生和消亡也是可能的(例如,星際爭(zhēng)霸游戲中己方Agent 死亡),這將影響環(huán)境以及其他Agent 的策略.針對(duì)這類場(chǎng)景,是將每個(gè)可能消失/產(chǎn)生的Agent 單獨(dú)建模,或者利用參數(shù)共享,搭建可擴(kuò)展的訓(xùn)練架構(gòu)[55,59-60,71,102-103].同時(shí),在大多數(shù)多Agent 學(xué)習(xí)算法中通常假定Agent 間的交互在所有的Agent間同時(shí)發(fā)生.然而,在現(xiàn)實(shí)世界的情況下,情況并非總是如此,這種通信交互往往是異步的,而不同的Agent 具有不同的響應(yīng)時(shí)間.目前的學(xué)習(xí)算法能否在這些條件下工作仍然是一個(gè)懸而未決的問題.
與數(shù)量較大的Agent 進(jìn)行交互往往帶來很大的問題,因而現(xiàn)有的大多數(shù)算法在環(huán)境中僅設(shè)置了較少的Agent 進(jìn)行算法驗(yàn)證.然而,將這些算法應(yīng)用到大規(guī)模Agent 環(huán)境中,往往面臨著無法適應(yīng)的問題.為了獲得高效和可擴(kuò)展的算法,人們需要犧牲某些細(xì)節(jié),更加關(guān)注Agent 對(duì)整體最佳響應(yīng),而不是個(gè)體Agent 的最佳響應(yīng).想要克服這一問題,可以通過確定Agent 間交互的程度,考慮Agent 是否應(yīng)該同某一Agent 進(jìn)行交互、還是僅將其當(dāng)作環(huán)境的一部分而不進(jìn)行交互[63,104].
3.4 對(duì)手建模研究
在多Agent 任務(wù)中,存在著動(dòng)作探索的風(fēng)險(xiǎn).當(dāng)多Agent 同時(shí)進(jìn)行探索時(shí),各Agent 都要面臨這種噪聲,往往造成全盤皆輸?shù)木置?同樣的問題也出現(xiàn)在多Agent 深度強(qiáng)化學(xué)習(xí)設(shè)置中[59],在不能進(jìn)行通信協(xié)調(diào)的任務(wù)中,該問題顯得更加復(fù)雜.而且在MAS 中,Agent 是多種多樣的,在多Agent 系統(tǒng)中可能包含著各種各樣的Agent,它們的目標(biāo)、感知以及獎(jiǎng)賞都有可能是不同的.這種混雜的多Agent任務(wù)為最優(yōu)行動(dòng)的學(xué)習(xí)帶來了極大的挑戰(zhàn).在多Agent 決策中,需要考慮對(duì)隊(duì)友與對(duì)抗對(duì)手的理解.在全通信中,Agent 通過通信完成了對(duì)己方協(xié)同Agent 的行為推斷,但對(duì)對(duì)抗Agent 仍需要進(jìn)行觀察與學(xué)習(xí); 在欠通信中,Agent 不僅要對(duì)協(xié)同Agent的行為進(jìn)行分析與判斷,同時(shí)也要考慮對(duì)抗Agent的行為,對(duì)其進(jìn)行分析與預(yù)測(cè).Lowe 等[105]?利用對(duì)手的歷史行為對(duì)對(duì)手的策略進(jìn)行推斷,通過最大化對(duì)手Agent 的動(dòng)作概率來近似對(duì)手策略,定義損失函數(shù)為
其中oj?和aj?表示待近似的Agentj?的觀測(cè)和實(shí)際執(zhí)行動(dòng)作,
表示對(duì)于決策Agenti?而言的對(duì)手Agent?j?的近似策略,H?表示策略分布的熵.Rabinowitz等[106]?提出了一種使得機(jī)器可以學(xué)習(xí)他人心理狀態(tài)的心智理論神經(jīng)網(wǎng)絡(luò)(Theory of mind network,ToMnet),通過觀察Agent 的行為,使用元學(xué)習(xí)對(duì)它們進(jìn)行建模,得到一個(gè)對(duì)Agent 行為具備強(qiáng)大先驗(yàn)知識(shí)的模型,該模型能夠利用少量的行為觀測(cè),對(duì)Agent 特征和心理狀態(tài)進(jìn)行更豐富的預(yù)測(cè).如圖11所示,特征網(wǎng)絡(luò)從POMDP 集合中解析Agent 過去的軌跡,從而形成嵌入表示echar.心理狀態(tài)表示網(wǎng)絡(luò)的心智網(wǎng)絡(luò)解析當(dāng)前片段中Agent 的軌跡,形成心理狀態(tài)嵌入emental.然后,這些嵌入被輸入至預(yù)測(cè)網(wǎng)絡(luò)Prediction net,結(jié)合當(dāng)前狀態(tài)對(duì)Agent 未來行為進(jìn)行預(yù)測(cè),如下一步動(dòng)作概率
、特定對(duì)象被消耗的概率
和預(yù)測(cè)后繼者表示
圖11 心智網(wǎng)絡(luò)
Fig.11 Mind theory neural network
上述對(duì)手建模研究聚焦于建立概率模型和參數(shù)化策略,He 等[107]?提出了同步學(xué)習(xí)對(duì)手策略和模型的神經(jīng)網(wǎng)絡(luò)模型,將對(duì)手觀測(cè)嵌入編碼輸入DQN中,而不是顯式地預(yù)測(cè)對(duì)手動(dòng)作.使用混合專家架構(gòu),無需額外的監(jiān)督信息即可發(fā)現(xiàn)多種策略,并利用估計(jì)權(quán)重對(duì)多個(gè)策略Q 值進(jìn)行加權(quán)求和,進(jìn)而獲得最優(yōu)的行動(dòng).Foerster 等[108]?針對(duì)合作-競(jìng)爭(zhēng)的多Agent 學(xué)習(xí)環(huán)境,提出與對(duì)手-學(xué)習(xí)意識(shí)(Learning with opponent-learning awareness,LOLA)的學(xué)習(xí)方法,該模型考慮對(duì)手策略的策略更新方式,推理其他Agent 的預(yù)期學(xué)習(xí),通過對(duì)狀態(tài)值V?1(θ1,θ2?+Δθ2)≈V?1(θ1,θ2)+(Δθ2)T?θ2V?1(θ1,θ2) 進(jìn)行一階泰勒展開,獲得決策Agent 的值函數(shù)梯度,針對(duì)合作對(duì)手和競(jìng)爭(zhēng)對(duì)手采用兩種不同的更新方式.Hong等[109]?根據(jù)預(yù)測(cè)對(duì)手動(dòng)作的網(wǎng)絡(luò),從隱藏層中提取對(duì)手的行動(dòng)意圖作為決策依據(jù),設(shè)計(jì)適應(yīng)性的損失函數(shù)調(diào)整訓(xùn)練的關(guān)注點(diǎn),并將RNN 架構(gòu)引入Q網(wǎng)絡(luò)的訓(xùn)練中,提出了深度循環(huán)策略推斷Q 網(wǎng)絡(luò)(Deep recurrent policy inference Q-network,DRPIQN).Raileanu 等[110]?提出自主對(duì)手建模(Self other-modeling,SOM),通過觀測(cè)對(duì)手行動(dòng),根據(jù)已有的行動(dòng)意圖集以及單獨(dú)的神經(jīng)網(wǎng)絡(luò)在線構(gòu)建對(duì)手模型,判斷對(duì)手的意圖,最終結(jié)合當(dāng)前狀態(tài)以及自我意圖進(jìn)行決策.
在上述學(xué)習(xí)算法中往往假設(shè)知曉對(duì)手的相關(guān)域知識(shí),如可正確描述對(duì)手觀測(cè)的屬性和特征,然而現(xiàn)實(shí)世界中,總有許多事情是不可預(yù)知的,總有些實(shí)體是不期而遇的.在這種情況下,可以構(gòu)建一組已知的不確定對(duì)手特征表示,通過特定的概率分布來推斷正確的對(duì)手行為.同樣也可以采用多任務(wù)學(xué)習(xí),構(gòu)建多個(gè)可能的環(huán)境和對(duì)手對(duì)Agent 進(jìn)行訓(xùn)練.然而在執(zhí)行中,仍會(huì)存在一些之前沒有遇到過的對(duì)手,不可能構(gòu)建一個(gè)包含全體要素的環(huán)境,但現(xiàn)實(shí)的世界卻有著種種不可預(yù)知的要素,如何克服這種不確定性為系統(tǒng)帶來的風(fēng)險(xiǎn),也是值得研究的一個(gè)方向.
4 結(jié)論
盡管DRL 在一些單Agent 復(fù)雜序列決策任務(wù)中取得了卓越的效果,但多Agent 環(huán)境下的學(xué)習(xí)任務(wù)中任然面臨諸多挑戰(zhàn),另一方面,人類社會(huì)中很多問題都可以抽象為復(fù)雜MAS 問題,所以,在這個(gè)領(lǐng)域需要進(jìn)一步地深入探索.現(xiàn)有多Agent 學(xué)習(xí)綜述多同博弈論關(guān)聯(lián),但伴隨著DRL 的產(chǎn)生與發(fā)展,國(guó)內(nèi)外尚沒有一份關(guān)于MADRL 的綜述.我們通過總結(jié)近些年深度強(qiáng)化學(xué)習(xí)以及多Agent 深度強(qiáng)化學(xué)習(xí)方面的論文,從訓(xùn)練架構(gòu)以及實(shí)現(xiàn)技巧方面著手,撰寫此文.MADRL 是DRL 在多Agent 領(lǐng)域的擴(kuò)展.本文首先對(duì)強(qiáng)化學(xué)習(xí)的基本方法以及DRL 的主要方法進(jìn)行了介紹與分析; 在此基礎(chǔ)上,從通信和決策架構(gòu)方面對(duì)MADRL 進(jìn)行分類,抽象為全通信集中決策、全通信自主決策、欠通信自主決策三類,并對(duì)一些開放的多Agent 訓(xùn)練環(huán)境進(jìn)行了簡(jiǎn)要介紹; 然后,對(duì)多Agent 深度強(qiáng)化學(xué)習(xí)中需要用到的實(shí)用技術(shù)進(jìn)行了分析與討論,包含多Agent 訓(xùn)練框架、樣本增強(qiáng)、魯棒性以及對(duì)手建模等一些關(guān)鍵問題,并根據(jù)對(duì)這些關(guān)鍵問題的認(rèn)識(shí),給出MADRL 領(lǐng)域的發(fā)展展望,對(duì)仍待研究的問題進(jìn)行了探討.
隨著深度強(qiáng)化學(xué)習(xí)的繼續(xù)發(fā)展,在MAS 中的應(yīng)用以及研究也將越來越廣泛,但其訓(xùn)練和執(zhí)行方式也將屬于這3 種形式之一.我們的研究旨在對(duì)當(dāng)前的MADRL 研究現(xiàn)狀進(jìn)行整理與歸納,為希望將DRL 應(yīng)用于MAS 的學(xué)者或機(jī)構(gòu)提供一份可供參考的概覽.
審核編輯:符乾江
評(píng)論