今日凌晨,OpenAI發(fā)布Neural MMO—一個強化學習的大型多智能體游戲環(huán)境。這一平臺可以在持久性和開放式任務(wù)中支持大量可變數(shù)量的智能體。
一直以來,人工智能研究者都希望讓智能體(agent)學會合作競爭,一些研究者也認為這是實現(xiàn)通用人工智能(AGI)的必要條件。
17年7月份,OpenAI、麥吉爾大學和 UC Berkeley 聯(lián)合提出了一種“用于合作-競爭混合環(huán)境的多智能體 actor-critic”,可用于多智能體環(huán)境中的中心化學習(centralized learning)和去中心化執(zhí)行(decentralized execution),讓智能體可以學會彼此合作和競爭。
論文地址:
https://arxiv.org/pdf/1706.02275.pdf
之后,OpenAI也一直沒有放棄對多智能體學習環(huán)境的探索。
今日凌晨,OpenAI宣稱發(fā)布Neural MMO——一個強化學習的大型多智能體游戲環(huán)境。這一多智能體的環(huán)境可以探索更兼容和高效的整體環(huán)境,力求在復雜度和智能體人數(shù)上獲取難得的平衡。
近年來,多重代理設(shè)置已成為深度強化學習研究的一個有效平臺。盡管進展頗豐,但其仍存在兩個主要挑戰(zhàn):當前環(huán)境要么復雜但過于受限,要么開放但過于簡單。
其中,持久性和規(guī)?;瘜⑹翘接懙年P(guān)鍵屬性,但研究者們還需要更好的基準測試環(huán)境,在存在大量人口規(guī)模和持久性的情況下量化學習進度。這一游戲類型(MMO:大型多人在線游戲)模擬了在持續(xù)和廣泛環(huán)境中可變數(shù)量玩家進行競爭的大型生態(tài)系統(tǒng)。
為了應(yīng)對這些挑戰(zhàn),OpenAI構(gòu)建了神經(jīng)MMO以滿足以下標準:
持久性:在沒有環(huán)境重置的情況下,代理可以在其他學習代理存在的情況下同時學習。策略必須具有遠見思維,并適應(yīng)其他代理行為的潛在快速變化。
比例:環(huán)境支持大量且可變數(shù)量的實體。實驗考慮了100個并發(fā)服務(wù)器中每個服務(wù)器128個并發(fā)代理且長達100M的生命周期。
效率:進入的計算障礙很低??梢栽趩蝹€桌面CPU上培訓有效的策略。
擴展:與現(xiàn)有MMO類似,Neural MMO旨在更新內(nèi)容。目前的核心功能包括基于拼接單元塊(tile-based)的地形的程序生成,食物和水覓食系統(tǒng)以及戰(zhàn)略戰(zhàn)斗系統(tǒng)。未來有機會進行開源驅(qū)動的擴展。
OpenAI在博客中詳細介紹了這一新環(huán)境。
環(huán)境
玩家(代理)可以加入任何可用的服務(wù)器(環(huán)境),每個都會包含一個可配置大小、且自動生成的基于圖塊的游戲地圖。一些障礙塊,例如森林和草,是可穿越的;其他的如水和實心巖石,則不能穿越。
代理在環(huán)境邊緣的隨機位置產(chǎn)生。他們需要獲得食物和水,并避免其他代理的戰(zhàn)斗傷害,以維持自己的生存。踩在森林地塊上或出現(xiàn)在水資源地塊的旁邊會分別填充一部分代理的食物和水供應(yīng)。然而,森林的食物供應(yīng)有限,隨著時間的推移會緩慢再生。這意味著代理必須競爭食品塊,同時定期補充水源。玩家還可以使用三種戰(zhàn)斗風格參與戰(zhàn)斗,分別為混戰(zhàn),游獵及魔法。
輸入:代理觀察以其當前位置為中心的方形區(qū)域。這包括地塊類型和占用代理的選擇屬性(健康,食物,水和位置)。
輸出:代理為下一個游戲單位時間(timestep)輸出操作選項。該操作由一個動作和一個攻擊組成。
模型
作為一個簡單的基準,我們使用vanilla策略梯度訓練一個小型,完全連接的架構(gòu),并把值函數(shù)基準和獎勵折扣作為唯一的增強功能。在這個模型中,獎勵策略并不針對實現(xiàn)特定目標,而是針對其生命周期(軌跡長度)進行優(yōu)化:他們在其生命周期的每個單位時間上獲得獎勵1。我們通過計算所有代理的最大值來將可變長度觀測值(例如周圍代理列表)轉(zhuǎn)換為單個長度向量(OpenAI Five也使用了這個技巧)?;赑yTorch和Ray,源版本包括我們完整分布式培訓的實現(xiàn)。
訓練中最大種群數(shù)量在(16,32,64,128)之間變化。為了提高效率,在測試時,將在一對實驗中學到的特定群進行合并,并在一個固定的范圍內(nèi)進行評估。只對作戰(zhàn)策略進行評估,因為直接量化作戰(zhàn)策略比較困難。通常來說,在更大的分布范圍內(nèi)進行訓練效果會更好。
代理的策略是從多個種群中簡單抽樣——不同種群中的代理共享體系結(jié)構(gòu),但只有相同種群中的代理共享權(quán)重。初步實驗表明,隨著多智能體相互作用的增加,智能體的能力也隨之增加。增加并發(fā)智能體的最大數(shù)量將放大探索行為;增加種群的數(shù)量將放大生態(tài)位形成——也就是說,種群在地圖的不同部分擴散和覓食的趨勢。
在評估跨多臺服務(wù)器的玩家能力方面,并沒有統(tǒng)一的標準。然而,有時,MMO服務(wù)器會進行合并。我們通過合并在不同服務(wù)器中訓練的玩家基地來實現(xiàn)“錦標賽”風格的評估。這使得我們可以直接比較在不同實驗環(huán)境中學到的策略。改變了測試時間范圍,發(fā)現(xiàn)在較大環(huán)境下訓練的代理一直優(yōu)于在較小環(huán)境中訓練的代理。
評估結(jié)果
訓練中最大種群數(shù)量在(16,32,64,128)之間變化。為了提高效率,在測試時,將在一對實驗中學到的特定群進行合并,并在一個固定的范圍內(nèi)進行評估。只對作戰(zhàn)策略進行評估,因為直接量化作戰(zhàn)策略比較困難。通常來說,在更大的分布范圍內(nèi)進行訓練效果會更好。
代理的策略是從多個種群中簡單抽樣——不同種群中的代理共享體系結(jié)構(gòu),但只有相同種群中的代理共享權(quán)重。初步實驗表明,隨著多智能體相互作用的增加,智能體的能力也隨之增加。增加并發(fā)智能體的最大數(shù)量將放大探索行為;增加種群的數(shù)量將放大生態(tài)位形成——也就是說,種群在地圖的不同部分擴散和覓食的趨勢。
服務(wù)器合并條件下的錦標賽:多代理放大了競爭行為
在跨多臺服務(wù)器隊玩家能力的能力進行評估時,我們并沒有統(tǒng)一的標準。然而,有時MMO服務(wù)器會進行合并。我們通過合并在不同服務(wù)器中訓練的玩家基地來實現(xiàn)“錦標賽”風格的評估。這使得我們可以直接比較在不同實驗環(huán)境中學到的策略。改變了測試時間范圍后,我們發(fā)現(xiàn),在較大環(huán)境下訓練的代理一直優(yōu)于在較小環(huán)境中訓練的代理。
種群規(guī)模的增加放大了探索行為
種群規(guī)模放大了探索行為:代理表現(xiàn)出分散開來的特征以避免競爭。最后幾幀顯示學習值函數(shù)疊加。有關(guān)其他參數(shù),請參閱論文:
https://s3-us-west-2.amazonaws.com/openai-assets/neural-mmo/neural-mmo-arxiv.pdf
在自然世界中,動物之間的競爭可以激勵它們分散開來以避免沖突。我們觀察到,隨著并發(fā)代理數(shù)量的增加,映射覆蓋率增加。代理學習探索僅僅是因為其他代理的存在提供了這樣做的自然動機。物種數(shù)量的增加擴大了生態(tài)位形成的幾率。
物種數(shù)量的增加擴大了生態(tài)位的形成。
物種數(shù)量(種群數(shù)量)放大了生態(tài)位的形成。上圖中訪問地圖覆蓋了游戲地圖;不同的顏色對應(yīng)不同的物種。訓練單一物種傾向于產(chǎn)生單一的深度探索路徑。訓練八個物種則會導致許多較淺的探索路徑:種群擴散以避免物種之間的競爭。
鑒于環(huán)境足夠大且資源豐富,我們發(fā)現(xiàn)不同的代理群在地圖上呈現(xiàn)分散的特點,以避免隨著數(shù)量的增加與其他代理產(chǎn)生競爭。由于代理不能與自己種群中的其他代理競爭(即與他們共享權(quán)重的代理),他們傾向于尋找包含足夠資源來維持其種群數(shù)量的地圖區(qū)域。在DeepMind的并發(fā)多代理研究中也獨立地觀察到類似的效果。
并發(fā)多代理研究:
https://arxiv.org/abs/1812.07019
其他見解
每個方形圖顯示位于中心的代理對其周圍代理的存在的響應(yīng)。我們在初始化和訓練早期展示覓食地圖;額外的依賴圖對應(yīng)于覓食和戰(zhàn)斗的不同表述。
我們通過將代理固定在假設(shè)的地圖中心來對代理進行可視化。對于該代理可見的每個位置,我們將顯示在該位置有第二個代理時的值函數(shù)。
我們發(fā)現(xiàn)代理商在覓食和戰(zhàn)斗環(huán)境中,可以學習依賴于其他代理的策略。代理學習“插眼(bull’s eye)”行為時,在幾分鐘的訓練后就能更有效地開始覓食。當代理學習環(huán)境的戰(zhàn)斗力學時,他們開始適當?shù)卦u估有效的接觸范圍和接近角度。
下一步
Neural MMO解決了之前基于游戲環(huán)境的兩個主要限制,但仍有許多尚未解決。這種Neural MMO在環(huán)境復雜性和人口規(guī)模之間盡力尋求平衡。OpenAI在設(shè)計這個環(huán)境時考慮了開源擴展,并為研究社區(qū)提供了基礎(chǔ)。
-
人工智能
+關(guān)注
關(guān)注
1806文章
49028瀏覽量
249514 -
智能體
+關(guān)注
關(guān)注
1文章
307瀏覽量
11078 -
強化學習
+關(guān)注
關(guān)注
4文章
269瀏覽量
11602
原文標題:OpenAI發(fā)布Neural MMO :大型多智能體游戲環(huán)境
文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA Isaac Lab可用環(huán)境與強化學習腳本使用指南

【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗】操作實戰(zhàn),開發(fā)一個編程助手智能體
18個常用的強化學習算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實現(xiàn)

詳解RAD端到端強化學習后訓練范式

OpenAI發(fā)布深度研究智能體功能
OpenAI將發(fā)布更智能GPT模型及AI智能體工具
OpenAI 發(fā)了一個支持 ESP32 的 Realtime API SDK

【「具身智能機器人系統(tǒng)」閱讀體驗】+初品的體驗
《具身智能機器人系統(tǒng)》第1-6章閱讀心得之具身智能機器人系統(tǒng)背景知識與基礎(chǔ)模塊

評論