人工智能戰(zhàn)隊(duì)OpenAI將戰(zhàn)Dota2人類最強(qiáng)戰(zhàn)隊(duì)
OpenAI 今日宣布,它們的游戲人工智能 OpenAI Five 將于 4 月 13 日與人類進(jìn)行最終決戰(zhàn),此次比賽的對(duì)手是 Dota 2 世界冠軍團(tuán)隊(duì) OG。
雖然在去年 8 月的 Dota2 國(guó)際邀請(qǐng)賽(TI8)上,OpenAI連續(xù)輸給 paiN 以及由大 B 神、xiao8、430、ROTK、狗哥這些中國(guó) Dota 屆元老組成的戰(zhàn)隊(duì),但 OpenAI 并沒有因?yàn)樘魬?zhàn)失敗而放棄嘗試。這一次他們直接選擇了與 TI8 上的冠軍團(tuán)隊(duì)過招。
看來在最近 6 個(gè)多月的時(shí)間里,人工智能又學(xué)會(huì)了一些新的技術(shù)?
這次比賽的規(guī)則類似于 TI8 時(shí) OpenAI Five 與職業(yè)戰(zhàn)隊(duì)的比賽:
18 名英雄可選:斧王、水晶室女、死亡先知、撼地神牛、矮人直升機(jī)、巫妖、巫魔巫師、死靈法師、痛苦女王、剃刀、隱刺、影魔、斯拉克、矮人火槍手、斯溫、潮汐獵人、冥界亞龍、巫醫(yī)。鏡像匹配:瘟疫法師、矮人火槍手、冥界亞龍、水晶室女、巫妖。
無圣劍、魔瓶
無召喚物,無幻象
無掃描
值得注意的是,TI8 比賽期間,去除掉了“5 個(gè)無敵信使”的限制,因?yàn)檫@個(gè)條件會(huì)極大的影響游戲的真實(shí)性。
人工智能在圍棋上擊敗人類之后,很多技術(shù)人員就開始展望 AI 在視頻游戲中的表現(xiàn)了。2017 年的 Dota2 國(guó)際邀請(qǐng)賽 TI7 上,OpenAI 推出的人工智能橫空出世,在人類巔峰對(duì)決的比賽現(xiàn)場(chǎng) 1v1 打敗了世界頂級(jí)玩家。
在那場(chǎng)一對(duì)一表演賽中,OpenAI 的人工智能打敗了 Danylo "Dendi" Ishutin,一名在職業(yè)生涯中贏得超過 70 萬美元獎(jiǎng)金的職業(yè)玩家。OpenAI 的 bot 在第一場(chǎng)比賽開始約 10 分鐘打敗了 Dendi。在第二場(chǎng)比賽中 Dendi 放棄,并拒絕進(jìn)行第三場(chǎng)比賽。
Dendi 在比賽前接受采訪,作為第一個(gè)在公開比賽中被 AI 擊敗的職業(yè)選手,他領(lǐng)教了人工智能在單挑時(shí)的應(yīng)變能力。
單挑可能還不具有太多說服力,Dota2 是一個(gè) 5v5 的多人對(duì)戰(zhàn)游戲,很快 OpenAI 就開啟了更為正式的“10 人對(duì)決”之旅。2018 年 6 月,這家公司提出的“OpenAI Five”又在 5v5 多人對(duì)局中擊敗了由前職業(yè)玩家、游戲解說組成的天梯 6000 分級(jí)別戰(zhàn)隊(duì),并宣布會(huì)于 TI8 上亮相和真正的職業(yè)選手過招,一時(shí)吸引了人們的關(guān)注。
Dota2 是目前全球最為流行,也最復(fù)雜的電子競(jìng)技游戲之一。其最負(fù)盛名的賽事“TI”每年都會(huì)吸引上千萬玩家的關(guān)注。
面對(duì) AI 的挑戰(zhàn),人類躍躍欲試,在 TI8 上很多參賽隊(duì)伍都報(bào)名想?yún)⒓?OpenAI Five 的比賽,OpenAI 遇到的第一個(gè)對(duì)手是來自巴西的戰(zhàn)隊(duì) paiN,后者也是 TI8 決賽階段第一支被淘汰的隊(duì)伍。有了 AlphaGo 的“前車之鑒”,人們紛紛預(yù)測(cè) AI 穩(wěn)贏,然而人類職業(yè)玩家卻讓 OpenAI 嘗到了失敗的滋味。
paiN 選擇了開霧直接沖進(jìn)天輝野區(qū),四人圍攻落單的潮汐,搶到了一血。OpenAI 也展示出了人工智能“不聰明”的一面,在塔下不斷插眼。雖然在隨后的比賽中雙方有來有往,但人類玩家逐漸掌握了計(jì)算機(jī)的套路,在 50 分鐘的比賽后打爆了對(duì)方的水晶。
在 Open AI Five 對(duì)陣 paiN 的比賽中,人工智能對(duì)于自己獲勝概率的預(yù)測(cè)。
這場(chǎng)失利讓大家對(duì)于 AI 的期待有所下降,隨后在第二場(chǎng)比賽中,由 Burning、Xiao 8、430、ROTK 和 Sansheng 組成的“中國(guó) Dota2 元老隊(duì)”也順利擊敗了 OpenAI Five,讓人工智能的 TI8 之旅最終以失敗告終。
第二場(chǎng)比賽中,人類用了 45 分鐘拿下勝利,人頭比 48 比 43。
解決 5v5 的核心問題
雖然首次挑戰(zhàn)職業(yè)玩家沒有成功,但 OpenAI Five 的嘗試為人工智能領(lǐng)域技術(shù)的發(fā)展有著很大意義——它解決一個(gè)重要問題:強(qiáng)化學(xué)習(xí)在如此復(fù)雜、需要長(zhǎng)期策略的游戲環(huán)境下是否依然奏效?
通過自我對(duì)抗學(xué)習(xí),OpenAI Five 每天相當(dāng)于玩 180 年的游戲。訓(xùn)練上,它使用 256 塊 GPU、12 萬 8000 個(gè) CPU 核心使用近端策略優(yōu)化(Proximal Policy Optimization)方法進(jìn)行訓(xùn)練。當(dāng)每個(gè)英雄使用單獨(dú)的一個(gè) LSTM,模型就可以在沒有人類數(shù)據(jù)的情況下學(xué)到可識(shí)別的策略。這表明強(qiáng)化學(xué)習(xí)即使沒有根本性的進(jìn)步,也能夠產(chǎn)生大規(guī)模但也可接受的長(zhǎng)期規(guī)劃。這出乎了 OpenAI 研究人員起先的預(yù)料。
為了訓(xùn)練每個(gè)英雄,OpenAI 使用了兩種機(jī)器學(xué)習(xí)技術(shù):長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)和近端策略優(yōu)化(Proximal Policy Optimization)。
為什么使用 LSTM 其實(shí)很好理解:打 Dota2 需要長(zhǎng)期策略,敵方英雄的每一個(gè)當(dāng)前行為都會(huì)對(duì)之后的行為產(chǎn)生影響。LSTM 是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它比普通的 RNN 更適合于處理和預(yù)測(cè)時(shí)間序列中間隔和延遲非常長(zhǎng)的重要事件。LSTM 有一個(gè)叫做 Cell 的元素,能夠分辨出輸入的信息是否有用,是否需要記祝
每一個(gè) bot 的神經(jīng)網(wǎng)絡(luò)包含一個(gè)單層的、擁有 1024 單位的 LSTM,觀察游戲的局勢(shì)然后做出相應(yīng)的行為。下圖這個(gè)互動(dòng)演示就是可以讓你理解每個(gè) bot 是如何做出指令的,這些畫面就是 Dota 2 的 API 所觀察到的。
如何讓五個(gè)神經(jīng)網(wǎng)絡(luò)協(xié)作團(tuán)戰(zhàn)是另一個(gè)讓不少人好奇的地方,這其實(shí)也是建立在獎(jiǎng)勵(lì)機(jī)制上。OpenAI 為 AI 模型開發(fā)了一個(gè)叫 Team Spirit 的超參數(shù),數(shù)值從 0 到 1,數(shù)字越小每個(gè)神經(jīng)網(wǎng)絡(luò)就越“自私”,相反則越考慮團(tuán)隊(duì)的整體利益。到最后,OpenAI 發(fā)現(xiàn)將 Team Spirit 設(shè)置為 1 都能贏得比賽。
在訓(xùn)練初期,研究員其實(shí)會(huì)將數(shù)值調(diào)整的很小,這樣 AI 會(huì)更考慮自身的獎(jiǎng)勵(lì),學(xué)習(xí)如何分路、對(duì)線、提供金錢和經(jīng)驗(yàn)。等到每個(gè)神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)了基本的策略和玩法后,研究員才將數(shù)值慢慢提高。
由于所有參數(shù)都是隨機(jī),AI 沒有引入任何人類的經(jīng)驗(yàn),所以 AI 沒有 1-5 號(hào)位的概念,不會(huì)區(qū)分輔助和 carry,出裝備也是從頭開始學(xué)習(xí)。
在第一場(chǎng)游戲中,英雄漫無目的地在地圖上探索,而在幾個(gè)小時(shí)的訓(xùn)練后,出現(xiàn)了規(guī)劃、發(fā)育或中期戰(zhàn)斗等概念。幾天后,智能體能一致地采用基本的人類策略:試圖從對(duì)手偷財(cái)富、推塔發(fā)育、在地圖旋轉(zhuǎn)控制英雄以獲得線路優(yōu)勢(shì)。通過進(jìn)一步的訓(xùn)練,它們開始學(xué)會(huì)了 5 個(gè)英雄一起推塔這樣的高級(jí)策略。
TI8 冠軍 OG 戰(zhàn)隊(duì)
OpenAI 卷土重來,這一次直接選擇挑戰(zhàn)目前人類最強(qiáng)戰(zhàn)隊(duì) OG,展示了自己的強(qiáng)大自信。這次的“最終對(duì)決”,OpenAI 直接以 Finals 為名,看來是最后一戰(zhàn)了。更令人興奮的是,它的對(duì)手 OG 絕非等閑之輩。
OG 戰(zhàn)隊(duì)前身為 Monkey Busniess 戰(zhàn)隊(duì),后被一家游戲直播平臺(tái)收購(gòu)改名為 OG。2015 年,OG 戰(zhàn)隊(duì)在決賽中擊敗了 Secret 戰(zhàn)隊(duì),奪得法蘭克福特錦賽冠軍,從此一戰(zhàn)成名。
2016 年,OG 戰(zhàn)隊(duì)雖然在上海錦標(biāo)賽中失利,卻于當(dāng)年在馬尼拉再次奮起奪得第二個(gè)特錦賽冠。
冠軍團(tuán)隊(duì)也并非一帆風(fēng)順的。在 2016 年 TI 賽慘敗之后,OG 戰(zhàn)隊(duì)經(jīng)歷了一波換血:去掉了 Cr1t-、Miracle-和 MoonMeander,新加入 Jerax、Ana 和 s4。重生之后的 OG 隨即斬獲了波士頓特錦賽的冠軍,之后于 2017 年獲得基輔特錦賽冠軍。
TI5-TI7 期間,OG 取得了 7 個(gè)官方特錦賽中的 4 個(gè)冠軍,這是一支頂級(jí)的世界強(qiáng)隊(duì)。
但 OG 真正的傳奇,展現(xiàn)在 TI8 的舞臺(tái)上。
TI8 自 2018 年 8 月 15 日溫哥華開戰(zhàn)后,OG 先以 2:1 擊敗 PSG.LGD,取得勝者組冠軍。而后,打落敗者組的 PSG.LGD 在敗者組決賽中以 2:0 戰(zhàn)勝 EG 挺進(jìn)總決賽。TI8 決賽成為了 OG 與 LGD 的恩怨局。
8 月 26 日,在總決賽的精彩對(duì)決中,最終 OG 更勝一籌,3:2 贏得 LGD,在全世界面前捧起了 TI 冠軍盾,而 N0tail 與 JerAx 也成功拿下四大聯(lián)賽大滿貫。
評(píng)論