一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Reaver在《星際爭(zhēng)霸 II》各種小型游戲上與其他AI的性能對(duì)比

DPVg_AI_era ? 來源:未知 ? 2018-11-29 09:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如果說我們的征途是星辰大海,那么星際爭(zhēng)霸必定是其中一關(guān)。今天,有人在Github開源了他潛心研究一年半的成果,一個(gè)新手和資深研究人員都能受益的深度強(qiáng)化學(xué)習(xí)框架,單機(jī)運(yùn)行速度快、方便調(diào)式,支持多種強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境。

上周結(jié)束的 AI Challenger 星際爭(zhēng)霸競(jìng)賽,讓 AI 挑戰(zhàn)星際爭(zhēng)霸這個(gè)議題又稍稍火了一把。雖然這屆冠軍使用的仍然是硬編碼方法,但從其他解決方案中不難看出,AI算法的占比在不斷提升。

作為圍棋之后 DeepMind 公開宣布的下一個(gè)攻克目標(biāo),《星際爭(zhēng)霸》的魅力可見一斑。而隨后不久 DeepMind 便將其相關(guān)研究及平臺(tái)開源,更是印證了讓 AI 玩星際爭(zhēng)霸的挑戰(zhàn)。

今天,塔爾圖大學(xué)的 Roman Ring 在 Github 上開源了他傾力投入一年半的成果,一個(gè)名叫 Reaver 的《星際爭(zhēng)霸 II》AI,可用于訓(xùn)練《星際爭(zhēng)霸 II》的各種基本任務(wù)。

Reaver 的基本思路是沿著 DeepMind 的路線在走,也即 AI 的玩法是像人類玩家一樣,從游戲畫面中獲取視覺特征,然后再做出決策。

補(bǔ)充說明,Roman 去年本科畢業(yè)項(xiàng)目是使用《Actor-Critic 法復(fù)現(xiàn) DeepMind 星際爭(zhēng)霸 II 強(qiáng)化學(xué)習(xí)基準(zhǔn)》[1],Reaver 則是在此基礎(chǔ)上的改善提升。

Reaver 的強(qiáng)項(xiàng)在于比其他開源的同類框架單機(jī)運(yùn)行速度快;除了支持星際爭(zhēng)霸游戲訓(xùn)練環(huán)境 SC2LE,也支持 OpenAI Gym、ATARI 和 MUJOCO;模塊化組成,容易調(diào)試。

根據(jù)作者所說,Reaver 不到10 秒就解決 CartPole-v0,在 4 核 CPU 筆記本上每秒處理 5000 張圖像,使用 Google Colab,Reaver 通關(guān)《星際爭(zhēng)霸 II》SC2LE 小型游戲 MoveToBeacon 只需要半小時(shí)的時(shí)間。

Reaver 玩《星際爭(zhēng)霸 II》小型游戲 MoveToBeacon 的畫面,左邊是未經(jīng)訓(xùn)練,右邊是訓(xùn)練后的情況。來源:Roman Ring/YouTube

套用一句話,如果我們的征途是星辰大海,那么其中的一關(guān)必然是《星際爭(zhēng)霸》。

Reaver 對(duì)于不具備 GPU 集群的人非常友好,正如作者在 Github 庫里介紹所說,

“雖然開發(fā)是研究驅(qū)動(dòng)的,但 Reaver API 背后的理念類似于《星際爭(zhēng)霸II》游戲本身——新手可以用,領(lǐng)域?qū)<乙材軓闹蝎@得東西。

“對(duì)于業(yè)余愛好者而言,只要對(duì) Reaver 稍作修改(例如超參數(shù)),就能得到訓(xùn)練深度強(qiáng)化學(xué)習(xí)智能體的所有必須工具。對(duì)于經(jīng)驗(yàn)豐富的研究人員,Reaver 提供簡(jiǎn)單但性能優(yōu)化的代碼庫,而且都是模塊化架構(gòu):智能體、模型和環(huán)境都是分開,并且可以隨意組合調(diào)換?!?/p>

歡迎加入星際爭(zhēng)霸強(qiáng)化學(xué)習(xí)陣營。

深度強(qiáng)化學(xué)習(xí)AIReaver:模塊化且便于調(diào)試

性能 大部分已發(fā)表的強(qiáng)化學(xué)習(xí)基準(zhǔn)通常針對(duì)的都是 MPI 之間 message-based 通信,對(duì)于 DeepMind 或者 OpenAI 這樣有大規(guī)模分布式強(qiáng)化學(xué)習(xí)配置的機(jī)構(gòu)而言這樣做自然很合理,但對(duì)于普通研究者或其他沒有這類強(qiáng)大基礎(chǔ)設(shè)施的人,這就成了很大的瓶頸。因此,Roman Ring 采用了共享內(nèi)存(shared memory)的方法,相比 message-based 并行的解決方案實(shí)現(xiàn)了大約 3 倍的速度提升。

模塊化 很多強(qiáng)化學(xué)習(xí)基準(zhǔn)都或多或少都是模塊化的,不過這些基準(zhǔn)通常與作者使用的訓(xùn)練環(huán)境密切相關(guān)。Roman Ring 自己就曾經(jīng)因?yàn)閷W⒂凇缎请H爭(zhēng)霸 II》環(huán)境而導(dǎo)致調(diào)試花了很長時(shí)間。因此,Revar 只需要一個(gè)命令行就能改變訓(xùn)練環(huán)境,從 SC2 到 Atari 或者 CartPole(將來計(jì)劃納入 VizDoom)。每個(gè)神經(jīng)網(wǎng)絡(luò)都是簡(jiǎn)單的 Keras 模型,只要符合基本的 API contracts 都能調(diào)用。

調(diào)試 現(xiàn)在一個(gè)游戲 AI 通常含有十幾個(gè)不同的調(diào)試參數(shù),如何實(shí)現(xiàn)更為統(tǒng)一便捷的調(diào)試?Roman Ring 在 Reaver 中只要能用的地方都用了 “gin-config”,這個(gè)輕量級(jí)調(diào)試框架只要是 Python 可調(diào)用函數(shù)都能調(diào)試,非常方便。

更新 是的,現(xiàn)在算法發(fā)展很快,去年發(fā)表的東西今年就可能過時(shí)。在開發(fā) Reaver 的時(shí)候 Roman 表示他想著用了 TensorFlow 2.0 API(主要是使用 tf.keras 不用 tf.contrib),希望這個(gè)庫能活用久一點(diǎn)吧。

單機(jī)友好,可用于訓(xùn)練星際爭(zhēng)霸II各種任務(wù)

Roman Ring 列出了 Reaver 在《星際爭(zhēng)霸 II》各種小型游戲上與其他 AI 的性能對(duì)比。其中,

Reaver(A2C)就是在 SC2LE 訓(xùn)練 Reaver 得到的結(jié)果

DeepMind SC2LE 是 DeepMind 在《StarCraft II: A New Challenge for Reinforcement Learning》一文中發(fā)布的結(jié)果[2]

DeepMind ReDRL 則是 DeepMind 在《Relational Deep Reinforcement Learning》中的結(jié)果[3]

人類專家是 DeepMind 收集的 GrandMaster 級(jí)別人類玩家的結(jié)果

以下是 Reaver 在不同小型游戲中訓(xùn)練花費(fèi)的時(shí)間:

綜上,就算 DefeatRoaches 花了 150 小時(shí),但考慮到硬件只是一臺(tái)筆記本(英特爾酷睿 i5-7300HQ,4核 +GTX 1050GPU),這個(gè)結(jié)果已經(jīng)算很不錯(cuò)。

Roman 還列出了他的路線圖,上述成果只是他萬里長征的第一步。如果你感興趣,不妨加入這個(gè)項(xiàng)目。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    269

    瀏覽量

    11599
  • GitHub
    +關(guān)注

    關(guān)注

    3

    文章

    483

    瀏覽量

    17680
  • AI算法
    +關(guān)注

    關(guān)注

    0

    文章

    263

    瀏覽量

    12693

原文標(biāo)題:?jiǎn)螜C(jī)《星際爭(zhēng)霸2》AI,不用GPU集群,支持多種訓(xùn)練環(huán)境

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    與其他材料集成電路中的比較

    與其他半導(dǎo)體材料集成電路應(yīng)用中的比較可從以下維度展開分析。
    的頭像 發(fā)表于 06-28 09:09 ?427次閱讀

    汽輪機(jī)與其他動(dòng)力設(shè)備的對(duì)比

    現(xiàn)代工業(yè)中,動(dòng)力設(shè)備是不可或缺的組成部分,它們?yōu)?b class='flag-5'>各種工業(yè)過程提供必要的能量。汽輪機(jī)作為一種高效的能量轉(zhuǎn)換設(shè)備,與其他動(dòng)力設(shè)備相比,具有其獨(dú)特的優(yōu)勢(shì)和局限性。 汽輪機(jī)的特點(diǎn) 汽輪機(jī)的主要特點(diǎn)包括
    的頭像 發(fā)表于 02-06 16:58 ?744次閱讀

    真空斷路器與其他類型斷路器的性能對(duì)比

    電力系統(tǒng)中,斷路器是實(shí)現(xiàn)電路控制和保護(hù)的關(guān)鍵設(shè)備。隨著技術(shù)的發(fā)展,斷路器的種類也越來越多,包括真空斷路器、空氣斷路器、油斷路器和SF6斷路器等。每種類型的斷路器都有其特定的應(yīng)用場(chǎng)景和性能特點(diǎn)
    的頭像 發(fā)表于 01-17 09:39 ?917次閱讀

    HarmonyOS NEXT 應(yīng)用開發(fā)練習(xí):AI能對(duì)話框

    顯示發(fā)送的時(shí)間戳,以便用戶了解消息的發(fā)送時(shí)間。 這個(gè)DEMO展示了如何使用ArkTS和擴(kuò)展后的ChatUI框架(或類似功能的庫)HarmonyOS NEXT創(chuàng)建一個(gè)功能豐富的AI能對(duì)
    發(fā)表于 01-03 11:29

    華為云Flexus X實(shí)例,Redis性能加速評(píng)測(cè)及對(duì)比

    加速 Redis 的選項(xiàng)。本文旨在通過實(shí)際測(cè)試,展示華為云 Flexus X 實(shí)例加速 Redis 方面的性能優(yōu)勢(shì),并與其他業(yè)界 U1 實(shí)例進(jìn)行對(duì)比
    的頭像 發(fā)表于 12-29 15:47 ?491次閱讀
    華為云Flexus X實(shí)例,Redis<b class='flag-5'>性能</b>加速評(píng)測(cè)及<b class='flag-5'>對(duì)比</b>

    Triton編譯器與其他編譯器的比較

    的GPU編程框架,使開發(fā)者能夠編寫出接近手工優(yōu)化的高性能GPU內(nèi)核。 其他編譯器 (如GCC、Clang、MSVC等): 定位:通用編譯器,支持多種編程語言,廣泛應(yīng)用于各種軟件開發(fā)場(chǎng)景。 目標(biāo):提供穩(wěn)定、高效的編譯服務(wù),優(yōu)化代碼
    的頭像 發(fā)表于 12-24 17:25 ?1001次閱讀

    單片機(jī)Debug工具性能對(duì)比 單片機(jī)調(diào)試常用命令

    。以下是對(duì)單片機(jī)調(diào)試工具性能的簡(jiǎn)要對(duì)比以及一些常用的調(diào)試命令。 單片機(jī)Debug工具性能對(duì)比 Keil uVision 性能 :Keil uVision 是一款功能強(qiáng)大的集成開發(fā)環(huán)境(
    的頭像 發(fā)表于 12-19 09:56 ?1419次閱讀

    ddc與其他分類系統(tǒng)的比較

    DDC(Dewey Decimal Classification,即杜威十進(jìn)制分類法)與其他分類系統(tǒng)多個(gè)方面存在差異。以下是對(duì)DDC與其他分類系統(tǒng)(如體系分類法、網(wǎng)絡(luò)分類體系、PLC控制系統(tǒng)分類等
    的頭像 發(fā)表于 12-18 15:10 ?897次閱讀

    TNC連接器對(duì)比分析:與其他射頻連接器的性能對(duì)

    德索工程師說道射頻連接器領(lǐng)域,TNC連接器以其卓越的性能和廣泛的應(yīng)用而著稱。以下是TNC連接器與其他射頻連接器的性能對(duì)比分析: TNC連接器vs SMA連接器 頻率范圍:TNC連
    的頭像 發(fā)表于 12-17 10:58 ?901次閱讀
    TNC連接器<b class='flag-5'>對(duì)比</b>分析:<b class='flag-5'>與其他</b>射頻連接器的<b class='flag-5'>性能對(duì)</b>決

    可控硅與其他半導(dǎo)體器件的對(duì)比

    可控硅與其他半導(dǎo)體器件的對(duì)比如下: 一、可控硅與IGBT的對(duì)比 結(jié)構(gòu) : 可控硅:一種由NPNPN結(jié)構(gòu)組成的多層PN結(jié)的器件,通常由四個(gè)電極組成,即門極(G)、陽極(A)、陰極(K)和螺旋線圈(C
    的頭像 發(fā)表于 12-04 10:47 ?1091次閱讀

    NPU與GPU的性能對(duì)比

    它們不同應(yīng)用場(chǎng)景下的表現(xiàn)。 一、設(shè)計(jì)初衷與優(yōu)化方向 NPU : 專為加速AI任務(wù)而設(shè)計(jì),包括深度學(xué)習(xí)和推理。 針對(duì)神經(jīng)網(wǎng)絡(luò)的計(jì)算模式進(jìn)行了優(yōu)化,能夠高效地執(zhí)行矩陣乘法、卷積等操作。 擁有眾多小型處理單元,配備專門的內(nèi)存體系結(jié)構(gòu)
    的頭像 發(fā)表于 11-14 15:19 ?4161次閱讀

    soc與其他集成電路的比較分析

    將一個(gè)完整的系統(tǒng)所需的大部分或所有組件集成到一個(gè)單一的芯片,包括處理器核心、內(nèi)存、輸入/輸出接口等。 復(fù)雜功能 :由于集成了多種功能模塊,SOC能夠支持高性能計(jì)算和復(fù)雜功能。 MCU 小型計(jì)算設(shè)備 :MCU集成了處理器核心、存
    的頭像 發(fā)表于 11-10 09:32 ?1152次閱讀

    Orin芯片與其他芯片對(duì)比

    。 1. 性能對(duì)比 Orin芯片: 核心數(shù)量: Orin芯片擁有高達(dá)2048個(gè)CUDA核心,這為其提供了強(qiáng)大的圖形處理能力。 AI性能: 根據(jù)NVIDIA的數(shù)據(jù),Orin的AI
    的頭像 發(fā)表于 10-27 15:42 ?3526次閱讀

    Llama 3 模型與其他AI工具對(duì)比

    Llama 3模型與其他AI工具的對(duì)比可以從多個(gè)維度進(jìn)行,包括但不限于技術(shù)架構(gòu)、性能表現(xiàn)、應(yīng)用場(chǎng)景、定制化能力、開源與成本等方面。以下是對(duì)Llama 3模型
    的頭像 發(fā)表于 10-27 14:37 ?1060次閱讀

    Chip天線相比較其他天線的優(yōu)勢(shì)有哪些?

    hello小伙伴們,上周我們推出了Chip天線的文,這種天線因其小型化、高性能和易于集成的特點(diǎn),能夠各種使用環(huán)境下保持優(yōu)異的性能。 Chi
    的頭像 發(fā)表于 08-30 09:07 ?839次閱讀
    Chip天線相比較<b class='flag-5'>其他</b>天線的優(yōu)勢(shì)有哪些?