一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌推出新的基于Tensorflow的強(qiáng)化學(xué)習(xí)框架,稱為Dopamine

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-08-31 09:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天,谷歌宣布推出一個(gè)新的基于Tensorflow的強(qiáng)化學(xué)習(xí)框架,稱為Dopamine,旨在為強(qiáng)化學(xué)習(xí)研究人員提供靈活性、穩(wěn)定性和可重復(fù)性。這個(gè)強(qiáng)大的新框架或?qū)⑼苿?dòng)強(qiáng)化學(xué)習(xí)研究取得根本性的新突破。

最近OpenAI在Dota 2上的表現(xiàn),讓強(qiáng)化學(xué)習(xí)又大大地火了一把,但是OpenAI的強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境OpenAI Gym卻一直遭到不少抱怨,比如不太穩(wěn)定、更新沒有及時(shí)……

今天,谷歌宣布開源基于TensorFlow的強(qiáng)化學(xué)習(xí)框架——Dopamine,代碼現(xiàn)在就能在Github查看。

谷歌研究人員表示,他們開源的這個(gè)TensorFlow強(qiáng)化學(xué)習(xí)框架強(qiáng)調(diào)三點(diǎn):靈活、穩(wěn)定和可重復(fù)性(reproducibility)。

為此,配套開源的還包括一個(gè)專用于視頻游戲訓(xùn)練結(jié)果的平臺(tái),以及四種不同的機(jī)器學(xué)習(xí)模型:DQN、C51、簡(jiǎn)化版的Rainbow智能體和IQN(Implicit Quantile Network)。

為了實(shí)現(xiàn)可重復(fù)性,Github代碼包括Arcade Learning Environment支持的全部60個(gè)游戲的完整測(cè)試和訓(xùn)練代碼,并遵循標(biāo)準(zhǔn)化經(jīng)驗(yàn)評(píng)估結(jié)果的最佳實(shí)踐。

除了開源這個(gè)增強(qiáng)學(xué)習(xí)框架,谷歌還推出了一個(gè)網(wǎng)站,允許開發(fā)人員將多個(gè)訓(xùn)練中智能體的運(yùn)行情況快速可視化。其他還有訓(xùn)練好的模型、原始統(tǒng)計(jì)日志和TensorFlow event files,用于TensorBoard動(dòng)態(tài)圖的繪制。

Dopamine框架:靈感來(lái)自大腦的多巴胺受體

強(qiáng)化學(xué)習(xí)(RL)研究在過(guò)去幾年取得了許多重大進(jìn)展。強(qiáng)化學(xué)習(xí)的進(jìn)步使得AI智能體能夠在一些游戲上超過(guò)人類,值得關(guān)注的例子包括DeepMind攻破Atari游戲的DQN,在圍棋中獲得矚目的AlphaGo和AlphaGo Zero,以及在Dota2對(duì)戰(zhàn)人類職業(yè)玩家的Open AI Five。

具體來(lái)說(shuō),在DQN中引入重放記憶(replay memories)可以利用先前agent的經(jīng)驗(yàn),大規(guī)模的分布式訓(xùn)練可以在多個(gè)workers之間分配學(xué)習(xí)過(guò)程,分布式的方法允許agent建模完整的分布,而不僅僅是建模它們的期望值,從而能夠?qū)W習(xí)更完整的世界。

這類進(jìn)展非常重要,因?yàn)楫a(chǎn)生這些進(jìn)展的算法也適用于其他領(lǐng)域,例如機(jī)器人技術(shù)。

通常,實(shí)現(xiàn)這類進(jìn)展需要快速的迭代設(shè)計(jì)——通常沒有明確的方向——并破壞既定方法的結(jié)構(gòu)。然而,大多數(shù)現(xiàn)有的RL框架不能同時(shí)提供靈活性和穩(wěn)定性,研究人員難以有效地迭代RL方法,進(jìn)而探索新的研究方向,雖然這些新研究方向可能不會(huì)立即帶來(lái)明顯的好處。此外,從現(xiàn)有框架中復(fù)制結(jié)果常常太耗時(shí),這可能導(dǎo)致后續(xù)的科學(xué)再現(xiàn)性問題。

今天,谷歌宣布推出一個(gè)新的基于Tensorflow的框架,稱為Dopamine,旨在為RL研究人員提供靈活性、穩(wěn)定性和可重復(fù)性。

這個(gè)平臺(tái)的靈感來(lái)自于大腦中獎(jiǎng)勵(lì)動(dòng)機(jī)行為的主要組成部分之一(多巴胺受體,dopamine receptor),這反映了神經(jīng)科學(xué)和強(qiáng)化學(xué)習(xí)研究之間強(qiáng)大的歷史聯(lián)系,它的目的是使這種推測(cè)性的研究能夠推動(dòng)根本性的發(fā)現(xiàn)。開源框架還包含一組colabs,說(shuō)明如何使用這個(gè)框架。

易用性

清晰和簡(jiǎn)潔是這個(gè)框架設(shè)計(jì)中的兩個(gè)關(guān)鍵考慮因素。谷歌提供了緊湊的代碼(大約15個(gè)Python files),并且有詳細(xì)的文檔記錄。這是通過(guò)專注于Arcade Learning環(huán)境(一個(gè)成熟的、易于理解的baseline)和4個(gè)value-based的agent來(lái)實(shí)現(xiàn)的,分別是:DQN, C51,Rainbow agent的一個(gè)簡(jiǎn)化版本,以及Implicit Quantile Network agent,這是上個(gè)月剛在ICML大會(huì)上發(fā)表的。這種簡(jiǎn)單性能幫助研究人員更容易理解agent的內(nèi)部工作原理,并快速嘗試新的想法。

可重復(fù)性

谷歌尤其重視強(qiáng)化學(xué)習(xí)研究的可重復(fù)性(reproducibility)。他們?yōu)榇a提供了完整的測(cè)試覆蓋率;這些測(cè)試還可以作為文檔的附加形式。此外,他們的實(shí)驗(yàn)框架遵循Machado et al. (2018)給出的建議,使用街機(jī)學(xué)習(xí)環(huán)境(Arcade Learning Environment)進(jìn)行標(biāo)準(zhǔn)化經(jīng)驗(yàn)評(píng)估。

基準(zhǔn)測(cè)試

對(duì)于新的研究人員來(lái)說(shuō),能夠快速地將他們的想法與已有的方法進(jìn)行對(duì)比是很重要的。因此,我們?cè)贏rcade Learning Environment支持的60款游戲中提供了4個(gè)agent的完整訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)可以作為Python pickle文件(用于通過(guò)我們的框架訓(xùn)練的agent)和JSON數(shù)據(jù)文件(用于與在其他框架中訓(xùn)練的agent進(jìn)行比較);此外,谷歌還開放了一個(gè)網(wǎng)站,在上面可以快速地查看所有60款游戲提供的agent的可視化訓(xùn)練運(yùn)行。

下圖是4個(gè)agent在Seaquest上的訓(xùn)練,這是Arcade Learning Environment支持的Atari 2600游戲之一。

在Seaquest上,4個(gè)agent進(jìn)行了訓(xùn)練。x軸表示迭代,其中每次迭代是100萬(wàn)幀(4.5小時(shí)的實(shí)時(shí)游戲); y軸表示每場(chǎng)游戲獲得的平均分?jǐn)?shù)。陰影區(qū)域顯示了5次獨(dú)立運(yùn)行的置信區(qū)間。

谷歌還提供了來(lái)自這些agent的訓(xùn)練好的深度網(wǎng)絡(luò)、原始統(tǒng)計(jì)日志以及用于使用Tensorboard繪圖的Tensorflow事件文件。這些都可以在官網(wǎng)下載。

開源獲取地址:

https://github.com/google/dopamine

其他主要強(qiáng)化學(xué)習(xí)框架

OpenAI Gym

2016 年 4 月 28 日,OpenAI 對(duì)外發(fā)布了強(qiáng)化學(xué)習(xí)開發(fā)平臺(tái) OpenAI Gym。Gym 平臺(tái)的基本理念是,研究者建立自己的算法后,可以把該算法置于不同的環(huán)境中進(jìn)行測(cè)試,然后把測(cè)試后的基本算法發(fā)布在 Gym 的平臺(tái)上,讓社區(qū)中的其他人看到。該平臺(tái)現(xiàn)在已經(jīng)與一些開放資源人工智能工具,例如谷歌的 TensorFlow 展開合作。

在OpenAI Gym上訓(xùn)練強(qiáng)化學(xué)習(xí)agent

OpenAI Gym 是一款用于研發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具包,它支持訓(xùn)練智能體(agent)做任何事——從行走到玩Pong或圍棋之類的游戲,都在范圍中。

OpenAI Universe

2016 年 12 月,OpenAI發(fā)布 OpenAI Universe。 根據(jù)其官方博客的介紹,這是一個(gè)能在幾乎所有環(huán)境中衡量和訓(xùn)練 AI 通用智能水平的開源平臺(tái),當(dāng)下的目標(biāo)是讓 AI 智能體能像人一樣使用計(jì)算機(jī)。目前,Universe 已經(jīng)有 1000 種訓(xùn)練環(huán)境,由微軟、英偉達(dá)等公司參與建設(shè)。

Universe AI訓(xùn)練平臺(tái)

Universe 通過(guò)一個(gè)通用的接口適用于各種場(chǎng)景:智能體通過(guò)捕捉屏幕的像素生成對(duì)鍵盤和鼠標(biāo)的命令來(lái)操作遠(yuǎn)程桌面。場(chǎng)景需要 VNC 服務(wù)器,universe 庫(kù)將智能體轉(zhuǎn)換為 VNC 客戶端。

OpenAI Gym Retro

這是OpenAI開源的用于游戲研究的完整版強(qiáng)化學(xué)習(xí)平臺(tái) Gym Retro,支持的游戲從大約 70 多個(gè)Atari游戲和 30 多個(gè)世嘉游戲擴(kuò)展到各種仿真器支持的 1000 多個(gè)游戲。

Gym Retro支持1000多個(gè)游戲

Gym Retro 用于研究強(qiáng)化學(xué)習(xí)算法及其泛化。RL 之前的研究主要集中在優(yōu)化 Agent 解決單個(gè)任務(wù)上。通過(guò) Gym Retro,我們可以研究?jī)?nèi)部概念相似但外觀表現(xiàn)不同的游戲之間泛化的能力。

DeepMind Lab

就在OpenAI 剛剛宣布開源 Universe平臺(tái)后,DeepMind 也宣布將其 AI 核心平臺(tái) DeepMind Lab 開源。該平臺(tái)將幾個(gè)不同的 AI 研究領(lǐng)域整合至一個(gè)環(huán)境下,方便研究人員測(cè)試 AI 智能體的導(dǎo)航、記憶和 3D 成像等能力。

DeepMind Lab

DeepMind Lab 是一個(gè)專為基于智能體的 AI 研究設(shè)計(jì)的,完全像 3D 游戲般的平臺(tái)。它從自己的視角,通過(guò)模擬智能體的眼睛進(jìn)行觀察。場(chǎng)景呈現(xiàn)的視覺效果是科幻風(fēng)格??捎玫牟僮髂茏屩悄荏w環(huán)顧四周,并且以 3D 的形式移動(dòng)。示例任務(wù)包括收集水果、走迷宮、穿越危險(xiǎn)的通道且要避免從懸崖上墜落、使用發(fā)射臺(tái)在平臺(tái)間穿越、玩激光筆、以及快速學(xué)習(xí)并記住隨機(jī)生成的環(huán)境。

阿里Gym StarCraft

阿里去年開源了針對(duì)星際AI的研究平臺(tái)Gym StarCraft。在 Gym StarCraft 中,AI 和強(qiáng)化學(xué)習(xí)研究者可以非常方便地使用 Python 語(yǔ)言來(lái)進(jìn)行深度強(qiáng)化學(xué)習(xí)智能 Agent 的開發(fā),它底層完成了對(duì) TorchCraft 和 OpenAI Gym 的封裝,支持基于 TensorFlow 和 Keras 等主流算法框架進(jìn)行開發(fā),僅需幾十行代碼即可完成一個(gè)基本的智能 Agent 的開發(fā)。

同時(shí),為了便于評(píng)測(cè)智能 Agent 的有效性,Gym StarCraft 被集成在了 OpenAI Gym 這一主流的強(qiáng)化學(xué)習(xí) AI 評(píng)測(cè)平臺(tái)中,支持世界各地的星際 AI 研究者基于它去進(jìn)行公平、快捷的效果評(píng)估。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6231

    瀏覽量

    108193
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    269

    瀏覽量

    11607

原文標(biāo)題:谷歌用“多巴胺”懟上OpenAI,開源TensorFlow強(qiáng)化學(xué)習(xí)框架

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

    Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時(shí)支持模仿學(xué)習(xí)(模仿人類)和強(qiáng)化學(xué)習(xí)(在嘗試和錯(cuò)誤中進(jìn)行
    的頭像 發(fā)表于 07-14 15:29 ?595次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>腳本使用指南

    18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    本來(lái)轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級(jí)技術(shù)(如PPO、A3C、PlaNet等)的實(shí)現(xiàn)原理與編碼過(guò)程,旨在通過(guò)理論結(jié)合代碼的方式,構(gòu)建對(duì)強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?438次閱讀
    18個(gè)常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    Princetel 推出新的手動(dòng)電纜卷筒在線配置器

    和定制模塊化電纜卷筒(手動(dòng)和電動(dòng))。該公司近期宣布為其手動(dòng)電纜卷筒產(chǎn)品線推出新的在線配置器 。這種用戶友好型工具使設(shè)計(jì)工程師能夠創(chuàng)建手動(dòng)電纜卷筒的定制配置,大大簡(jiǎn)化了設(shè)計(jì)流程,節(jié)省了寶貴的工程時(shí)間
    發(fā)表于 04-18 15:41

    用樹莓派搞深度學(xué)習(xí)?TensorFlow啟動(dòng)!

    介紹本頁(yè)面將指導(dǎo)您在搭載64位Bullseye操作系統(tǒng)的RaspberryPi4上安裝TensorFlow。TensorFlow是一個(gè)專為深度學(xué)習(xí)開發(fā)的大型軟件庫(kù),它消耗大量資源。您可以在
    的頭像 發(fā)表于 03-25 09:33 ?450次閱讀
    用樹莓派搞深度<b class='flag-5'>學(xué)習(xí)</b>?<b class='flag-5'>TensorFlow</b>啟動(dòng)!

    詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

    受限于算力和數(shù)據(jù),大語(yǔ)言模型預(yù)訓(xùn)練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過(guò)強(qiáng)化學(xué)習(xí)后訓(xùn)練涌現(xiàn)了強(qiáng)大的推理能力,掀起新一輪技術(shù)革新。
    的頭像 發(fā)表于 02-25 14:06 ?604次閱讀
    詳解RAD端到端<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>后訓(xùn)練范式

    Commvault推出CIS強(qiáng)化鏡像

    混合云數(shù)據(jù)保護(hù)解決方案領(lǐng)先提供商Commvault(納斯達(dá)克代碼:CVLT)近日宣布可以使用CIS強(qiáng)化鏡像,從各大云應(yīng)用市場(chǎng)輕松部署Commvault Cloud平臺(tái)。這些CIS強(qiáng)化鏡像預(yù)先配置了
    的頭像 發(fā)表于 02-21 16:36 ?427次閱讀

    Traco Power推出全新TXO系列開放式框架AC/DC電源

    在工業(yè)領(lǐng)域,電源設(shè)備的穩(wěn)定性和可靠性至關(guān)重要。Traco Power全新推出的TXO系列開放式框架AC/DC電源,以高效率、強(qiáng)化隔離和多功能性,為成本敏感型工業(yè)應(yīng)用提供了理想的解決方案。
    的頭像 發(fā)表于 01-15 16:12 ?1249次閱讀
    Traco Power<b class='flag-5'>推出</b>全新TXO系列開放式<b class='flag-5'>框架</b>AC/DC電源

    RK3568國(guó)產(chǎn)處理器 + TensorFlow框架的張量創(chuàng)建實(shí)驗(yàn)案例分享

    一、實(shí)驗(yàn)?zāi)康?本節(jié)視頻的目的是了解張量定義、了解張量的表示形式、并學(xué)習(xí)基于TensorFlow框架的張量創(chuàng)建方法。 二、實(shí)驗(yàn)原理. 張量定義 1、張量是多維數(shù)組,這個(gè)定義常見于各種人工智能軟件。 2
    發(fā)表于 12-03 14:43

    螞蟻集團(tuán)收購(gòu)邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家

    近日,專注于模型賽道的初創(chuàng)企業(yè)邊塞科技宣布被螞蟻集團(tuán)收購(gòu)。據(jù)悉,此次交易完成后,邊塞科技將保持獨(dú)立運(yùn)營(yíng),而原投資人已全部退出。 與此同時(shí),螞蟻集團(tuán)近期宣布成立強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室,旨在推動(dòng)大模型強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 11-22 11:14 ?1600次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)工具與框架

    卷積神經(jīng)網(wǎng)絡(luò)因其在圖像和視頻處理任務(wù)中的卓越性能而廣受歡迎。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,多種實(shí)現(xiàn)工具和框架應(yīng)運(yùn)而生,為研究人員和開發(fā)者提供了強(qiáng)大的支持。 TensorFlow 概述
    的頭像 發(fā)表于 11-15 15:20 ?674次閱讀

    NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

    緊密。 NPU的起源與特點(diǎn) NPU的概念最早由谷歌在其TPU(Tensor Processing Unit)項(xiàng)目中提出,旨在為TensorFlow框架提供專用的硬件加速。NPU的設(shè)計(jì)目標(biāo)是提高機(jī)器
    的頭像 發(fā)表于 11-15 09:19 ?1238次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)如何做出決策,以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開源機(jī)器學(xué)習(xí)庫(kù),
    的頭像 發(fā)表于 11-05 17:34 ?1055次閱讀

    谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用

    近日,谷歌在芯片設(shè)計(jì)領(lǐng)域取得了重要突破,詳細(xì)介紹了其用于芯片設(shè)計(jì)布局的強(qiáng)化學(xué)習(xí)方法,并將該模型命名為“AlphaChip”。據(jù)悉,AlphaChip有望顯著加速芯片布局規(guī)劃的設(shè)計(jì)流程,并幫助芯片在性能、功耗和面積方面實(shí)現(xiàn)更優(yōu)表現(xiàn)。
    的頭像 發(fā)表于 09-30 16:16 ?705次閱讀

    谷歌推出新款電視盒子Google TV Streamer

    據(jù)多方媒體報(bào)道,谷歌近日推出新款電視盒——Google TV Streamer。相較前幾代Chromecast電視棒,此次新品體積更大、外觀更為搶眼,且不再隱藏在電視I/O面板下方。
    的頭像 發(fā)表于 08-07 17:18 ?1608次閱讀

    NVIDIA推出全新深度學(xué)習(xí)框架fVDB

    在 SIGGRAPH 上推出的全新深度學(xué)習(xí)框架可用于打造自動(dòng)駕駛汽車、氣候科學(xué)和智慧城市的 AI 就緒型虛擬表示。
    的頭像 發(fā)表于 08-01 14:31 ?1156次閱讀