一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google強(qiáng)化學(xué)習(xí)框架,要滿足哪三大特性

MqC7_CAAI_1981 ? 來源:未知 ? 作者:工程師郭婷 ? 2018-09-03 14:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

強(qiáng)化學(xué)習(xí)是一種非常重要 AI 技術(shù),它能使用獎(jiǎng)勵(lì)(或懲罰)來驅(qū)動(dòng)智能體(agents)朝著特定目標(biāo)前進(jìn),比如它訓(xùn)練的 AI 系統(tǒng) AlphaGo 擊敗了頂尖圍棋選手,它也是 DeepMind 的深度 Q 網(wǎng)絡(luò)(DQN)的核心部分,它可以在多個(gè) workers 之間分步學(xué)習(xí),例如,在 Atari 2600 游戲中實(shí)現(xiàn)“超人”性能。

麻煩的是,強(qiáng)化學(xué)習(xí)框架需要花費(fèi)大量時(shí)間來掌握一個(gè)目標(biāo),而且框架往往是不靈活和不總是穩(wěn)定的。

但不用擔(dān)心,Google 近日發(fā)布了一個(gè)替代方案:基于 TensorFlow 的開源強(qiáng)化學(xué)習(xí)框架 Dopamine(多巴胺)。

Google 的博文中提到,這個(gè)基于 Tensorflow 的強(qiáng)化學(xué)習(xí)框架,旨在為 RL 的研究人員提供靈活性,穩(wěn)定性和可重復(fù)性的研究。受到大腦中獎(jiǎng)勵(lì)動(dòng)機(jī)行為的主要成分的啟發(fā),以及反映神經(jīng)科學(xué)與強(qiáng)化學(xué)習(xí)研究之間強(qiáng)烈的歷史聯(lián)系,該平臺(tái)旨在實(shí)現(xiàn)可推動(dòng)激進(jìn)發(fā)現(xiàn)的思辨研究(speculative research)。此版本還包括一組闡明如何使用整個(gè)框架的 colabs。

除了強(qiáng)化學(xué)習(xí)框架的發(fā)布,谷歌還推出了一個(gè)網(wǎng)站(https://google.github.io/dopamine/baselines/plots.html),允許開發(fā)人員快速可視化多個(gè)智能體的訓(xùn)練運(yùn)行情況。他們希望,這一框架的靈活性和易用性將使研究人員能積極嘗試新的想法,不管是漸進(jìn)式還是激進(jìn)式的想法。

引入靈活和可重復(fù)的強(qiáng)化學(xué)習(xí)研究的新框架

強(qiáng)化學(xué)習(xí)(RL)研究在過去幾年中取得了許多重大進(jìn)展。這些進(jìn)步使得智能體可以以超人類級(jí)別的能力玩游戲。比如 Atari 游戲中 DeepMind 的 DQN ,AlphaGo ,AlphaGo Zero 以及 Open AI Five。

具體而言,在 DQN 中引入 replay memories 可以利用以前的智能體經(jīng)驗(yàn),大規(guī)模的分布式訓(xùn)練可以在多個(gè) workers 之間分配學(xué)習(xí)過程,分布式方法允許智能體模擬完整的分布過程,而不僅僅是模擬它們期望值,以學(xué)習(xí)更完整的圖景。這種類型的進(jìn)展很重要,因?yàn)槌霈F(xiàn)這些進(jìn)步的算法還適用于其他領(lǐng)域,例如機(jī)器人技術(shù)。

通常,這種進(jìn)步都來自于快速迭代設(shè)計(jì)(通常沒有明確的方向),以及顛覆既定方法的結(jié)構(gòu)。然而,大多數(shù)現(xiàn)有的 RL 框架并沒有結(jié)合靈活性和穩(wěn)定性以及使研究人員能夠有效地迭代 RL 方法,并因此探索可能沒有直接明顯益處的新研究方向。此外,從現(xiàn)有框架再現(xiàn)結(jié)果通常太耗時(shí),這可能導(dǎo)致科學(xué)的再現(xiàn)性問題。

今天,我們推出了一個(gè)新的基于 Tensorflow 的框架,旨在為 RL 的研究人員提供靈活性、穩(wěn)定性和可重復(fù)性。受到大腦中獎(jiǎng)勵(lì)動(dòng)機(jī)行為的主要成分的啟發(fā),以及反映神經(jīng)科學(xué)與強(qiáng)化學(xué)習(xí)研究之間強(qiáng)烈的歷史聯(lián)系,該平臺(tái)旨在實(shí)現(xiàn)可推動(dòng)激進(jìn)發(fā)現(xiàn)的思辨研究(speculative research)。此版本還包括一組闡明如何使用整個(gè)框架的 colabs。

易用性

清晰和簡(jiǎn)潔是該框架設(shè)計(jì)中要考慮的兩個(gè)關(guān)鍵因素。我們提供更精簡(jiǎn)的代碼(大約 15 個(gè)Python 文件),并且有詳細(xì)記錄。這是通過專注于 Arcade 學(xué)習(xí)環(huán)境(一個(gè)成熟的,易于理解的基準(zhǔn))和四個(gè)基于 value 的智能體來實(shí)現(xiàn)的:DQN,C51,一個(gè)精心策劃的 Rainbow 智能體的簡(jiǎn)化版本,以及隱式分位數(shù)網(wǎng)絡(luò)(Implicit Quantile Network)智能體,這已在上個(gè)月的 ICML 大會(huì)上已經(jīng)發(fā)表。我們希望這種簡(jiǎn)潔性使研究人員能夠輕松了解智能體內(nèi)部的運(yùn)作狀況,并積極嘗試新的想法。

可重復(fù)性

我們對(duì)重復(fù)性在強(qiáng)化學(xué)習(xí)研究中的重要性特別敏感。為此,我們?yōu)榇a提供完整的測(cè)試覆蓋率,這些測(cè)試也可作為其他文檔形式。此外,我們的實(shí)驗(yàn)框架遵循 Machado 等人給出的關(guān)于使用 Arcade 學(xué)習(xí)環(huán)境標(biāo)準(zhǔn)化經(jīng)驗(yàn)評(píng)估的建議。

基準(zhǔn)測(cè)試

對(duì)于新的研究人員來說,能夠根據(jù)既定方法快速對(duì)其想法進(jìn)行基準(zhǔn)測(cè)試非常重要。因此,我們?yōu)?Arcade 學(xué)習(xí)環(huán)境支持的 60 個(gè)游戲提供四個(gè)智能體的完整培訓(xùn)數(shù)據(jù),可用作 Python pickle 文件(用于使用我們框架訓(xùn)練的智能體)和 JSON 數(shù)據(jù)文件(用于與受過其他框架訓(xùn)練的智能體進(jìn)行比較);我們還提供了一個(gè)網(wǎng)站,你可以在其中快速查看 60 個(gè)游戲中所有智能體的訓(xùn)練運(yùn)行情況。

下面展示我們?cè)?Seaquest 上的 4 個(gè)代理的訓(xùn)練情況,這是由 Arcade 學(xué)習(xí)環(huán)境支持的一種 Atari 2600 游戲。

在 Seaquest 上的 4 名智能體參加了訓(xùn)練。x 軸表示迭代,其中每次迭代是 100 萬個(gè)游戲幀(4.5 小時(shí)的實(shí)時(shí)游戲);y 軸是每場(chǎng)比賽獲得的平均分?jǐn)?shù)。陰影區(qū)域顯示的是來自 5 次獨(dú)立運(yùn)行的置信區(qū)間。

我們還提供已經(jīng)訓(xùn)練好的深度網(wǎng)絡(luò),原始統(tǒng)計(jì)日志以及用 Tensorboard 繪圖的 Tensorflow 事件文件。這些都可以在網(wǎng)站的下載部分找到。

希望我們框架的靈活性和易用性將使研究人員敢于嘗試新的想法,包括漸進(jìn)式和激進(jìn)式的想法。我們已經(jīng)積極地將它用于我們的研究,并發(fā)現(xiàn)它能夠靈活且快速迭代許多想法。我們很高興可以為更大的社區(qū)做些貢獻(xiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1789

    瀏覽量

    58970
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35041

    瀏覽量

    279227

原文標(biāo)題:Google發(fā)布“多巴胺”開源強(qiáng)化學(xué)習(xí)框架,三大特性全滿足

文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Google Fast Pair服務(wù)簡(jiǎn)介

    Google Fast Pair 是一項(xiàng)利用低功耗藍(lán)牙(Bluetooth LE)技術(shù),實(shí)現(xiàn)設(shè)備間快速安全配對(duì)及提供多種服務(wù)的協(xié)議。其主要功能包括: 設(shè)備處于配對(duì)模式時(shí),顯示半頁通知,便于用戶進(jìn)行
    發(fā)表于 06-29 19:28

    18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    本來轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級(jí)技術(shù)(如PPO、A3C、PlaNet等)的實(shí)現(xiàn)原理與編碼過程,旨在通過理論結(jié)合代碼的方式,構(gòu)建對(duì)強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?397次閱讀
    18個(gè)常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

    受限于算力和數(shù)據(jù),大語言模型預(yù)訓(xùn)練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過強(qiáng)化學(xué)習(xí)后訓(xùn)練涌現(xiàn)了強(qiáng)大的推理能力,掀起新一輪技術(shù)革新。
    的頭像 發(fā)表于 02-25 14:06 ?586次閱讀
    詳解RAD端到端<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>后訓(xùn)練范式

    基于LMP91000在電化學(xué)傳感器電極故障檢測(cè)中的應(yīng)用詳解

    分析,所選雙運(yùn)放的特性應(yīng)該同時(shí)滿足低失調(diào)電壓、小偏置電流、低功耗,很多時(shí)候同時(shí)滿足上述條件的雙運(yùn)放型號(hào)非常有限。 由于電化學(xué)傳感器自身特點(diǎn),在傳感器制造完成后通常需要金屬短路帽短接輸
    發(fā)表于 02-11 08:02

    如何利用Google Play實(shí)現(xiàn)出海應(yīng)用增長

    出海應(yīng)用變現(xiàn)。本文我們將介紹市場(chǎng)趨勢(shì)和如何利用 Google Play 實(shí)現(xiàn)增長。 ? ? ? "訂閱疲勞" 破迷思, 澄清事實(shí)抓機(jī)遇 "吸引用戶開始和保持訂閱十分重,但隨著訂閱業(yè)務(wù)的
    的頭像 發(fā)表于 01-22 11:52 ?721次閱讀
    如何利用<b class='flag-5'>Google</b> Play實(shí)現(xiàn)出海應(yīng)用增長

    請(qǐng)問什么是同步采樣ADC?實(shí)現(xiàn)同步采樣滿足什么條件?

    請(qǐng)問什么是同步采樣ADC?實(shí)現(xiàn)同步采樣滿足什么條件? 謝謝!
    發(fā)表于 01-17 07:49

    HarmonyOS NEXT應(yīng)用元服務(wù)開發(fā)Intents Kit(意圖框架服務(wù))綜述

    ,準(zhǔn)確且及時(shí)地獲取到用戶顯性、潛在意圖,從而實(shí)現(xiàn)個(gè)性化、多模態(tài)、精準(zhǔn)的智慧分發(fā)。 、智慧分發(fā) 為方便開發(fā)者接入,智慧分發(fā)提供了多種特性類別,當(dāng)前已開放習(xí)慣推薦、事件推薦、技能調(diào)用-語音、本地搜索,后續(xù)
    發(fā)表于 11-28 10:43

    螞蟻集團(tuán)收購邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家

    近日,專注于模型賽道的初創(chuàng)企業(yè)邊塞科技宣布被螞蟻集團(tuán)收購。據(jù)悉,此次交易完成后,邊塞科技將保持獨(dú)立運(yùn)營,而原投資人已全部退出。 與此同時(shí),螞蟻集團(tuán)近期宣布成立強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室,旨在推動(dòng)大模型強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 11-22 11:14 ?1558次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)工具與框架

    : TensorFlow是由Google Brain團(tuán)隊(duì)開發(fā)的開源機(jī)器學(xué)習(xí)框架,它支持多種深度學(xué)習(xí)模型的構(gòu)建和訓(xùn)練,包括卷積神經(jīng)網(wǎng)絡(luò)。TensorFlow以其靈活性和可擴(kuò)展性而聞名,適
    的頭像 發(fā)表于 11-15 15:20 ?664次閱讀

    Google AI Edge Torch的特性詳解

    我們很高興地發(fā)布 Google AI Edge Torch,可將 PyTorch 編寫的模型直接轉(zhuǎn)換成 TFLite 格式 (.tflite),且有著優(yōu)異的模型覆蓋率和 CPU 性能。TFLite
    的頭像 發(fā)表于 11-06 10:48 ?927次閱讀
    <b class='flag-5'>Google</b> AI Edge Torch的<b class='flag-5'>特性</b>詳解

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過與環(huán)境的交互來學(xué)習(xí)如何做出決策,以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開源機(jī)器學(xué)習(xí)庫,
    的頭像 發(fā)表于 11-05 17:34 ?1020次閱讀

    RISC-V如何支持不同的AI和機(jī)器學(xué)習(xí)框架和庫?

    RISC-V如何支持不同的AI和機(jī)器學(xué)習(xí)框架和庫?還請(qǐng)壇友們多多指教一下。
    發(fā)表于 10-10 22:24

    谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用

    近日,谷歌在芯片設(shè)計(jì)領(lǐng)域取得了重要突破,詳細(xì)介紹了其用于芯片設(shè)計(jì)布局的強(qiáng)化學(xué)習(xí)方法,并將該模型命名為“AlphaChip”。據(jù)悉,AlphaChip有望顯著加速芯片布局規(guī)劃的設(shè)計(jì)流程,并幫助芯片在性能、功耗和面積方面實(shí)現(xiàn)更優(yōu)表現(xiàn)。
    的頭像 發(fā)表于 09-30 16:16 ?693次閱讀

    PGA280的MUX配置是選擇路信號(hào)?

    我找遍PDF也不知道MUX配置是選擇路信號(hào)。比如說3'b000是選通兩路??
    發(fā)表于 09-12 07:08

    NVIDIA推出全新深度學(xué)習(xí)框架fVDB

    在 SIGGRAPH 上推出的全新深度學(xué)習(xí)框架可用于打造自動(dòng)駕駛汽車、氣候科學(xué)和智慧城市的 AI 就緒型虛擬表示。
    的頭像 發(fā)表于 08-01 14:31 ?1127次閱讀