一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind終于公開了它聯(lián)合UCL的“高級深度強(qiáng)化學(xué)習(xí)課程”!

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-11-26 09:27 ? 次閱讀

一直走在深度學(xué)習(xí)研究最前沿的DeepMind,終于公開了它聯(lián)合UCL的“高級深度強(qiáng)化學(xué)習(xí)課程”!18節(jié)課24小時,一天看完Deep RL及其2018最新進(jìn)展。

今天,DeepMind 官推貼出一則告示,將 DeepMind 研究人員今年在 UCL 教授的深度強(qiáng)化學(xué)習(xí)課程“Advanced Deep Learning and Reinforcement Learning” 資源全部公開。

一共18節(jié)課,走過路過不能錯過。

深度強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域的一個新的研究熱點,從AlphaGo開始,DeepMind便在這一領(lǐng)域獨占鰲頭。

深度強(qiáng)化學(xué)習(xí)以一種通用的形式將深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,并能夠通過端對端的學(xué)習(xí)方式實現(xiàn)從原始輸入到輸出的直接控制。自提出以來, 在許多需要感知高維度原始輸入數(shù)據(jù)和決策控制的任務(wù)中都取得了實質(zhì)性的突破。

2018年,南京大學(xué)的AI單機(jī)訓(xùn)練一天,擊敗《星際爭霸》最高難度內(nèi)置Bot,OpenAI 打 DOTA2 超越了Top 1%的人類玩家,深度強(qiáng)化學(xué)習(xí)不斷在進(jìn)展。

結(jié)合算法的發(fā)展和實際應(yīng)用場景,DeepMind在UCL教授的這門課程內(nèi)容也是最前沿的。

還有關(guān)鍵一點,那就是視頻的質(zhì)量和清晰度超贊?。ㄐ枰茖W(xué)上網(wǎng))。

DeepMind親授“高級深度強(qiáng)化學(xué)習(xí)課程”

這門課程是DeepMind與倫敦大學(xué)學(xué)院(UCL)的合作項目,由于DeepMind的研究人員去UCL授課,內(nèi)容由兩部分組成,一是深度學(xué)習(xí)(利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)),二是強(qiáng)化學(xué)習(xí)(利用強(qiáng)化學(xué)習(xí)進(jìn)行預(yù)測和控制),最后兩條線結(jié)合在一起,也就成了DeepMind的拿手好戲——深度強(qiáng)化學(xué)習(xí)。

關(guān)于深度強(qiáng)化學(xué)習(xí),DeepMind一直在努力,比如最新發(fā)表的研究讓 AI 行動符合人類意圖。

這門課也是結(jié)合案例講解的,值得一提,最后一課“第18節(jié):深度強(qiáng)化學(xué)習(xí)的經(jīng)典案例”,講師是 David Silver,這位AlphaGo背后的英雄以及AlphaZero靈魂人物,他講的課程無論如何也應(yīng)該聽一聽。

David Silver在UCL講課的視頻截圖

在深度學(xué)習(xí)部分,課程簡要介紹了神經(jīng)網(wǎng)絡(luò)和使用TensorFlow的監(jiān)督學(xué)習(xí),然后講授卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、端到端并基于能量的學(xué)習(xí)、優(yōu)化方法、無監(jiān)督學(xué)習(xí)以及注意力和記憶。討論的應(yīng)用領(lǐng)域包括對象識別和自然語言處理。

強(qiáng)化學(xué)習(xí)部分將涵蓋馬爾科夫決策過程、動態(tài)規(guī)劃、無模型預(yù)測和控制、價值函數(shù)逼近、策略梯度方法、學(xué)習(xí)與規(guī)劃的集成以及探索/開發(fā)困境。討論的可能應(yīng)用包括學(xué)習(xí)玩經(jīng)典的棋盤游戲和電子游戲。

總體來說,這是一門偏向?qū)嵺`的課程,需要PyTorch和編碼基礎(chǔ),學(xué)完以后,學(xué)生能夠在TensorFlow上熟練實現(xiàn)深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)以及深度強(qiáng)化學(xué)習(xí)相關(guān)的一系列算法。

因此,除了深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識,深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練以及優(yōu)化方法,這門課更加注重如何在TensorFlow中實現(xiàn)深度學(xué)習(xí)算法,以及如何在復(fù)雜動態(tài)環(huán)境中應(yīng)用強(qiáng)化學(xué)習(xí)。

18節(jié)課一共24小時,一天看完深度強(qiáng)化學(xué)習(xí)進(jìn)展

課程團(tuán)隊

深度學(xué)習(xí)1:介紹基于機(jī)器學(xué)習(xí)的AI

深度學(xué)習(xí)2:介紹TensorFlow

深度學(xué)習(xí)3:神經(jīng)網(wǎng)絡(luò)基礎(chǔ)

強(qiáng)化學(xué)習(xí)1:強(qiáng)化學(xué)習(xí)簡介

強(qiáng)化學(xué)習(xí)2:開發(fā)和利用

強(qiáng)化學(xué)習(xí)3:馬爾科夫決策過程和動態(tài)編程

強(qiáng)化學(xué)習(xí)4:無模型的預(yù)測和控制

深度學(xué)習(xí)4:圖像識別、端到端學(xué)習(xí)和Embeddings之外

強(qiáng)化學(xué)習(xí)5:函數(shù)逼近和深度強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)6:策略梯度和Actor Critics

深度學(xué)習(xí)5:機(jī)器學(xué)習(xí)的優(yōu)化方法

強(qiáng)化學(xué)習(xí)7:規(guī)劃和模型

深度學(xué)習(xí)6:NLP的深度學(xué)習(xí)

強(qiáng)化學(xué)習(xí)8:深度強(qiáng)化學(xué)習(xí)中的高級話題

深度學(xué)習(xí)7:深度學(xué)習(xí)中的注意力和記憶

強(qiáng)化學(xué)習(xí)9:深度RL智能體簡史

深度學(xué)習(xí)8:無監(jiān)督學(xué)習(xí)和生成式模型

強(qiáng)化學(xué)習(xí)10:經(jīng)典游戲的案例學(xué)習(xí)

18節(jié)課一共24小時,一天看完高級深度強(qiáng)化學(xué)習(xí)

下面我們介紹第14節(jié)“深度強(qiáng)化學(xué)習(xí)中的高級話題”。講課人是DeepMind研究科學(xué)家Hado Van Hasselt。Hado Van Hasselt的研究興趣包括人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí),尤其是強(qiáng)化學(xué)習(xí)。加入DeepMind之前,他在阿爾伯塔大學(xué)與Richard Sutton教授合作過。

Hado Van Hasselt是許多前沿論文的共同作者,包括Double Q-learning、DuelingDQN、rainbow DQN、強(qiáng)化學(xué)習(xí)的Ensemble算法等。

在這一節(jié),Hasselt講了深度強(qiáng)化學(xué)習(xí)中一些積極的研究主題,這些主題很好地突出了這一領(lǐng)域中正在取得的進(jìn)展。

前面已經(jīng)介紹過的強(qiáng)化學(xué)習(xí)研究主題包括:學(xué)習(xí)在bandit問題中做決策;序列決策問題;model-free的預(yù)測和控制;deep RL中的函數(shù)逼近;策略梯度和actor-critic方法;以及從模型中學(xué)習(xí)。

而高級話題,是這些。

最主要的問題是:如何將未來的獎勵最大化?

這個大問題可以分解成一些子問題:

學(xué)習(xí)什么?(預(yù)測、模型、策略……)

如何學(xué)習(xí)這些?(TD、規(guī)劃……)

如何表示這些學(xué)習(xí)到的知識?(深度網(wǎng)絡(luò)、sample buffers,……)

如何利用這些學(xué)習(xí)到的知識?

其中一些活躍研究主題包括:

在完全序列,函數(shù)逼近設(shè)置中的“探索”(Exploration)

利用延遲獎勵的credit assignment

局部規(guī)劃或不精確的模型

樣本效率模型

Appropriate generalization

構(gòu)建有用、通用且信息豐富的agent state

Case study:rainbow DQN(Hasselt et al. 2018)

在這個研究中,Hasselt等人提出rainbow DQN,整合了DQN算法的6種變體,并證明它們很大程度上是互補(bǔ)。DQN的基本想法是利用target networks和experience replay。

這節(jié)課接下來的大部分內(nèi)容圍繞這個case,介紹了最新的技術(shù)和思想,請觀看視頻獲得更詳細(xì)的解釋。

理解了分布(distribution),或許能對任務(wù)有所幫助。這是分布式強(qiáng)化學(xué)習(xí)的想法。分布式強(qiáng)化學(xué)習(xí)也意味著representation(例如深度神經(jīng)網(wǎng)絡(luò))被迫要學(xué)習(xí)更多。

這可以加快學(xué)習(xí):因為學(xué)習(xí)更多意味著更少的樣本。

以下是分布式強(qiáng)化學(xué)習(xí)的具體案例。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:DeepMind高贊課程:24小時看完深度強(qiáng)化學(xué)習(xí)最新進(jìn)展(視頻)

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    18個常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實現(xiàn)

    本來轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級技術(shù)(如PPO、A3C、PlaNet等)的實現(xiàn)原理與編碼過程,旨在通過理論結(jié)合代碼的方式,構(gòu)建對強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?178次閱讀
    18個常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)方法到<b class='flag-5'>高級</b>模型的理論技術(shù)與代碼實現(xiàn)

    深度解讀英偉達(dá)Newton機(jī)器人平臺:技術(shù)革新與跨界生態(tài)構(gòu)建

    :高性能物理引擎與AI融合 Newton是英偉達(dá)聯(lián)合Google DeepMind和迪士尼研究院共同開發(fā)的 開源物理引擎 ,專為機(jī)器人學(xué)習(xí)與仿真優(yōu)化設(shè)計。其核心技術(shù)特點包括: 多
    的頭像 發(fā)表于 03-20 15:15 ?1123次閱讀
    <b class='flag-5'>深度</b>解讀英偉達(dá)Newton機(jī)器人平臺:技術(shù)革新與跨界生態(tài)構(gòu)建

    詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

    受限于算力和數(shù)據(jù),大語言模型預(yù)訓(xùn)練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過強(qiáng)化學(xué)習(xí)后訓(xùn)練涌現(xiàn)了強(qiáng)大的推理能力,掀起新一輪技術(shù)革新。
    的頭像 發(fā)表于 02-25 14:06 ?395次閱讀
    詳解RAD端到端<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>后訓(xùn)練范式

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系

    ),是一種多層前饋神經(jīng)網(wǎng)絡(luò),通過反向傳播算法進(jìn)行訓(xùn)練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、一個或多個隱藏層和輸出層組成,通過逐層遞減的方式調(diào)整網(wǎng)絡(luò)權(quán)重,目的是最小化網(wǎng)絡(luò)的輸出誤差。 二、深度學(xué)習(xí)的定義與發(fā)展
    的頭像 發(fā)表于 02-12 15:15 ?575次閱讀

    淺談適用規(guī)模充電站的深度學(xué)習(xí)有序充電策略

    深度強(qiáng)化學(xué)習(xí)能夠有效計及電動汽車出行模式和充電需求的不確定性,實現(xiàn)充電場站充電成本化的目標(biāo)。通過對電動汽車泊車時間和充電需求特征進(jìn)行提取,建立適用于大規(guī)模電動汽車有序充電的馬爾可夫決策過程模型,并
    的頭像 發(fā)表于 02-08 15:00 ?403次閱讀
    淺談適用規(guī)模充電站的<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>有序充電策略

    螞蟻集團(tuán)收購邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實驗室首席科學(xué)家

    近日,專注于模型賽道的初創(chuàng)企業(yè)邊塞科技宣布被螞蟻集團(tuán)收購。據(jù)悉,此次交易完成后,邊塞科技將保持獨立運(yùn)營,而原投資人已全部退出。 與此同時,螞蟻集團(tuán)近期宣布成立強(qiáng)化學(xué)習(xí)實驗室,旨在推動大模型強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 11-22 11:14 ?1219次閱讀

    NPU在深度學(xué)習(xí)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心驅(qū)動力之一,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)是專門為深度學(xué)習(xí)
    的頭像 發(fā)表于 11-14 15:17 ?1570次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,通過與環(huán)境的交互來學(xué)習(xí)如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機(jī)器
    的頭像 發(fā)表于 11-05 17:34 ?779次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識別 圖像識別是深度學(xué)習(xí)
    的頭像 發(fā)表于 10-27 11:13 ?949次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度
    的頭像 發(fā)表于 10-23 15:25 ?2456次閱讀

    谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用

    近日,谷歌在芯片設(shè)計領(lǐng)域取得了重要突破,詳細(xì)介紹了其用于芯片設(shè)計布局的強(qiáng)化學(xué)習(xí)方法,并將該模型命名為“AlphaChip”。據(jù)悉,AlphaChip有望顯著加速芯片布局規(guī)劃的設(shè)計流程,并幫助芯片在性能、功耗和面積方面實現(xiàn)更優(yōu)表現(xiàn)。
    的頭像 發(fā)表于 09-30 16:16 ?603次閱讀

    Python在AI中的應(yīng)用實例

    Python在人工智能(AI)領(lǐng)域的應(yīng)用極為廣泛且深入,從基礎(chǔ)的數(shù)據(jù)處理、模型訓(xùn)練到高級的應(yīng)用部署,Python都扮演著至關(guān)重要的角色。以下將詳細(xì)探討Python在AI中的幾個關(guān)鍵應(yīng)用實例,包括機(jī)器學(xué)習(xí)深度
    的頭像 發(fā)表于 07-19 17:16 ?2146次閱讀

    深度學(xué)習(xí)與nlp的區(qū)別在哪

    方法,通過模擬人腦的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)對數(shù)據(jù)的自動特征提取和學(xué)習(xí)。深度學(xué)習(xí)的核心是構(gòu)建多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),每一層都包含大量的神經(jīng)元,這些神經(jīng)元通過權(quán)重連接,實現(xiàn)對輸入數(shù)據(jù)的逐層抽象和
    的頭像 發(fā)表于 07-05 09:47 ?1400次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過程詳解

    深度學(xué)習(xí)模型訓(xùn)練是一個復(fù)雜且關(guān)鍵的過程,涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓(xùn)練一個深度學(xué)習(xí)模型,本質(zhì)上是通過優(yōu)化算法調(diào)整模型參數(shù),
    的頭像 發(fā)表于 07-01 16:13 ?2188次閱讀

    通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

    更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中,我們將介紹并實現(xiàn)一種新的通過強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化學(xué)習(xí),尤其是馬爾可夫決策
    的頭像 發(fā)表于 06-05 08:27 ?549次閱讀
    通過<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>策略進(jìn)行特征選擇