激情黄色的网站无卡顿在线 ,午夜精品影院在线观看,日本加勒比无码一区

一直走在深度學(xué)習(xí)研究最前沿的DeepMind，終于公開(kāi)了它聯(lián)合UCL的“高級(jí)深度強(qiáng)化學(xué)習(xí)課程”！18節(jié)課24小時(shí)，一天看完Deep RL及其2018最新進(jìn)展。

今天，DeepMind 官推貼出一則告示，將 DeepMind 研究人員今年在 UCL 教授的深度強(qiáng)化學(xué)習(xí)課程“Advanced Deep Learning and Reinforcement Learning” 資源全部公開(kāi)。

一共18節(jié)課，走過(guò)路過(guò)不能錯(cuò)過(guò)。

深度強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域的一個(gè)新的研究熱點(diǎn)，從AlphaGo開(kāi)始，DeepMind便在這一領(lǐng)域獨(dú)占鰲頭。

深度強(qiáng)化學(xué)習(xí)以一種通用的形式將深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合，并能夠通過(guò)端對(duì)端的學(xué)習(xí)方式實(shí)現(xiàn)從原始輸入到輸出的直接控制。自提出以來(lái)，在許多需要感知高維度原始輸入數(shù)據(jù)和決策控制的任務(wù)中都取得了實(shí)質(zhì)性的突破。

2018年，南京大學(xué)的AI單機(jī)訓(xùn)練一天，擊敗《星際爭(zhēng)霸》最高難度內(nèi)置Bot，OpenAI 打 DOTA2 超越了Top 1%的人類玩家，深度強(qiáng)化學(xué)習(xí)不斷在進(jìn)展。

結(jié)合算法的發(fā)展和實(shí)際應(yīng)用場(chǎng)景，DeepMind在UCL教授的這門(mén)課程內(nèi)容也是最前沿的。

還有關(guān)鍵一點(diǎn)，那就是視頻的質(zhì)量和清晰度超贊?。ㄐ枰茖W(xué)上網(wǎng)）。

DeepMind親授“高級(jí)深度強(qiáng)化學(xué)習(xí)課程”

這門(mén)課程是DeepMind與倫敦大學(xué)學(xué)院（UCL）的合作項(xiàng)目，由于DeepMind的研究人員去UCL授課，內(nèi)容由兩部分組成，一是深度學(xué)習(xí)（利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)），二是強(qiáng)化學(xué)習(xí)（利用強(qiáng)化學(xué)習(xí)進(jìn)行預(yù)測(cè)和控制），最后兩條線結(jié)合在一起，也就成了DeepMind的拿手好戲——深度強(qiáng)化學(xué)習(xí)。

關(guān)于深度強(qiáng)化學(xué)習(xí)，DeepMind一直在努力，比如最新發(fā)表的研究讓 AI 行動(dòng)符合人類意圖。

這門(mén)課也是結(jié)合案例講解的，值得一提，最后一課“第18節(jié)：深度強(qiáng)化學(xué)習(xí)的經(jīng)典案例”，講師是 David Silver，這位AlphaGo背后的英雄以及AlphaZero靈魂人物，他講的課程無(wú)論如何也應(yīng)該聽(tīng)一聽(tīng)。

David Silver在UCL講課的視頻截圖

在深度學(xué)習(xí)部分，課程簡(jiǎn)要介紹了神經(jīng)網(wǎng)絡(luò)和使用TensorFlow的監(jiān)督學(xué)習(xí)，然后講授卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、端到端并基于能量的學(xué)習(xí)、優(yōu)化方法、無(wú)監(jiān)督學(xué)習(xí)以及注意力和記憶。討論的應(yīng)用領(lǐng)域包括對(duì)象識(shí)別和自然語(yǔ)言處理。

強(qiáng)化學(xué)習(xí)部分將涵蓋馬爾科夫決策過(guò)程、動(dòng)態(tài)規(guī)劃、無(wú)模型預(yù)測(cè)和控制、價(jià)值函數(shù)逼近、策略梯度方法、學(xué)習(xí)與規(guī)劃的集成以及探索/開(kāi)發(fā)困境。討論的可能應(yīng)用包括學(xué)習(xí)玩經(jīng)典的棋盤(pán)游戲和電子游戲。

總體來(lái)說(shuō)，這是一門(mén)偏向?qū)嵺`的課程，需要PyTorch和編碼基礎(chǔ)，學(xué)完以后，學(xué)生能夠在TensorFlow上熟練實(shí)現(xiàn)深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)以及深度強(qiáng)化學(xué)習(xí)相關(guān)的一系列算法。

因此，除了深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)，深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練以及優(yōu)化方法，這門(mén)課更加注重如何在TensorFlow中實(shí)現(xiàn)深度學(xué)習(xí)算法，以及如何在復(fù)雜動(dòng)態(tài)環(huán)境中應(yīng)用強(qiáng)化學(xué)習(xí)。

18節(jié)課一共24小時(shí)，一天看完深度強(qiáng)化學(xué)習(xí)進(jìn)展

課程團(tuán)隊(duì)

深度學(xué)習(xí)1：介紹基于機(jī)器學(xué)習(xí)的AI

深度學(xué)習(xí)2：介紹TensorFlow

深度學(xué)習(xí)3：神經(jīng)網(wǎng)絡(luò)基礎(chǔ)

強(qiáng)化學(xué)習(xí)1：強(qiáng)化學(xué)習(xí)簡(jiǎn)介

強(qiáng)化學(xué)習(xí)2：開(kāi)發(fā)和利用

強(qiáng)化學(xué)習(xí)3：馬爾科夫決策過(guò)程和動(dòng)態(tài)編程

強(qiáng)化學(xué)習(xí)4：無(wú)模型的預(yù)測(cè)和控制

深度學(xué)習(xí)4：圖像識(shí)別、端到端學(xué)習(xí)和Embeddings之外

強(qiáng)化學(xué)習(xí)5：函數(shù)逼近和深度強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)6：策略梯度和Actor Critics

深度學(xué)習(xí)5：機(jī)器學(xué)習(xí)的優(yōu)化方法

強(qiáng)化學(xué)習(xí)7：規(guī)劃和模型

深度學(xué)習(xí)6：NLP的深度學(xué)習(xí)

強(qiáng)化學(xué)習(xí)8：深度強(qiáng)化學(xué)習(xí)中的高級(jí)話題

深度學(xué)習(xí)7：深度學(xué)習(xí)中的注意力和記憶

強(qiáng)化學(xué)習(xí)9：深度RL智能體簡(jiǎn)史

深度學(xué)習(xí)8：無(wú)監(jiān)督學(xué)習(xí)和生成式模型

強(qiáng)化學(xué)習(xí)10：經(jīng)典游戲的案例學(xué)習(xí)

18節(jié)課一共24小時(shí)，一天看完高級(jí)深度強(qiáng)化學(xué)習(xí)

下面我們介紹第14節(jié)“深度強(qiáng)化學(xué)習(xí)中的高級(jí)話題”。講課人是DeepMind研究科學(xué)家Hado Van Hasselt。Hado Van Hasselt的研究興趣包括人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)，尤其是強(qiáng)化學(xué)習(xí)。加入DeepMind之前，他在阿爾伯塔大學(xué)與Richard Sutton教授合作過(guò)。

Hado Van Hasselt是許多前沿論文的共同作者，包括Double Q-learning、DuelingDQN、rainbow DQN、強(qiáng)化學(xué)習(xí)的Ensemble算法等。

在這一節(jié)，Hasselt講了深度強(qiáng)化學(xué)習(xí)中一些積極的研究主題，這些主題很好地突出了這一領(lǐng)域中正在取得的進(jìn)展。

前面已經(jīng)介紹過(guò)的強(qiáng)化學(xué)習(xí)研究主題包括：學(xué)習(xí)在bandit問(wèn)題中做決策；序列決策問(wèn)題；model-free的預(yù)測(cè)和控制；deep RL中的函數(shù)逼近；策略梯度和actor-critic方法；以及從模型中學(xué)習(xí)。

而高級(jí)話題，是這些。

最主要的問(wèn)題是：如何將未來(lái)的獎(jiǎng)勵(lì)最大化？

這個(gè)大問(wèn)題可以分解成一些子問(wèn)題：

學(xué)習(xí)什么？（預(yù)測(cè)、模型、策略……）

如何學(xué)習(xí)這些？（TD、規(guī)劃……）

如何表示這些學(xué)習(xí)到的知識(shí)？（深度網(wǎng)絡(luò)、sample buffers，……）

如何利用這些學(xué)習(xí)到的知識(shí)？

其中一些活躍研究主題包括：

在完全序列，函數(shù)逼近設(shè)置中的“探索”（Exploration）

利用延遲獎(jiǎng)勵(lì)的credit assignment

局部規(guī)劃或不精確的模型

樣本效率模型

Appropriate generalization

構(gòu)建有用、通用且信息豐富的agent state

Case study：rainbow DQN(Hasselt et al. 2018)

在這個(gè)研究中，Hasselt等人提出rainbow DQN，整合了DQN算法的6種變體，并證明它們很大程度上是互補(bǔ)。DQN的基本想法是利用target networks和experience replay。

這節(jié)課接下來(lái)的大部分內(nèi)容圍繞這個(gè)case，介紹了最新的技術(shù)和思想，請(qǐng)觀看視頻獲得更詳細(xì)的解釋。

理解了分布（distribution），或許能對(duì)任務(wù)有所幫助。這是分布式強(qiáng)化學(xué)習(xí)的想法。分布式強(qiáng)化學(xué)習(xí)也意味著representation（例如深度神經(jīng)網(wǎng)絡(luò)）被迫要學(xué)習(xí)更多。

這可以加快學(xué)習(xí)：因?yàn)閷W(xué)習(xí)更多意味著更少的樣本。

以下是分布式強(qiáng)化學(xué)習(xí)的具體案例。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103635
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
269

瀏覽量
11603
DeepMind

DeepMind

+關(guān)注

關(guān)注
0

文章
131

瀏覽量
11580