一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

利用強化學習探索多巴胺對學習的作用

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-05-16 09:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

繼上周在 Nature 發(fā)表極受關注的“網(wǎng)格細胞”研究后,DeepMind今天又在《自然-神經(jīng)科學》發(fā)表一篇重磅論文:利用強化學習探索多巴胺對學習的作用,發(fā)現(xiàn)AI的學習方式與神經(jīng)科學實驗中動物的學習方式類似。該研究提出的理論可以解釋神經(jīng)科學和心理學中的許多神秘發(fā)現(xiàn)。

AI系統(tǒng)已經(jīng)掌握了多種電子游戲,如雅達利經(jīng)典的“突出重圍”(Breakout)和“乒乓球”(Pong)游戲。但盡管AI在玩游戲方便的表現(xiàn)令人印象深刻,它們?nèi)匀皇且揽肯喈斢跀?shù)千小時的游戲時間訓練,才達到或超越人類的水平。相比之下,我們?nèi)祟愅ǔV换◣追昼娋湍苷莆找豢钗覀儚奈赐孢^的電子游戲的基礎知識。

為什么只有這么少的先驗知識,人類的大腦卻能做這么多的事情呢?這就引出了“元學習”(meta-learning)的理論,或者說“學習如何學習”(learning to learn)。人們認為,人是在兩個時間尺度上學習的——在短期,我們專注于學習具體的例子;而在較長的時間尺度,我們學習完成一項任務所需的抽象技能或規(guī)則。正是這種組合被認為有助于人高效地學習,并將這些知識快速靈活地應用于新任務。

在 AI 系統(tǒng)中重建這種元學習結構——稱為元強化學習(meta-reinforcement learning)——已經(jīng)被證明能夠促進智能體(agents)快速、one-shot的學習。這方面的研究已經(jīng)有很多,例如DeepMind的論文“Learning to reinforcement learn”和OpenAI的“RL2: Fast Reinforcement Learning via Slow Reinforcement Learning”。然而,促使這個過程在大腦中發(fā)生的具體機制是怎樣的,這在神經(jīng)科學中大部分仍未得到解釋。

今天,DeepMind在《自然-神經(jīng)科學》(Nature Neuroscience)發(fā)表的新論文中,研究人員使用AI研究中開發(fā)的元強化學習框架來探索多巴胺在大腦中幫助我們學習時所起的作用。論文題為:Prefrontal cortex as a meta-reinforcement learning system。

多巴胺——通常被稱為大腦的愉悅因子——被認為與AI強化學習算法中使用的獎勵預測誤差信號類似。AI系統(tǒng)通過獎勵(reward)指引的試錯來學習如何行動。研究者認為,多巴胺的作用不僅僅是利用獎勵來學習過去行為的價值,而且,多巴胺在大腦的前額葉皮層區(qū)扮演者不可或缺的角色,使我們能夠高效、快速、靈活地學習新任務。

模擬agent的獎勵預測誤差反映了推斷值,而不僅僅是經(jīng)驗值,類似于在猴子中觀察到的。

DeepMind的研究人員通過模擬重建神經(jīng)科學領域的6個元學習實驗來測試他們的理論——每個實驗都要求一個agent執(zhí)行任務,這些任務使用相同的基礎原則(或同一套技能),但在某些方面有所不同。

我們使用標準深度強化學習技術(代表多巴胺的作用)訓練了一個循環(huán)神經(jīng)網(wǎng)絡(代表前額葉皮質(zhì)),然后將這個循環(huán)網(wǎng)絡的活動狀態(tài)與之前在神經(jīng)科學實驗中得到的實際數(shù)據(jù)進行比較。對于元學習來說,循環(huán)網(wǎng)絡是一個很好的代理,因為它們能夠?qū)⑦^去的行為和觀察內(nèi)在化,然后在訓練各種各樣的任務時借鑒這些經(jīng)驗。

我們重建的一個實驗叫做Harlow實驗,這是20世紀40年代的一個心理學實驗,用于探索元學習的概念。在原版的測試中,一組猴子被展示兩個不熟悉的物體,只有其中一個會給他們食物獎勵。兩個物體一共被展示了6次,每次的左右放置都是隨機的,所以猴子必須要知道哪個會給它們食物獎勵。然后,他們再次被展示另外兩個新的物體,同樣,只有其中一個會給它們食物。

在這個訓練過程中,猴子發(fā)展出一種策略來選擇能得到獎勵的物體:它學會了在第一次的時候隨機選擇,然后,下一次根據(jù)獎勵的反饋選擇特定的對象,而不是從左到右選擇。這個實驗表明,猴子可以將任務的基本原理內(nèi)化,學會一種抽象的規(guī)則結構——實際上就是學會了如何學習。

meta-RL 的架構

當我們使用虛擬的計算機屏幕和隨機選擇的圖像來模擬一個非常相似的測試時,我們發(fā)現(xiàn),我們的“元強化學習智能體”(meta-RL agent)似乎是以類似于Harlow實驗中的動物的方式在學習,甚至在被顯示以前從未見過的全新圖像時也是如此。

在模擬的Harlow實驗中,agent必須將它的視線轉向它認為能得到獎勵的對象

實際上,我們發(fā)現(xiàn)meta-RL agent可以學習如何快速適應規(guī)則和結構不同的各種任務。而且,由于網(wǎng)絡學會了如何適應各種任務,它也學會了關于如何有效學習的一般原則。

很重要的一點是,我們發(fā)現(xiàn)大部分的學習發(fā)生在循環(huán)網(wǎng)絡中,這支持了我們的觀點,即多巴胺在元學習過程中的作用比以前人們認為的更為重要。傳統(tǒng)上,多巴胺被認為能夠加強前額葉系統(tǒng)的突觸連接,從而強化特定的行為。

在AI中,這意味著類多巴胺的獎勵信號在神經(jīng)網(wǎng)絡中調(diào)整人工突觸的權重,因為它學會了解決任務的正確方法。然而,在我們的實驗中,神經(jīng)網(wǎng)絡的權重被凍結,這意味著在學習過程中權重不能被調(diào)整。但是,meta-RL agent仍然能夠解決并適應新的任務。這表明,類多巴胺的獎勵不僅用于調(diào)整權重,而且還能傳遞和編碼有關抽象任務和規(guī)則結構的重要信息,從而加快對新任務的適應。

Meta-RL在視覺豐富的3D環(huán)境中學習抽象結構和新的刺激

長期以來,神經(jīng)科學家在大腦的前額葉皮質(zhì)中觀察到類似的神經(jīng)活動模式,這種模式能夠快速適應,而且很靈活,但一直以來科學家難以找到能夠解釋為什么會這樣的充分理由。前額葉皮層不依賴突觸重量的緩慢變化來學習規(guī)則結構,而是使用直接編碼在多巴胺上的、抽象的基于模式的信息,這一觀點提供了一個更令人信服的解釋。

為了證明AI中存在的引起元強化學習的關鍵因素也存在于大腦中,我們提出了一個理論,該理論不僅與已知的關于多巴胺和前額葉皮層的了解相符,而且可以解釋神經(jīng)科學和心理學中的許多神秘發(fā)現(xiàn)。特別是,該理論對了解大腦中結構化的、基于模式的學習是如何出現(xiàn)的,為什么多巴胺本身包含有基于模式的信息,以及前額葉皮質(zhì)中的神經(jīng)元是如何調(diào)整為與學習相關的信號等問題提出了新的啟發(fā)。

來自AI研究的見解可以用于解釋神經(jīng)科學和心理學的發(fā)現(xiàn),這強調(diào)了,一個研究領域的價值可以提供給另一個領域。展望未來,我們期望能從反過來的方向得到更多益處,通過在為強化學習智能體的學習設計新的模型時,從特定腦回路組織得到啟發(fā)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4814

    瀏覽量

    103648
  • AI
    AI
    +關注

    關注

    88

    文章

    35164

    瀏覽量

    280029
  • 強化學習
    +關注

    關注

    4

    文章

    269

    瀏覽量

    11604

原文標題:DeepMind用強化學習探索大腦多巴胺對學習的作用

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    什么是深度強化學習?深度強化學習算法應用分析

    什么是深度強化學習? 眾所周知,人類擅長解決各種挑戰(zhàn)性的問題,從低級的運動控制(如:步行、跑步、打網(wǎng)球)到高級的認知任務。
    發(fā)表于 07-01 10:29 ?1863次閱讀
    什么是深度<b class='flag-5'>強化學習</b>?深度<b class='flag-5'>強化學習</b>算法應用分析

    反向強化學習的思路

    強化學習的另一種策略(二)
    發(fā)表于 04-03 12:10

    深度強化學習實戰(zhàn)

    一:深度學習DeepLearning實戰(zhàn)時間地點:1 月 15日— 1 月18 日二:深度強化學習核心技術實戰(zhàn)時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前環(huán)境部署 電腦
    發(fā)表于 01-10 13:42

    將深度學習強化學習相結合的深度強化學習DRL

    深度強化學習DRL自提出以來, 已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發(fā)的AlphaGo,將深度強化學習DRL成推上新的熱點和高度,成為人工智能歷史上一個新的里程碑。因此,深
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    薩頓科普了強化學習、深度強化學習,并談到了這項技術的潛力和發(fā)展方向

    薩頓在專訪中(再次)科普了強化學習、深度強化學習,并談到了這項技術的潛力,以及接下來的發(fā)展方向:預測學習
    的頭像 發(fā)表于 12-27 09:07 ?1.2w次閱讀

    如何深度強化學習 人工智能和深度學習的進階

    傳統(tǒng)上,強化學習在人工智能領域占據(jù)著一個合適的地位。但強化學習在過去幾年已開始在很多人工智能計劃中發(fā)揮更大的作用。
    的頭像 發(fā)表于 03-03 14:16 ?4436次閱讀

    人工智能機器學習強化學習

    強化學習是智能系統(tǒng)從環(huán)境到行為映射的學習,以使獎勵信號(強化信號)函數(shù)值最大,強化學習不同于連接主義學習中的監(jiān)督
    發(fā)表于 05-30 06:53 ?1554次閱讀

    什么是強化學習?純強化學習有意義嗎?強化學習有什么的致命缺陷?

    強化學習是人工智能基本的子領域之一,在強化學習的框架中,智能體通過與環(huán)境互動,來學習采取何種動作能使其在給定環(huán)境中的長期獎勵最大化,就像在上述的棋盤游戲寓言中,你通過與棋盤的互動來學習
    的頭像 發(fā)表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強化學習</b>?純<b class='flag-5'>強化學習</b>有意義嗎?<b class='flag-5'>強化學習</b>有什么的致命缺陷?

    基于強化學習的MADDPG算法原理及實現(xiàn)

    之前接觸的強化學習算法都是單個智能體的強化學習算法,但是也有很多重要的應用場景牽涉到多個智能體之間的交互。
    的頭像 發(fā)表于 11-02 16:18 ?2.2w次閱讀

    深度強化學習到底是什么?它的工作原理是怎么樣的

    深度學習DL是機器學習中一種基于對數(shù)據(jù)進行表征學習的方法。深度學習DL有監(jiān)督和非監(jiān)督之分,都已經(jīng)得到廣泛的研究和應用。強化學習RL是通過對未
    的頭像 發(fā)表于 06-13 11:39 ?6690次閱讀

    DeepMind發(fā)布強化學習庫RLax

    RLax(發(fā)音為“ relax”)是建立在JAX之上的庫,它公開了用于實施強化學習智能體的有用構建塊。。報道:深度強化學習實驗室作者:DeepRL ...
    的頭像 發(fā)表于 12-10 18:43 ?991次閱讀

    機器學習中的無模型強化學習算法及研究綜述

    強化學習( Reinforcement learning,RL)作為機器學習領域中與監(jiān)督學習、無監(jiān)督學習并列的第三種學習范式,通過與環(huán)境進行
    發(fā)表于 04-08 11:41 ?11次下載
    機器<b class='flag-5'>學習</b>中的無模型<b class='flag-5'>強化學習</b>算法及研究綜述

    模型化深度強化學習應用研究綜述

    強化學習。無模型強仳學習方法的訓練過程需要大量樣本,當采樣預算不足,無法收集大量樣本時,很難達到預期效果。然而,模型化強化學習可以充分利用環(huán)境模型,降低真實樣本需求量,在一定程度上提高
    發(fā)表于 04-12 11:01 ?9次下載
    模型化深度<b class='flag-5'>強化學習</b>應用研究綜述

    什么是強化學習

    強化學習是機器學習的方式之一,它與監(jiān)督學習、無監(jiān)督學習并列,是三種機器學習訓練方法之一。 在圍棋上擊敗世界第一李世石的 AlphaGo、在《
    的頭像 發(fā)表于 10-30 11:36 ?4830次閱讀
    什么是<b class='flag-5'>強化學習</b>

    如何使用 PyTorch 進行強化學習

    強化學習(Reinforcement Learning, RL)是一種機器學習方法,它通過與環(huán)境的交互來學習如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機器學習庫,
    的頭像 發(fā)表于 11-05 17:34 ?1043次閱讀