一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么AlphaGo調(diào)參用貝葉斯優(yōu)化?手動調(diào)參需要8.3天

DPVg_AI_era ? 來源:lq ? 2018-12-22 09:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AlphaGo的開發(fā)和運(yùn)行涉及海量數(shù)據(jù)的多次調(diào)參,由于數(shù)據(jù)規(guī)模和復(fù)雜度的要求,采用手動調(diào)參估計需要8.3天。研究人員使用貝葉斯優(yōu)化作為自動調(diào)參解決方案,效果明顯,自對弈測試中的勝率從50%提高至66.5%,這下人類更沒法下了。

在AlphaGo的開發(fā)過程中,它的許多超參數(shù)都經(jīng)過多次貝葉斯優(yōu)化調(diào)整。這種自動調(diào)參過程使其棋力顯著提高。在與李世乭的比賽之前,我們調(diào)整了最新的AlphaGo的參數(shù),并在自弈對局測試中將勝率從50%提高到66.5%。

這個經(jīng)過調(diào)整的版本在最后一局比賽中應(yīng)用。當(dāng)然,由于我們在開發(fā)周期中多次調(diào)整AlphaGo的參數(shù),因此實際上的棋力提升效果更為明顯。我們希望這個案例研究將引起圍棋愛好者的興趣,同時也為貝葉斯優(yōu)化相關(guān)從業(yè)者提供一些見解和靈感。

為什么AlphaGo調(diào)參用貝葉斯優(yōu)化?手動調(diào)參需要8.3天

在AlphaGo的設(shè)計和開發(fā)過程中,貝葉斯優(yōu)化作為一項常規(guī)方式,經(jīng)常對AlphaGo超參數(shù)進(jìn)行調(diào)整,提升棋力。特別是,貝葉斯優(yōu)化成為AlphaGo與李世乭引人注目比賽中的重要因素。

AlphaGo的運(yùn)行可以用兩個階段來概括:神經(jīng)網(wǎng)絡(luò)訓(xùn)練和蒙特卡羅樹搜索(MCTS)。其中每一個階段都存在許多超參數(shù)。我們主要注意調(diào)整與游戲相關(guān)的超參數(shù)。

我們之所以這樣做,是因為掌握了性能強(qiáng)大的神經(jīng)網(wǎng)絡(luò)的調(diào)節(jié)策略,但是在游戲過程中如何調(diào)整AlphaGo的人類知識較少。我們對AlphaGo的許多組件進(jìn)行了元優(yōu)化。

值得注意的是,我們調(diào)整了MCTS超參數(shù),包括管理UCT勘探公式,節(jié)點擴(kuò)展閾值,與MCTS分布式實施相關(guān)的幾個超參數(shù),以及快速推出和快速推出之間選擇公式的超參數(shù)。每次移動的價值網(wǎng)絡(luò)評估。我們還調(diào)整了與策略和價值網(wǎng)絡(luò)評估相關(guān)的超參數(shù)。

最后,我們對一個公式進(jìn)行了元優(yōu)化,以確定游戲過程中每次行棋的搜索時間。根據(jù)調(diào)整任務(wù)屬性不同,要調(diào)整的超參數(shù)的數(shù)量從3到10不等。

圖1:在前6次迭代中使用高斯過程(GP)和預(yù)期改進(jìn)獲?。‥I)函數(shù)的貝葉斯優(yōu)化的一維化表示。上圖所示為GP的均值(藍(lán)色)和真正的未知函數(shù)(紅色)。在查詢點附近,不確定性降低。下圖為EI采集函數(shù)及其建議的下一個查詢點。

在應(yīng)用貝葉斯優(yōu)化之前,我們嘗試使用網(wǎng)格搜索來調(diào)整AlphaGo的超參數(shù)。具體來說,對于每個超參數(shù),我們構(gòu)建了一個有效值網(wǎng)格,并在當(dāng)前版本v和固定基線v0之間運(yùn)行自對弈。對于每個值,我們運(yùn)行了1000局對局。

這些對局中每次行棋的時間固定為5秒。進(jìn)行一場對局大約需要20分鐘。通過使用400個GPU將游戲與幾個工作者并行化,大約需要6.7小時來估算單個超參數(shù)值的勝率p(θ)。

如果要進(jìn)行6個超參數(shù)的優(yōu)化,每個參數(shù)取5個可能的值,總共需要8.3天。如此高的調(diào)參成本是我們采用貝葉斯優(yōu)化的重要原因。

圖2:最左邊三個圖:估計三個單獨(dú)超參數(shù)的勝率的后驗均值和方差,同時修復(fù)剩余的超參數(shù)。垂直條所示為固定的參考參數(shù)值。最右邊的圖:兩個超參數(shù)的后驗均值,表示這些參數(shù)之間的相關(guān)性

我們使用改進(jìn)版的Spearmint進(jìn)行輸入變形,進(jìn)行貝葉斯優(yōu)化。超參數(shù)調(diào)整過程可由算法1表示(下圖)。

圖3:作為優(yōu)化步驟函數(shù)的觀察值和最大預(yù)期勝率的典型值

實驗方法和測試任務(wù)

任務(wù)1:調(diào)整MCTS超參數(shù)

我們優(yōu)化了MCTS超參數(shù),用于管理UCT勘探公式、網(wǎng)絡(luò)輸出回火以及快速輸出值和網(wǎng)絡(luò)輸出值之間的混合比。要調(diào)整的超參數(shù)的數(shù)量從3到10不等。

AlphaGo的開發(fā)涉及許多設(shè)計迭代過程。在完成AlphaGo版本開發(fā)之后,我們通過貝葉斯優(yōu)化和自我對弈對其進(jìn)行了改進(jìn)。在每次設(shè)計迭代開始時,勝率為50%。然而,通過調(diào)整MCTS超參數(shù),在與李世乭比賽之前的兩次設(shè)計迭代中,勝率增加到63.2%和64.4%(即Elo分?jǐn)?shù)提高了94、103分)。

重要的是,每次我們調(diào)整版本時,所獲得的知識(包括超參數(shù)值)都會傳遞給下一版本AlphaGo的開發(fā)團(tuán)隊。在與李世乭的比賽結(jié)束后,我們繼續(xù)優(yōu)化MCTS超參數(shù),繼續(xù)增強(qiáng)AlphaGo的棋力。

任務(wù)2:調(diào)整面向快棋的AlphaGo用于數(shù)據(jù)生成

我們運(yùn)行了行棋時間很短的自弈對局,來生成策略和價值網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)集,與常規(guī)行棋時間對局不同,快速對局每步棋限時0.25秒。 AlphaGo在各種版本上的改進(jìn)取決于這些數(shù)據(jù)集的質(zhì)量。因此,快速的數(shù)據(jù)生成必須盡可能具備強(qiáng)大性能。在這個特殊的時間設(shè)置下,最佳的超參數(shù)值會發(fā)生很大變化,如果沒有適當(dāng)?shù)南闰炛R,手動調(diào)參就會受到限制。在調(diào)整不同的快棋版本后,四個關(guān)鍵版本的Elo收益分別為300、285、145和129。

任務(wù)3:調(diào)整TPU

張量處理單元(TPU)可以提供比GPU更快的網(wǎng)絡(luò)評估速度。

遷移到新硬件后,AlphaGo的性能大幅提升。然而,現(xiàn)有超參數(shù)的最佳值發(fā)生了改變,并且在分布式TPU實現(xiàn)中還出現(xiàn)了新的超參數(shù)。貝葉斯優(yōu)化在早期的TPU實現(xiàn)中產(chǎn)生了更大幅度的Elo分?jǐn)?shù)提升

任務(wù)4:開發(fā)并調(diào)整動態(tài)混合比例公式

早期版本的AlphaGo使用快速輸出值和網(wǎng)絡(luò)輸出值評估之間的恒定混合比,無論對局的階段和搜索時間如何變化,這個比例都是不變的。這顯然是不是最優(yōu)選擇,但我們一直缺乏適當(dāng)?shù)募夹g(shù)來尋找最優(yōu)的混合函數(shù)。通過引入貝葉斯優(yōu)化,我們可以定義更靈活的公式,并尋找和調(diào)整最佳公式的參數(shù)。

圖4b所示為對應(yīng)于圖b中的四個點的四個混合比對移動數(shù)曲線。這表明在150手附近找到混合比的良好值是很重要的。這一發(fā)現(xiàn)與AlphaGo自對弈中的關(guān)鍵手通常發(fā)生在150手至200手之間的觀察結(jié)果相一致。

任務(wù)5:調(diào)整時間控制公式

MCTS是一種隨時可用的算法,其樹搜索可以在任何時候中斷,返回當(dāng)前的最佳選擇。為了準(zhǔn)備與李世乭的正式比賽,我們希望能夠優(yōu)化所有動作的搜索時間分配,比賽主時間為2小時,每個玩家有3個60秒的讀秒時段。我們將時間分配也視為優(yōu)化問題,以便最大化地提升勝率。

調(diào)整所有超參數(shù)后的最佳效果如圖所示

AlphaGo在默認(rèn)時間設(shè)置下獲得66.5%的勝率,每步棋的行棋時間固定為30秒。

未來:繼續(xù)開發(fā)具有MCTS的AI對弈智能

貝葉斯優(yōu)化為AlphaGo的超參數(shù)調(diào)節(jié)提供了一種自動化的解決方案。因為傳統(tǒng)的手動調(diào)參耗時過長,不具備實現(xiàn)的可能。貝葉斯優(yōu)化對AlphaGo的勝率提升做出了重大貢獻(xiàn),并幫助我們獲得了重要的見解,這些見解繼續(xù)有助于開發(fā)具有MCTS的新版本的AI對弈智能體。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AlphaGo
    +關(guān)注

    關(guān)注

    3

    文章

    79

    瀏覽量

    28305
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    11463

原文標(biāo)題:人類沒法下了!DeepMind貝葉斯優(yōu)化調(diào)參AlphaGo,自弈勝率大漲16.5%

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    ADRC的使用方法和調(diào)大致的方向

    由于串級PID還沒搞定,就轉(zhuǎn)向了自抗擾控制,STM32控制無刷電機(jī)做了一個ADRC速度閉環(huán),沒靜差是真的,但感覺也沒想象中那么強(qiáng),就寫篇博文記錄一下ADRC大概的使用方法和調(diào)大致的方向。
    發(fā)表于 09-07 06:33

    教你怎樣學(xué)會PID調(diào)

    不會PID調(diào)?這篇文章圖文結(jié)合帶你學(xué)會PID調(diào)!讓你成為PID調(diào)大神!??!
    發(fā)表于 01-06 07:47

    PID調(diào)的相關(guān)資料分享

    說明:本文章適用于STM32初學(xué)者,想完成一個好玩且有深度的項目但不知道從何下手的同學(xué)。PID調(diào)是平衡車的精髓所在,參數(shù)整定的好壞直接影響到平衡車的平衡效果。有的車平衡時來回晃而參數(shù)選的好的車就能
    發(fā)表于 01-14 09:14

    針對PID調(diào)進(jìn)行詳細(xì)的講解

    ??大家好,我是小政。本篇文章我將針對PID調(diào)進(jìn)行詳細(xì)的講解,讓每位小伙伴能夠?qū)Ρ壤?、積分、微分三個參數(shù)如何調(diào)節(jié)有更加清晰的理解。一、調(diào)步驟確立機(jī)械中值直立環(huán)(內(nèi)環(huán))——Kp極性、
    發(fā)表于 01-14 06:26

    WinGUI_2.3調(diào)軟件

    英文版軟件,很好的軟件,WinGUI_2.3調(diào)軟件
    發(fā)表于 12-08 14:28 ?3次下載

    NAZA_驅(qū)動調(diào)軟件及說明書

    NAZA 驅(qū)動調(diào)軟件,需要的可以看一看了
    發(fā)表于 02-15 15:10 ?0次下載

    CF飛控調(diào)說明

    CF飛控調(diào)說明
    發(fā)表于 10-09 14:56 ?15次下載

    深度學(xué)習(xí)的調(diào)經(jīng)驗

    對于深度學(xué)習(xí)本人也是半路出家. 現(xiàn)在的工作內(nèi)容主要就是使用CNN做CV任務(wù). 干調(diào)這種活也有兩年時間了. 我的回答可能更多的還是側(cè)重工業(yè)應(yīng)用, 技術(shù)上只限制在CNN這塊.
    的頭像 發(fā)表于 06-08 14:41 ?2485次閱讀

    詳解優(yōu)化方法

    數(shù)學(xué)是個奇妙的東西,可以把生活中的一切量化。人生也是個奇妙的東西,起起伏伏,好比一個高斯分布函數(shù)。今天就結(jié)合一些人生的感悟聊聊優(yōu)化
    的頭像 發(fā)表于 07-06 10:34 ?4669次閱讀

    一文秒懂優(yōu)化/Bayesian Optimization

    ,大神/優(yōu)化專家們求輕噴,覺得不錯的記得幫點贊/在看/轉(zhuǎn)發(fā)幫擴(kuò)散哦!謝謝。 梳理這個問題有這么兩個原因: 1、在工業(yè)界,最近我看到不少同學(xué)在探索并使用
    的頭像 發(fā)表于 04-09 11:26 ?1.7w次閱讀
    一文秒懂<b class='flag-5'>貝</b><b class='flag-5'>葉</b><b class='flag-5'>斯</b><b class='flag-5'>優(yōu)化</b>/Bayesian Optimization

    模型調(diào):CANape與Simulink的強(qiáng)強(qiáng)聯(lián)手

    CANape推出新功能Simulink XCP Server,針對Simulink模型以及ECU內(nèi)部數(shù)據(jù)的參數(shù)化和可視化,讓模型調(diào)變得簡單。
    的頭像 發(fā)表于 08-01 15:00 ?1921次閱讀
    模型<b class='flag-5'>調(diào)</b><b class='flag-5'>參</b>:CANape與Simulink的強(qiáng)強(qiáng)聯(lián)手

    什么是調(diào) CCP協(xié)議的實現(xiàn)原理

    調(diào)就是優(yōu)化或調(diào)整控制算法中的某些參數(shù)以獲得系統(tǒng)最佳效果的過程。我們通過校準(zhǔn)工具(比如網(wǎng)絡(luò)接口卡can盒子和canape)訪問 ECU 中的校準(zhǔn)變量并進(jìn)行更改,注意我們要校準(zhǔn)的那些參數(shù)都被分組到 ECU 內(nèi)存的一個特殊部分,稱為
    發(fā)表于 06-21 09:12 ?1112次閱讀
    什么是<b class='flag-5'>調(diào)</b><b class='flag-5'>參</b> CCP協(xié)議的實現(xiàn)原理

    機(jī)器學(xué)習(xí)8大調(diào)技巧

    今天給大家一篇關(guān)于機(jī)器學(xué)習(xí)調(diào)技巧的文章。超參數(shù)調(diào)優(yōu)是機(jī)器學(xué)習(xí)例程中的基本步驟之一。該方法也稱為超參數(shù)優(yōu)化需要搜索超參數(shù)的最佳配置以實現(xiàn)最
    的頭像 發(fā)表于 03-23 08:26 ?1033次閱讀
    機(jī)器學(xué)習(xí)8大<b class='flag-5'>調(diào)</b><b class='flag-5'>參</b>技巧

    LSTM神經(jīng)網(wǎng)絡(luò)的調(diào)技巧

    長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它能夠?qū)W習(xí)長期依賴信息。在實際應(yīng)用中,LSTM網(wǎng)絡(luò)的調(diào)是一個復(fù)雜且關(guān)鍵的過程,直接影響
    的頭像 發(fā)表于 11-13 10:01 ?1799次閱讀

    BP神經(jīng)網(wǎng)絡(luò)的調(diào)技巧與建議

    BP神經(jīng)網(wǎng)絡(luò)的調(diào)是一個復(fù)雜且關(guān)鍵的過程,涉及多個超參數(shù)的優(yōu)化和調(diào)整。以下是一些主要的調(diào)技巧與建議: 一、學(xué)習(xí)率(Learning Rat
    的頭像 發(fā)表于 02-12 16:38 ?742次閱讀