一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AlphaZero:一個(gè)算法通吃三大棋類

電子工程師 ? 來(lái)源:lq ? 2018-12-17 16:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,谷歌旗下的人工智能實(shí)驗(yàn)室DeepMind研究團(tuán)隊(duì)在《科學(xué)》雜志上發(fā)表封面論文,公布了通用算法AlphaZero和測(cè)試數(shù)據(jù)?!犊茖W(xué)》雜志評(píng)價(jià)稱,通過(guò)單一算法就能夠解決多個(gè)復(fù)雜問(wèn)題,是創(chuàng)建通用的機(jī)器學(xué)習(xí)系統(tǒng)、解決實(shí)際問(wèn)題的重要一步。該論文的作者包括AlphaGo的核心研發(fā)人員戴維·席爾瓦(David Silver)和DeepMind創(chuàng)始人戴密斯·哈薩比斯(Demis Hassabis)等。

2018年12月7日的《科學(xué)》雜志封面

AlphaGo首次為人們所熟知是2016年與圍棋世界冠軍李世石進(jìn)行圍棋人機(jī)大戰(zhàn),并最終以4比1的總比分獲勝。實(shí)際上早在2016年1月谷歌就在國(guó)際學(xué)術(shù)期刊《自然》雜志上發(fā)表封面文章,介紹AlphaGo在沒(méi)有任何讓子的情況下以5:0完勝歐洲冠軍、職業(yè)圍棋二段樊麾。

2016年1月28日《自然》雜志封面

2017年10月18日,DeepMind團(tuán)隊(duì)公布了最強(qiáng)版阿爾法圍棋,代號(hào)AlphaGo Zero。彼時(shí)DeepMind表示,棋類AI的算法主要基于復(fù)雜的枚舉,同時(shí)需要人工進(jìn)行評(píng)估,人們?cè)谶^(guò)去幾十年內(nèi)已經(jīng)將這種方法做到極致了。而AlphaGo Zero在圍棋中的超人表現(xiàn),則是通過(guò)與自己下棋練習(xí)出來(lái)的。

現(xiàn)在DeepMind研究團(tuán)隊(duì)將這種方法推廣到AlphaZero的算法中,AlphaZero最長(zhǎng)花了13天“自學(xué)成才”,隨后與世界冠軍級(jí)的棋類AI對(duì)決:

在國(guó)際象棋中,AlphaZero在4個(gè)小時(shí)后首次擊敗了第九季TCEC世界冠軍Stockfish。

在日本將棋中,AlphaZero在2小時(shí)后擊敗了將棋聯(lián)盟賽世界冠軍Elmo。

在圍棋上,AlphaZero經(jīng)過(guò)30個(gè)小時(shí)的鏖戰(zhàn),擊敗了李世石版AlphaGo。

AlphaZero:一個(gè)算法通吃三大棋類

AlphaGo的前幾代版本,一開(kāi)始都是與人類棋手的棋譜進(jìn)行上千盤(pán)的訓(xùn)練,學(xué)習(xí)如何下圍棋。到了AlphaGo Zero則跳過(guò)了這個(gè)步驟,通過(guò)自我對(duì)弈學(xué)習(xí)下棋,從零學(xué)起。系統(tǒng)從一個(gè)對(duì)圍棋一無(wú)所知的神經(jīng)網(wǎng)絡(luò)開(kāi)始,將該神經(jīng)網(wǎng)絡(luò)和一個(gè)強(qiáng)力搜索算法結(jié)合,自我對(duì)弈。在對(duì)弈過(guò)程中,神經(jīng)網(wǎng)絡(luò)不斷調(diào)整、升級(jí),預(yù)測(cè)每一步落子和最終的勝利者。

與AlphaGo Zero一樣,從隨機(jī)小游戲開(kāi)始,AlphaZero依靠深度神經(jīng)網(wǎng)絡(luò)、通用強(qiáng)化學(xué)習(xí)算法和蒙特卡洛樹(shù)搜索,在除了游戲規(guī)則外沒(méi)有任何知識(shí)背景的情況下,通過(guò)自我對(duì)弈進(jìn)行強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)的方式是一種通過(guò)“試錯(cuò)”的機(jī)器學(xué)習(xí)方式。

DeepMind在其博客中介紹,一開(kāi)始AlphaZero完全是在瞎玩,但隨著時(shí)間的推移,系統(tǒng)從勝、負(fù)和平局中學(xué)習(xí),調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù),如此往復(fù)循環(huán),每過(guò)一輪,系統(tǒng)的表現(xiàn)就提高了一點(diǎn)點(diǎn),自我對(duì)弈的質(zhì)量也提高了一點(diǎn)點(diǎn),神經(jīng)網(wǎng)絡(luò)也就越來(lái)越準(zhǔn)確。神經(jīng)網(wǎng)絡(luò)所需的訓(xùn)練量取決于游戲的風(fēng)格和復(fù)雜程度。經(jīng)過(guò)試驗(yàn),AlphaZero花了9個(gè)小時(shí)掌握國(guó)際象棋,花了12個(gè)小時(shí)掌握日本將棋,花了13天掌握圍棋。

AlphaZero的訓(xùn)練步驟

AlphaZero繼承了AlphaGo Zero的算法設(shè)置和網(wǎng)絡(luò)架構(gòu)等,但兩者也有諸多不同之處。比如圍棋中很少會(huì)出現(xiàn)平局的情況,因此AlphaGo Zero是在假設(shè)結(jié)果為“非贏即輸”的情況下,對(duì)獲勝概率進(jìn)行估計(jì)和優(yōu)化。而AlphaZero會(huì)將平局或其他潛在結(jié)果也納入考慮,對(duì)結(jié)果進(jìn)行估計(jì)和優(yōu)化。

其次圍棋棋盤(pán)發(fā)生旋轉(zhuǎn)和反轉(zhuǎn),結(jié)果都不會(huì)發(fā)生變化,因此AlphaGo Zero會(huì)通過(guò)生成8個(gè)對(duì)稱圖像來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù)。但國(guó)際象棋和日本將棋中,棋盤(pán)是不對(duì)稱的。因此,AlphaZero不會(huì)增強(qiáng)訓(xùn)練數(shù)據(jù),也不會(huì)在蒙特卡洛樹(shù)搜索期間轉(zhuǎn)換棋盤(pán)位置。

在AlphaGo Zero中,自我對(duì)弈是由以前所有迭代中最好的玩家生成的,而自我對(duì)弈也是與這個(gè)產(chǎn)生的新玩家對(duì)于。而AlphaZero只繼承了AlphaGo Zero的單一神經(jīng)網(wǎng)絡(luò),這個(gè)神經(jīng)網(wǎng)絡(luò)不斷更新,而不是等待迭代完成。自我對(duì)弈是通過(guò)使用這個(gè)神經(jīng)網(wǎng)絡(luò)的最新參數(shù)生成的,因此省略了評(píng)估步驟和選擇最佳玩家的過(guò)程。

此外,AlphaGo Zero使用的是通過(guò)貝葉斯優(yōu)化調(diào)整搜索的超參數(shù);AlphaZero中,所有對(duì)弈都重復(fù)使用相同的超參數(shù),因此無(wú)需進(jìn)行針對(duì)特定某種游戲的調(diào)整。唯一的例外是為保證探索噪聲和學(xué)習(xí)率。

研究團(tuán)隊(duì)展示了在AlphaZero執(zhí)白、Stockfish執(zhí)黑的一局國(guó)際象棋里,經(jīng)過(guò)1000次、10000次……直到100萬(wàn)次模擬之后,AlphaZero蒙特卡洛樹(shù)的內(nèi)部搜索狀態(tài)。每個(gè)樹(shù)狀圖解都展示了10個(gè)最常搜索的狀態(tài)。

通過(guò)自我學(xué)習(xí)掌握國(guó)際象棋、日本將棋和圍棋的強(qiáng)化學(xué)習(xí)算法 《科學(xué)》雜志 圖

DeepMind研究團(tuán)隊(duì)介紹,每個(gè)AI的硬件都是定制的。例如,在TCES世界錦標(biāo)賽上,Stockfish和Elmo使用的是44核CPU。而AlphaZero和AlphaGo Zero則使用了一臺(tái)配備了4個(gè)第一代TPU和44核CPU的機(jī)器。雖然架構(gòu)沒(méi)有可比性,但第一代TPU的處理速度與英偉達(dá)公司的Titan V型商用GPU相當(dāng)。研究團(tuán)隊(duì)在訓(xùn)練環(huán)節(jié)里,投入了5000個(gè)一代TPU來(lái)生成自我對(duì)弈游戲,16個(gè)二代TPU來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

卡斯帕羅夫:聰明地工作比拼命地工作更重要

國(guó)際象棋是計(jì)算機(jī)科學(xué)家很早就開(kāi)始研究的領(lǐng)域。1997年,深藍(lán)(Deep Blue)擊敗了人類國(guó)際象棋冠軍卡斯帕羅夫,這一事件成為了人工智能發(fā)展的里程碑。但彼時(shí)卡斯帕羅夫?qū)ι钏{(lán)的印象并不深刻,認(rèn)為深藍(lán)的智能水平和一個(gè)鬧鐘差不多。如今,他對(duì)棋類AI的看法也發(fā)生了轉(zhuǎn)變。他認(rèn)為AlphaZero“像自己一樣”,下棋風(fēng)格多變而開(kāi)放。

在同一期《科學(xué)》雜志上,卡斯帕羅夫撰文稱,“傳統(tǒng)的機(jī)器是通過(guò)不斷枚舉來(lái)下棋,最終把棋局拖入無(wú)聊的平局。但在我的觀察中,AlphaZero會(huì)優(yōu)先考慮棋子的活動(dòng)而非盤(pán)面上的點(diǎn)數(shù)優(yōu)勢(shì),并且喜歡在相對(duì)風(fēng)險(xiǎn)更大的地方落子?!?/p>

盡管與傳統(tǒng)的冠軍級(jí)程序相比,研究人員用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)指導(dǎo)蒙特卡羅樹(shù)搜索,來(lái)選擇最有可能獲得勝利的一步,因此AlphaZero每秒計(jì)算的位置要少得多。據(jù)DeepMind介紹,在國(guó)際象棋中,AlphaZero每秒僅計(jì)算6萬(wàn)個(gè)位置,相比之下,Stockfish則會(huì)計(jì)算6千萬(wàn)個(gè)位置。但從比賽的結(jié)果來(lái)看,AlphaZero的思考顯然更有效率。

在國(guó)際象棋比賽中,AlphaZero擊敗了2016年TCEC(第九季)世界冠軍Stockfish,在1000場(chǎng)比賽中,贏得155場(chǎng)比賽,輸了6場(chǎng)(其余為平局)。為了驗(yàn)證AlphaZero的穩(wěn)健性,研究團(tuán)隊(duì)還進(jìn)行了一系列比賽,這些比賽都是從“人類開(kāi)局方式”開(kāi)始的,而AlphaZero都擊敗了Stockfish。

在將棋比賽中,AlphaZero擊敗了2017年CSA世界冠軍版Elmo,贏得了91.2%的比賽。

在圍棋比賽中,AlphaZero擊敗了AlphaGo Zero,贏得了61%的比賽。

對(duì)于AlphaZero取得的戰(zhàn)績(jī),卡斯帕羅夫認(rèn)為這正是印證了一句老話——聰明地工作比拼命地工作更重要。

在AlphaZero對(duì)陣各領(lǐng)域最強(qiáng)AI的戰(zhàn)績(jī),綠色代表AlphaZero獲勝,灰色代表平局,粉色代表輸棋。 《科學(xué)》雜志圖

此外,卡斯帕羅夫表示,一個(gè)程序的特點(diǎn)通常反映了程序員思考的優(yōu)先級(jí)和思維上的偏見(jiàn),但由于AlphaZero是通過(guò)跟自己下棋來(lái)完善自己的思路的,所以它的風(fēng)格反映的就是它自己。

在進(jìn)行馬拉松式比賽的過(guò)程中,DeepMind研究團(tuán)隊(duì)發(fā)現(xiàn),AlphaZero自己發(fā)現(xiàn)并掌握了一些人類下棋時(shí)摸索出來(lái)的套路,比如在國(guó)際象棋中,AlphaZero掌握了幾種常見(jiàn)的開(kāi)局模式、保王(King Safety)的思維以及各種兵陣的布局。但另一方面AlphaZero是自學(xué)成才的,不受到傳統(tǒng)觀念的影響,因此它還能為傳統(tǒng)策略的發(fā)展注入新鮮的血液。這一點(diǎn)得到了日本將棋史上第一個(gè)達(dá)成七冠王的羽生善治的贊同。

“AlphaZero會(huì)將王移到棋盤(pán)中央,從人類的角度來(lái)看,這是有違將棋理論的,它的一些路數(shù)走得也很危險(xiǎn)。但令人難以置信的是,它始終控制著局面。AlphaZero獨(dú)特的風(fēng)格打開(kāi)了日本將棋新世界的大門(mén)?!?羽生善治表示。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:AlphaZero登上《科學(xué)》封面:一個(gè)算法通吃三大棋類

文章出處:【微信號(hào):FPGAer_Club,微信公眾號(hào):FPGAer俱樂(lè)部】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    由入門(mén)到精通吃透PID

    由入門(mén)到精通吃透PID
    發(fā)表于 08-18 10:47

    從入門(mén)到精通吃透PID

    從入門(mén)到精通吃透PID
    發(fā)表于 09-19 09:01

    從入門(mén)到精通吃透PID

    從入門(mén)到精通吃透PID
    發(fā)表于 09-25 10:57

    從入門(mén)到精通吃透PID

    從入門(mén)到精通吃透PID
    發(fā)表于 10-31 12:28

    由入門(mén)到精通吃透PID

    由入門(mén)到精通吃透PID
    發(fā)表于 02-06 17:10

    由入門(mén)到精通吃透PID

    由入門(mén)到精通吃透PID
    發(fā)表于 04-02 11:37

    由入門(mén)到精通吃透PID

    由入門(mén)到精通吃透PID
    發(fā)表于 05-09 09:17

    基于由入門(mén)到精通吃透PID

    基于由入門(mén)到精通吃透PID
    發(fā)表于 10-15 10:34 ?9次下載
    基于由入門(mén)到精<b class='flag-5'>通吃</b>透PID

    如何成為個(gè)軟硬件通吃的技術(shù)大牛?

    有沒(méi)有軟硬件通吃的大牛,絕對(duì)有。這樣的大牛多是懂點(diǎn)軟件,也懂點(diǎn)硬件,在軟件工程師面前和人聊硬件,在硬件工
    的頭像 發(fā)表于 03-20 16:49 ?6433次閱讀

    史上最強(qiáng)棋類AI降臨!也是迄今最強(qiáng)的棋類AI——AlphaZero

    “盡管MCTS已經(jīng)成為圍棋程序中的標(biāo)準(zhǔn)搜索方法,但迄今為止,幾乎沒(méi)有證據(jù)表明它在國(guó)際象棋或?qū)⑵逯杏杏?。”Campbell寫(xiě)道:“DeepMind展示了深度強(qiáng)化學(xué)習(xí)與MCTS算法相結(jié)合的力量,從隨機(jī)初始化的參數(shù)開(kāi)始,讓神經(jīng)網(wǎng)絡(luò)通過(guò)自我對(duì)弈不斷更新參數(shù)。”
    的頭像 發(fā)表于 12-08 09:24 ?1.8w次閱讀

    AlphaZero舉登上《科學(xué)》雜志封面

    它的些移動(dòng)方法,比如將 King 移到棋盤(pán)的中心,就違背了日本將棋棋法。從人類的角度來(lái)看,AlphaZero 的這種做法似乎已將其置于危險(xiǎn)的境地,但令人難以置信的是,它仍然掌控住了棋局。它獨(dú)特的下棋風(fēng)格,讓我們看到了棋法新的可能性。
    的頭像 發(fā)表于 12-10 14:48 ?2730次閱讀

    谷歌DeepMind圍棋吊打世界冠軍

    AlphaZero款能夠從頭學(xué)習(xí)圍棋、象棋等棋子游戲的新型人工智能平臺(tái)。在棋類比賽中,AlphaZero
    的頭像 發(fā)表于 12-10 16:00 ?3130次閱讀
    谷歌DeepMind圍棋吊打世界冠軍

    解讀AlphaZero種人類從未見(jiàn)過(guò)的智慧

    在圍棋上打敗天下無(wú)敵手之后,DeepMind旗下的Alpha家族開(kāi)始深入探究所有棋類,其中就包括國(guó)際象棋、日本將軍棋。 2018年12月初,在AlphaZero誕生周年之際,《自然》雜志以封面文
    發(fā)表于 12-29 13:49 ?3420次閱讀

    通過(guò)計(jì)算機(jī)算法AlphaZero來(lái)學(xué)習(xí)控制量子系統(tǒng)

    當(dāng)計(jì)算機(jī)算法AlphaZero僅靠四個(gè)小時(shí)就學(xué)會(huì)了擊敗基于人類專業(yè)知識(shí)的最佳國(guó)際象棋程序時(shí),國(guó)際象棋界感到驚訝。
    的頭像 發(fā)表于 04-28 15:51 ?2199次閱讀

    干貨 | 超實(shí)用總結(jié),通吃所有整流濾波電路

    干貨 | 超實(shí)用總結(jié),通吃所有整流濾波電路
    的頭像 發(fā)表于 03-23 21:19 ?1586次閱讀
    干貨 | 超實(shí)用總結(jié),<b class='flag-5'>一</b>文<b class='flag-5'>通吃</b>所有整流濾波電路