97五月天黄色电影,在线超碰制服美女,无码精区久久久一区

年前，Alphabet 旗下人工智能部門(mén) DeepMind 發(fā)布 AlphaZero，稱(chēng)它可以自學(xué)國(guó)際象棋、日本將棋和中國(guó)圍棋，并且項(xiàng)項(xiàng)都能擊敗世界冠軍。而今天，經(jīng)過(guò)同行評(píng)議，AlphaZero 一舉登上《科學(xué)》雜志封面。

據(jù)此前 DeepMind 在 AlphaZero 的論文中介紹，AlphaZero 使用了完全無(wú)需人工特征、無(wú)需任何人類(lèi)棋譜、甚至無(wú)需任何特定優(yōu)化的通用強(qiáng)化學(xué)習(xí)算法。也就是說(shuō)，AlphaZero 實(shí)質(zhì)上就是 AlphaGo Zero 的通用化進(jìn)化版本，它繼續(xù)保持了 AlphaGo Zero 中不需要人工特征、利用深度神經(jīng)網(wǎng)絡(luò)從零開(kāi)始進(jìn)行強(qiáng)化學(xué)習(xí)、結(jié)合蒙特卡洛樹(shù)搜索的特點(diǎn)，并在此基礎(chǔ)上，更新網(wǎng)絡(luò)參數(shù)，減小網(wǎng)絡(luò)估計(jì)的比賽結(jié)果和實(shí)際結(jié)果之間的誤差，同時(shí)最大化策略網(wǎng)絡(luò)輸出動(dòng)作和蒙特卡洛樹(shù)搜索可能性之間的相似度。

然而，在 DeepMind 發(fā)布 AlphaZero 之際，AlphaZero 也遭到了某種程度的質(zhì)疑，例如，一位 AI 研究人員就指出，DeepMind 沒(méi)有公開(kāi)它的 AI 系統(tǒng)源代碼，因此難以檢驗(yàn)和重復(fù)它公布的結(jié)果。而如今這項(xiàng)研究成果經(jīng)過(guò)同行評(píng)議登上《科學(xué)》雜志的首頁(yè)，算是得到了證明。有趣的是，AlphaZero 的直接對(duì)手——棋手們也紛紛表達(dá)了他們的贊許：

例如日本將棋 9 段職業(yè)選手、棋史上唯一一位獲得「永世七冠」頭銜的棋士 Yoshiharu Habu 就評(píng)價(jià)道：

它的一些移動(dòng)方法，比如將 King 移到棋盤(pán)的中心，就違背了日本將棋棋法。從人類(lèi)的角度來(lái)看，AlphaZero 的這種做法似乎已將其置于危險(xiǎn)的境地，但令人難以置信的是，它仍然掌控住了棋局。它獨(dú)特的下棋風(fēng)格，讓我們看到了棋法新的可能性。

而前國(guó)際象棋世界冠軍 Garry Kasparov 也止不住地稱(chēng)贊道：

我無(wú)法掩飾我的贊許，因?yàn)樗南缕屣L(fēng)格靈活多變，這跟我自己的風(fēng)格很像！

一個(gè)多世紀(jì)以來(lái)，象棋一直被用作人類(lèi)和機(jī)器認(rèn)知的羅塞塔石碑。AlphaZero 以一種獨(dú)特的方式，對(duì)古代棋盤(pán)游戲與前沿科學(xué)之間的顯著聯(lián)系帶來(lái)了新的東西。

其影響遠(yuǎn)遠(yuǎn)超出了我心愛(ài)的棋盤(pán)。這些自學(xué)成才的專(zhuān)家機(jī)器不僅表現(xiàn)得無(wú)比出色，而且實(shí)際上，我們?nèi)祟?lèi)還可以從它們產(chǎn)出的新知識(shí)中學(xué)習(xí)。

正如我們?cè)谇懊嫣岬降?，AlphaZero 是 AlphaGo Zero 的通用化進(jìn)化版本，而 AlphaGo Zero 又源自于 AlphaGo，接下來(lái)我們不妨簡(jiǎn)單回顧一下這幾個(gè)版本：

最初的 AlphaGo 的工作原理是：

在蒙特卡羅樹(shù)搜索（MCTS）的框架下引入兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)以改進(jìn)純隨機(jī)的蒙特卡羅（Monte Carlo）模擬，并借助監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)訓(xùn)練這兩個(gè)網(wǎng)絡(luò)，然后主要靠策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)分別預(yù)測(cè)下一步落子的點(diǎn)以及評(píng)估當(dāng)前的局勢(shì)。

而從 AlphaGo 到 AlphaGo Zero，系統(tǒng)的思路和模型結(jié)構(gòu)都得到了大幅度簡(jiǎn)化，帶來(lái)的是更快的訓(xùn)練和運(yùn)行速度，以及更高的棋力。

在更早版本的 AlphaGo 中，策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)是兩個(gè)不同的深度神經(jīng)網(wǎng)絡(luò)，Zero 版本中是同一個(gè) ResNet 的兩組輸出；

AlphaGo Zero 之前幾個(gè)版本中都需要先把局面轉(zhuǎn)換為高一層的人工特征再作為網(wǎng)絡(luò)的輸入、需要先學(xué)習(xí)人類(lèi)棋譜再轉(zhuǎn)變到自我對(duì)弈的強(qiáng)化學(xué)習(xí)、有一個(gè)單獨(dú)的快速走子網(wǎng)絡(luò)進(jìn)行隨機(jī)模擬，而 AlphaGo Zero 則把局面落子情況直接作為網(wǎng)絡(luò)的輸入、由隨機(jī)的網(wǎng)絡(luò)權(quán)值直接開(kāi)始強(qiáng)化學(xué)習(xí)、舍棄快速走子網(wǎng)絡(luò)直接用主要的神經(jīng)網(wǎng)絡(luò)模擬走子。

接著從 AlphaGo Zero 到 AlphaZero，發(fā)生的變化主要體現(xiàn)在如下幾個(gè)方面：

第一，AlphaGo Zero 會(huì)預(yù)計(jì)勝率，然后優(yōu)化勝率，其中只考慮勝、負(fù)兩種結(jié)果；AlphaZero 則會(huì)估計(jì)比賽結(jié)果，然后優(yōu)化達(dá)到預(yù)計(jì)的結(jié)果的概率，其中包含了平局甚至別的一些可能的結(jié)果。

第二，由于圍棋規(guī)則是具有旋轉(zhuǎn)和鏡像不變性的，所以專(zhuān)為圍棋設(shè)計(jì)的 AlphaGo Zero 和通用的 AlphaZero 就有不同的實(shí)現(xiàn)方法。AlphaGo Zero 訓(xùn)練中會(huì)為每個(gè)棋局做 8 個(gè)對(duì)稱(chēng)的增強(qiáng)數(shù)據(jù)；并且在蒙特卡洛樹(shù)搜索中，棋局會(huì)先經(jīng)過(guò)隨機(jī)的旋轉(zhuǎn)或者鏡像變換之后再交給神經(jīng)網(wǎng)絡(luò)評(píng)估，這樣蒙特卡洛評(píng)估就可以在不同的偏向之間得到平均。國(guó)際象棋和日本象棋都是不對(duì)稱(chēng)的，以上基于對(duì)稱(chēng)性的方法就不能用了。所以 AlphaZero 并不增強(qiáng)訓(xùn)練數(shù)據(jù)，也不會(huì)在蒙特卡洛樹(shù)搜索中變換棋局。

第三，在 AlphaGo Zero 中，自我對(duì)局的棋局是由所有之前的迭代過(guò)程中出現(xiàn)的表現(xiàn)最好的一個(gè)版本生成的。在每一次訓(xùn)練迭代之后，新版本棋手的表現(xiàn)都要跟原先的表現(xiàn)最好的版本做對(duì)比；如果新的版本能以超過(guò) 55% 的勝率贏過(guò)原先版本，那么這個(gè)新的版本就會(huì)成為新的「表現(xiàn)最好的版本」，然后用它生成新的棋局供后續(xù)的迭代優(yōu)化使用。相比之下，AlphaZero 始終都只有一個(gè)持續(xù)優(yōu)化的神經(jīng)網(wǎng)絡(luò)，自我對(duì)局的棋局也就是由具有最新參數(shù)的網(wǎng)絡(luò)生成的，不再像原來(lái)那樣等待出現(xiàn)一個(gè)「表現(xiàn)最好的版本」之后再評(píng)估和迭代。這實(shí)際上增大了訓(xùn)練出一個(gè)不好的結(jié)果的風(fēng)險(xiǎn)。

第四，AlphaGo Zero 中搜索部分的超參數(shù)是通過(guò)貝葉斯優(yōu)化得到的。AlphaZero 中直接對(duì)所有的棋類(lèi)使用了同一套超參數(shù)，不再對(duì)每種不同的棋做單獨(dú)的調(diào)節(jié)。唯一的例外在于訓(xùn)練中加在先前版本策略上的噪聲的大小，這是為了保證網(wǎng)絡(luò)有足夠的探索能力；噪聲的大小根據(jù)每種棋類(lèi)的典型可行動(dòng)作數(shù)目做了成比例的縮放。

將 AlphaGo 發(fā)展到 Alpha Zero，DeepMind 無(wú)疑是帶給了我們驚喜的。使用人工特征的 AlphaGo Fan 在出山之戰(zhàn)中便全勝打敗樊麾，還發(fā)出第一篇論文；運(yùn)行在 50 塊 TPU 上的 AlphaGo Lee 以 4:1 的戰(zhàn)績(jī)擊敗李世石，還創(chuàng)作了紀(jì)錄片并上映；接著只用 4 塊 TPU 的 AlphaGo Master 又在烏鎮(zhèn)圍棋峰會(huì)上以 3:0 擊敗柯潔，打碎了人類(lèi)所有擊敗 AlphaGo 幻想；再又有拋棄人工特征和所有人類(lèi)高手棋局的 AlphaGo Zero 靠自學(xué)成功超越了「前輩」AlphaGo Master。而現(xiàn)在，DeepMind 帶來(lái)的這個(gè)更通用的、能下各種棋類(lèi)的、而且在圍棋中的表現(xiàn)更上一層樓的通用強(qiáng)化學(xué)習(xí)模型——「AlphaZero」，則給我們帶來(lái)了更上一層的驚喜。

正如此前對(duì)AlphaZero 的報(bào)道中所總結(jié)的那樣：在 AlphaGo 的一路進(jìn)化中，我們見(jiàn)證了 DeepMind 的工程師們對(duì)深度強(qiáng)化學(xué)習(xí)本質(zhì)的思考和嘗試，也看到了不斷的優(yōu)化中帶來(lái)的無(wú)需先驗(yàn)知識(shí)、降低資源消耗、提高訓(xùn)練速度等等可喜的技術(shù)進(jìn)步。而本次 AlphaZero 登上《科學(xué)》雜志封面，也算是對(duì)他們所作出的嘗試和帶來(lái)的技術(shù)進(jìn)步的一種回應(yīng)。接下來(lái)DeepMind 還將讓Alpha Zero 進(jìn)化到什么哪個(gè)版本呢？讓我們期待一下吧~

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103648
人工智能

人工智能

+關(guān)注

關(guān)注
1807

文章
49029

瀏覽量
249589
DeepMind

DeepMind

+關(guān)注

關(guān)注
0

文章
131

瀏覽量
11583

原文標(biāo)題：AlphaZero 榮登《科學(xué)》雜志封面

文章出處：【微信號(hào)：worldofai，微信公眾號(hào)：worldofai】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

AlphaZero一舉登上《科學(xué)》雜志封面

評(píng)論