資料介紹
人工智能(Artificial Intelligence,AI)主要研究人類思
維、行動(dòng)中那些尚未算法化的功能行為, 使機(jī)器像人的大
腦一樣思考、行動(dòng)。長(zhǎng)期以來, 圍棋作為一種智力博弈游
戲, 以其變化莫測(cè)的博弈局面, 高度體現(xiàn)了人類的智慧, 為
人工智能研究提供了一個(gè)很好的測(cè)試平臺(tái), 圍棋人工智能
也是人工智能領(lǐng)域的一個(gè)重要挑戰(zhàn)。
傳統(tǒng)的計(jì)算機(jī)下棋程序的基本原理, 是通過有限步數(shù)
的搜索樹, 即采用數(shù)學(xué)和邏輯推理方法, 把每一種可能的
路徑都走一遍, 從中選舉出最優(yōu)路徑, 使得棋局勝算最大。
這種下棋思路是充分發(fā)揮計(jì)算機(jī)運(yùn)算速度快、運(yùn)算量大等
優(yōu)勢(shì)的“暴力搜索法”, 是人類在對(duì)弈規(guī)定的時(shí)間限制內(nèi)無
法做到的。但是由于圍棋局面數(shù)量太大, 這樣的運(yùn)算量對(duì)
于計(jì)算機(jī)來講也是相當(dāng)之大, 目前的計(jì)算機(jī)硬件無法在對(duì)
弈規(guī)定的時(shí)間內(nèi), 使用計(jì)算機(jī)占絕對(duì)優(yōu)勢(shì)的“暴力搜索法”
完成圍棋所有局面的擇優(yōu), 所以這樣的下棋思路不適用于
圍棋對(duì)弈。
搜索量巨大的問題一直困擾著圍棋人工智能, 使其發(fā)
展停滯不前,直到2 0 0 6 年, 蒙特卡羅樹搜索的應(yīng)用出現(xiàn),
才使得圍棋人工智能進(jìn)入了嶄新的階段, 現(xiàn)代圍棋人工智
能的主要算法是基于蒙特卡洛樹的優(yōu)化搜索。
2 圍棋人工智能基本原理
目前圍棋人工智能最杰出的代表, 是由谷歌旗下人工
智能公司DeepMind創(chuàng)造的AlphaGo圍棋人工智能系統(tǒng)。它
在與人類頂級(jí)圍棋棋手的對(duì)弈中充分發(fā)揮了其搜索和計(jì)
算的優(yōu)勢(shì), 幾乎在圍棋界立于不敗之地。
Alph a G o系統(tǒng)的基本原理是將深度強(qiáng)化學(xué)習(xí)方法與蒙
特卡洛樹搜索結(jié)合, 使用有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)和價(jià)值網(wǎng)
絡(luò), 極大減少了搜索空間, 即在搜索過程中的計(jì)算量, 提高
了對(duì)棋局估計(jì)的準(zhǔn)確度。
2.1 深度強(qiáng)化學(xué)習(xí)方法
深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究, 人類大量的視覺
聽覺信號(hào)的感知處理都是下意識(shí)的, 是基于大腦皮層神經(jīng)
網(wǎng)絡(luò)的學(xué)習(xí)方法, 通過模擬大腦皮層推斷分析數(shù)據(jù)的復(fù)雜
層狀網(wǎng)絡(luò)結(jié)構(gòu), 使用包含復(fù)雜結(jié)構(gòu)或由多重非線性變換構(gòu)
成的多個(gè)處理層對(duì)數(shù)據(jù)進(jìn)行高層抽象, 其過程類似于人們
識(shí)別物體標(biāo)注圖片?,F(xiàn)如今, 應(yīng)用最廣泛的深度學(xué)習(xí)模型
包括: 卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)、堆棧自編碼網(wǎng)絡(luò)和遞
歸神經(jīng)網(wǎng)絡(luò)等。
強(qiáng)化學(xué)習(xí)源于動(dòng)物學(xué)習(xí)、參數(shù)擾動(dòng)自適應(yīng)控制等理
論, 通過模擬生物對(duì)環(huán)境以試錯(cuò)的方式進(jìn)行交互達(dá)到對(duì)環(huán)
境的最優(yōu)適應(yīng)的方式, 通過不斷地反復(fù)試驗(yàn), 將變化無常
的動(dòng)態(tài)情況與對(duì)應(yīng)動(dòng)作相匹配。強(qiáng)化學(xué)習(xí)系統(tǒng)設(shè)置狀態(tài)、
動(dòng)作、狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)賞四個(gè)部分, 在當(dāng)前狀態(tài)下根據(jù)
策略選擇動(dòng)作, 執(zhí)行該過程并以當(dāng)前轉(zhuǎn)移概率轉(zhuǎn)移到下一
狀態(tài), 同時(shí)接收環(huán)境反饋回來的獎(jiǎng)賞, 最終通過調(diào)整策略
來最大化累積獎(jiǎng)賞。
深度學(xué)習(xí)具有較強(qiáng)的感知能力, 但缺乏一定的決策能
力; 強(qiáng)化學(xué)習(xí)具有決策能力, 同樣對(duì)感知問題無能為力。深
度強(qiáng)化學(xué)習(xí)方法是將具有感知能力的深度學(xué)習(xí)和具有決
策能力的強(qiáng)化學(xué)習(xí)結(jié)合起來, 優(yōu)勢(shì)互補(bǔ), 用深度學(xué)習(xí)進(jìn)行
感知, 從環(huán)境中獲取目標(biāo)觀測(cè)信息, 提供當(dāng)前環(huán)境下的狀
態(tài)信息; 然后用強(qiáng)化學(xué)習(xí)進(jìn)行決策, 將當(dāng)前狀態(tài)映射到相
應(yīng)動(dòng)作, 基于初期匯報(bào)評(píng)判動(dòng)作價(jià)值。
深度強(qiáng)化學(xué)習(xí)為復(fù)雜系統(tǒng)的感知決策問題提供了一
種全新的解決思路。
2.2 蒙特卡洛樹搜索
蒙特卡洛樹搜索是將蒙特卡洛方法與樹搜索相結(jié)合
形成的一種搜索方法。所謂蒙特卡洛方法是一種以概率統(tǒng)
計(jì)理論為指導(dǎo)的強(qiáng)化學(xué)習(xí)方法, 它通常解決某些隨機(jī)事件
出現(xiàn)的概率問題, 或者是某隨機(jī)變量的期望值等數(shù)字特征
問題。通過與環(huán)境的交互, 從所采集的樣本中學(xué)習(xí), 獲得關(guān)
于決策過程的狀態(tài)、動(dòng)作和獎(jiǎng)賞的大量數(shù)據(jù), 最后計(jì)算出
累積獎(jiǎng)賞的平均值。
蒙特卡洛樹搜索算法是一種用于解決完美信息博弈
?。╬erfect information games,沒有任何信息被隱藏的游戲)
的方法,主要包含選擇(Selection)、擴(kuò)展(Expansion)、模擬
- 步進(jìn)馬達(dá)基本原理 8次下載
- 電磁爐基本原理圖下載 29次下載
- 直流電源系統(tǒng)基本原理
- 數(shù)模和模數(shù)轉(zhuǎn)換的基本原理PPT課件下載 7次下載
- 開關(guān)電源的基本原理及組成、不同技術(shù)綜述 50次下載
- 神經(jīng)網(wǎng)絡(luò)的基本原理 8次下載
- 半導(dǎo)體二極管參數(shù)符號(hào)及其意義總結(jié) 19次下載
- BP神經(jīng)網(wǎng)絡(luò)基本原理簡(jiǎn)介 18次下載
- 蟻群算法的基本原理及其改進(jìn)算法.ppt 6次下載
- 實(shí)驗(yàn)二 AD09基本原理圖的設(shè)計(jì) 0次下載
- 人工智能彌補(bǔ)醫(yī)療資源的不足與診斷肺癌的介紹及其意義 0次下載
- 傅立葉變換紅外光譜儀的基本原理及其應(yīng)用 7次下載
- 智能控制--模糊控制的基本原理 0次下載
- 人工智能及其應(yīng)用 0次下載
- VoIP的基本原理與技術(shù)
- LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢(shì) 1166次閱讀
- 人工智能模型有哪些 970次閱讀
- 人工智能深度學(xué)習(xí)的五大模型及其應(yīng)用領(lǐng)域 4813次閱讀
- 神經(jīng)網(wǎng)絡(luò)的基本原理 1287次閱讀
- 人工智能中文本分類的基本原理和關(guān)鍵技術(shù) 1360次閱讀
- 無功補(bǔ)償裝置的基本原理及作用 675次閱讀
- 無功補(bǔ)償?shù)?b class="flag-6" style="color: red">意義及基本原理 586次閱讀
- 什么是人工智能上百個(gè)人工智能的經(jīng)典問答 6192次閱讀
- 淺析單片機(jī)中PWM的基本概念和基本原理 1.1w次閱讀
- 六張圖看懂人工智能的前世今生 4424次閱讀
- 騰訊微信翻譯團(tuán)隊(duì)開源的人工智能圍棋項(xiàng)目 PhoenixGo 5920次閱讀
- 人工智能為何這么熱_人工智能價(jià)值與應(yīng)用_無人機(jī)屬于人工智能嗎 7526次閱讀
- 人工智能需要哪些知識(shí)_人工智能需要學(xué)什么_如何自學(xué)人工智能 4.4w次閱讀
- 為什么要發(fā)展人工智能_發(fā)展人工智能經(jīng)濟(jì)意義分析 4.8w次閱讀
- “人工智能+”或再掀新一輪熱潮 經(jīng)濟(jì)形態(tài)迎巨變 513次閱讀
下載排行
本周
- 1相關(guān)協(xié)議信號(hào)總結(jié)
- 0.94 MB | 4次下載 | 免費(fèi)
- 2運(yùn)算放大器基本電路中文資料
- 1.30 MB | 2次下載 | 免費(fèi)
- 3DS-CS3A P00-CN-V3
- 618.05 KB | 1次下載 | 免費(fèi)
- 4常用電子元器件介紹
- 3.21 MB | 1次下載 | 免費(fèi)
- 5PC1654 連續(xù)傳導(dǎo)模式(CCM)升壓式同步整流器控制器中文手冊(cè)
- 1.00 MB | 次下載 | 免費(fèi)
- 6FS313B USB 的 PD和QC快充協(xié)議電壓誘騙控制器數(shù)據(jù)手冊(cè)
- 2.61 MB | 次下載 | 免費(fèi)
- 7DS-HS2V H00 CN-V3
- 480.02 KB | 次下載 | 免費(fèi)
- 8FS7203低壓降線性穩(wěn)壓器數(shù)據(jù)手冊(cè)
- 1.67 MB | 次下載 | 免費(fèi)
本月
- 1涂鴉各WiFi模塊原理圖加PCB封裝
- 11.75 MB | 89次下載 | 1 積分
- 2錦銳科技CA51F2 SDK開發(fā)包
- 24.06 MB | 43次下載 | 1 積分
- 3錦銳CA51F005 SDK開發(fā)包
- 19.47 MB | 19次下載 | 1 積分
- 4PCB的EMC設(shè)計(jì)指南
- 2.47 MB | 16次下載 | 1 積分
- 5HC05藍(lán)牙原理圖加PCB
- 15.76 MB | 13次下載 | 1 積分
- 6蘋果iphone 11電路原理圖
- 4.98 MB | 7次下載 | 2 積分
- 7基礎(chǔ)模擬電子電路
- 3.80 MB | 5次下載 | 1 積分
- 8STM32F3系列、STM32F4系列、STM32L4系列和STM32L4+系列Cortex-M4編程手冊(cè)
- 3.32 MB | 5次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935127次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420064次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233089次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191390次下載 | 10 積分
- 5十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
- 158M | 183342次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81591次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73815次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65989次下載 | 10 積分
評(píng)論