專欄中《零神經(jīng)網(wǎng)絡(luò)實(shí)戰(zhàn)》系列持續(xù)更新介紹神經(jīng)元怎么工作,最后使用python從0到1不調(diào)用任何依賴神經(jīng)網(wǎng)絡(luò)框架(不使用tensorflow等框架)來實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò),梯度下降、反向傳播、卷積神經(jīng)網(wǎng)絡(luò)CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN。從0基礎(chǔ)角度進(jìn)行神經(jīng)網(wǎng)絡(luò)實(shí)戰(zhàn)。本篇為第三篇。
作者:司南牧
Alpha Zero就是利用強(qiáng)化學(xué)習(xí)打敗柯潔??梢哉f強(qiáng)化學(xué)習(xí)是我覺得目前最可以叫做智能的算法。因?yàn)椴恍枰獢?shù)據(jù)就能自己總結(jié)出經(jīng)驗(yàn),這符合人的學(xué)習(xí)方式。
注意:強(qiáng)化學(xué)習(xí)有很多概念,不要一開始被這些概念束縛了。首先得知道強(qiáng)化學(xué)習(xí)大致是什么,再看這些概念就會(huì)恍然大悟。 本文的思路就是先介紹我對(duì)強(qiáng)化學(xué)習(xí)的理解。然后介紹強(qiáng)化學(xué)習(xí)中的一些概念。最后是強(qiáng)化學(xué)習(xí)實(shí)踐。
打破概念束縛:強(qiáng)化學(xué)習(xí)是個(gè)啥?
答:強(qiáng)化學(xué)習(xí)就是受到動(dòng)物從生活中學(xué)習(xí)技能的思想啟發(fā)的一種智能算法;那么怎么啟發(fā)的呢?動(dòng)物學(xué)習(xí)技能的過程就是不斷嘗試各種行為,最后總結(jié)經(jīng)驗(yàn),然后以后遇到相同情況直接用以往的經(jīng)驗(yàn)就可以。強(qiáng)化學(xué)習(xí)就是這么做的?!安粩嗖聹y(cè),檢驗(yàn),再猜測(cè),再檢驗(yàn),直到找到達(dá)成目標(biāo)的經(jīng)驗(yàn)”這個(gè)過程就是強(qiáng)化學(xué)習(xí)。它學(xué)習(xí)的經(jīng)驗(yàn)叫做模型。學(xué)習(xí)到了這些經(jīng)驗(yàn)后以后就不用猜測(cè)了,直接用經(jīng)驗(yàn)就可以。強(qiáng)化學(xué)習(xí)“學(xué)到”的經(jīng)驗(yàn)是什么:“在某個(gè)狀態(tài)下,做哪個(gè)行為,得到的獎(jiǎng)勵(lì)最大”,經(jīng)驗(yàn)這是一個(gè)列表是一本教科書。
總結(jié):強(qiáng)化學(xué)習(xí)的輸出結(jié)果是找到解決某個(gè)問題的經(jīng)驗(yàn)。強(qiáng)化學(xué)習(xí)的過程是不斷亂嘗試,并記錄所處的狀態(tài)和行為,找到某個(gè)狀態(tài)下獎(jiǎng)勵(lì)最大的行為。
為何要用強(qiáng)化學(xué)習(xí)?( 知道為什么才是打破概念束縛的關(guān)鍵)
答:因?yàn)橹悄荏w不知道哪些行為可以產(chǎn)生獎(jiǎng)勵(lì),也不知道什么時(shí)候會(huì)來獎(jiǎng)勵(lì)。這些經(jīng)驗(yàn)都是要從環(huán)境中學(xué)習(xí)所得到。
似懂非懂?沒關(guān)系有個(gè)模糊的是那么回事的印象就可以??聪旅娴睦泳投?。
舉個(gè)例子:在高中生物書上有個(gè)“巴甫洛夫的狗”這個(gè)實(shí)驗(yàn)。 就是巴甫洛夫每次給它狗喂食的時(shí)候都會(huì)搖鈴鐺,然后這條狗慢慢學(xué)到了“搖鈴鐺=有東西吃”這個(gè)經(jīng)驗(yàn)。然后學(xué)到這個(gè)經(jīng)驗(yàn)后,只要“搖鈴鐺”它就會(huì)流口水。強(qiáng)化學(xué)習(xí)就是受到這種啟發(fā)而發(fā)明的算法。
從“巴甫洛夫的狗”看強(qiáng)化學(xué)習(xí)幾個(gè)概念
強(qiáng)化學(xué)習(xí)思想很簡單,7個(gè)詞夠了:
智能體、目標(biāo)、環(huán)境、觀察、狀態(tài)、行動(dòng)、獎(jiǎng)勵(lì)
不要慌。接下來用例子來解釋著7個(gè)東西是什么。 我們用“巴甫洛夫的狗”這個(gè)實(shí)驗(yàn)解釋下這強(qiáng)化學(xué)習(xí)這個(gè)六個(gè)要素。
智能體。首先這條狗它是一個(gè)智能體(Agent)。
目標(biāo)。它的目標(biāo)(Goal)是吃飯。
環(huán)境。環(huán)境就是字面意思,它在的這個(gè)地方發(fā)生的一切都屬于環(huán)境里面的東西。
觀察。然后,它各種看和聽什么現(xiàn)象和食物相關(guān)。這個(gè)過程叫做觀察。
狀態(tài)。觀察到的內(nèi)容叫做狀態(tài)(state)。這里的狀態(tài)是:有沒有飯吃、有沒有人說話、有沒有腳步聲、有沒有鈴聲。
行為。然后它根據(jù)這些觀察會(huì)作出一些動(dòng)作,如:“搖尾巴,流口水等等”。這個(gè)叫做行為(action)。行為是根據(jù)觀察到內(nèi)容(狀態(tài))而作出的。 這里可能的行為是(前半部分是狀態(tài),后半部分是行為):
聽到腳步聲——搖尾巴
聽到鈴聲——流口水
聽到腳步聲——流口水
看到天黑了——汪汪汪叫
7.獎(jiǎng)勵(lì)。在這里,獎(jiǎng)勵(lì)是作出的行為有沒有飯吃。
聽到腳步聲——搖尾巴——沒飯吃
聽到鈴聲——流口水——有飯吃
聽到腳步聲——流口水——沒飯吃
看到天黑了——汪汪汪叫——沒飯吃
從“巴甫洛夫的狗”分析強(qiáng)化學(xué)習(xí)執(zhí)行過程
現(xiàn)在,我想你隱隱約約應(yīng)該看出動(dòng)物怎么學(xué)習(xí)的了。就是“不斷猜測(cè),檢驗(yàn),再猜測(cè),再檢驗(yàn)”,檢驗(yàn)唯一標(biāo)準(zhǔn)是有沒有達(dá)成目標(biāo)。
但是怎么理性科學(xué)的看待這個(gè)問題呢?答:“不斷猜測(cè),檢驗(yàn),再猜測(cè),再檢驗(yàn),直到找到達(dá)成目標(biāo)的經(jīng)驗(yàn)”這個(gè)過程就是強(qiáng)化學(xué)習(xí)。它學(xué)習(xí)的經(jīng)驗(yàn)叫做模型。學(xué)習(xí)到了這些經(jīng)驗(yàn)后以后就不用猜測(cè)了,直接用經(jīng)驗(yàn)就可以。強(qiáng)化學(xué)習(xí)“學(xué)到”的經(jīng)驗(yàn)是什么:“在某個(gè)狀態(tài)下,做哪個(gè)行為,得到的獎(jiǎng)勵(lì)最大”,這是一個(gè)列表清單。
為何“狗”要不斷嘗試呢?
因?yàn)樗恢滥男┬袨榭梢援a(chǎn)生獎(jiǎng)勵(lì),也不知道什么時(shí)候會(huì)來獎(jiǎng)勵(lì)。這些都是要從環(huán)境中學(xué)習(xí)所得到。
審核編輯 黃昊宇
-
人工智能
+關(guān)注
關(guān)注
1807文章
49035瀏覽量
249790 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
269瀏覽量
11608
發(fā)布評(píng)論請(qǐng)先 登錄
18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

如何優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率
BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn)分析
什么是BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
深度學(xué)習(xí)入門:簡單神經(jīng)網(wǎng)絡(luò)的構(gòu)建與實(shí)現(xiàn)
神經(jīng)網(wǎng)絡(luò)理論研究的物理學(xué)思想介紹

人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

評(píng)論