在蒙特祖瑪?shù)膹?fù)仇(Montezuma's Revenge)和瑪雅人的冒險(Pitfall!)這兩款游戲里,如果有一個算法能記住游戲里的探索過程,那么這個算法就能幫助計算機和機器人更好地學(xué)習(xí)和適應(yīng)真實世界。
由懷俄明大學(xué)的副教授 Jeff Clune 領(lǐng)導(dǎo),來自優(yōu)步在舊金山的人工智能研究團隊,提供了一種新型的機器學(xué)習(xí)算法剛剛攻克了一些對人工智能來說非常困難的電子游戲。
(圖片來源:麻省理工科技評論)
熟悉的人知道,人工智能算法已經(jīng)在古老、優(yōu)雅的策略游戲——圍棋中擊敗了世界上最優(yōu)秀的人類選手,圍棋已經(jīng)是是可以想象到的最困難的游戲之一。但是,來自上個世紀(jì)的 8 位計算機游戲時代的兩個經(jīng)典像素游戲——蒙特祖瑪?shù)膹?fù)仇和瑪雅人的冒險,一直困擾著人工智能研究人員。
這看似矛盾的背后其實是有原因的。蒙特祖瑪?shù)膹?fù)仇和瑪雅人的冒險雖然看似簡單,但對本來就擅長征服電子游戲的強化學(xué)習(xí)來說仍是一大挑戰(zhàn)。DeepMind 是谷歌母公司 Alphabet 的子公司,專注于人工智能領(lǐng)域,以其算法能夠以專業(yè)玩家的水準(zhǔn)來學(xué)習(xí)幾個經(jīng)典的電子游戲的而著名。強化學(xué)習(xí)算法在大多數(shù)游戲里效果都不錯,因為它們可以根據(jù)正反饋(得分升高)調(diào)整他們的行為。強化學(xué)習(xí)的成功使人們產(chǎn)生了希望,認為人工智能算法可以自己教會自己做各種有用的事情,而這目前對機器來說是不可能做到的。
蒙特祖瑪?shù)膹?fù)仇和瑪雅人的冒險的問題是所需要的獎勵(rewards)信號很少。兩個游戲都涉及典型場景:主角要探索充滿致命生物和陷阱的方塊世界,在游戲中許多所必需的行為都無助于提高分?jǐn)?shù),只在長時間完成特定的一系列動作之后才會收到獎勵信號。普通的強化學(xué)習(xí)算法甚至過不去蒙特祖瑪?shù)膹?fù)仇和瑪雅人的冒險的第一關(guān),他們得分完全為零。
但是來自優(yōu)步在舊金山的人工智能研究團隊的算法,在一個給算法提供線索很少的環(huán)境中展示了一種完全不同的機器學(xué)習(xí)方法。這種方法引出了一些有趣的實際應(yīng)用,Clune 和他的團隊在 11 月 26 日發(fā)布的博客文章中寫道,這可能可以應(yīng)用在機器人學(xué)習(xí)中。這是因為未來的機器人需要弄清楚在一個只提供較少的獎勵的復(fù)雜的環(huán)境中應(yīng)該做些什么。
Uber 于 2016 年 12 月建立人工智能實驗室,其目標(biāo)是實現(xiàn)可能對其業(yè)務(wù)有用的基礎(chǔ)性突破。更好的強化學(xué)習(xí)算法最終可用于自動駕駛和優(yōu)化車輛路線等項目上。
很多人工智能研究人員經(jīng)常通過指導(dǎo)強化學(xué)習(xí)算法不定時隨機探索、同時為探索過程增加獎勵——也就是所謂的”內(nèi)在動機”(intrinsic motivation), 來試圖解決蒙特祖瑪?shù)膹?fù)仇與瑪雅人的冒險遇到的問題。
但 Uber 的研究人員認為,這種方法忽略了人類探索好奇心的一個重要角度。“我們認為目前的”內(nèi)在動機”算法的一個主要弱點是 detachment,”他們寫道,“算法忘記了他們訪問過的有價值的區(qū)域,他們不會回到那些區(qū)域,看看是否會產(chǎn)生新的狀態(tài)?!?/p>
該團隊設(shè)計了新的強化學(xué)習(xí)算法,稱為 Go-Explore,這種算法可以記住之前的狀態(tài),并會在隨后返回特定區(qū)域或重復(fù)特定任務(wù),看看這樣做是否會使效果變好。研究人員還發(fā)現(xiàn),通過讓人類玩家突出有趣或重要的區(qū)域來增加一些領(lǐng)域信息時,可以大大加快算法的學(xué)習(xí)過程。這一過程非常重要,因為在真實環(huán)境中,有很多情況是需要算法和人一起工作來解決一項艱巨的任務(wù)的。
他們的算法在蒙特祖瑪?shù)膹?fù)仇中平均得分為 400,000 分——比人類玩家的平均值高出一個數(shù)量級。在瑪雅人的冒險游戲中,平均得分為 21,000,同樣遠遠超過大多數(shù)人類玩家。
“這些結(jié)果令人印象深刻,”研究強化學(xué)習(xí)的斯坦福大學(xué)助理教授 Emma Brunskill 說,“令人驚訝和興奮的是,這些算法產(chǎn)生了如此巨大的優(yōu)勢?!?/p>
其他人工智能研究人員也一直在努力攻克這些電子游戲。10 月,舊金山的非營利組織——OpenAI 的一個團隊,展示了一種能夠在蒙特祖瑪?shù)膹?fù)仇游戲中取得重大進展的算法。
就在最近,斯坦福大學(xué)的 Brunskill 小組在瑪雅人的冒險游戲方面也取得了一些的進展,他們使用的方法與 Uber 團隊類似。
現(xiàn)在人工智能算法可以解決這些視頻游戲,真正的挑戰(zhàn)是從街機游戲中脫離出來,解決現(xiàn)實問題。
Brunskill 同意這種算法可能對機器人技術(shù)產(chǎn)生重大影響。但是她表示,在其他現(xiàn)實世界的情況中,特別是那些涉及人類行為建模的情況,要遠遠困難得多。“想看看這種方法對于更復(fù)雜的環(huán)境表現(xiàn)的如何,這將非常有趣,”她說。
-
機器人
+關(guān)注
關(guān)注
213文章
29730瀏覽量
212836 -
算法
+關(guān)注
關(guān)注
23文章
4709瀏覽量
95358 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8502瀏覽量
134592
原文標(biāo)題:Uber公司設(shè)計新型AI算法,有望對機器人工作產(chǎn)生巨大影響
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
人工智能和機器學(xué)習(xí)以及Edge AI的概念與應(yīng)用

【「具身智能機器人系統(tǒng)」閱讀體驗】1.初步理解具身智能
【「具身智能機器人系統(tǒng)」閱讀體驗】1.全書概覽與第一章學(xué)習(xí)
【「具身智能機器人系統(tǒng)」閱讀體驗】+數(shù)據(jù)在具身人工智能中的價值
開源項目!OpenCat—— 一個全能的平價四足機器人
人工智能工程師高頻面試題匯總——機器學(xué)習(xí)篇

NPU與機器學(xué)習(xí)算法的關(guān)系
嵌入式和人工智能究竟是什么關(guān)系?
人工智能、機器學(xué)習(xí)和深度學(xué)習(xí)存在什么區(qū)別

評論