AI看70000小時(shí)《我的世界》視頻,能達(dá)到一個(gè)什么水平?
以“鉆石鎬”(diamond pickaxe)為例,這個(gè)東西高級(jí)人類(lèi)玩家要快速點(diǎn)擊20分鐘、約2.4萬(wàn)個(gè)動(dòng)作才能制作完成。
而現(xiàn)在的AI,已然能夠輕松hold住了。
哐哐找到各種材料,一步步進(jìn)行各種合成:
這就是來(lái)自O(shè)penAI號(hào)稱(chēng)最強(qiáng)的《我的世界》AI——MineDojo。
它還是世界第一個(gè)能夠打造“鉆石工具”的AI。
不僅如此,像打造“石鎬”、“簡(jiǎn)易避難所”都不在話(huà)下:
當(dāng)然,在《我的世界》里其它的常規(guī)操作,在MineDojo手里也游刃有余。
例如游泳、狩獵、支柱跳等等:
至于OpenAI為什么要讓AI學(xué)會(huì)這些技巧,研究人員Bowen Baker表示:
很大程度上是因?yàn)槲覀冊(cè)?a href="http://www.www27dydycom.cn/analog/" target="_blank">模擬人類(lèi)上網(wǎng)時(shí)的行為。
MineDojo是如何煉成的?
正如我們剛才提到的,MineDojo的“煉成之道”,就是看視頻。
這些視頻內(nèi)容都是人類(lèi)玩家發(fā)布在油管上,展示自己如何玩《我的世界》的。
然后在看完70000小時(shí)視頻之后,這個(gè)AI就學(xué)會(huì)了如何執(zhí)行游戲中的各種任務(wù)。
這種方式一般被稱(chēng)為模仿學(xué)習(xí)(imitation learning),就是訓(xùn)練神經(jīng)網(wǎng)絡(luò)通過(guò)觀(guān)察人類(lèi)行為來(lái)學(xué)習(xí)。
雖然此前也有眾多相關(guān)研究,但仍有一些問(wèn)題尚待解決。
“貼標(biāo)簽”就是其中之一。
傳統(tǒng)方式就是在每一個(gè)動(dòng)作上貼上標(biāo)簽:這么做會(huì)發(fā)生這件事、那么做會(huì)發(fā)生那件事。
但這種方式可想而知的后果,就是工作量太大了,導(dǎo)致可以用來(lái)訓(xùn)練的數(shù)據(jù)較少。
因此,OpenAI的研究人員便另辟蹊徑,想出了不一樣的研究思路——視頻預(yù)訓(xùn)練(Video Pre-Training,VPT):
這個(gè)方法的核心思路,就是訓(xùn)練另一個(gè)神經(jīng)網(wǎng)絡(luò),專(zhuān)門(mén)來(lái)處理繁瑣的“貼標(biāo)簽”的工作。
為此,研究人員先是找來(lái)一批玩家讓他們先玩《我的世界》,當(dāng)然,娛樂(lè)的同時(shí)也要記錄下鍵盤(pán)、鼠標(biāo)的點(diǎn)擊次數(shù)。
如此一來(lái),研究人員先是得到了2000小時(shí)帶標(biāo)記的一些數(shù)據(jù)。
在這基礎(chǔ)上,他們便開(kāi)始訓(xùn)練一個(gè)模型,來(lái)匹配鍵盤(pán)、鼠標(biāo)動(dòng)作和屏幕上的結(jié)果——
例如在什么情況下點(diǎn)下鼠標(biāo),會(huì)讓游戲中的角色揮舞斧頭。
把這個(gè)模型訓(xùn)練出來(lái)之后,就要引入70000小時(shí)沒(méi)有標(biāo)簽的視頻了;在它的加持下,龐大且可用的數(shù)據(jù)集就誕生了。
再接下來(lái),就是回到之前模仿學(xué)習(xí)的思路,用這些新數(shù)據(jù)來(lái)訓(xùn)練AI。
雖說(shuō)模仿學(xué)習(xí)可以說(shuō)是強(qiáng)化學(xué)習(xí)的一個(gè)分支,但OpenAI的研究人員發(fā)現(xiàn),VPT訓(xùn)出來(lái)的AI,能夠完成單靠強(qiáng)化學(xué)習(xí)無(wú)法完成的任務(wù)。
比如制作木板并把它們變成一張桌子(大約需要970個(gè)連續(xù)動(dòng)作)。
不僅如此,研究人員還發(fā)現(xiàn),若是把模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)做個(gè)結(jié)合,那么效果是最好的。
而由《我的世界》這次的研究拓展開(kāi)來(lái),OpenAI的研究人員還表示:
我們的AI還可以執(zhí)行其它任務(wù),例如鼠標(biāo)瀏覽網(wǎng)站、預(yù)訂航班或在線(xiàn)購(gòu)物。
《我的世界》已經(jīng)成為AI技術(shù)試驗(yàn)田
其實(shí)OpenAI這次研究的亮點(diǎn),刨除VPT方法本身,其研究的兩大要素——《我的世界》和視頻,也成為人們熱議的焦點(diǎn)。
《我的世界》這款游戲的一大特點(diǎn)就是開(kāi)放性,玩家可以在這個(gè)虛擬世界里做出許多意想不到的杰作。
不同于以往強(qiáng)化學(xué)習(xí)訓(xùn)練AI的游戲環(huán)境,大多都是以“輸贏(yíng)”為結(jié)果而終止了,但往往AI后期訓(xùn)練出來(lái)的能力可能是超越這種“限制”的。
但《我的世界》就沒(méi)有“輸贏(yíng)”之說(shuō)了,AI可以在這里盡情的發(fā)揮。因此OpenAI研究人員表示:
《我的世界》是訓(xùn)練AI很好的試驗(yàn)田。
而這也贏(yíng)得了NeurIPS的認(rèn)可——MineDojo拿下了今年這個(gè)頂會(huì)的一個(gè)獎(jiǎng)項(xiàng)。
至于這項(xiàng)研究第二個(gè)熱議點(diǎn)“視頻”,正如索尼執(zhí)行董事Peter Stone所述:
視頻是一種潛力巨大的培訓(xùn)資源。
但似乎OpenAI的研究人員還不滿(mǎn)足此次的成果,他們認(rèn)為,收集100萬(wàn)小時(shí)《我的世界》的視頻,會(huì)讓它們的AI變得更加出色。
當(dāng)然,這項(xiàng)研究也引來(lái)不少網(wǎng)友們的圍觀(guān),也有一些比較有意思的討論:
人們想讓AI有意識(shí),但它們有意識(shí)之后才發(fā)覺(jué),自己需要被迫看這么久的視頻,有夠累的。
論文地址: https://openai.com/blog/vpt/
審核編輯 :李倩
-
AI
+關(guān)注
關(guān)注
88文章
35099瀏覽量
279540 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1308瀏覽量
25151
原文標(biāo)題:AI看了70000小時(shí)《我的世界》視頻學(xué)會(huì)人類(lèi)高級(jí)技巧,網(wǎng)友:它好痛苦
文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
看德州儀器(TI)的工程技術(shù)如何構(gòu)建更美好的世界?

Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計(jì)算與嵌入式開(kāi)發(fā)
《零基礎(chǔ)開(kāi)發(fā)AI Agent——手把手教你用扣子做智能體》
《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》----- 學(xué)習(xí)如何開(kāi)發(fā)視頻應(yīng)用
FPGA+AI王炸組合如何重塑未來(lái)世界:看看DeepSeek東方神秘力量如何預(yù)測(cè)......
DLP3021LEQ1EVM進(jìn)行視頻燒錄,有辦法能提升燒錄速度嗎?
AI賦能邊緣網(wǎng)關(guān):開(kāi)啟智能時(shí)代的新藍(lán)海
NVIDIA推出加速物理AI開(kāi)發(fā)的Cosmos世界基礎(chǔ)模型
在A(yíng)RM上實(shí)現(xiàn)模擬視頻的實(shí)時(shí)解碼,模擬相機(jī)的速度為1080p 30fps,TVP5150能達(dá)到這個(gè)速度嗎?
ADS1232增益無(wú)法達(dá)到64或者128怎么解決?
基于A(yíng)DS131m04和STM32F103搭建了一個(gè)簡(jiǎn)單的采樣電路,如何獲得比較高的通道間采樣一致性?
國(guó)產(chǎn)在線(xiàn)測(cè)徑儀為什么能達(dá)到先進(jìn)水平?
如何設(shè)計(jì)一個(gè)在15Mhz下能達(dá)到80dB的放大系統(tǒng)?
劉潤(rùn):逛了2個(gè)小時(shí)世界人工智能大會(huì)

評(píng)論