在當(dāng)今的數(shù)字經(jīng)濟(jì)中,沒有什么資產(chǎn)比數(shù)據(jù)更有價(jià)值。將數(shù)據(jù)稱為“新石油”已經(jīng)到了陳詞濫調(diào)的地步。正如最近的《經(jīng)濟(jì)學(xué)家》雜志標(biāo)題所說(shuō),數(shù)據(jù)是“世界上最有價(jià)值的資源”。
由于數(shù)據(jù)在推動(dòng)機(jī)器學(xué)習(xí)和人工智能解決方案中發(fā)揮著至關(guān)重要的作用,因此今天的數(shù)據(jù)如此受到高度重視。從Netflix的推薦引擎到Google的無(wú)人駕駛汽車,要訓(xùn)練一個(gè)有效運(yùn)行的AI系統(tǒng),需要大量的數(shù)據(jù)。
結(jié)果就是對(duì)越來(lái)越大的數(shù)據(jù)產(chǎn)生了迷戀。根據(jù)流行的智慧,擁有最多數(shù)據(jù)的他可以構(gòu)建最好的AI。從IBM到通用電氣的老牌公司都在爭(zhēng)相將自己重新命名為“數(shù)據(jù)公司”。軟銀的愿景基金(Vision Fund)是世界上最大,最具影響力的技術(shù)投資者,這毫不掩飾事實(shí),即尋求初創(chuàng)公司支持的重點(diǎn)是數(shù)據(jù)資產(chǎn)。用軟銀領(lǐng)導(dǎo)人孫正義(Masayoshi Son)的話說(shuō),“那些統(tǒng)治數(shù)據(jù)的人將統(tǒng)治世界”。
隨著商業(yè)和技術(shù)界越來(lái)越多地將數(shù)據(jù)定位為最終的制表王,人們對(duì)一個(gè)重要現(xiàn)實(shí)的關(guān)注已很少:人工智能的未來(lái)可能會(huì)大大減少數(shù)據(jù)密集性。
在人工智能的前沿,正在進(jìn)行各種努力來(lái)開發(fā)不需要大量標(biāo)記數(shù)據(jù)集的改進(jìn)形式的AI。這些技術(shù)將重塑我們對(duì)AI的理解,并以深刻的方式破壞業(yè)務(wù)格局。行業(yè)領(lǐng)導(dǎo)者最好注意。
綜合數(shù)據(jù)
今天,為了訓(xùn)練深度學(xué)習(xí)模型,從業(yè)人員必須收集成千上萬(wàn),數(shù)百萬(wàn)甚至數(shù)十億的數(shù)據(jù)點(diǎn)。然后,他們必須在每個(gè)數(shù)據(jù)點(diǎn)上粘貼標(biāo)簽,這是一個(gè)昂貴且通常是手動(dòng)的過(guò)程。如果研究人員不需要費(fèi)力地收集和標(biāo)記現(xiàn)實(shí)世界中的數(shù)據(jù),而是可以從頭開始創(chuàng)建他們需要的確切數(shù)據(jù)集怎么辦?
領(lǐng)先的技術(shù)公司(從Nvidia等知名競(jìng)爭(zhēng)對(duì)手到Applied Intuition等初創(chuàng)企業(yè))正在開發(fā)方法,以幾乎完全免費(fèi)的方式完全數(shù)字化地制作高保真數(shù)據(jù)。這些人為創(chuàng)建的數(shù)據(jù)集可以根據(jù)研究人員的確切需求進(jìn)行定制,并且可以包含數(shù)十億種替代方案。
Nvidia仿真技術(shù)主管Mike Skolones說(shuō):“出去改變現(xiàn)實(shí)世界中的照明非常昂貴,而且您無(wú)法在室外場(chǎng)景中改變照明。”但是您可以使用綜合數(shù)據(jù)。
隨著合成數(shù)據(jù)準(zhǔn)確地逼近現(xiàn)實(shí)世界數(shù)據(jù),它將使人工智能民主化,削弱專有數(shù)據(jù)資產(chǎn)的競(jìng)爭(zhēng)優(yōu)勢(shì)。如果一家公司可以通過(guò)仿真快速生成數(shù)十億英里的真實(shí)駕駛數(shù)據(jù),那么Waymo投資十年收集的幾百萬(wàn)英里的真實(shí)世界駕駛數(shù)據(jù)有多有價(jià)值?在可以按需廉價(jià)地生成數(shù)據(jù)的世界中,跨行業(yè)的競(jìng)爭(zhēng)動(dòng)態(tài)將被顛覆。
隨著人工智能在未來(lái)幾年變得越來(lái)越智能,它可能需要更少的數(shù)據(jù),而不是更多。
少量學(xué)習(xí)
與當(dāng)今的AI不同,人類不需要學(xué)習(xí)成千上萬(wàn)的例子就可以學(xué)習(xí)新概念。正如Google一項(xiàng)頗具影響力的研究論文所說(shuō):“一個(gè)孩子可以從一本書中的一張照片中概括出“長(zhǎng)頸鹿”的概念,但是我們最好的深度學(xué)習(xí)系統(tǒng)需要成百上千個(gè)示例。
為了使機(jī)器智能真正發(fā)揮其功能,它應(yīng)該能夠從少數(shù)示例中學(xué)習(xí)和推理人類的行為。這是AI中一個(gè)重要領(lǐng)域的目標(biāo),即“少數(shù)學(xué)習(xí)”。
鮮為人知的學(xué)習(xí)取得了令人興奮的最新進(jìn)展,特別是在計(jì)算機(jī)視覺領(lǐng)域。(當(dāng)僅使用一個(gè)或零個(gè)數(shù)據(jù)點(diǎn)時(shí),該技術(shù)分別稱為“單次學(xué)習(xí)”或“零次學(xué)習(xí)”。)研究人員已經(jīng)開發(fā)了可以在適當(dāng)情況下實(shí)現(xiàn)最新性能的AI模型?;谝粋€(gè)或幾個(gè)數(shù)據(jù)點(diǎn)的面部識(shí)別等任務(wù)。
目前,這些進(jìn)步仍主要局限于學(xué)術(shù)界。但是,隨著小數(shù)據(jù)方法在未來(lái)幾年中從學(xué)術(shù)界轉(zhuǎn)移到商業(yè)化生產(chǎn),它們將從根本上改變AI的完成方式,從而侵蝕大數(shù)據(jù)資產(chǎn)在此過(guò)程中的重要性。
深度學(xué)習(xí)先驅(qū),谷歌和百度前AI負(fù)責(zé)人安德魯·吳(Andrew Ng)解釋說(shuō):“如果在智能手機(jī)上進(jìn)行外觀檢查,則不會(huì)有一百萬(wàn)張刮擦智能手機(jī)的照片?!薄叭绻挥?00或10張圖像就可以工作,那么它將打破許多新的應(yīng)用程序?!?/p>
強(qiáng)化學(xué)習(xí)
在不需要大量實(shí)際數(shù)據(jù)的情況下取得重要進(jìn)步的最終AI方法是強(qiáng)化學(xué)習(xí)。
在強(qiáng)化學(xué)習(xí)中,一個(gè)AI模型不是通過(guò)蠻力數(shù)據(jù)攝取而是通過(guò)自我指導(dǎo)的反復(fù)試驗(yàn)來(lái)學(xué)習(xí):讓模型在給定的環(huán)境中嘗試不同的動(dòng)作是放任的,并且在收到關(guān)于哪個(gè)模型的反饋時(shí)逐漸優(yōu)化其行為行動(dòng)是有利的,而不是。
強(qiáng)化學(xué)習(xí)助長(zhǎng)了AI突破,這是近年來(lái)獲得最廣泛宣傳的突破之一:DeepMind在古老的Go游戲中擊敗了世界上最好的人類玩家。
DeepMind的原始模型AlphaGo通過(guò)結(jié)合歷史數(shù)據(jù)和強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)游戲。但是真正的非凡成就來(lái)自更復(fù)雜的后繼者AlphaGo Zero。除了游戲規(guī)則外,AlphaGo Zero絕對(duì)沒有任何先驗(yàn)數(shù)據(jù)。沒有其他輸入,僅通過(guò)與自己的對(duì)戰(zhàn),AlphaGo Zero就比任何人或機(jī)器都更了解Go的游戲:它擊敗了最初的AlphaGo 100-0。
“專家數(shù)據(jù)集通常很昂貴,不可靠或根本不可用,”AlphaGo Zero團(tuán)隊(duì)解釋道。“相比之下,強(qiáng)化學(xué)習(xí)系統(tǒng)是根據(jù)自身的經(jīng)驗(yàn)進(jìn)行培訓(xùn)的,原則上可以使它們超越人類的能力,并可以在缺乏人類專業(yè)知識(shí)的領(lǐng)域中運(yùn)作?!?/p>
除棋盤游戲外,強(qiáng)化學(xué)習(xí)正在機(jī)器人,化學(xué)工程,廣告等領(lǐng)域找到實(shí)際應(yīng)用。強(qiáng)化學(xué)習(xí)代表了AI中的一種新穎方法:與其不需要大量的預(yù)先存在的數(shù)據(jù)集,它還可以生成自己的數(shù)據(jù),并隨著時(shí)間的流逝而學(xué)習(xí)。隨著它進(jìn)入商業(yè)應(yīng)用,強(qiáng)化學(xué)習(xí)將代表對(duì)大數(shù)據(jù)正統(tǒng)觀念的又一挑戰(zhàn)。
結(jié)論
人工智能的世界在不斷變化。隨著該領(lǐng)域的前沿技術(shù)飛速發(fā)展,當(dāng)今最前沿的方法論可能會(huì)在明天過(guò)時(shí)。
目前,最主要的AI范例是深度學(xué)習(xí),它依賴于多達(dá)數(shù)十億的標(biāo)記數(shù)據(jù)點(diǎn)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)識(shí)別模式并做出預(yù)測(cè)。由于神經(jīng)網(wǎng)絡(luò)非??释麛?shù)據(jù),因此業(yè)務(wù)和技術(shù)領(lǐng)導(dǎo)者已沉迷于積累最大的數(shù)據(jù)集,希望數(shù)據(jù)將成為AI驅(qū)動(dòng)世界中最終的競(jìng)爭(zhēng)優(yōu)勢(shì)。
但是深度學(xué)習(xí)是AI漫長(zhǎng)道路上的一個(gè)終點(diǎn),而不是其最終目標(biāo)。將當(dāng)今的神經(jīng)網(wǎng)絡(luò)的海量數(shù)據(jù)需求作為長(zhǎng)期業(yè)務(wù)戰(zhàn)略的基礎(chǔ),是無(wú)法理解未來(lái)AI的未來(lái)范式轉(zhuǎn)變。合成數(shù)據(jù),快速學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等領(lǐng)域的最新進(jìn)展表明,隨著AI在未來(lái)幾年變得越來(lái)越智能,它可能需要更少的數(shù)據(jù),而不是更多。
這些新范例將重塑AI格局,并重新定義公司競(jìng)爭(zhēng)的條件。對(duì)于有遠(yuǎn)見的商人和技術(shù)人員來(lái)說(shuō),這將是一個(gè)巨大的機(jī)會(huì)。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8502瀏覽量
134589 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25445 -
數(shù)字經(jīng)濟(jì)
+關(guān)注
關(guān)注
2文章
1104瀏覽量
18875
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論