一種新的方法正在讓人工智能模型獲得人類的 “聯(lián)想” 能力,甚至能讓它識(shí)別此前從未見過(guò)的事物。
來(lái)自加拿大滑鐵盧大學(xué)的博士生伊利亞(Ilia Sucholutsky)和他的博士導(dǎo)師馬賽厄斯?尚勞(Matthias Schonlau)教授,首次提出了“少于一次” 樣本學(xué)習(xí)的概念和方法,并由此為人工智能技術(shù)的演進(jìn)提供了新的思路。
相關(guān)研究論文于 2020 年 9 月發(fā)表在預(yù)印本網(wǎng)站 arXiv 上,名為 “'Less Than One'-Shot Learning: Learning N Classes From M < N Samples”。
伊利亞告訴 DeepTech,他們的研究顯示,對(duì)于機(jī)器學(xué)習(xí)模型來(lái)說(shuō),理論上通過(guò)兩個(gè)樣本(example)即可訓(xùn)練模型學(xué)會(huì)識(shí)別任意數(shù)量類別(class)。
沒人知道,這種方法一旦實(shí)現(xiàn)大規(guī)模應(yīng)用,人工智能會(huì)迸發(fā)出怎樣的火花。
高企的訓(xùn)練成本
機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí)往往需要大量的訓(xùn)練數(shù)據(jù)。
著名的語(yǔ)言模型 GPT-3 使用了 45TB 的數(shù)據(jù)進(jìn)行訓(xùn)練,這個(gè)過(guò)程耗資達(dá)到了驚人的 1200 萬(wàn)美元,即使有微軟的鼎力相助,訓(xùn)練結(jié)束之后發(fā)現(xiàn)了一些小 Bug 也不舍得重新訓(xùn)練。
目前,GPT-3 是煉丹師們 “大力出奇跡” 的集大成者,但可以預(yù)見,不遠(yuǎn)的將來(lái)一定會(huì)有新的模型超越并取代它的位置。
“更多更大更強(qiáng)” 的思路是沒有盡頭的。假如我們稍稍停下疲于奔命的腳步,回歸到現(xiàn)實(shí)中的人類學(xué)習(xí)過(guò)程,就會(huì)發(fā)現(xiàn)一個(gè)觸及靈魂的拷問(wèn) ——人工智能真的必須依托如此巨量的數(shù)據(jù)才能夠?qū)崿F(xiàn)嗎?
相信很多人的答案并不篤定。
舉個(gè)例子,假如現(xiàn)在需要讓人工智能模型 “認(rèn)識(shí)” 馬這種動(dòng)物。常規(guī)的做法是挑選成百上千的馬匹圖像對(duì)其進(jìn)行訓(xùn)練。
之所以需要如此之多的樣本,是因?yàn)橥瑯右黄ヱR,僅僅是轉(zhuǎn)換一個(gè)拍攝角度,或微調(diào)一些肉眼無(wú)法觀察的像素點(diǎn),人工智能就會(huì)識(shí)別失敗,所以需要大量的大小、顏色、體態(tài)、朝向、品種不一的樣本填滿人工智能的 “盲區(qū)”。
即便如此,人工智能的識(shí)別成功概率也不能達(dá)到 100%,我們離創(chuàng)造真正可以復(fù)現(xiàn)大腦理解能力的人工智能還非常遙遠(yuǎn)。
但人類的兒童,卻只需要一張看圖識(shí)字的卡片,便能輕易分辨出唐僧所騎乘的是馬,而不是其他外型類似的生物。并且,兒童一旦學(xué)會(huì)識(shí)別某種事物,這項(xiàng)技能終其一生都很難忘記,只會(huì)越來(lái)越熟練。
更有甚者,兒童可以在沒有任何真實(shí)示例的情況下 “認(rèn)出” 一個(gè)新的物體。例如,展示給他們一匹馬和一頭犀牛的圖片,并告訴他們獨(dú)角獸結(jié)合了兩者的特點(diǎn),他們就可以在第一次看到獨(dú)角獸時(shí)認(rèn)出這個(gè)傳說(shuō)中的生物。
圖 | 犀牛 + 馬 = 犀牛馬?好吧,這張圖并不像獨(dú)角獸,但一定程度上體現(xiàn)了論文作者的意圖。
伊利亞和導(dǎo)師認(rèn)為,人工智能模型也應(yīng)該具備同樣的能力。也就是說(shuō),人工智能模型應(yīng)該可以從 M 個(gè)樣本中學(xué)習(xí)到 N 個(gè)類別,其中 N 可以遠(yuǎn)遠(yuǎn)大于 M。這樣,理論上模型就可以識(shí)別比訓(xùn)練示例更多的圖像,而此前的科研人員可能并未充分挖掘訓(xùn)練數(shù)據(jù)的全部潛力。
他們將這一過(guò)程稱為 “少于一個(gè)” 樣本學(xué)習(xí)(LO-Shot Learning)。
考慮到居高不下的訓(xùn)練成本和日益龐大到接近極限的訓(xùn)練數(shù)據(jù),這種讓人工智能學(xué)會(huì) “合理聯(lián)想” 的方法或許會(huì)在未來(lái)產(chǎn)生顛覆性影響。
如何實(shí)現(xiàn) “少于一個(gè)” 樣本學(xué)習(xí)?
在此前的一篇論文中,現(xiàn)為麻省理工學(xué)院博士生的 Tongzhou Wang 和同事介紹了一種 “蒸餾” 方法,可以將大數(shù)據(jù)集 “提純” 為小數(shù)據(jù)集。
作為實(shí)踐,他們將 MNIST(一個(gè)包含了 6 萬(wàn)張從 0 到 9 手寫數(shù)字圖片的業(yè)內(nèi)常用測(cè)試數(shù)據(jù)集)提純壓縮成了一個(gè)僅由 10 張圖像組成的訓(xùn)練數(shù)據(jù)集。
這些圖像不是直接從原始數(shù)據(jù)集中選取的,而是經(jīng)由一系列的設(shè)計(jì)和優(yōu)化后,賦予了這 10 張圖像幾乎與整個(gè)原始數(shù)據(jù)集相同的信息。
因此,僅僅用這個(gè)超精簡(jiǎn)數(shù)據(jù)集對(duì)人工智能模型進(jìn)行訓(xùn)練,就可以達(dá)到與用 MNIST 所有圖像進(jìn)行訓(xùn)練的模型幾乎一致的識(shí)別精度。
圖 | “蒸餾” 后的 MNIST 精簡(jiǎn)數(shù)據(jù)集。以上 10 張圖是從 MNIST 所含 6 萬(wàn)張圖像中提純出的,可以用于訓(xùn)練人工智能模型,并且它們?cè)谧R(shí)別手寫數(shù)字時(shí)擁有 94% 的準(zhǔn)確性。
伊利亞和導(dǎo)師從中受到啟發(fā),并且認(rèn)為可以在 Tongzhou Wang 的方法上更進(jìn)一步 —— 既然可以將 6 萬(wàn)張圖像壓縮到 10 張,那么為什么不能將它們壓縮到 5 張或更少呢?一旦實(shí)現(xiàn),就意味著,通過(guò)區(qū)區(qū)幾張圖象的訓(xùn)練,人工智能模型就能掌握從 0 到 9 這 10 個(gè)數(shù)字的各種手寫數(shù)字圖片,從而實(shí)現(xiàn)前面所說(shuō)的 N 大于 M。
伊利亞很快發(fā)現(xiàn),想要達(dá)到這個(gè)效果的訣竅就是創(chuàng)建混合有多個(gè)數(shù)字特征的圖像,然后為它們打上 “軟標(biāo)簽(讓一個(gè)數(shù)據(jù)點(diǎn)同時(shí)成為多個(gè)類別成員的矢量表示)”,再來(lái)用這些樣本訓(xùn)練人工智能模型(類似于前文的馬 + 犀?;旌象w)。
“你可以想象一下數(shù)字 3,它看起來(lái)有點(diǎn)像 8,但一點(diǎn)都不像 7?!?伊利亞說(shuō)。
“軟標(biāo)簽的目的在于標(biāo)注這些共同的特征,進(jìn)而以這種方式增加信息密度和維度。因此,相比于直接告訴模型這個(gè)圖像是 3,我們會(huì)說(shuō),這個(gè)圖像有 60% 可能是 3,30% 可能是 8,10% 可能是 0。” 使用這種數(shù)據(jù)訓(xùn)練出的模型,基本可以達(dá)到與常規(guī)訓(xùn)練方式一樣的精度。
“少于一個(gè)” 樣本學(xué)習(xí)的局限性
當(dāng)伊利亞和導(dǎo)師成功地使用軟標(biāo)簽在 MNIST 上實(shí)現(xiàn) “少于一個(gè)” 樣本學(xué)習(xí)后,他們開始思考這個(gè)方法能否用于更廣闊的領(lǐng)域。人工智能模型從小樣本中可以識(shí)別出的類別數(shù)量是否存在上限?
答案是否定的。
從理論上來(lái)看,使用精心設(shè)計(jì)的軟標(biāo)簽,甚至只用兩個(gè)示例就可以承載任意數(shù)量的類別信息。伊利亞說(shuō):“通過(guò)兩個(gè)數(shù)據(jù)點(diǎn),你就可以分離出一千個(gè),一萬(wàn)個(gè),甚至是一百萬(wàn)個(gè)類別。”
伊利亞和導(dǎo)師通過(guò)純數(shù)學(xué)方式的推導(dǎo),在論文中證明了這一點(diǎn)。他們使用一種最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法 ——K-近鄰算法(kNN)來(lái)表述這一概念,該算法使用圖形方法來(lái)為對(duì)象分類。值得注意的是,他們?cè)?kNN 算法的基礎(chǔ)上進(jìn)行了開發(fā),并將最終的算法稱為SLaPkNN(soft-label prototype kNearest Neighbors)。
在進(jìn)一步說(shuō)明之前,有必要以水果分類任務(wù)為例,簡(jiǎn)單說(shuō)明 kNN 算法的核心邏輯。
假設(shè)我們要訓(xùn)練 kNN 模型識(shí)別蘋果和橙子,你必須先確定每個(gè)水果的特征,這里以顏色(X 軸)、重量(Y 軸)為例。這樣你就可以將多個(gè)蘋果和橙子的信息輸入 kNN 模型。
kNN 算法會(huì)將所有數(shù)據(jù)點(diǎn)繪制在一張二維圖表上,并在蘋果和橙子分布點(diǎn)的中間地帶繪制邊界線。
圖 | kNN 算法原理。由圖可見,坐標(biāo)軸上分布著紅蘋果、青蘋果和橙子的數(shù)據(jù)點(diǎn)。當(dāng)模型需要判定黑色點(diǎn)屬于哪種水果時(shí),它會(huì)依據(jù)藍(lán)色框選區(qū)域內(nèi)的色彩分布,將比例最大的橙色判斷為 “鄰近”,進(jìn)而將黑色點(diǎn)歸類為橙子。
為了將 kNN 算法應(yīng)用于 “少于一個(gè)” 樣本學(xué)習(xí),伊利亞和導(dǎo)師創(chuàng)建了一系列微型的合成數(shù)據(jù)集,并精心設(shè)計(jì)了它們的軟標(biāo)簽。
然后,他們讓 kNN 算法繪制了它從樣本中看到的邊界線,發(fā)現(xiàn)它成功地將樣本分成了比數(shù)據(jù)點(diǎn)更多的類別。
圖 | 上圖中,有兩個(gè)實(shí)例可以調(diào)節(jié)機(jī)器學(xué)習(xí)模型(用黑點(diǎn)表示)。經(jīng)典的 kNN 算法會(huì)在兩個(gè)點(diǎn)和類別之間分界。但 SLaPkNN 算法在兩個(gè)類別之間創(chuàng)建了一個(gè)新的類別(綠色區(qū)域),它代表著一個(gè)新標(biāo)簽。這樣,研究者用 N-1 個(gè)樣本實(shí)現(xiàn)了 N 類別。
通過(guò)對(duì)類別邊界線的復(fù)雜編碼和樣本軟標(biāo)簽的調(diào)整,他們讓 kNN 算法精確畫出不同形狀的花朵圖案。
圖 | 作者在論文中炫技。圖表上的每個(gè)彩色區(qū)域代表一個(gè)不同的類別,每個(gè)圖表側(cè)面的餅圖則顯示了每個(gè)數(shù)據(jù)點(diǎn)的軟標(biāo)簽分布。
當(dāng)然,凡事總有兩面,這個(gè)方法也有其局限性。
當(dāng)伊利亞和導(dǎo)師嘗試將 “少于一次” 樣本學(xué)習(xí)的方法應(yīng)用到其他更復(fù)雜的算法(如深度學(xué)習(xí)等)時(shí),他們發(fā)現(xiàn)設(shè)計(jì)軟標(biāo)簽的工作變得異常困難。
kNN 算法具有很好的可解釋性和可視性,為人們?cè)O(shè)計(jì)標(biāo)簽提供了良好基礎(chǔ)。但神經(jīng)網(wǎng)絡(luò)是復(fù)雜且不可穿透的,這意味著同樣的方法未必可行。并且,設(shè)計(jì)用于 “凝練” 神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)的軟標(biāo)簽時(shí)也有一個(gè)主要難點(diǎn):設(shè)計(jì)者需要面對(duì)龐大的數(shù)據(jù)集并凝練出有效的內(nèi)容。
這一工作目前看來(lái)不可能全部通過(guò)人工完成。伊利亞說(shuō),他現(xiàn)在正在研究其他方法來(lái)設(shè)計(jì)這些凝練后的合成數(shù)據(jù)集 —— 無(wú)論是手動(dòng)設(shè)計(jì)還是使用其他算法進(jìn)行設(shè)計(jì)。
盡管存在諸多挑戰(zhàn),但不可否認(rèn)這篇論文為 “少于一次” 樣本學(xué)習(xí)提供了理論基礎(chǔ)?!盁o(wú)疑經(jīng)過(guò)凝練的數(shù)據(jù)集將帶來(lái)極大的效率提升?!?伊利亞說(shuō)。
需要從圖像或視頻幀中識(shí)別成千上萬(wàn)個(gè)類別的計(jì)算機(jī)視覺系統(tǒng)(如自動(dòng)駕駛)、執(zhí)行情感分析的自然語(yǔ)言處理系統(tǒng)等都將從中受益。
Tongzhou Wang 對(duì)此補(bǔ)充道,這篇論文同時(shí)也提出了一個(gè)非常新穎且重要的目標(biāo) ——如何從小數(shù)據(jù)集中訓(xùn)練強(qiáng)大的模型。
從人類的學(xué)習(xí)經(jīng)驗(yàn)來(lái)看,這是能夠?qū)崿F(xiàn)的,應(yīng)用領(lǐng)域也異常寬廣。從抓捕只有一張照片的犯罪嫌疑人,到識(shí)別海上航行的敵方艦艇,都是典型的小樣本場(chǎng)景。
對(duì)于這項(xiàng)成果,也有業(yè)內(nèi)人士指出 “可能很難實(shí)現(xiàn)”。一名杜克大學(xué)的計(jì)算機(jī)科學(xué)博士生告訴 DeepTech:“用很少的樣本去生成很多的類,是一件非常反直覺的事情。雖然他做到了這一點(diǎn),但后續(xù)依然需要將各種特征組合成現(xiàn)實(shí)中的真實(shí)事物。”
該博士生分析稱,如果把人類的眉、目、鼻、口、耳這五官特征提取出來(lái),然后通過(guò)伊利亞的方式整合到一起,可能可以組成世界上所有存在、不存在的人臉,但在訓(xùn)練模型的時(shí)候,依舊需要讓機(jī)器知道真正的人臉是怎樣的。
也就是說(shuō),模型通過(guò)伊利亞的方法訓(xùn)練之后,還需要再增加一個(gè)新的步驟來(lái)實(shí)現(xiàn)閉環(huán),這個(gè)新的學(xué)習(xí)步驟如何實(shí)現(xiàn),以及實(shí)現(xiàn)的難易程度,才是關(guān)鍵所在。并且,五官的特征也是需要從大量的、有標(biāo)簽的數(shù)據(jù)中來(lái)的。但他也承認(rèn),“從這個(gè)角度看,這篇論文的確提出了一個(gè)非常新穎的思路?!?/p>
最后,伊利亞強(qiáng)調(diào)這個(gè)研究尚處在早期階段,但他對(duì)此充滿信心。
他說(shuō),每當(dāng)他向其他研究人員介紹這篇論文時(shí),他們的第一反應(yīng)是說(shuō)這個(gè)想法不可能實(shí)現(xiàn),但緊接著他們便意識(shí)到事實(shí)并非如此,它可能無(wú)意間觸及了一扇通往全新世界的大門。
原文標(biāo)題:反直覺!一種新方法或讓AI模型擁有“聯(lián)想”力,甚至能識(shí)別從未見過(guò)的事物
文章出處:【微信公眾號(hào):DeepTech深科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7256瀏覽量
91833 -
圖像
+關(guān)注
關(guān)注
2文章
1094瀏覽量
41241 -
AI
+關(guān)注
關(guān)注
88文章
35109瀏覽量
279603 -
人工智能
+關(guān)注
關(guān)注
1806文章
49011瀏覽量
249358
原文標(biāo)題:反直覺!一種新方法或讓AI模型擁有“聯(lián)想”力,甚至能識(shí)別從未見過(guò)的事物
文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)
人工智能大模型年度發(fā)展趨勢(shì)報(bào)告

生成式人工智能模型的安全可信評(píng)測(cè)

啟明云端攜手文心大模型,共探人工智能新紀(jì)元

評(píng)論