人工神經(jīng)網(wǎng)絡(luò)的終極目標應(yīng)當是能夠完全模擬生物神經(jīng)網(wǎng)絡(luò)。而隨著ANN的不斷發(fā)展,已然呈現(xiàn)出了許多性能優(yōu)秀的模型。由MIT、NYU、斯坦福等眾多著名大學(xué)研究人員組成的團隊,便提出了brain-score系統(tǒng),對當今主流的人工神經(jīng)網(wǎng)絡(luò)進行評分排名。本文便帶讀者了解一下在眾多人工神經(jīng)網(wǎng)絡(luò)中,最為貼近生物神網(wǎng)絡(luò)的那些ANN。
人工神經(jīng)網(wǎng)絡(luò)(ANN)總是會與大腦做比較。
雖然ANN發(fā)展到現(xiàn)在也無法完全模擬生物大腦,但是技術(shù)是一直在進步的。那么問題來了:
論與生物大腦的相似性,哪家人工神經(jīng)網(wǎng)絡(luò)最強?
在功能方面與大腦最相似的神經(jīng)網(wǎng)絡(luò),將包含與大腦最近似的機制。因此,MIT、NYU、斯坦福等眾多知名大學(xué)聯(lián)手開發(fā)了“大腦評分”(brain - score)。
這是一種綜合了多種神經(jīng)和行為基準的測試方法,可以根據(jù)神經(jīng)網(wǎng)絡(luò)與大腦核心對象識別機制的相似程度對其進行打分,并用這個方法對最先進的深層神經(jīng)網(wǎng)絡(luò)進行評估。
使用該評分系統(tǒng),得到的結(jié)果如下:
DenseNet- 169, CORnet-S和ResNet-101是最像大腦的ANN
任何人工神經(jīng)網(wǎng)絡(luò)都無法預(yù)測到神經(jīng)和行為響應(yīng)之間存在的變異性,這表明目前還沒有一個人工神經(jīng)網(wǎng)絡(luò)模型能夠捕捉到所有相關(guān)的機制
擴展之前的工作,我們發(fā)現(xiàn)ANN ImageNet性能的提高導(dǎo)致了大腦得分的提高。然而,相關(guān)性在ImageNet表現(xiàn)為70%時減弱,這表明需要神經(jīng)科學(xué)的額外指導(dǎo)才能在捕獲大腦機制方面取得進一步進展
比許多較小(即不那么復(fù)雜)的ANN,比表現(xiàn)最好的ImageNet模型更像大腦,這意味著簡化ANN有可能更好地理解腹側(cè)流(ventral stream)。
大腦的基準
以下是對衡量模型基準的概述?;鶞视梢唤M應(yīng)用于特定實驗數(shù)據(jù)的指標組成,在這里可以是神經(jīng)記錄或行為測量。
神經(jīng)(Neural)
神經(jīng)度量的目的是確定源系統(tǒng)(例如,神經(jīng)網(wǎng)絡(luò)模型)的內(nèi)在表征與目標系統(tǒng)(例如靈長類動物)中的內(nèi)在表征的匹配程度。 與典型的機器學(xué)習(xí)基準測試不同,這些指標提供了一種原則性的方式來優(yōu)先選擇某些模型(即使它們的輸出相同)。 我們在此概述了一個常見的度量標準——神經(jīng)預(yù)測性,它是線性回歸的一種形式。
神經(jīng)預(yù)測:圖像級神經(jīng)一致性
神經(jīng)預(yù)測性用于評估源系統(tǒng)(例如,深度ANN)中給定圖像的響應(yīng)對目標系統(tǒng)中的響應(yīng)(例如,視覺區(qū)域IT中的單個神經(jīng)元響應(yīng))的預(yù)測程度。 作為輸入,該度量需要兩個刺激×神經(jīng)元這種形式的集合,其中神經(jīng)元可以是神經(jīng)記錄或模型激活。
首先,使用線性變換將源神經(jīng)元映射到每個目標神經(jīng)元,這個映射過程是在多個刺激的訓(xùn)練-測試分割上執(zhí)行的。
在每次運行中,利用訓(xùn)練圖像使權(quán)重適應(yīng)于從源神經(jīng)元映射到目標神經(jīng)元,然后利用這些權(quán)重預(yù)測出的響應(yīng)得到held-out圖像。
為了獲得每個神經(jīng)元的神經(jīng)預(yù)測性評分,通過計算Pearson相關(guān)系數(shù),將預(yù)測的響應(yīng)與測量的神經(jīng)元響應(yīng)進行比較。
計算所有單個神經(jīng)類神經(jīng)預(yù)測值的中位數(shù)(例如,在目標大腦區(qū)域測量的所有目標位置),以獲得該訓(xùn)練-測試分割的預(yù)測得分(因為響應(yīng)通常非正常地分布,所以使用中值)。所有訓(xùn)練-測試分割的平均值即目標大腦區(qū)域的最終神經(jīng)預(yù)測得分。
神經(jīng)記錄
目前這個版本的大腦評分中包含的兩個神經(jīng)基準,其使用的神經(jīng)數(shù)據(jù)集包括對88個V4神經(jīng)元和168個IT神經(jīng)元的2,560個自然刺激神經(jīng)響應(yīng)(如圖1):
圖1 大腦評分概述使用兩類指標來比較神經(jīng)網(wǎng)絡(luò):神經(jīng)指標將內(nèi)部活動與macaque腹側(cè)流區(qū)域進行比較,行為指標比較輸出的相似性。對于小的、隨機組合的模型(灰點),大腦得分與ImageNet的性能相關(guān),但是對于當前最先進的模型(綠點)來說,其性能在70%的前1級變得很弱。
該圖像集由2560張灰度圖像組成,分為八個對象類別(動物、船只、汽車、椅子、人臉、水果、平面、桌子)。每個類別包含8個獨特的對象(例如,“face”類別有8張獨特的臉)。圖像集是通過在自然主義背景上粘貼一個3D對象模型生成的。在每個圖像中,隨機選擇對象的位置,姿勢和大小,以便為靈長類動物和機器創(chuàng)建具有挑戰(zhàn)性的物體識別任務(wù)。 每個圖像都使用了圓形掩模。
行為
行為基準的目的是在任何給定任務(wù)中計算源(例如,ANN模型)和目標(例如,人類或猴子)的行為響應(yīng)之間的相似性。對于核心對象識別任務(wù),靈長類動物(包括人類和猴子)表現(xiàn)出與ground-truth標簽不同的行為模式。因此,這里的主要基準是一個行為響應(yīng)模式度量,而不是一個全面的準確性度量。ANN能夠生成和預(yù)測靈長類動物的成功和失敗模式,因此可以獲得更高的分數(shù)。這樣做的一個結(jié)果是,達到100%準確率的ANN不會達到完美的行為相似性評分。
I2n:標準化的圖像級行為一致性
總量為i 的圖像數(shù)據(jù)源(模型特征)首先使用可用的行為數(shù)據(jù)轉(zhuǎn)換為目標類別c和圖像ib的一個矩陣ib×c。
靈長類動物的行為數(shù)據(jù)
當前一輪基準測試中使用的行為數(shù)據(jù)是從Rajalingham等人與2015和2018年的研究論文中獲得的。這里我們只關(guān)注人類行為數(shù)據(jù),但是人類和非人類靈長類動物行為模式非常相似。
此數(shù)據(jù)收集中使用的圖像集與V4的圖像生成方式類似,并且使用了24個對象類別。數(shù)據(jù)集總共包含2,400個圖像(每個對象100個)。在這個基準測試中,我們使用了240張(每個物體10張)獲得最多試驗的圖像。1472名人類觀察者對亞馬遜土耳其機器人提供的圖像進行了簡短的響應(yīng)。在每次試驗中,一幅圖像呈現(xiàn)100毫秒,然后是有兩個響應(yīng)選擇,一個對應(yīng)于圖像中出現(xiàn)的目標對象,另一個是其余23個對象。參與者通過選擇圖像中呈現(xiàn)的對象來響應(yīng)。因此,對于每一個target-distractor對兒,從多個參與者中共獲得了超過三十萬的響應(yīng)。
大腦得分
為了評估一個模型整體表現(xiàn)的好壞,我們將神經(jīng)V4預(yù)測得分、神經(jīng)IT預(yù)測得分和行為I2n預(yù)測得分做一個組合計算來得到大腦評分。這里給出的腦分數(shù)是這三個分數(shù)的平均值。這種方法不能通過不同的分數(shù)尺度進行標準化,因此它可能會懲罰低方差的分數(shù),但它也不會對分數(shù)的顯著差異做出任何假設(shè),這些差異會出現(xiàn)在排名中。
實驗結(jié)果
該團隊檢查了大量在ImageNet上訓(xùn)練的深層神經(jīng)網(wǎng)絡(luò),并將它們的內(nèi)在表征與V4、IT和人類行為測量中的非人類視覺皮層區(qū)域的神經(jīng)記錄進行了比較。
最先進的排名
表1 總結(jié)了每個模型在大腦基準測試范圍內(nèi)的得分
相對于ImageNet性能的大腦得分如圖1所示。在目前的基準測試中,最強的模型是DenseNet-169,其大腦得分為549,緊隨其后的是CORnet-S和ResNet-101,其大腦得分分別為544和542。 目前來自機器學(xué)習(xí)社區(qū)的ImageNet上的頂級模型都來自DenseNet和ResNet系列模型。 DenseNet-169和ResNet-101也是IT神經(jīng)預(yù)測和行為預(yù)測性得分最高的模型之一,IT分數(shù)為0.604(DenseNet-169,圖層conv5_block16_concat)和行為得分為ResNet-101。
個人神經(jīng)和行為基準的得分
以往的研究發(fā)現(xiàn),分類性能較高的模型更容易預(yù)測神經(jīng)數(shù)據(jù)。 在這里,我們通過證明這種性能驅(qū)動的方法在廣泛的ImageNet性能體系中在多個深度神經(jīng)網(wǎng)絡(luò)上進行評估時,廣泛意義上擴展了這項工作,但是在達到人類性能水平時未能產(chǎn)生與大腦完全匹配的網(wǎng)絡(luò)( 見圖1)。
在個人得分上,ImageNet的表現(xiàn)與大腦得分的相關(guān)性有很大的差異(圖2)。例如,V4單站點響應(yīng)最好不僅是由VGG-19(ImageNet top-1性能71.10%)預(yù)測出來的,而且還有Xception(79.00%top-1)。 同樣,IT單站點響應(yīng)最好是由DenseNet-169(.606; 75.90%top-1)預(yù)測出來的,但即使是BaseNets(.592; 47.64%top-1)和MobileNets(.590; 69.80%top-1)也是非常接近相同的IT神經(jīng)預(yù)測評分。
圖2 所有模型對神經(jīng)和行為基準的預(yù)測性
相比之下,ImageNet性能和行為預(yù)測性之間的相關(guān)性依然強勁,AlexNet(57.50%排名前1)或BaseNets的表現(xiàn)遠遠低于最佳模型。然而,行為得分上表現(xiàn)最好的模型并不是ImageNet上最先進的模型:ResNet-101在行為得分(.389)上排名最高,但是ImageNet排名前1的表現(xiàn)為77.37%。 PNASNet實現(xiàn)了更高的ImageNet性能(82.90%排名前1),但行為得分顯著降低(.351)。
事實上,ImageNet前1名表現(xiàn)與行為評分之間的相關(guān)性似乎正在削弱,模型在ImageNet上表現(xiàn)良好,與行為得分幾乎沒有關(guān)聯(lián),這表明通過繼續(xù)努力推動ImageNet,可能無法實現(xiàn)與行為數(shù)據(jù)更好的一致性。
我們使用神經(jīng)預(yù)測性評估區(qū)域V4和IT以及使用I2n的行為記錄。 目前最好的型號是:V4上的VGG-19,IT上的DenseNet-169和行為上的ResNet-101。 值得注意的是,DenseNet-169,CORnet-S和ResNet-101是所有三個基準測試的強大模型。 V4為0.892,IT為0.817,行為為.497。
通過定期更新大腦數(shù)據(jù)的大腦評分來評估和跟蹤模型基準的對應(yīng)關(guān)系可以讓這個系統(tǒng)更加完善。因此,該團隊發(fā)布了Brain-Score.org,一個承載神經(jīng)和行為基準的平臺,在這個平臺上,可以提交用于視覺處理的ANN,以接收大腦評分及其相對于其他模型的排名,新的實驗數(shù)據(jù)可以自然地納入其中。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103666 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25457
原文標題:【深度學(xué)習(xí)模型哪個最像人腦?】MIT等人工神經(jīng)網(wǎng)絡(luò)評分系統(tǒng),DenseNet實力奪冠!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)在電機故障診斷中的應(yīng)用
NVIDIA實現(xiàn)神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強功能
BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較
BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點分析
什么是BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較
RNN模型與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的區(qū)別
LSTM神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與工作機制
LSTM神經(jīng)網(wǎng)絡(luò)的基本原理 如何實現(xiàn)LSTM神經(jīng)網(wǎng)絡(luò)
Moku人工神經(jīng)網(wǎng)絡(luò)101

評論