去年 11 月,“深度學(xué)習(xí)之父”、計算機科學(xué)家、認知心理學(xué)家杰弗里?辛頓(Geoffrey Hinton)進行了一次預(yù)測。經(jīng)過了半個世紀的嘗試之后 —— 其中一些取得了巨大的成功,辛頓對大腦的工作原理以及將其復(fù)制到電腦中的方法有了更加深刻的認識。
新冠大流行期間,辛頓一直在多倫多的家庭辦公室中隔離。他說道,“這是我目前能夠想到的最好的想法?!?如果這個想法能夠?qū)崿F(xiàn),那么它可能會給下一代的人工神經(jīng)網(wǎng)絡(luò)帶來啟發(fā)。
這種數(shù)學(xué)計算系統(tǒng)的設(shè)計靈感來自于大腦的神經(jīng)元和突觸,而它也是當今人工智能的核心技術(shù)。正如辛頓所說的那樣,他的 “根本動機” 源自好奇心。然而,實際動機 —— 最理想的結(jié)果,卻是設(shè)計出更加可靠、更加值得信賴的人工智能系統(tǒng)。
作為谷歌研究員與向量人工智能研究所聯(lián)合創(chuàng)始人的辛頓,斷斷續(xù)續(xù)寫下了自己的想法,并于 2 月末在推特上宣布,他在 arXiv 預(yù)印本服務(wù)器上發(fā)表了一篇 44 頁的論文。
辛頓在免責聲明中寫道:“這篇論文所介紹的并不是實際工作中的系統(tǒng),而是一種構(gòu)想中的系統(tǒng)?!?他稱之為 “GLOM”,“GLOM” 源于單詞 “聚集” 以及短語 “聚在一起”。
辛頓認為,GLOM 可以在機器中還原人類的感知系統(tǒng),它為在神經(jīng)網(wǎng)絡(luò)中處理和呈現(xiàn)視覺信息提供了新的途徑。從技術(shù)層面來說,該系統(tǒng)是一個相似向量的集合體。
向量是神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),一個向量就是一組包含著信息的數(shù)字陣列。最簡單的例子就是一個點的 xyz 坐標,三個數(shù)字就可以表示出一個點在三維空間中的位置。
六維向量包含另外三個信息,也許它們代表著這個點的顏色的紅綠藍值。在神經(jīng)網(wǎng)絡(luò)中,成千上萬個維度中的向量代表著整個圖像或文本。辛頓認為,在處理更高維度的問題時,我們的大腦活動會涉及到 “與神經(jīng)活動有關(guān)的大型向量”。
通過類比,辛頓將相似向量的聚集比作了回聲室效應(yīng) —— 一種將相似觀點放大的效應(yīng)。辛頓表示,“對于政治和社會來說,回聲室效應(yīng)完全是一場災(zāi)難。但對于神經(jīng)網(wǎng)絡(luò)而言,它卻是一個好東西?!?/p>
他將映射了回聲室效應(yīng)概念的神經(jīng)網(wǎng)絡(luò)稱為 “相同向量的島嶼”,或者更加通俗易懂的 “共識島嶼”—— 當向量在本質(zhì)信息上達成一致時,它們就會指向相同的方向。
從本質(zhì)上看,GLOM 同時還在追求實現(xiàn)模擬直覺這一難以達到的目標。辛頓認為,直覺對于感知活動至關(guān)重要。他將直覺定義為人類可以輕易進行類比的能力。從小到大,我們通過類比推理以及將相似的物體、觀點或概念映射到另一個對象的方法來感知世界,或者就像辛頓所說的那樣,從一個大型向量到另一個大型向量。
他還表示:“大型向量的相似性解釋了神經(jīng)網(wǎng)絡(luò)進行直覺性類比推理的方式?!?從更廣泛的層面來看,直覺捕捉到了人腦產(chǎn)生想法的難以形容的方式。辛頓的工作遵循著直覺和科學(xué),一切都是在直覺和類比方法的指導(dǎo)下進行的。他的關(guān)于大腦運作方式的理論全都與直覺有關(guān)。辛頓表示,“我一直都堅定不移?!?/p>
辛頓希望,在人工智能能夠真正靈活解決問題之前 —— 可以像人類那樣思考,同時還能夠理解從未見到過的事物,從以前的經(jīng)驗中尋找相似性,琢磨想法,并且進行概括、推斷以及理解 ——GLOM 可以成為諸多技術(shù)突破之一。
辛頓說道,“如果神經(jīng)網(wǎng)絡(luò)更像人類,那么至少它們就可以像我們一樣犯錯誤,因此我們就能夠了解到底是什么讓它們感到困惑。”
然而,GLOM 暫時只是一種想法。辛頓說道,“它是一個霧件。” 他承認 GLOM 這個縮寫與 “杰弗里最后的原創(chuàng)模型” 完美契合。至少,這是辛頓最新的研究成果。
創(chuàng)造性思維
辛頓對人工神經(jīng)網(wǎng)絡(luò)(誕生于二十世紀中期)的熱情可以追溯到上個世紀七十年代早期。到 1986 年,他已經(jīng)在該領(lǐng)域取得了極大的進展:盡管最初的網(wǎng)絡(luò)僅由幾層負責輸入與輸出的神經(jīng)元層構(gòu)成,但辛頓和同事們還是提出了更高級的多層網(wǎng)絡(luò)技術(shù)。然而,計算能力和數(shù)據(jù)容量趕上并利用好深度架構(gòu)卻花費了 26 年的時間。
2012 年,辛頓因在深度學(xué)習(xí)領(lǐng)域取得突破而名利雙收,他與兩名學(xué)生一起開發(fā)了一種多層神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)可被訓(xùn)練識別大型圖像數(shù)據(jù)集中的物體。
神經(jīng)網(wǎng)絡(luò)學(xué)會了去反復(fù)提升分類以及識別各種物體的方法 —— 例如,螨蟲、蘑菇、小型摩托車以及馬達加斯加貓。該系統(tǒng)表現(xiàn)出了出乎意料的精準度。
深度學(xué)習(xí)引發(fā)了最新的人工智能革命,并改變了整個計算機視覺領(lǐng)域。辛頓認為,深度學(xué)習(xí)幾乎可以完全復(fù)制人類的智能。
盡管該領(lǐng)域取得了較快的發(fā)展,但重大挑戰(zhàn)依然存在。在面對陌生的數(shù)據(jù)集或環(huán)境時,神經(jīng)網(wǎng)絡(luò)會顯得相對脆弱和不夠靈活。
自動駕駛汽車和文本語言生成器讓人印象深刻,但它們也會出錯。人工智能視覺系統(tǒng)也會犯糊涂:系統(tǒng)可以從側(cè)方視角識別出咖啡杯,但如果沒有經(jīng)過訓(xùn)練,就無法從俯視視角認出它;再加上一些像素的變換,熊貓可能會被錯認成鴕鳥,甚至是校車。
GLOM 解決了視覺感知系統(tǒng)領(lǐng)域的兩個重大難題:從物體以及它們的自然部分角度認識整個場景,以及從新的視角認識事物(GLOM 側(cè)重于視覺,但辛頓希望它還能夠應(yīng)用于語言領(lǐng)域)。
拿辛頓的臉作為例子,疲憊但充滿活力的雙眼、嘴、耳朵以及顯眼的鼻子,都籠罩在較為干凈的灰色中。從顯眼的鼻子可以看出,即使第一次見到辛頓的照片,也可以輕易地認出他。
在辛頓看來,這兩個因素 —— 部分與整體的關(guān)系以及視角 —— 對人類的視覺系統(tǒng)至關(guān)重要。他說:“如果 GLOM 能夠運行的話,那么它將比現(xiàn)在的神經(jīng)網(wǎng)絡(luò)更像人類那樣去感知事物?!?/p>
然而,對于計算機來說,將部分融入整體是一個難題,因為有時候部分的概念是模棱兩可的。一個圓圈可能是一只眼睛、一個甜甜圈或者一個車輪。
正如辛頓所解釋的那樣,第一代人工智能視覺系統(tǒng)主要通過部分與整體的幾何關(guān)系 —— 部分之間與部分與整體之間的空間方向 —— 來識別物體。
而第二代系統(tǒng)則依靠深度學(xué)習(xí) —— 使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練大量的數(shù)據(jù),辛頓在 GLOM 中將兩個方法各自的優(yōu)勢結(jié)合在了一起。
Robust.AI 創(chuàng)始人兼首席執(zhí)行官、對強烈依賴深度學(xué)習(xí)行為的知名批評家加里?馬庫斯表示,“這種謙遜讓我喜歡?!?/p>
馬庫斯對辛頓挑戰(zhàn)自我從而再次成名的意愿表示稱贊,并承認這種方法并不太奏效。他說道,“這是一個勇敢的想法。而‘我正在嘗試使用創(chuàng)造性思維’的說法是一次非常好的糾正行為?!?/p>
GLOM 的架構(gòu)
辛頓在構(gòu)建 GLOM 時嘗試模擬一些人類在感知世界時所使用的心理捷徑,例如直覺策略或者啟發(fā)法。尼克?弗羅斯特是一名多倫多語言初創(chuàng)公司的計算機科學(xué)家,同時也與辛頓在谷歌大腦共事。
弗羅斯特表示,“GLOM 以及杰弗里的大部分工作都在研究人類所擁有的啟發(fā)法,并構(gòu)建可以學(xué)習(xí)啟發(fā)法的神經(jīng)網(wǎng)絡(luò),之后再證明神經(jīng)網(wǎng)絡(luò)更加適合視覺分析?!?/p>
通過視覺感知,一種策略是分析一個物體的各個部分 —— 例如不同的面部特征,進而了解整體。如果你看到一個特定的鼻子,那么你也許會認出它出自辛頓的臉,這是一個部分到整體的層次結(jié)構(gòu)。
為了構(gòu)建一個更好的視覺系統(tǒng),辛頓表示,“我有很強的直覺,我們需要用到部分到整體的層次結(jié)構(gòu)?!?人類的大腦通過構(gòu)建 “解析樹” 來理解部分到整體的構(gòu)成。
解析樹是一種分支圖,表明了整體、部分以及次級部分之間的層次關(guān)系。臉位于解析樹的最頂端,而眼睛、鼻子、耳朵以及嘴則位于下面的分支中。
辛頓利用 GLOM 實現(xiàn)的主要目標之一是在神經(jīng)網(wǎng)絡(luò)中再現(xiàn)解析樹,這一特征將使 GLOM 與以往的神經(jīng)網(wǎng)絡(luò)區(qū)別開來。從技術(shù)層面來看,構(gòu)建該系統(tǒng)的難度較大。
弗羅斯特表示,“難以實現(xiàn)的原因在于,每個人都會以獨特的解析樹來解析每個圖像,而我們希望神經(jīng)網(wǎng)絡(luò)也做到這一點。對于系統(tǒng)看到的每一個新圖像,我們很難去使用神經(jīng)網(wǎng)絡(luò) —— 新結(jié)構(gòu) —— 解析樹這樣的靜態(tài)結(jié)構(gòu)。”
辛頓進行了各種各樣的嘗試,GLOM 是他在 2017 年所進行的嘗試的修正版本,同時還結(jié)合了該領(lǐng)域內(nèi)其它的相關(guān)先進技術(shù)。
構(gòu)想 GLOM 架構(gòu)的方法一般是這樣的:感興趣的圖片(比方說,辛頓面部的照片)會被網(wǎng)格分割開來。網(wǎng)格上的區(qū)域代表著圖像上的 “位置”—— 這個位置可能包括了虹膜,而另一個位置可能包含了鼻尖。
網(wǎng)絡(luò)中的每個位置大約有五層,或者說五級。系統(tǒng)會逐層進行預(yù)測,并利用向量代表內(nèi)容或者信息。在靠近低層的地方,向量代表著預(yù)測的鼻尖的位置:“我是鼻子的一部分!” 在接下來的層級中,通過構(gòu)建更加合乎邏輯的視覺表現(xiàn),向量可能會預(yù)測:“我是側(cè)臉圖像中的一部分!”
然而,接下來問題出現(xiàn)了:同一層級中相鄰的向量會認同嗎?當達成一致時,向量會指向同一個方向:“是的,我們都屬于同一個鼻子?!?或者是指向之后的解析樹。“是的,我們都屬于同一張臉?!?/p>
在尋求物體本質(zhì)共識的過程中 —— 有關(guān)物體最終的精確定義,GLOM 的向量會反復(fù)地、逐一地點并逐層地與旁邊相鄰的向量,以及上層或下層的已經(jīng)做出預(yù)測的向量進行平均分配。
然而,辛頓表示,網(wǎng)絡(luò)并不會與附近的向量 “隨意均分”。這是有選擇性的平均分配,相鄰的預(yù)測顯示出了相似性。
他還說道,“它在美國非常有名,通常被稱為回聲室效應(yīng)。你只會接受和你達成一致的人的觀點。這樣,一個回聲室就形成了,里面所有人都持有著相同的觀點。事實上,GLOM 積極地使用了這種現(xiàn)象。” 辛頓系統(tǒng)中類似的現(xiàn)象就是那些 “共識島嶼”。
弗羅斯特表示,“設(shè)想一群人在一個房間中大聲討論著有些許不同的相似觀點。” 或者把他們想成大致指向同一個方向的向量?!耙欢螘r間之后,所有的想法都會匯聚成為一個想法。他們會覺得這個想法的影響力越來越強大,因為該想法已經(jīng)得到了身邊人的證實?!?這就是 GLOM 向量加強和放大針對一個圖像的協(xié)同預(yù)測的方法。
GLOM 利用這些共識向量島嶼來達成神經(jīng)網(wǎng)絡(luò)中解析樹的工作方式,盡管最近一些神經(jīng)網(wǎng)絡(luò)使用向量間的共識來進行激活,但 GLOM 使用共識的目的卻是為了呈現(xiàn)結(jié)果 —— 在網(wǎng)絡(luò)中構(gòu)建出事物的表現(xiàn)形式。
例如,當多個向量都認同它們是鼻子的一部分時,小規(guī)模的認同向量會共同表示網(wǎng)絡(luò)中面部解析樹的鼻子。另一個較小的認同向量集合可能代表著解析樹中的嘴,而位于解析樹頂端的大型集合則可能代表著一個新的結(jié)果 —— 整體圖像是辛頓的臉。
辛頓解釋說,“解析樹在這里的呈現(xiàn)方式是:物體層級表現(xiàn)為大型島嶼,而物體的各個部分是體積較小的島嶼,次級部分則為更小的島嶼,如此向下。”
蒙特利爾大學(xué)計算機科學(xué)家約書亞?本吉奧是辛頓的老友和同事,本吉奧表示,如果 GLOM 能夠解決在神經(jīng)網(wǎng)絡(luò)中表現(xiàn)解析樹的工程學(xué)挑戰(zhàn),那么這將成為一個偉大的成就,它對于讓神經(jīng)網(wǎng)絡(luò)正常工作至關(guān)重要。
他還說道,“杰弗里在他的生涯中做出過許多次意義非凡的預(yù)測,其中很多都得到了驗證。因此,我會對這些預(yù)測保持關(guān)注,尤其是在杰弗里胸有成竹的時候,就像他現(xiàn)在對 GLOM 的感覺。”
辛頓堅定的態(tài)度不僅僅來自于對回聲室效應(yīng)的類比,同時還來自于對數(shù)學(xué)以及生物學(xué)的類比,這些都給 GLOM 新的工程學(xué)設(shè)計決策過程帶來了啟發(fā)和證明。
麥克馬斯特大學(xué)計算認知神經(jīng)學(xué)家蘇?貝克是辛頓的學(xué)生,貝克說道,“杰弗里是一個極不尋常的思想家,他能夠利用復(fù)雜的數(shù)學(xué)概念,并將生物學(xué)理論融入其中,從而發(fā)展自己的理論。僅僅局限于數(shù)學(xué)理論或者神經(jīng)生物學(xué)理論研究的研究人員,很難解開人機學(xué)習(xí)與思考方式原理這一極具挑戰(zhàn)性的難題?!?/p>
將哲學(xué)融入工程學(xué)
到目前為止,特別是在那些世界著名的回聲室中,辛頓的新觀點被廣泛接受。他說道,“在推特上,我得到了很多贊?!盰ouTube 上的教程還聲稱保留 “MeGLOMania” 一次的所有權(quán)。
辛頓是第一個承認目前的 GLOM 略帶有一點哲學(xué)沉思的人,在轉(zhuǎn)到實驗心理學(xué)專業(yè)之前,他讀過一年哲學(xué)本科課程。
其表示:“如果一個想法在哲學(xué)上聽起來不錯,那么它確實是不錯。聽起來像是垃圾的哲學(xué)觀點,怎么會變?yōu)楝F(xiàn)實呢?以哲學(xué)觀點來衡量,它是無法通過這一標準的?!?/p>
他還表示,相比之下,“很多科學(xué)上的東西聽起來完全就是垃圾”,但它們卻表現(xiàn)得很好 —— 例如,神經(jīng)網(wǎng)絡(luò)。
GLOM 的設(shè)計聽起來在哲學(xué)上很合理。但它會成功嗎?
克里斯?威廉姆斯是一名來自愛丁堡大學(xué)信息科學(xué)學(xué)院的機器學(xué)習(xí)教授,威廉姆斯希望 GLOM 會帶來一系列偉大的創(chuàng)新。
然而,他表示,“能夠?qū)⑷斯ぶ悄芘c哲學(xué)區(qū)分開來的東西是,我們可以使用計算機來驗證這些理論。” 通過這些實驗,找出想法中的缺陷或是將它們修復(fù)是不可能的。他還說:“盡管我相信這一研究很有希望,但在目前看來,我并不認為我們有足夠多的證據(jù)來評估一個想法的真實重要性?!?/p>
在多倫多的谷歌研究機構(gòu),辛頓一些同事針對 GLOM 的實驗正處于早期階段,使用了新型神經(jīng)網(wǎng)絡(luò)架構(gòu)的軟件工程師勞拉?卡普,正在利用計算機模擬技術(shù)來測試 GLOM 是否可以在理解物體部分與整體的概念時,產(chǎn)生辛頓所說的共識島嶼,哪怕是在輸入的部分充滿歧義的情況下。
在實驗中,這些部分是 10 個大小不同的橢圓形,它們既可以形成一張臉又能夠形成一只羊。
卡普說道,隨機輸入一個或另一個橢圓,模型就可以做出預(yù)測,“對橢圓是否屬于人臉或羊、是否是羊腿或者羊頭進行處理?!?即使遇到任何干擾,模型也可以進行自我修正。
下一步就是要建立一個基準,用于指示標準的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是否會被這種任務(wù)所迷惑。到目前為止,GLOM 受到了嚴格的監(jiān)督 —— 卡普生成了一些數(shù)據(jù)并將它們打上標記,從而促使模型在長時間內(nèi)進行修正以達到正確的預(yù)測結(jié)果。辛頓表示,未經(jīng)監(jiān)督的版本叫做 GLUM——“它就是一個笑話?!?/p>
在這種初始狀態(tài)下,下任何重要結(jié)論都為時尚早??ㄆ照诘却鄶?shù)據(jù)的出現(xiàn)。不過,辛頓已經(jīng)給業(yè)界留下了深刻的印象。
他說:“GLOM 的簡便版本可以觀察 10 個橢圓,并且還可以根據(jù)橢圓之間的空間關(guān)系識別出一張臉和一只羊。這是一個具有迷惑性的問題,因為從單個橢圓中看不出它屬于哪個物體,也看不出它屬于物體的哪個部分?!?/p>
總的來說,辛頓對反饋結(jié)果感到高興。他說道,“我只是想把它上傳到社區(qū)里,這樣每個感興趣的人都可以進行嘗試,或者將這些想法進行一些次級組合。之后,哲學(xué)才會轉(zhuǎn)化為科學(xué)?!?/p>
原文標題:“深度學(xué)習(xí)之父”Geoffrey Hinton:深度學(xué)習(xí)幾乎可以完全復(fù)制人類的智能
文章出處:【微信公眾號:DeepTech深科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責任編輯:haq
-
人工智能
+關(guān)注
關(guān)注
1806文章
49014瀏覽量
249452 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122794
原文標題:“深度學(xué)習(xí)之父”Geoffrey Hinton:深度學(xué)習(xí)幾乎可以完全復(fù)制人類的智能
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
當深度學(xué)習(xí)遇上嵌入式資源困境,特征空間如何破局?

嵌入式AI技術(shù)之深度學(xué)習(xí):數(shù)據(jù)樣本預(yù)處理過程中使用合適的特征變換對深度學(xué)習(xí)的意義
SLAMTEC Aurora:把深度學(xué)習(xí)“卷”進機器人日常
軍事應(yīng)用中深度學(xué)習(xí)的挑戰(zhàn)與機遇
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
NPU在深度學(xué)習(xí)中的應(yīng)用
GPU深度學(xué)習(xí)應(yīng)用案例
激光雷達技術(shù)的基于深度學(xué)習(xí)的進步
FPGA加速深度學(xué)習(xí)模型的案例
人工智能、機器學(xué)習(xí)和深度學(xué)習(xí)存在什么區(qū)別

評論