卷積神經(jīng)網(wǎng)絡(luò):聽起來像是生物與數(shù)學(xué)還有少量計算機科學(xué)的奇怪結(jié)合,但是這些網(wǎng)絡(luò)在計算機視覺領(lǐng)域已經(jīng)造就了一些最有影響力的創(chuàng)新。2012年神經(jīng)網(wǎng)絡(luò)開始嶄露頭角,那一年Alex Krizhevskyj在ImageNet競賽上(ImageNet可以算是競賽計算機視覺領(lǐng)域一年一度的“奧運會”競賽)將分類錯誤記錄從26%降低到15%,這在當(dāng)時是一個相當(dāng)驚人的進步。從那時起許多公司開始將深度學(xué)習(xí)應(yīng)用在他們的核心服務(wù)上,如Facebook將神經(jīng)網(wǎng)絡(luò)應(yīng)用到他們的自動標(biāo)注算法中,Google(谷歌)將其應(yīng)用到圖片搜索里,Amazon(亞馬遜)將其應(yīng)用到產(chǎn)品推薦服務(wù),Pinterest將其應(yīng)用到主頁個性化信息流中,Instagram也將深度學(xué)習(xí)應(yīng)用到它們的圖像搜索架構(gòu)中。然而最經(jīng)典的,或者說最流行的神經(jīng)網(wǎng)絡(luò)使用范例是將其用于圖像處理領(lǐng)域。提到圖像處理,本文主要介紹的是如何使用卷積神經(jīng)網(wǎng)絡(luò)來進行圖像分類。
?
?
問題空間
圖像分類是將輸入圖像(貓、狗等)進行分類輸出或者將其分類成最能描述圖像特征的類別的任務(wù)。對于人類來說,認(rèn)知是我們出生之后就學(xué)會的第一個技能,也是作為成年人來說非常自然和輕松的技能。我們可以毫不猶豫迅速識別出我們周圍的環(huán)境以及物體,當(dāng)我們看到一張圖片或者觀察周遭環(huán)境時,大部分時間我們都能馬上對場景做出判斷并且給每個物體都打上標(biāo)識,這些甚至都不需要刻意去觀察。這些技能能夠迅速識別其模式,從我們以前的經(jīng)驗中做出推論,然后將其運用至不同的圖片或者環(huán)境中——這些都是我們與機器不同的地方。
輸入與輸出
當(dāng)計算機看到一張圖片時(即輸入一張圖片),它所看到的是一系列的像素值。根據(jù)圖片的分辨率與大小,計算機將看到的是一個32×32×3的數(shù)字陣列(3指代的是RGB—顏色值)。我們稍微將一下這個,假設(shè)我們有一張480 x 480的JPG格式圖片,它的表達(dá)陣列即為480 x 480 x 3。這些數(shù)字中的每一個值都可以從0取到255,它描述了在這一點上的像素強度。這些數(shù)字雖然對于我們進行圖像分類時沒有任何意義,但其卻是計算機在圖像輸入時唯一獲取的數(shù)據(jù)。這個理念就是你給電腦指定相關(guān)數(shù)據(jù)排列,它將圖像是一個特定的類別的可能性進行輸出(如80—貓,15—狗,05—鳥等)。
我們希望電腦做什么
現(xiàn)在我們了解到問題是在輸入和輸出上,讓我們來考慮如何解決這個問題。我們希望電腦能做到的是在所有的給定圖像中分辨出不同的類別,它能找到那些“狗之所以是狗”或者“貓之所以是貓”的特性。這個就是在我們的頭腦中潛意識里進行認(rèn)知識別的過程,當(dāng)我們看到一張狗的圖像時,我們能夠?qū)⑵浞诸愐驗閳D像上有爪子或者四條腿等明顯的特征。以類似的方式計算機能夠進行圖像分類任務(wù),通過尋找低層次的特征如邊緣和曲線,然后運用一系列的卷積層建立一個更抽象的概念。這是卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用的一個總體概述,接下來我們來探討下細(xì)節(jié)。
生物聯(lián)系
首先要稍微普及下一點背景知識,當(dāng)你第一次聽到卷積神經(jīng)網(wǎng)絡(luò)這個詞時,你也許會想這是是不與神經(jīng)科學(xué)或者生物學(xué)有關(guān)?恭喜你,猜對了一部分。卷積神經(jīng)網(wǎng)絡(luò)的確從生物學(xué)上的視覺皮層得到啟發(fā),視覺皮層有微小區(qū)域的細(xì)胞對于特定區(qū)域的視野是十分敏感的。
1962年,Hubel和 Wiesel發(fā)現(xiàn)大腦中的部分神經(jīng)元只對一定的方向的邊緣做出回應(yīng)。例如,當(dāng)暴露在垂直邊緣或者一些當(dāng)水平或?qū)蔷€邊緣時,一些神經(jīng)元才會做出回應(yīng)。Hubel和 Wiesel發(fā)現(xiàn),所有這些神經(jīng)元都被架構(gòu)在一個柱狀結(jié)構(gòu)中,這樣的架構(gòu)使它們能夠產(chǎn)生視覺感知。系統(tǒng)中的特定成員可以完成特定任務(wù)這種理念(神經(jīng)細(xì)胞在視覺皮層中尋找特定的特征)也能很好地應(yīng)用在機器學(xué)習(xí)上,這也是卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。
架構(gòu)
對于卷曲神經(jīng)網(wǎng)絡(luò)更詳細(xì)的介紹是將圖片通過一系列的卷積、非線性、池(采樣)、全連接層,然后得到一個輸出。正如我們前面所說的,輸出是一個類或者一個圖像類別的可能性概率?,F(xiàn)在,困難的部分是了解每一層的任務(wù)。
第一層—數(shù)學(xué)
卷積神經(jīng)網(wǎng)絡(luò)的第一層是卷積層,第一件事是你要記住卷曲層的輸入時什么。像我們之前提到的,輸入的是一個32×32×3的系列像素值。解釋卷積層的最好方式是想象一個手電筒正在圖像的左上方進行照射,假設(shè)手電照射的區(qū)域是5 x 5的范圍。再想象下這個手電筒在輸入圖像的各個區(qū)域進行滑動。在機器學(xué)習(xí)術(shù)語中,這個手電筒叫做過濾器(有時候也稱為神經(jīng)元或者核心),它照射著的區(qū)域被稱為接受場。這個過濾器也是一系列的數(shù)據(jù)(這些數(shù)據(jù)被稱為權(quán)重或者參數(shù))。必須提到的是這個過濾器的深度必須是和輸入的深度相同(這樣才能保證數(shù)學(xué)正常工作),所以這個過濾器的尺寸是5×5×3?,F(xiàn)在,讓我們先拿第一個位置的過濾器為例。由于過濾器在輸入圖像上是滑動或卷積的,它是相乘的值在濾波器的原始圖像的像素值(又名計算元素的乘法),這些乘法全部相加(從數(shù)學(xué)上講,這將是75次乘法總和)。所以現(xiàn)在你有一個數(shù)字。請記住,這個數(shù)字只是當(dāng)過濾器在圖像的左上角時才有代表性,現(xiàn)在我們在每一個位置上重復(fù)這個過程。(下一步將過濾器移動到右邊的1個單位,然后再向右移動1個單位,等等),每一個輸入層上獨特的位置都會產(chǎn)生一個數(shù)字。將過濾器滑動完所有位置的,你會發(fā)現(xiàn)剩下的是一個28×28×1的系列數(shù)字,我們稱之為激活圖或者特征圖。你得到一個28×28陣列的原因是有784個不同的位置,一個5×5的過濾器可以適配一個32×32的輸入圖像,這組784個數(shù)字可以被映射到一個28×28陣列。
目前我們使用兩個5 x 5 x 3的過濾器,我們的輸出量將是28×28×2。通過使用更多的過濾器,我們能夠更好地維持空間尺寸。在數(shù)學(xué)層面上來說,這些是在一個卷積層中進行的任務(wù)。
第一層—高階視角
讓我們從高階角度來談?wù)勥@個卷積層的任務(wù),這些過濾器中每個都可以被認(rèn)為是特征標(biāo)識符。當(dāng)我說特征時,我說的是如直邊、簡單的顏色和曲線等。思考一下,所有的圖像都有同樣的最簡單的特征。我們的第一個過濾器是7×7×3,而且是一個曲線探測器。(在這一部分讓我們忽略一個事實,過濾器是3個單位深的,只考慮頂部過濾器的深度和圖像。)作為一個曲線檢測器,過濾器將有一個更高的數(shù)值且有曲線的形狀的像素結(jié)構(gòu)(記住關(guān)于這些過濾器,我們考慮的只是數(shù)字)。
現(xiàn)在,讓我們回到數(shù)學(xué)可視化部分。當(dāng)我們在輸入的左上角有了這種濾波器后,它會在哪個區(qū)域的過濾器和像素值之間計算乘積?,F(xiàn)在讓我們以一個我們要分類的圖像為例,把我們的過濾器放在左上角。
記住,我們需要做的是使用圖像中的原始像素值在過濾器中進行乘積。
基本上在輸入圖像中,如果有一個形狀是類似于這種濾波器的代表曲線,那么所有的乘積累加在一起會導(dǎo)致較大的值!現(xiàn)在讓我們看看當(dāng)我們移動我們的過濾器時會發(fā)生什么。
檢測值竟然要低得多!這是因為在圖像中沒有任何部分響應(yīng)曲線檢測過濾器。記住,這個卷積層的輸出是一個激活圖。因此,在簡單的情況下一個過濾器的卷積(如果該過濾器是一個曲線檢測器),激活圖將顯示其中大部分可能是在圖片中的曲線區(qū)域。在這個例子中,我們的28×28×1激活圖左上方的值將是6600,這種高值意味著很可能是在輸入中有某種曲線導(dǎo)致了過濾器的激活。因為沒有任何東西在輸入使過濾器激活(或更簡單地說,在該地區(qū)的原始圖像沒有一個曲線),其在我們的激活圖右上方的值將是0。記住,這僅僅只是一個過濾器。這個過濾器將檢測線向外和右邊的曲線,我們可以有其他的曲線向左或直接到邊緣的過濾器線條。過濾器越多,激活圖越深,我們從于輸入中獲取的信息也就越多。
聲明:在這一節(jié)中描述的過濾器是簡化的,其主要目的是描述在一個卷積過程中的數(shù)學(xué)過程。在下圖中你會看到一些對訓(xùn)練過的網(wǎng)絡(luò)中第一個卷積層的過濾器的實際顯示示例,盡管如此,主要的論據(jù)仍然是相同的。
進一步深入網(wǎng)絡(luò)
現(xiàn)在展示一個傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),還有其他層在這些層之間穿插轉(zhuǎn)換。強烈建議那些有興趣的讀者去了解他們的功能和作用,但一般來說他們提供的非線性和尺寸留存有助于提高網(wǎng)絡(luò)的魯棒性,同時還能控制過度擬合。一個經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)看起來是這樣的:
然而,最后一層是非常重要的內(nèi)容,不過我們將在后面提到。讓我們退后一步,回顧一下我們目前提到的東西。我們談到了第一個卷積層的過濾器被設(shè)計用來探測。他們檢測到低階的特征如邊緣和曲線。正如想象的那樣,為了預(yù)測圖像的類型,我們需要神經(jīng)網(wǎng)絡(luò)能夠識別更高階的特征,如手、爪子、耳朵。讓我們考慮經(jīng)過第一層卷積層后網(wǎng)絡(luò)的輸出是什么,這將是一個28×28×3的體量(假設(shè)我們使用三個5×5×3過濾器)。當(dāng)穿過另一個卷積層時,卷積層的第一輸出成為第二卷積層的輸入,這有難以視覺化想象。當(dāng)我們談?wù)摰谝粚訒r,輸入的只是原始圖像。然而,當(dāng)我們談?wù)摰诙€卷積層時,輸入是第一層的結(jié)果激活圖(S)。因此,每一層的輸入基本上是描述某些低階特征在原始圖像中的位置。現(xiàn)在當(dāng)你應(yīng)用一組過濾器(通過第二卷積層),輸出將被激活且代表更高階的特征。這些特征的類型可能是半圓(曲線和直線邊緣的組合)或方形(幾個直邊的組合)。當(dāng)通過網(wǎng)絡(luò)、更多的卷積層,可以激活地圖,代表更多和更復(fù)雜的特征。在神經(jīng)網(wǎng)絡(luò)的結(jié)束,可能有一些激活的過濾器,表示其在圖像中看到手寫字跡或者粉紅色的物體時等等。另一個有趣的事情是當(dāng)你在網(wǎng)絡(luò)往更深的地方探索時,過濾器開始有越來越大的接受場,這意味著他們能夠從一個更大的區(qū)域或者更多的原始輸入量接收信息。
全連接層
現(xiàn)在我們可以檢測到這些高階特征,錦上添花的是在神經(jīng)網(wǎng)絡(luò)的末端連接一個全連接層。這層基本上將一個輸入量(無論輸出是卷積或ReLU或池層)和輸出一個N是程序選擇類別的N維向量,具體過程如下圖所示。這個全連接層的工作方式是,它著眼于前一層的輸出(代表高階特征的激活圖),并確定哪些功能是最相關(guān)特定的類。例如如果該程序預(yù)測,一些圖像是一只狗,它在激活圖中會有高的值,代表高階特征如一個爪子或4條腿等。類似地,如果該程序是預(yù)測一些圖像是鳥的功能,它在激活圖中會有高階值,代表高階特征如如翅膀或喙等。
訓(xùn)練過程
訓(xùn)練工程作為神經(jīng)網(wǎng)絡(luò)的一個部分,我之前故意沒有提到,因為它有可能是最重要的一部分。閱讀時你可能會遇到有很多問題,例如第一個卷積層中過濾器如何知道尋找邊緣和曲線?全連接層如何知道激活圖在哪里?每一層的過濾器如何知道有什么樣的值?計算機能夠調(diào)整其過濾值(或權(quán)重)的方式是通過一個稱為反向傳播的訓(xùn)練過程。
在我們介紹反向傳播之前,我們必須先回顧下談?wù)勆窠?jīng)網(wǎng)絡(luò)運行所需要的是什么。在我們出生的那一刻,我們的思想是全新的,我們不知道什么是貓,什么是鳥。類似地,在卷積神經(jīng)網(wǎng)絡(luò)開始之前,權(quán)重或過濾器的值是隨機的,過濾器并不知道去尋找邊緣和曲線,在更高階的層過濾器不知道去尋找爪子和喙。然而當(dāng)我們稍微大了一點之后,我們的父母和老師給我們展示了不同的圖片和圖像,并給了我們一個相應(yīng)的標(biāo)簽。給圖像以標(biāo)簽這個想法既是卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的訓(xùn)練過程。在講到它之前,讓我們稍微介紹下我們有一個訓(xùn)練集,其中有成千上萬的狗,貓和鳥類的圖像,每一個圖像有一個標(biāo)簽對應(yīng)它是什么動物的圖片。
反向傳播可以分為4個不同的部分:前向傳播、損失計算、反向傳播、權(quán)重更新。在前向傳播的過程中,你需要一個數(shù)字陣列為32×32×3的訓(xùn)練圖像,并將其傳遞通過整個網(wǎng)絡(luò)。在我們的第一個訓(xùn)練例子中,所有的權(quán)重或過濾器的值被隨機初始化,輸出可能是類似[.1 .1 .1 .1 .1 .1 .1 .1 .1 .1]的東西,基本上是一個不能優(yōu)先考慮任何數(shù)字的輸出。目前權(quán)重的網(wǎng)絡(luò)是無法尋找那些低階的功能,因此也無法對分類可能性作出任何合理的結(jié)論。這就到了反向傳播中的損失計算部分。我們現(xiàn)在使用的是訓(xùn)練數(shù)據(jù),此數(shù)據(jù)有一個圖像和一個標(biāo)簽。比方說,第一個輸入的訓(xùn)練圖像是一個3,則該圖像的標(biāo)簽將是[ 0 0 1 0 0 0 0 0 ]。損失計算可以按許多不同的方式定義,但常見的是MSE(均方差)—?倍(實際預(yù)測)的平方。
假設(shè)變量L等于這個值,正如你想象的,對于第一組訓(xùn)練圖像來說損失將是非常高的?,F(xiàn)在,讓我們更直觀地來進行思考。我們想得到一個點的預(yù)測標(biāo)簽(ConvNet的輸出)作為訓(xùn)練相同的訓(xùn)練標(biāo)簽(這意味著我們的網(wǎng)絡(luò)預(yù)測正確)。為了實現(xiàn)則這個,我們要盡量減少我損失量??梢暬谖⒎e分上只是一個優(yōu)化問題,我們需要找出哪些輸入是(在我們的例子中的權(quán)重)最直接導(dǎo)致網(wǎng)絡(luò)的損失(或錯誤)所在。
這是一個dL/DW的數(shù)學(xué)等價,其中W是在一個特定層的權(quán)重?,F(xiàn)在我們要做的通過網(wǎng)絡(luò)是執(zhí)行一個反向傳播過程,檢測哪個權(quán)重?fù)p失最大并且尋找方法來調(diào)整它們使損失降低。一旦我們將這個計算過程進行完,就可以到最后一步—權(quán)重更新。把所有的過濾器的權(quán)重進行更新,使它們在梯度方向上進行改變。
學(xué)習(xí)速率是由程序員選擇的一個參數(shù)。一個高的學(xué)習(xí)率意味著更多步驟是在權(quán)重更新部分,因此它可能需要更少的時間為最佳的權(quán)重在模型上進行收斂。然而學(xué)習(xí)率太高,可能會導(dǎo)致跨越太大而不夠精準(zhǔn)達(dá)到最佳點。
前向傳播、損失計算、反向傳播、參數(shù)更新的過程也稱為一個epoch。程序會對于每一個固定數(shù)量的epoch、每個訓(xùn)練圖像重復(fù)這一過程。在最后一個訓(xùn)練例子中完成了參數(shù)更新后,網(wǎng)絡(luò)應(yīng)該都訓(xùn)練的足夠好了,各層的權(quán)重也應(yīng)該調(diào)參正確了。
測試
最后要來測試我們的卷積神經(jīng)網(wǎng)絡(luò)是否工作,將不同的圖片和標(biāo)簽集通過卷積神經(jīng)網(wǎng)絡(luò),將輸出結(jié)果與真實值進行對比,即可測試出其是否正常運行。
業(yè)界如何使用卷積神經(jīng)網(wǎng)絡(luò)
數(shù)據(jù),數(shù)據(jù),數(shù)據(jù)。給一個卷積神經(jīng)網(wǎng)絡(luò)的更多的訓(xùn)練數(shù)據(jù),可以做的更多的訓(xùn)練迭代,也就能實現(xiàn)更多的權(quán)重更新,對神經(jīng)網(wǎng)絡(luò)進行更好的調(diào)參。Facebook(還有Instagram)可以使用數(shù)以億計的用戶目前的所有照片,Pinterest可以使用在其網(wǎng)站上的500億的信息,谷歌可以使用搜索數(shù)據(jù),亞馬遜可以使用每天數(shù)以百萬計的產(chǎn)品購買數(shù)據(jù)。
現(xiàn)在你知道他們是如何使用這些的魔法了,有興趣的話可以自己嘗試一下。
評論