人工智能近幾年實(shí)現(xiàn)了爆炸式發(fā)展,深度學(xué)習(xí)可以說是其主要的推動力。
在計(jì)算機(jī)視覺領(lǐng)域,大部分的問題都已經(jīng)開始使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行解決,也確實(shí)取得了廣泛的成功。在很多視覺任務(wù)中,如圖像識別、語義分割、目標(biāo)檢測與跟蹤、圖像檢索等,作為提取特征的CNN網(wǎng)絡(luò)模型往往起到了關(guān)鍵的作用。我們經(jīng)常見到最新的方法將基礎(chǔ)網(wǎng)絡(luò)換一下,性能就會得到很大的提升。因此,研究并設(shè)計(jì)一個(gè)更好的網(wǎng)絡(luò)模型變得至關(guān)重要。
基礎(chǔ)網(wǎng)絡(luò)模型的結(jié)構(gòu)樣例
最新研究進(jìn)展
經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型主要在“寬度”與“深度”方面進(jìn)行不同程度的擴(kuò)增。借助于大規(guī)模數(shù)據(jù)的訓(xùn)練,AlexNet、VGG-16、VGG-19等經(jīng)典網(wǎng)絡(luò)通過寬度或深度增加的參數(shù)可以有效地提升其模型的表達(dá)能力。但當(dāng)網(wǎng)絡(luò)變得越來越深,其訓(xùn)練難度也隨之相應(yīng)增加,反而會導(dǎo)致性能的下降。最近的ResNet和Highway Networks等方法通過引入Skip跳躍結(jié)構(gòu)來試圖解決極深網(wǎng)絡(luò)在優(yōu)化上帶來的問題。
ResNet和Highway Networks結(jié)構(gòu)的簡單示意圖
最新的一些研究嘗試從其他角度來解釋Highway、ResNet和GoogLeNet等網(wǎng)絡(luò)結(jié)構(gòu)表現(xiàn)優(yōu)異的原因。其中我在微軟實(shí)習(xí)的導(dǎo)師王井東研究員、實(shí)習(xí)生魏禎和張婷以及曾文君研究員提出Deep Fusion (Jingdong Wang, Zhen Wei, Ting Zhang, Wenjun Zeng: Deeply-Fused Nets. CoRR abs/1605.07716 (2016))深度融合的概念,認(rèn)為不同分支的網(wǎng)絡(luò)在中間層進(jìn)行融合(加和或拼接等方式)能夠(1)產(chǎn)生很多潛在的共享參數(shù)的基礎(chǔ)網(wǎng)絡(luò),(2)同時(shí)優(yōu)化信息的流動,(3)從而幫助深層網(wǎng)絡(luò)的訓(xùn)練過程。
Deep Fusion深度融合最簡單形式的概念示意圖
我們可以發(fā)現(xiàn)很多有代表性的網(wǎng)絡(luò)結(jié)構(gòu)基本都可以按照深度融合的概念進(jìn)行理解。除去LeNet、AlexNet、VGGNet等單分支網(wǎng)絡(luò),近兩年提出的ResNet、Highway Networks、GoogLeNet系列等網(wǎng)絡(luò)均可以看作是不同程度上的深度融合網(wǎng)絡(luò)。在這個(gè)概念下,我們發(fā)現(xiàn)今年新的Inception-v4、FractalNet、DenseNet、ResNeXt以及我們新提出的Merge-and-Run等網(wǎng)絡(luò)結(jié)構(gòu)在融合方式上進(jìn)行了更多的設(shè)計(jì)和探索,使得中間的融合次數(shù)和分支數(shù)目更多,從而得到更多的基礎(chǔ)網(wǎng)絡(luò)和更優(yōu)的信息流動,最終取得更好的性能表現(xiàn)。
近期一些深度神經(jīng)網(wǎng)絡(luò)模型的基本結(jié)構(gòu)示意圖
康奈爾大學(xué)的Serge Belongie團(tuán)隊(duì)也有類似的觀察與發(fā)現(xiàn),他們解釋ResNet其實(shí)是眾多相對較淺的潛在網(wǎng)絡(luò)的一個(gè)集成。在模型的測試階段發(fā)現(xiàn)將網(wǎng)絡(luò)中的一些模塊去掉,剩下的網(wǎng)絡(luò)模型依然具有不錯(cuò)的表現(xiàn)。
將ResNet中的某些模塊移除的實(shí)驗(yàn)示意圖
最近提出的一些新的深度神經(jīng)網(wǎng)絡(luò)方法也從側(cè)面印證了這方面的研究,如ResNet with Stochastic Depth、FractalNet和Swapout等使用Drop-path的方法與上述移除Residual模塊的研究有著異曲同工之妙。ResNet of ResNet、ResNeXt、Multi-Residual Networks和DenseNet等增加分支或路徑數(shù)目的方法均得到了性能上的提升,從某種程度上驗(yàn)證了增加基礎(chǔ)網(wǎng)絡(luò)數(shù)目對整體網(wǎng)絡(luò)模型的影響。
我們的工作
我們沿著deep fusion的思路更進(jìn)一步地研究了類似ResNet、Highway、Inception等結(jié)構(gòu)的深度融合網(wǎng)絡(luò),探索了“深度”在神經(jīng)網(wǎng)絡(luò)當(dāng)中究竟帶來了什么?;谘芯坑^察與分析,我們又提出了一個(gè)新的網(wǎng)絡(luò)模型,在不同數(shù)據(jù)集上均取得了不錯(cuò)的表現(xiàn)。
一、深度融合網(wǎng)絡(luò)剖析
首先我們從網(wǎng)絡(luò)結(jié)構(gòu)和實(shí)驗(yàn)分析上展示這種多分支融合的網(wǎng)絡(luò)跟多個(gè)潛在網(wǎng)絡(luò)集成的關(guān)系。
多分支融合的網(wǎng)絡(luò)與集成網(wǎng)絡(luò)的結(jié)構(gòu)類似
通過上圖可以發(fā)現(xiàn)多分支融合的網(wǎng)絡(luò)形式可以近似很多潛在網(wǎng)絡(luò)的集成過程,區(qū)別是沒有中間的信息交互,只是他們共享對應(yīng)層的網(wǎng)絡(luò)參數(shù)。通過10組不同深度的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)驗(yàn)發(fā)現(xiàn),這樣一個(gè)共享參數(shù)的集成網(wǎng)絡(luò)與帶信息交互的深度融合網(wǎng)絡(luò)性能表現(xiàn)很相似。
深度融合網(wǎng)絡(luò)與集成網(wǎng)絡(luò)的表現(xiàn)類似
二、深度帶來更多組成網(wǎng)絡(luò)
下一步就可以利用集成學(xué)習(xí)中的一些思路來指導(dǎo)我們對該類型的深度融合網(wǎng)絡(luò)進(jìn)行剖析。首先是研究其潛在的基礎(chǔ)網(wǎng)絡(luò)數(shù)目,很明顯上面圖中融合3次的網(wǎng)絡(luò)能夠組合8個(gè)基礎(chǔ)網(wǎng)絡(luò),即2^3個(gè)。那么我們可以發(fā)現(xiàn)增加融合次數(shù)可以提升基礎(chǔ)網(wǎng)絡(luò)的組合數(shù)目。那么像ResNet、Highway、Inception等形式的網(wǎng)絡(luò),增加“深度”帶來的一個(gè)影響就是增加了其潛在基礎(chǔ)網(wǎng)絡(luò)的組合數(shù)目(Ensemble Size)。
不同融合次數(shù)會得到不同數(shù)目的組合網(wǎng)絡(luò)(路徑)
我們也通過實(shí)驗(yàn)在不同深度的網(wǎng)絡(luò)結(jié)構(gòu)上驗(yàn)證了:增加組合數(shù)目能像傳統(tǒng)Ensemble理論中增加Ensemble Size一樣提升整體性能。
較多的組合網(wǎng)絡(luò)數(shù)目能夠取得更好的結(jié)果
我們也通過實(shí)驗(yàn)在不同深度的網(wǎng)絡(luò)結(jié)構(gòu)上驗(yàn)證了增加組合網(wǎng)絡(luò)數(shù)目能夠提升整體性能,這也與傳統(tǒng)Ensemble理論中增加Ensemble Size能提升性能的結(jié)論相吻合。我們可以看到ResNet在增加深度的同時(shí),極大地增加了組合數(shù)目,這也是其性能優(yōu)異的原因之一。
三、深度影響整體性能
我們繼續(xù)研究每一個(gè)基礎(chǔ)組合網(wǎng)絡(luò),并且探索在深度融合的過程中其相互之間會產(chǎn)生怎樣的影響。對比每個(gè)網(wǎng)絡(luò)單獨(dú)分開訓(xùn)練得到的模型,我們發(fā)現(xiàn),深度融合網(wǎng)絡(luò)里較深的組合網(wǎng)絡(luò)性能得到了提升,但較淺的組合網(wǎng)絡(luò)性能反而下降了。我們猜想在訓(xùn)練過程中,由于淺層的網(wǎng)絡(luò)容易收斂,它們能夠幫助深層的網(wǎng)絡(luò)進(jìn)行優(yōu)化。但深度融合網(wǎng)絡(luò)的各個(gè)潛在的組成網(wǎng)絡(luò)是共享參數(shù)的,極深的網(wǎng)絡(luò)可能會影響較淺網(wǎng)絡(luò)的求解空間與難度,從而產(chǎn)生相互影響性能往中間靠攏的現(xiàn)象。
每一個(gè)單獨(dú)的組成網(wǎng)絡(luò)行為分析
既然我們認(rèn)為最終的表現(xiàn)是一種集成的近似,那么我們是否可以著手尋找更優(yōu)的組合網(wǎng)絡(luò)以達(dá)到整體性能的提升?通過上述組合網(wǎng)絡(luò)之間相互影響的啟發(fā),我們認(rèn)為極深的網(wǎng)絡(luò)會產(chǎn)生“拖后腿”的效果,反而較深但又不是特別深的“中間”網(wǎng)絡(luò)會對結(jié)果影響比較大。上圖的實(shí)驗(yàn)結(jié)果也驗(yàn)證了我們的這個(gè)想法:(a)顯示了每個(gè)組成網(wǎng)絡(luò)由于共享參數(shù)導(dǎo)致的性能變化;(b)顯示了每個(gè)組成網(wǎng)絡(luò)對整體網(wǎng)絡(luò)(ensemble)的相對貢獻(xiàn)程度。
我們依然需要淺層網(wǎng)絡(luò)來幫助訓(xùn)練較深網(wǎng)絡(luò),而且實(shí)際設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的時(shí)候很難做到只保留中間深度的網(wǎng)絡(luò)結(jié)構(gòu)。那么一個(gè)折中的方案是把這里面最深的組成網(wǎng)絡(luò)去掉,這樣看看對結(jié)果會產(chǎn)生什么影響。
去除最深的組成網(wǎng)絡(luò)(重新訓(xùn)練或只是測試時(shí)候去除)
上圖三個(gè)方法的實(shí)驗(yàn)結(jié)果表明,去除極深的組成網(wǎng)絡(luò)不會對整體性能產(chǎn)生太大影響,有時(shí)候反而會提高最終結(jié)果。
去除極深的組成網(wǎng)絡(luò)不會影響太大,大部分情況下反而會提升性能
四,提出新的方法
基于上述觀察,我們認(rèn)為一個(gè)好的網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)該包含如下兩個(gè)特性:足夠多的潛在網(wǎng)絡(luò)數(shù)目,以及足夠好的組成網(wǎng)絡(luò)。最簡單的策略是去掉“拖后腿”的極深網(wǎng)絡(luò),將其變成“中間”深的組成網(wǎng)絡(luò)。下面是我們提出的方法:
基于ResNet的形式,我們提出新的網(wǎng)絡(luò)結(jié)構(gòu)(b)和(c)
基于ResNet的形式,我們提出的Inception-Like結(jié)構(gòu)與Merge-and-Run結(jié)構(gòu)都去除了極深的那一條線路,但是Inception-Like的組合數(shù)目比相同參數(shù)下的ResNet要少,因此我們認(rèn)為Merge-and-Run形式比較符合我們的分析與觀察。最終的實(shí)驗(yàn)結(jié)果也確實(shí)驗(yàn)證了這一想法,而且跟上面的實(shí)驗(yàn)觀察相吻合:Inception-Like沒有極深網(wǎng)絡(luò)的影響,更加容易訓(xùn)練或收斂,比ResNet會稍好一點(diǎn),與上述的Ensemble-7與Ensemble-8的實(shí)驗(yàn)結(jié)果相似。Merge-and-Run結(jié)構(gòu)比Inception-Like的潛在網(wǎng)絡(luò)數(shù)目多,最終結(jié)果也是比Inception-Like的表現(xiàn)要好。
ResNet, Inception-Like和Merge-and-Run在不同數(shù)據(jù)集上的對比
在ImageNet結(jié)果上也驗(yàn)證了我們前面的論述 (我們的方法用DFN-MR表示):
我們提出的DFN-MR與ResNet在ImageNet數(shù)據(jù)集上的對比
五、總結(jié)
目前一個(gè)研究熱點(diǎn)是在深度神經(jīng)網(wǎng)絡(luò)中引入一個(gè)新的維度:潛在的組成網(wǎng)絡(luò)數(shù)目(Ensemble Size)??梢园l(fā)現(xiàn)像ResNet、Highway、Inception等網(wǎng)絡(luò)增加“深度”的同時(shí),實(shí)際增加了這個(gè)網(wǎng)絡(luò)數(shù)目。此外,我們的工作發(fā)現(xiàn)極深網(wǎng)絡(luò)除了能增加潛在網(wǎng)絡(luò)數(shù)目外,對整體性能的貢獻(xiàn)并不是最大的。反而會影響其它的組成網(wǎng)絡(luò),導(dǎo)致最終的結(jié)果受到影響。我們按照“不減少組成網(wǎng)絡(luò)數(shù)目”和“避免極深組成網(wǎng)絡(luò)”這兩個(gè)原則,設(shè)計(jì)出新的網(wǎng)絡(luò)結(jié)構(gòu),發(fā)現(xiàn)在不同數(shù)據(jù)集上總是表現(xiàn)優(yōu)異。后續(xù)工作可以圍繞當(dāng)前分析的內(nèi)容,最優(yōu)化提出的設(shè)計(jì)指標(biāo)與原則,得到更容易訓(xùn)練性能更好的網(wǎng)絡(luò)模型。
評論