亚洲精品生活大片久久,hl韩日精品一区二区,亚洲无码中出高清

編者按：DRDO研究人員Ayoosh Kathuria深入討論了激活函數(shù)如何隱式地改變傳入網(wǎng)絡(luò)層的數(shù)據(jù)分布，進(jìn)而影響網(wǎng)絡(luò)的優(yōu)化過程。

這是優(yōu)化系列的第三篇，我們想要通過這一系列文章全面回顧深度學(xué)習(xí)中的優(yōu)化技術(shù)。到目前為止，我們已經(jīng)討論了：

用于對(duì)抗局部極小值、鞍點(diǎn)的mini batch梯度下降

動(dòng)量、RMSProp、Adam等方法在原始梯度下降的基礎(chǔ)上加強(qiáng)了哪些方面，以應(yīng)對(duì)病態(tài)曲率問題。

分布，該死的分布，還有統(tǒng)計(jì)學(xué)

不同于之前的機(jī)器學(xué)習(xí)方法，神經(jīng)網(wǎng)絡(luò)并不依賴關(guān)于輸入數(shù)據(jù)的任何概率學(xué)或統(tǒng)計(jì)學(xué)假定。然而，為了確保神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)良好，最重要的因素之一是傳入神經(jīng)網(wǎng)絡(luò)層的數(shù)據(jù)需要具有特定的性質(zhì)。

數(shù)據(jù)分布應(yīng)該是零中心化（zero centered）的，也就是說，分布的均值應(yīng)該在零附近。不具有這一性質(zhì)的數(shù)據(jù)可能導(dǎo)致梯度消失和訓(xùn)練抖動(dòng)。

分布最好是正態(tài)的，否則可能導(dǎo)致網(wǎng)絡(luò)過擬合輸入空間的某個(gè)區(qū)域。

在訓(xùn)練過程中，不同batch和不同網(wǎng)絡(luò)層的激活分布，應(yīng)該保持一定程度上的一致。如果不具備這一性質(zhì)，那么我們說分布出現(xiàn)了內(nèi)部協(xié)方差偏移（Internal Covariate shift），這可能拖慢訓(xùn)練進(jìn)程。

這篇文章將討論如何使用激活函數(shù)應(yīng)對(duì)前兩個(gè)問題。文末將給出一些選擇激活函數(shù)的建議。

梯度消失

梯度消失問題有豐富的文檔，隨著神經(jīng)網(wǎng)絡(luò)越來越深，這一問題越來越得到重視。下面我們將解釋梯度為什么會(huì)消失。讓我們想象一個(gè)最簡單的神經(jīng)網(wǎng)絡(luò)，一組線性堆疊的神經(jīng)元。

實(shí)際上，上面的網(wǎng)絡(luò)很容易擴(kuò)展成深度密集連接架構(gòu)。只需將網(wǎng)絡(luò)中的每個(gè)神經(jīng)元替換成一個(gè)使用sigmoid激活函數(shù)的全連接層。

sigmoid函數(shù)的圖像是這樣的。

看下sigmoid函數(shù)的斜率，我們會(huì)發(fā)現(xiàn)它在兩端趨向于零。sigmoid函數(shù)梯度圖像可以印證這一點(diǎn)。

求sigmoid激活層輸出在其權(quán)重上的導(dǎo)數(shù)時(shí)，我們可以看到，sigmoid函數(shù)的梯度是表達(dá)式中的一個(gè)因子，該梯度的取值范圍為0到1.

上式中的第二項(xiàng)就是sigmoid的導(dǎo)數(shù)，值域?yàn)?到1.

回到我們的例子，讓我們求下神經(jīng)元A的梯度。應(yīng)用鏈?zhǔn)椒▌t，我們得到：

上面的表達(dá)式中的每項(xiàng)都可以進(jìn)一步分解為梯度的乘積，其中一項(xiàng)為sigmoid函數(shù)的梯度。例如：

現(xiàn)在，假設(shè)A之前不止3個(gè)神經(jīng)元，而是有50個(gè)神經(jīng)元。在實(shí)踐中，這完全是可能的，實(shí)際應(yīng)用中的網(wǎng)絡(luò)很容易到50層。

那么A的梯度表達(dá)式中就包含50項(xiàng)sigmoid梯度的乘積，每項(xiàng)的取值范圍為0到1，這也許會(huì)將A的梯度推向零。

讓我們做一個(gè)簡單的試驗(yàn)。隨機(jī)取樣50個(gè)0到1之間的數(shù)，然后將它們相乘。

import random

from functools import reduce

li = [random.uniform(0,1) for x in range(50)

print(reduce(lambda x,y: x*y, li))

你可以自己試驗(yàn)一下。我試了很多次，從來沒能得到一個(gè)數(shù)量級(jí)大于10-18的數(shù)。如果這個(gè)值是神經(jīng)元A的梯度表達(dá)式中的一個(gè)因子，那么梯度幾乎就等于零。這意味著，在較深的架構(gòu)中，較深的神經(jīng)元基本不學(xué)習(xí)，即使學(xué)習(xí)，和較淺的網(wǎng)絡(luò)層中的神經(jīng)元相比，學(xué)習(xí)的速率極低。

這個(gè)現(xiàn)象就是梯度消失問題，較深的神經(jīng)元中的梯度變?yōu)榱?，或者說，消失了。這就導(dǎo)致神經(jīng)網(wǎng)絡(luò)中較深的層學(xué)習(xí)極為緩慢，或者，在最糟的情況下，根本不學(xué)習(xí)。

飽和神經(jīng)元

飽和神經(jīng)元會(huì)導(dǎo)致梯度消失問題進(jìn)一步惡化。假設(shè)，傳入帶sigmoid激活的神經(jīng)元的激活前數(shù)值ωTx + b非常高或非常低。那么，由于sigmoid在兩端處的梯度幾乎是0，任何梯度更新基本上都無法導(dǎo)致權(quán)重ω和偏置b發(fā)生變化，神經(jīng)元的權(quán)重變動(dòng)需要很多步才會(huì)發(fā)生。也就是說，即使梯度原本不低，由于飽和神經(jīng)元的存在，最終梯度仍會(huì)趨向于零。

ReLU救星

在普通深度網(wǎng)絡(luò)設(shè)定下，ReLU激活函數(shù)的引入是緩解梯度消失問題的首個(gè)嘗試（LSTM的引入也是為了應(yīng)對(duì)這一問題，不過它的應(yīng)用場景是循環(huán)模型）。

當(dāng)x > 0時(shí)，ReLU的梯度為1，x < 0時(shí)，ReLU的梯度為0. 這帶來了一些好處。ReLU函數(shù)梯度乘積并不收斂于0，因?yàn)镽eLU的梯度要么是0，要么是1. 當(dāng)梯度值為1時(shí)，梯度原封不動(dòng)地反向傳播。當(dāng)梯度值為0時(shí)，從這點(diǎn)往后不會(huì)進(jìn)行反向傳播。

單邊飽和

sigmoid函數(shù)是雙邊飽和的，也就是說，正向和負(fù)向都趨向于零。ReLU則提供單邊飽和。

準(zhǔn)確地說，ReLU的左半部分不叫飽和，飽和的情況下，函數(shù)值變動(dòng)極小，而ReLU的左半部分根本不變。但兩者的作用是類似的。你也許會(huì)問，單邊飽和帶來了什么好處？

我們可以把深度網(wǎng)絡(luò)中的神經(jīng)元看成開關(guān)，這些開關(guān)專門負(fù)責(zé)檢測特定特征。這些特征常常被稱為概念。高層網(wǎng)絡(luò)中的神經(jīng)元也許最終會(huì)專門檢測眼睛、輪胎之類的高層特征，而低層網(wǎng)絡(luò)中的神經(jīng)元最終專門檢測曲線、邊緣之類的低層特征。

當(dāng)這樣的概念存在于神經(jīng)網(wǎng)絡(luò)的輸入時(shí)，我們想要激活相應(yīng)的神經(jīng)元，而激活的數(shù)量級(jí)則可以測量概念的程度。例如，如果神經(jīng)元檢測到了邊緣，它的數(shù)量級(jí)也許表示邊緣的銳利程度。

然而，神經(jīng)元的負(fù)值在這里就沒什么意義了。用負(fù)值編碼不存在的概念的程度感覺怪怪的。

以檢測邊緣的神經(jīng)元為例，相比激活值為5的神經(jīng)元，激活值為10的神經(jīng)元可能檢測到了更銳利的邊緣。但是區(qū)分激活值-5和-10的神經(jīng)元就沒什么意義了，因?yàn)樨?fù)值表示根本不存在邊緣。因此，統(tǒng)一用零表示概念不存在是很方便的。ReLU的單邊飽和正符合這一點(diǎn)。

信息解纏和對(duì)噪聲的魯棒性

單邊飽和提高了神經(jīng)元對(duì)噪聲的魯棒性。為什么？假設(shè)神經(jīng)元的值是無界的，也就是在兩個(gè)方向上都不飽和。具有程度不同的概念的輸入產(chǎn)生神經(jīng)元正值輸出的不同。由于我們想要用數(shù)量級(jí)指示信號(hào)的強(qiáng)度，這很好。

然而，背景噪聲、神經(jīng)元不擅長檢測的概念（例如，包含弧線的區(qū)域傳入檢測線條的神經(jīng)元），會(huì)生成不同的神經(jīng)元負(fù)值輸出。這類不同可能給其他神經(jīng)元帶去大量無關(guān)、無用信息。這也可能導(dǎo)致單元間的相關(guān)性。例如，檢測線條的神經(jīng)元也許和檢測弧線的神經(jīng)元負(fù)相關(guān)。

而在神經(jīng)元單邊飽和（負(fù)向）的場景下，噪聲等造成的不同，也就是之前的負(fù)值輸出數(shù)量級(jí)的不同，被激活函數(shù)的飽和元素?cái)D壓為零，從而防止噪聲產(chǎn)生無關(guān)信號(hào)。

稀疏性

ReLU函數(shù)在算力上也有優(yōu)勢?；赗eLU的網(wǎng)絡(luò)訓(xùn)練起來比較快，因?yàn)橛?jì)算ReLU激活的梯度不怎么需要算力，而sigmoid梯度計(jì)算就需要指數(shù)運(yùn)算。

ReLU歸零激活前的負(fù)值，這就隱式地給網(wǎng)絡(luò)引入了稀疏性，同樣節(jié)省了算力。

死亡ReLU問題

ReLU也有缺陷。雖然稀疏性在算力上有優(yōu)勢，但過多的稀疏性實(shí)際上會(huì)阻礙學(xué)習(xí)。激活前神經(jīng)元通常也包含偏置項(xiàng)，如果偏置項(xiàng)是一個(gè)過小的負(fù)數(shù)，使得ωTx + b < 0，那么ReLU激活在反向傳播中的梯度就是0，使負(fù)的激活前神經(jīng)元無法更新。

如果學(xué)習(xí)到的權(quán)重和偏置使整個(gè)輸入域上的激活前數(shù)值都是負(fù)數(shù)，那么神經(jīng)元就無法學(xué)習(xí)，引起類似sigmoid的飽和現(xiàn)象。這稱為死亡ReLU問題。

零中心化激活

不管輸入是什么，ReLU只輸出非負(fù)激活。這可能是一個(gè)劣勢。

對(duì)基于ReLU的神經(jīng)網(wǎng)絡(luò)而言，網(wǎng)絡(luò)層ln的權(quán)重ωn的激活為

因此，對(duì)損失函數(shù)L而言：

上式中的I是一個(gè)指示函數(shù)，傳入的ReLU值為正數(shù)時(shí)輸出1，否則輸出0. 由于ReLU只輸出非負(fù)值，ωn中的每項(xiàng)權(quán)重的梯度更新正負(fù)都一樣。

這有什么問題？問題在于，由于所有神經(jīng)元的梯度更新的符號(hào)都一樣，網(wǎng)絡(luò)層ln中的所有權(quán)重在一次更新中，要么全部增加，要么全部減少。然而，理想情況的梯度權(quán)重更新也許是某些權(quán)重增加，另一些權(quán)重減少。ReLU下，這做不到。

假設(shè)，根據(jù)理想的權(quán)重更新，有些權(quán)重需要減少。然而，如果梯度更新是正值，這些權(quán)重可能在當(dāng)前迭代中變?yōu)檫^大的正值。下一次迭代，梯度可能會(huì)變成較小的負(fù)值以補(bǔ)償這些增加的權(quán)重，這也許會(huì)導(dǎo)致最終跳過需要少量負(fù)值或正值變動(dòng)才能取到的權(quán)重。

這可能導(dǎo)致搜尋最小值時(shí)出現(xiàn)之字模式，拖慢訓(xùn)練速度。

Leaky ReLU和參數(shù)化ReLU

為了克服死亡ReLU問題，人們提出了Leaky ReLU。Leaky ReLU和普通ReLU幾乎完全一樣，除了x < 0時(shí)有一個(gè)很小的斜率。

在實(shí)踐中，這個(gè)很小的斜率α通常取0.01.

Leaky ReLU的優(yōu)勢在于反向傳播可以更新產(chǎn)生負(fù)的激活前值的權(quán)重，因?yàn)長eaky ReLU激活函數(shù)的負(fù)值區(qū)間的梯度是αex。YOLO（點(diǎn)擊閱讀）目標(biāo)檢測算法就用了Leaky ReLU。

因?yàn)樨?fù)的激活前值會(huì)生成負(fù)值而不是0，Leaky ReLU沒有ReLU中的權(quán)重只在一個(gè)方向上更新的問題。

α該取多大，人們做了很多試驗(yàn)。有一種稱為隨機(jī)Leaky ReLU的方法，負(fù)值區(qū)間的斜率從均值為0、標(biāo)準(zhǔn)差為1的均勻分布中隨機(jī)抽取。

隨機(jī)ReLU的論文主張，隨機(jī)ReLU能得到比Leaky ReLU更好的結(jié)果，訓(xùn)練起來也更快，并通過經(jīng)驗(yàn)方法得出，如果限定只使用單一的α值，那么1/5.5要比通常選擇的0.01效果要好。

隨機(jī)Leaky ReLU奏效的原因是負(fù)值區(qū)間斜率的隨機(jī)選擇給負(fù)的激活前值梯度帶來了隨機(jī)性。在優(yōu)化算法中引入的隨機(jī)性，或者說噪聲，有助于擺脫局部極小值和鞍點(diǎn)（在本系列的第一篇文章中，我們深入討論了這一主題）。

后來人們又進(jìn)一步提出，α可以看作一個(gè)參數(shù)，在網(wǎng)絡(luò)的訓(xùn)練過程中學(xué)習(xí)。采用這一方法的激活函數(shù)稱為參數(shù)化ReLU。

回顧下飽和

神經(jīng)元飽和看起來是一件很糟的事情，但ReLU中的單邊飽和未必不好。盡管前面提到的一些ReLU變體抑制了死亡ReLU問題，但卻喪失了單邊飽和的益處。

指數(shù)線性單元和偏置偏移

基于上面的討論，看起來一個(gè)完美的激活函數(shù)應(yīng)該同時(shí)具備以下兩個(gè)性質(zhì)：

產(chǎn)生零中心化分布，以加速訓(xùn)練過程。

具有單邊飽和，以導(dǎo)向更好的收斂。

Leaky ReLU和PReLU（參數(shù)化ReLU）滿足第一個(gè)條件，不滿足第二個(gè)條件。而原始的ReLU滿足第二個(gè)條件，不滿足第一個(gè)條件。

同時(shí)滿足兩個(gè)條件的一個(gè)激活函數(shù)是指數(shù)線性單元（ELU）。

x > 0部分，ELU的梯度是1，x < 0部分的梯度則是α × ex。ELU激活函數(shù)的負(fù)值區(qū)域趨向于-α. α是一個(gè)超參數(shù)，通常取1.

如何選擇激活函數(shù)

首先嘗試ReLU激活。盡管我們上面列出了ReLU的一些問題，但很多人使用ReLU取得了很好的結(jié)果。根據(jù)奧卡姆剃刀原則，先嘗試更簡單的方案比較好。相比ReLU的有力挑戰(zhàn)者，ReLU的算力負(fù)擔(dān)最輕。如果你的項(xiàng)目需要從頭開始編程，那么ReLU的實(shí)現(xiàn)也特別簡單。

如果ReLU的效果不好，我會(huì)接著嘗試Leaky ReLU或ELU。我發(fā)現(xiàn)能夠產(chǎn)生零中心化激活的函數(shù)一般要比不能做到這點(diǎn)的函數(shù)效果好得多。ELU看起來很有吸引力，但是由于負(fù)的激活前值會(huì)觸發(fā)大量指數(shù)運(yùn)算，基于ELU的網(wǎng)絡(luò)訓(xùn)練和推理都很緩慢。如果算力資源對(duì)你而言不成問題，或者網(wǎng)絡(luò)不是特別巨大，選擇ELU，否則，選擇Leaky ReLU。LReLU和ELU都增加了一個(gè)需要調(diào)整的超參數(shù)。

如果算力資源很充沛，時(shí)間很充裕，你可以將上述激活函數(shù)的表現(xiàn)與PReLU和隨機(jī)ReLU做下對(duì)比。如果出現(xiàn)了過擬合，那么隨機(jī)ReLU可能會(huì)有用。參數(shù)化ReLU加入了需要學(xué)習(xí)的一組參數(shù)，所以，只在具備大量訓(xùn)練數(shù)據(jù)的情況下才考慮選用參數(shù)化ReLU。

結(jié)語

這篇文章討論了傳入什么樣的數(shù)據(jù)分布，有利于神經(jīng)網(wǎng)絡(luò)層恰當(dāng)?shù)貙W(xué)習(xí)。激活函數(shù)隱式地歸一化這些分布，而一種稱為批歸一化（Batch Normalization）的技術(shù)明確地進(jìn)行了這一操作。批歸一化是近年來深度學(xué)習(xí)領(lǐng)域的主要突破之一。不過，我們要到本系列的下一篇文章才會(huì)討論這一技術(shù)，目前而言，你可以親自嘗試下在自己的網(wǎng)絡(luò)上使用不同的激活函數(shù)有什么效果！試驗(yàn)愉快！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103601
函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4381

瀏覽量
64864
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5561

瀏覽量
122794