一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SGD的隨機(jī)項(xiàng)在其選擇最終的全局極小值點(diǎn)的關(guān)鍵性作用

DPVg_AI_era ? 來(lái)源:lp ? 2019-03-06 09:15 ? 次閱讀

在密蘇里科技大學(xué)與百度大數(shù)據(jù)實(shí)驗(yàn)室合作的一篇論文中,研究人員從理論視角對(duì)SGD在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中的行為進(jìn)行了刻畫(huà),揭示了SGD的隨機(jī)項(xiàng)在其選擇最終的全局極小值點(diǎn)的關(guān)鍵性作用。這項(xiàng)工作加深了對(duì)SGD優(yōu)化過(guò)程的理解,也有助于構(gòu)建深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練理論。

梯度下降是機(jī)器學(xué)習(xí)算法中最常用的一種優(yōu)化方法。

其中,隨機(jī)梯度下降 (Stochastic Gradient Descent, SGD) 由于學(xué)習(xí)速率快并且可以在線更新,常被用于訓(xùn)練各種機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,很多當(dāng)前性能最優(yōu) (SOTA) 模型都使用了SGD。

然而,由于SGD 每次隨機(jī)從訓(xùn)練集中選擇少量樣本進(jìn)行學(xué)習(xí),每次更新都可能不會(huì)按照正確的方向進(jìn)行,因此會(huì)出現(xiàn)優(yōu)化波動(dòng)。

對(duì)于非凸函數(shù)而言,SGD就只會(huì)收斂到局部最優(yōu)點(diǎn)。但同時(shí),SGD所包含的這種隨機(jī)波動(dòng)也可能使優(yōu)化的方向從當(dāng)前的局部最優(yōu)跳到另一個(gè)更好的局部最優(yōu)點(diǎn),甚至是全局最優(yōu)。

在密蘇里科技大學(xué)與百度大數(shù)據(jù)實(shí)驗(yàn)室日前合作公開(kāi)的一篇論文中,研究人員利用概率論中的大偏差理論對(duì)SGD在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中的行為進(jìn)行了刻畫(huà)。

“這項(xiàng)工作的出發(fā)點(diǎn)在于試圖理解SGD的優(yōu)化過(guò)程和GD有什么不同,尤其是SGD的隨機(jī)項(xiàng)(也是GD所沒(méi)有的)在隱式正則化中到底起到什么作用。”論文第一作者、密蘇里科技大學(xué)數(shù)學(xué)系助理教授胡文清博士在接受新智元采訪時(shí)說(shuō)。

“通過(guò)變分分析和構(gòu)造勢(shì)函數(shù),我們發(fā)現(xiàn),由于有方差 (variance) 的存在,對(duì)于任何局部最優(yōu)而言,SGD都有一定逃逸的可能性?!毖芯控?fù)責(zé)人、百度大數(shù)據(jù)實(shí)驗(yàn)室科學(xué)家浣軍博士告訴新智元:“如果時(shí)間足夠長(zhǎng),SGD會(huì)以馬氏鏈的方式遍歷所有的局部最優(yōu),最終達(dá)到一個(gè)全局最優(yōu)?!?/p>

“對(duì)于過(guò)參數(shù)化網(wǎng)絡(luò) (over parameterized network),全局最優(yōu)的點(diǎn)在任何數(shù)據(jù)點(diǎn)的梯度都是0。SGD就會(huì)被限制在這樣的位置上?!?/p>

不同梯度下降優(yōu)化方法在損失曲面鞍點(diǎn)處的表現(xiàn),過(guò)參數(shù)化網(wǎng)絡(luò)的全局最優(yōu)點(diǎn)在任何數(shù)據(jù)點(diǎn)的梯度都是0,SGD就會(huì)被限制在這樣的位置上。

這項(xiàng)工作有助于我們更深刻地理解SGD在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)過(guò)程,以及訓(xùn)練其它機(jī)器學(xué)習(xí)模型中的機(jī)制和作用。

擬勢(shì)函數(shù):隨機(jī)梯度下降中損失函數(shù)的隱式正則項(xiàng)

人們普遍認(rèn)為SGD是一種“隱式正則項(xiàng)”,能夠自己在模型或數(shù)據(jù)集中尋找一個(gè)局部最小點(diǎn)。

此前有研究從變分推斷的角度分析SGD逃離bad minima的現(xiàn)象。還有研究發(fā)現(xiàn),SGD的逃逸速率跟噪聲協(xié)方差有關(guān),尤其是在深度神經(jīng)網(wǎng)絡(luò)模型中。

在這篇題為《將擬勢(shì)函數(shù)視為隨機(jī)梯度下降損失函數(shù)中的隱式正則項(xiàng)》的論文中,作者提出了一種統(tǒng)一的方法,將擬勢(shì)作為一種量化關(guān)系的橋梁,在SGD隱式正則化與SGD的隨機(jī)項(xiàng)的協(xié)方差結(jié)構(gòu)之間建立了聯(lián)系。

“從‘?dāng)M勢(shì)’這種統(tǒng)一的觀點(diǎn)出發(fā),能更清楚地從數(shù)學(xué)上描述SGD的長(zhǎng)時(shí)間動(dòng)力學(xué)?!焙那宀┦空f(shuō)。

具體說(shuō),他們將隨機(jī)梯度下降 (SGD) 的變分推斷看做是一個(gè)勢(shì)函數(shù)最小化的過(guò)程,他們將這個(gè)勢(shì)函數(shù)稱(chēng)之為“擬勢(shì)函數(shù)”(quasi–potential),用(全局)擬勢(shì)φQP表示。

這個(gè)擬勢(shì)函數(shù)能夠表征具有小學(xué)習(xí)率的SGD的長(zhǎng)期行為。研究人員證明,SGD最終達(dá)到的全局極小值點(diǎn),既依賴(lài)于原來(lái)的損失函數(shù)f,也依賴(lài)于SGD所自帶的隨機(jī)項(xiàng)的協(xié)方差結(jié)構(gòu)。

不僅如此,這項(xiàng)工作的理論預(yù)測(cè)對(duì)于一般的非凸優(yōu)化問(wèn)題都成立,揭示了SGD隨機(jī)性的協(xié)方差結(jié)構(gòu)在其選擇最終的全局極小值點(diǎn)這個(gè)動(dòng)力學(xué)過(guò)程的關(guān)鍵性作用,進(jìn)一步揭示了機(jī)器學(xué)習(xí)中SGD的隱式正則化的機(jī)制。

下面是新智元對(duì)論文凸損失函數(shù)相關(guān)部分的編譯,點(diǎn)擊“閱讀原文”查看論文了解更多。

局部擬勢(shì):凸損失函數(shù)的情況

我們假設(shè)原來(lái)的損失函數(shù)f(x)是凸函數(shù),只允許一個(gè)最小點(diǎn)O,這也是它的全局最小點(diǎn)。設(shè)O是原點(diǎn)。

我們將在這一節(jié)中介紹局部準(zhǔn)勢(shì)函數(shù),并通過(guò)哈密頓-雅可比型偏微分方程將其與SGD噪聲協(xié)方差結(jié)構(gòu)聯(lián)系起來(lái)。分析的基礎(chǔ)是將LDT解釋為軌跡空間中的路徑積分理論。

SGD作為梯度下降(GD)的一個(gè)小隨機(jī)擾動(dòng)

首先,我們給出一個(gè)假設(shè):

假設(shè)1:假設(shè)損失函數(shù)f(x)允許梯度?f(x),即L–Lipschitz:

(1)

我們假設(shè)Σ(x)是x中的分段Lipschitz,并且SDG協(xié)方差矩陣D(x)對(duì)于所有x∈Rd是可逆的,使得:

(2)

對(duì)于ε>0,SGD過(guò)程具有接近由如下確定性方程表征的梯度下降(GD)流的軌跡:

(3)

事實(shí)上,我們可以很容易地證明有以下內(nèi)容:

引理1:基于假設(shè)1,我們有,對(duì)于任何T>0,

(4)

對(duì)一些常數(shù)C = C(T, L, M) > 0。

當(dāng)上述公式成立時(shí),我們可以很容易得出在區(qū)間0≤t≤T內(nèi),x(t)和xGD(t)收斂于。因此,在有限的時(shí)間內(nèi),SGD過(guò)程x(t)將被吸引到原點(diǎn)O的鄰域。

由于O是凸損失函數(shù)f(x)的唯一最小點(diǎn),R中的每一點(diǎn)都被梯度流Rd吸引到O。

在僅有一個(gè)最小點(diǎn)O的情況下,也可以執(zhí)行由于小的隨機(jī)擾動(dòng)而對(duì)吸引子(attractor)的逃逸特性的理解。

大偏差理論解釋為軌跡空間中的路徑積分

為了定量地描述這種逃逸特性,我們建議使用概率論中的大偏差理論(LDT)。粗略地說(shuō),這個(gè)理論給出了路徑空間中的概率權(quán)重,而權(quán)重的指數(shù)部分由一個(gè)作用量泛函S給出。

局部擬勢(shì)函數(shù)作為變分問(wèn)題和哈密頓-雅可比方程的解

我們可以定義一個(gè)局部擬勢(shì)函數(shù)為:

(5)

將公式(5)和下面的公式6)進(jìn)行結(jié)合

(6)

給出了平穩(wěn)測(cè)度的指數(shù)漸近:

(7)

這意味著在梯度系統(tǒng)只有一個(gè)穩(wěn)定吸引子O的情況下,擬勢(shì)φQP(x)是由局部φQPloc(x;x0)給定,這是變分問(wèn)題(公式5)的解。

局部最小點(diǎn)的逃逸屬性(根據(jù)局部擬勢(shì))

局部擬勢(shì)φQPloc(x;x0)的另一個(gè)顯著特征是它描述了局部最小點(diǎn)的逃逸性質(zhì)。從sharp極小值到flat極小值的逃逸是導(dǎo)致良好泛化的一個(gè)關(guān)鍵特征。

LDT估計(jì)提供了一種工具,可以獲得退出概率的指數(shù)估計(jì)值,并從吸引子獲得平均首次退出時(shí)間。

并且我們可以證明一個(gè)過(guò)程x(t)在局部最小點(diǎn)處的逃逸性質(zhì),如出口概率、平均逃逸時(shí)間甚至第一個(gè)出口位置,都與擬勢(shì)有關(guān)。

全局?jǐn)M勢(shì):SGD在各個(gè)局部極小值點(diǎn)之間的馬氏鏈動(dòng)力學(xué)

現(xiàn)在再假設(shè)損失函數(shù)f(x)是非凸的,存在多個(gè)局部極小值點(diǎn)。這種情況下,對(duì)每個(gè)局部極小值點(diǎn)的吸引區(qū)域,都可數(shù)學(xué)上構(gòu)造由前述所介紹的局部擬勢(shì)。

SGD在進(jìn)入一個(gè)局部極小值點(diǎn)之后,會(huì)在其協(xié)方差結(jié)構(gòu)所帶來(lái)的噪聲的作用下,逃逸這個(gè)局部極小值點(diǎn),從而進(jìn)入另一個(gè)局部極小值點(diǎn)。

按照前述的介紹,這種逃逸可以由局部擬勢(shì)給出。然而在全局情形,不同的極小值點(diǎn)之間的局部擬勢(shì)不一樣,而從一個(gè)極小值點(diǎn)到另一個(gè)極小值點(diǎn)之間的這種由逃逸產(chǎn)生的躍遷,會(huì)誘導(dǎo)一個(gè)局部極小值點(diǎn)之間的馬氏鏈。

我們的文章指出,SGD的長(zhǎng)時(shí)間極限行為,正是以這種馬氏鏈的方式,遍歷可能的局部極小值點(diǎn),最終達(dá)到一個(gè)全局極小值點(diǎn)。

值得一提的是,這個(gè)全局極小值點(diǎn)不一定是原來(lái)?yè)p失函數(shù)的全局極小值點(diǎn),而是和SGD的隨機(jī)性的協(xié)方差結(jié)構(gòu)有關(guān),這一點(diǎn)可以由上節(jié)中局部擬勢(shì)的構(gòu)造方式看出。

這就表明SGD的隨機(jī)性所產(chǎn)生的協(xié)方差結(jié)構(gòu),影響了其長(zhǎng)期行為以及最終的全局極小值點(diǎn)的選擇。

文章中給出了一個(gè)例子,說(shuō)明當(dāng)損失函數(shù)f(x)有兩個(gè)完全對(duì)稱(chēng)的全局極小值點(diǎn),而其所對(duì)應(yīng)的協(xié)方差結(jié)構(gòu)不同的情況下,SGD會(huì)傾向于選擇其中一個(gè)全局極小值點(diǎn),這一個(gè)極小值點(diǎn)對(duì)應(yīng)的協(xié)方差結(jié)構(gòu)更接近各向同性(isotropic)。

未來(lái)工作

研究人員希望通過(guò)這項(xiàng)工作,進(jìn)一步理解SGD所訓(xùn)練出的局部極小點(diǎn)的泛化性能,特別是泛化能力與協(xié)方差結(jié)構(gòu)的關(guān)系?;诖?,他們期待進(jìn)一步的結(jié)果將不僅僅局限于overparametrized神經(jīng)網(wǎng)絡(luò),而對(duì)一般的深度學(xué)習(xí)模型都適用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:你真的了解隨機(jī)梯度下降中的“全局最優(yōu)”嗎?

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    VirtualLab Fusion應(yīng)用:參數(shù)優(yōu)化文檔介紹

    算法它“在高斯-牛頓算法和梯度下降法之間進(jìn)行插。[…]在許多情況下,它可以找到一個(gè)解決方案,即使它從非常遠(yuǎn)的最終最小開(kāi)始?!笔諗渴强赡艿?,但不能保證。 所有局部最小化算法都有陷入局部極小值
    發(fā)表于 02-28 08:44

    如何對(duì)一波形所有極大(?。?b class='flag-5'>值點(diǎn)用三次樣條插函數(shù)擬...

    哪位大神能幫我一下,本人在做小電流接地系統(tǒng)選線,在matlab中搭建了系統(tǒng)模型后進(jìn)行了單相接地故障仿真,對(duì)于仿出來(lái)的波形要進(jìn)行HHT變換,其中第一步就是要對(duì)仿真圖形所有極大極小值點(diǎn)用三次樣條插
    發(fā)表于 08-09 19:10

    SoC 多處理器混合關(guān)鍵性系統(tǒng)

    我想運(yùn)用生成即保證正確(correct-by-construction)規(guī)則設(shè)計(jì)多處理器混合關(guān)鍵性系統(tǒng),請(qǐng)問(wèn)生成即保證正確(correct-by-construction)規(guī)則可用嗎?在什么情況下可用?
    發(fā)表于 02-17 16:18

    關(guān)于檢測(cè)的離散信號(hào)求極值問(wèn)題

    我現(xiàn)在收集到一些離散信號(hào),一維數(shù)組,想找到極大極小值,然后連線用三次樣條擬合,1、請(qǐng)問(wèn)有沒(méi)有什么好用的控件或者算法找到這些極大極小值點(diǎn)2、由于采樣率的緣故,總會(huì)有的極大或者
    發(fā)表于 01-03 10:55

    印刷電路板的圖像分割

    灰度之間),而且靠近于波谷,所以考慮在其領(lǐng)域內(nèi)尋找極小值點(diǎn)。 為了分割PCB的目標(biāo)圖像,可以先確定出直方圖的目標(biāo)峰,再確定極小值
    發(fā)表于 08-29 10:53

    怎么用模擬退火算法求全局最優(yōu)解?

    一種完完全全的貪心算法。這樣求出的極小值,并不一定整段函數(shù)的全局極小值,而極可能是局部極小值。例如下圖 可以看出,有三個(gè)點(diǎn),均是
    發(fā)表于 09-29 08:04

    LCD1602驅(qū)動(dòng)程序關(guān)鍵性操作

    C51單片機(jī)LCD1602驅(qū)動(dòng)程序LCD1602簡(jiǎn)介1602的引腳操作時(shí)序?qū)懖僮鲿r(shí)序時(shí)序參數(shù)LCD1602關(guān)鍵性操作一、初始化二、清屏指令二、進(jìn)入模式設(shè)置指令三、顯示開(kāi)關(guān)控制指令四、功能設(shè)定指令
    發(fā)表于 11-18 08:56

    keras內(nèi)置的7個(gè)常用的優(yōu)化器介紹

    法,隨機(jī)梯度下降,小批量梯度下降法。它們的學(xué)習(xí)率是固定的。 1.1 基礎(chǔ)梯度下降算法 顧名思義,梯度下降法的計(jì)算過(guò)程就是沿梯度下降的方向求解極小值(使得損失函數(shù)最小,也即準(zhǔn)確率最高)。 假設(shè)
    發(fā)表于 08-18 06:32

    射頻電路應(yīng)用設(shè)計(jì)的關(guān)鍵性培訓(xùn)資料

    射頻電路應(yīng)用設(shè)計(jì)的關(guān)鍵性培訓(xùn)資料 1.   Implications of Grounding 2.   Possible Problems Hidden
    發(fā)表于 05-07 19:38 ?28次下載

    射頻電路應(yīng)用設(shè)計(jì)的關(guān)鍵性課題

    射頻電路應(yīng)用設(shè)計(jì)的關(guān)鍵性課題:1.  Interference and Isolation       o 
    發(fā)表于 05-07 19:39 ?22次下載

    基于鏈路關(guān)鍵性的流量工程路由算法徐亞峰

    基于鏈路關(guān)鍵性的流量工程路由算法_徐亞峰
    發(fā)表于 03-16 08:00 ?0次下載

    梯度下降兩大痛點(diǎn):陷入局部極小值和過(guò)擬合

    基于梯度下降訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),我們將冒網(wǎng)絡(luò)落入局部極小值的風(fēng)險(xiǎn),網(wǎng)絡(luò)在誤差平面上停止的位置并非整個(gè)平面的最低點(diǎn)。這是因?yàn)檎`差平面不是內(nèi)凸的,平面可能包含眾多不同于全局最小的局部極小值。
    的頭像 發(fā)表于 04-27 17:01 ?2.1w次閱讀
    梯度下降兩大痛<b class='flag-5'>點(diǎn)</b>:陷入局部<b class='flag-5'>極小值</b>和過(guò)擬合

    機(jī)器學(xué)習(xí)之感知機(jī)python是如何實(shí)現(xiàn)的

    算法選擇最終的目標(biāo)是求損失函數(shù)的最小,利用機(jī)器學(xué)習(xí)中最常用的梯度下降GD或者隨機(jī)梯度下降SGD來(lái)求解。
    發(fā)表于 03-30 09:36 ?1046次閱讀
    機(jī)器學(xué)習(xí)之感知機(jī)python是如何實(shí)現(xiàn)的

    基于雙曲網(wǎng)絡(luò)空間嵌入與極小值聚類(lèi)的社區(qū)劃分算法

    。根據(jù)龐加萊圓盤(pán)中的角度統(tǒng)計(jì)節(jié)點(diǎn)分布關(guān)系,得到θ曲線,并以最優(yōu)模塊度選擇曲線極小值作為最優(yōu)社區(qū)的劃分依據(jù)。使用中國(guó)移動(dòng)用戶的真實(shí)訪問(wèn)數(shù)據(jù)對(duì)算法進(jìn)行有效評(píng)估,結(jié)果表明,與 Louvain、SLPA和正則化譜聚類(lèi)算法相比,該算法無(wú)
    發(fā)表于 04-01 15:18 ?11次下載
    基于雙曲網(wǎng)絡(luò)空間嵌入與<b class='flag-5'>極小值</b>聚類(lèi)的社區(qū)劃分算法

    基于局部熵?cái)M合與全局信息的改進(jìn)活動(dòng)輪廓模型

    的中心點(diǎn),改變輪廓半徑的大小以確定初始輪廓的位置。使用局部熵項(xiàng)來(lái)増強(qiáng)圖像邊緣處的響應(yīng),將局部熵圖像擬合能量項(xiàng)與RSF模型共同構(gòu)成局部能量項(xiàng),并引入圖像的
    發(fā)表于 05-26 15:31 ?5次下載