一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

首個關(guān)于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練相關(guān)的理論證明

倩倩 ? 來源:新智元 ? 2020-04-17 11:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌AI最新發(fā)布的一篇論文給出了首個關(guān)于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練相關(guān)的理論證明,實驗觀察結(jié)果也為初步解釋梯度下降強于貝葉斯優(yōu)化奠定了基礎(chǔ)。神經(jīng)網(wǎng)絡(luò)的理論面紗,正逐步被揭開。

原來,神經(jīng)網(wǎng)絡(luò)實際上跟線性模型并沒那么大不同!

谷歌AI的研究人員日前在arxiv貼出一篇文章,給出了首個神經(jīng)網(wǎng)絡(luò)訓(xùn)練相關(guān)的理論證明。

實驗中,他們將一個實際的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程與線性模型的訓(xùn)練過程相比,發(fā)現(xiàn)兩者高度一致。這里用到的神經(jīng)網(wǎng)絡(luò)是一個wide ResNet,包括ReLU層、卷積層、pooling層和batch normalization;線性模型是用ResNet關(guān)于其初始(隨機)參數(shù)的泰勒級數(shù)建立的網(wǎng)絡(luò)。

將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程與線性模型的相比,兩者高度一致

在多個不同模型上試驗并排除量化誤差后,觀察結(jié)果依舊保持一致。由此,谷歌AI研究人員得出結(jié)論,當(dāng)學(xué)習(xí)率比較小且網(wǎng)絡(luò)足夠?qū)挘ú槐責(zé)o限寬)的時候,神經(jīng)網(wǎng)絡(luò)就是線性模型。

由此得出的一個推論是,使用梯度下降訓(xùn)練的大型網(wǎng)絡(luò)集成能夠用一個高斯過程描述,而且在梯度下降的任意時間都能用完備形式化描述這個高斯過程。

這些觀察結(jié)果也構(gòu)成了一個理論框架基礎(chǔ),可以用來初步解釋長期以來困擾深度學(xué)習(xí)研究界的一個難題:梯度下降究竟在哪些情況下,具體是如何優(yōu)于貝葉斯優(yōu)化?

在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)被戲謔為“調(diào)參煉丹”的當(dāng)下,這一發(fā)現(xiàn)猶如一道希望的強光,射進還被排除在“科學(xué)”之外的深度學(xué)習(xí)領(lǐng)域,激動人心。

相關(guān)論文:使用梯度下降訓(xùn)練的任意深度的Wide神經(jīng)網(wǎng)絡(luò)與線性模型的一致性

終于,調(diào)參不再是煉丹:首個關(guān)于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的理論證明

基于深度神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)模型在許多任務(wù)中取得了前所未有的性能。通常,這些模型被認(rèn)為是復(fù)雜系統(tǒng),其中許多類型的理論分析是很棘手的。此外,由于控制優(yōu)化的通常是高維的非凸損失平面(non-convex loss surfaces),因此要描述這些模型的基于梯度的訓(xùn)練動態(tài)機制具有挑戰(zhàn)性。

就像在物理科學(xué)中常見的那樣,研究這些系統(tǒng)的極限通??梢越忉屵@些難題。對于神經(jīng)網(wǎng)絡(luò)來說,其中一個極限就是它的“無限寬度”(infinite width),指的是完全連接層中的隱藏單元數(shù)量,或卷積層中的通道數(shù)量。

在此限制下,網(wǎng)絡(luò)初始化時的輸出取自高斯過程(GP);此外,在使用平方損失進行精確貝葉斯訓(xùn)練后,網(wǎng)絡(luò)輸出仍然由GP控制。除了理論上的簡單性,nfinite-width這一限制也具有實際意義,因為許多研究已經(jīng)證明,更寬的網(wǎng)絡(luò)可以更好地進行泛化。

在這項工作中,我們探索了梯度下降下寬的神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)動態(tài)機制(learning dynamics),并發(fā)現(xiàn)動態(tài)的權(quán)重空間描述變得非常簡單:隨著寬度變大,神經(jīng)網(wǎng)絡(luò)可以有效地被關(guān)于其初始化參數(shù)的一階泰勒展開式(first-order Taylor expansion)取代。

對于這種誘導(dǎo)的線性模型,梯度下降的動態(tài)機制變得易于分析了。雖然線性化只在無限寬度限制下是精確的,但我們發(fā)現(xiàn),即使是有限寬度的情況下,原始網(wǎng)絡(luò)的預(yù)測與線性化版本的預(yù)測仍然非常一致。這種一致性在不同的架構(gòu)、優(yōu)化方法和損失函數(shù)之間都存在。

對于平方損失(squared loss),精確的學(xué)習(xí)動態(tài)機制允許封閉形式的解決方案,這允許我們用GP來描述預(yù)測分布的演化。這一結(jié)果可以看作是“先采樣再優(yōu)化”(sample-then-optimize)后驗采樣對深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的延伸。我們的經(jīng)驗模擬證實,該結(jié)果準(zhǔn)確地模擬了具有不同隨機初始化的有限寬度模型集合中預(yù)測的變化。

谷歌AI的研究人員表示,這篇論文的幾大主要貢獻包括:

首先,我們以 Jacot et al. (2018) 最近的研究成果為基礎(chǔ),該成果描述了在infinite width 限制下,整個梯度下降訓(xùn)練過程中網(wǎng)絡(luò)輸出的精確動態(tài)。他們的結(jié)果證明了參數(shù)空間的梯度下降對應(yīng)于函數(shù)空間中關(guān)于新核的核梯度下降(kernel gradient descent),即Neural Tangent Kernel (NTK)。

我們工作的一個關(guān)鍵貢獻是證明了參數(shù)空間中的動態(tài)等價于所有網(wǎng)絡(luò)參數(shù)、權(quán)重和偏差集合中的仿射模型的訓(xùn)練動態(tài)。無論損失函數(shù)的選擇如何,這個結(jié)果都成立。在平方損失的情況下, dynamics允許一個封閉形式的解作為時間函數(shù)。

無限寬(infinitely wide)神經(jīng)網(wǎng)絡(luò)初始化時的輸出是高斯的,并且如Jacot et al.(2018)中所述,平方損失在整個訓(xùn)練過程中始終是高斯的。我們推導(dǎo)了該GP的均值和協(xié)方差函數(shù)的顯式時間依賴表達式,并為結(jié)果提供了新的解釋。

具體來說,該解釋對梯度下降與參數(shù)的貝葉斯后驗采樣的不同機制提供了一種定量理解:雖然這兩種方法都取自GP,但梯度下降不會從任何概率模型的后驗生成樣本。

這一觀察結(jié)果與(Matthews et al.,2017)的“先采樣后優(yōu)化”(sample-then-optimize)框架形成了對比,在該框架中,只訓(xùn)練頂層權(quán)重,梯度下降從貝葉斯后驗采樣。

這些觀察構(gòu)成了一個框架,用來分析長期存在的問題,如梯度下降是否、如何以及在何種情況下提供了相對于貝葉斯推理的具體好處。

正如Chizat & Bach (2018b)中論述的,這些理論結(jié)果可能過于簡單,無法適用于現(xiàn)實的神經(jīng)網(wǎng)絡(luò)。但是,我們通過實證研究證明了該理論在finite-width設(shè)置中的適用性,發(fā)現(xiàn)它準(zhǔn)確地描述了各種條件下的學(xué)習(xí)動態(tài)機制和后驗函數(shù)分布,包括一些實際的網(wǎng)絡(luò)架構(gòu),如Wide Residual Network(Zagoruyko & Komodakis, 2016)。

具體實驗:無限寬的神經(jīng)網(wǎng)絡(luò)就是線性模型

線性化網(wǎng)絡(luò)(linearized network)

此處,我們將考慮線性化網(wǎng)絡(luò)的訓(xùn)練動態(tài),具體地說,就是用一階泰勒展開代替神經(jīng)網(wǎng)絡(luò)的輸出:

值得注意的是,flint是兩項之和:第一項是網(wǎng)絡(luò)的初始輸出,在訓(xùn)練過程中保持不變;第二項是在訓(xùn)練過程中捕捉對初始值的變化。

使用這個線性化函數(shù)的梯度流的動態(tài)受到如下約束:

無限寬度限制產(chǎn)生高斯過程

當(dāng)隱藏層的寬度接近無窮大時,中心極限定理(CLT)意味著初始化{f0(x)}x∈X時的輸出在分布上收斂于多元高斯分布。這一點可以用歸納法非正式的進行證明。

因此,隨機初始化的神經(jīng)網(wǎng)絡(luò)對應(yīng)于一類高斯過程(以下簡稱NNGP),將有利于神經(jīng)網(wǎng)絡(luò)的完全貝葉斯處理。

梯度下降訓(xùn)練中的高斯過程

如果我們在初始化之后凍結(jié)變量θ≤L,并且只優(yōu)化θ≤L+1,那么原始網(wǎng)絡(luò)及其線性化是相同的。讓寬度趨于無窮,這個特殊的tangent kernel的概率將收斂于K。這是用于評估高斯過程后驗的“先采樣后優(yōu)化”方法的實現(xiàn)。

我們對比了NNGP、NTK-GP和NN集合的預(yù)測分布,如下圖所示:

訓(xùn)練神經(jīng)網(wǎng)絡(luò)輸出的均值和方差的動態(tài)遵循線性化的分析動態(tài)機制

黑線表示來自100個訓(xùn)練神經(jīng)網(wǎng)絡(luò)集合的預(yù)測輸出分布的時間演變; 藍色區(qū)域表示整個訓(xùn)練中輸出分布的分析預(yù)測;最后,紅色區(qū)域表示僅訓(xùn)練頂層的預(yù)測,對應(yīng)于NNGP。

受過訓(xùn)練的網(wǎng)絡(luò)有3個隱藏層,寬度為8192。陰影區(qū)域和虛線表示平均值的2個標(biāo)準(zhǔn)偏差。

無限寬度網(wǎng)絡(luò)是線性化網(wǎng)絡(luò)

原始網(wǎng)絡(luò)的常微分方程(ODE)在一般情況下是不可解的。在積分函數(shù)梯度范數(shù)保持隨機有界為n1,n2,…,nL→∞的技術(shù)假設(shè)下:

值得注意的是,上面公式中的上界只是理論性的,是根據(jù)經(jīng)驗觀察得到的:

訓(xùn)練過程中Relative Frobenius范數(shù)的改變

在MSE設(shè)置中,我們可以對原始網(wǎng)絡(luò)的輸出與其線性化輸出之間的差異進行上限:

對于非常寬的網(wǎng)絡(luò),我們可以用線性化動態(tài)機制來近似訓(xùn)練動態(tài)機制。

而從網(wǎng)絡(luò)線性化中獲得的另一個見解是,動態(tài)機制等效于隨機特征法,其中,特征是模型相對于其權(quán)重的梯度。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103651
  • 梯度
    +關(guān)注

    關(guān)注

    0

    文章

    30

    瀏覽量

    10495
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134635
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)在多個方面存在顯著差異,以下是對兩者的比較: 一、結(jié)構(gòu)特點 BP神經(jīng)網(wǎng)絡(luò) : BP神經(jīng)網(wǎng)絡(luò)是一種多層的前饋神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 02-12 15:53 ?673次閱讀

    如何優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率

    優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率是提高模型訓(xùn)練效率和性能的關(guān)鍵步驟。以下是一些優(yōu)化BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率的方法: 一、理解學(xué)習(xí)率的重要性 學(xué)習(xí)率決定了模型參數(shù)在每次迭代時更新的幅度。過大的學(xué)習(xí)率可能導(dǎo)致模型在
    的頭像 發(fā)表于 02-12 15:51 ?942次閱讀

    BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點分析

    自學(xué)習(xí)能力 : BP神經(jīng)網(wǎng)絡(luò)能夠通過訓(xùn)練數(shù)據(jù)自動調(diào)整網(wǎng)絡(luò)參數(shù),實現(xiàn)對輸入數(shù)據(jù)的分類、回歸等任務(wù),無需人工進行復(fù)雜的特征工程。 泛化能力強 : BP神經(jīng)網(wǎng)絡(luò)通過
    的頭像 發(fā)表于 02-12 15:36 ?926次閱讀

    什么是BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法

    BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法(Backpropagation Algorithm)是一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的有效方法。以下是關(guān)于BP神經(jīng)網(wǎng)絡(luò)的反
    的頭像 發(fā)表于 02-12 15:18 ?775次閱讀

    BP神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的關(guān)系

    ),是一種多層前饋神經(jīng)網(wǎng)絡(luò),它通過反向傳播算法進行訓(xùn)練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、一個或多個隱藏層和輸出層組成,通過逐層遞減的方式調(diào)整網(wǎng)絡(luò)權(quán)重,目的是最小化
    的頭像 發(fā)表于 02-12 15:15 ?863次閱讀

    如何訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型

    BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是一種經(jīng)典的人工神經(jīng)網(wǎng)絡(luò)模型,其訓(xùn)練過程主要分為兩個階段:前向傳播和反向傳播。以下是訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 02-12 15:10 ?927次閱讀

    深度學(xué)習(xí)入門:簡單神經(jīng)網(wǎng)絡(luò)的構(gòu)建與實現(xiàn)

    深度學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)是核心模型。今天我們用 Python 和 NumPy 構(gòu)建一個簡單的神經(jīng)網(wǎng)絡(luò)。 神經(jīng)網(wǎng)絡(luò)由多個神經(jīng)元組成,
    的頭像 發(fā)表于 01-23 13:52 ?532次閱讀

    人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

    在上一篇文章中,我們介紹了傳統(tǒng)機器學(xué)習(xí)的基礎(chǔ)知識和多種算法。在本文中,我們會介紹人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法,供各位老師選擇。 01 人工神經(jīng)網(wǎng)絡(luò) ? 人工神經(jīng)網(wǎng)絡(luò)模型之所
    的頭像 發(fā)表于 01-09 10:24 ?1209次閱讀
    人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>架構(gòu)方法

    卷積神經(jīng)網(wǎng)絡(luò)的實現(xiàn)工具與框架

    : TensorFlow是由Google Brain團隊開發(fā)的開源機器學(xué)習(xí)框架,它支持多種深度學(xué)習(xí)模型的構(gòu)建和訓(xùn)練,包括卷積神經(jīng)網(wǎng)絡(luò)。TensorFlow以其靈活性和可擴展性而聞名,適用于研究和生產(chǎn)環(huán)境。 特點: 靈活性: Te
    的頭像 發(fā)表于 11-15 15:20 ?672次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較

    深度學(xué)習(xí)領(lǐng)域,神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于各種任務(wù),如圖像識別、自然語言處理和游戲智能等。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)是兩種常見的模型。 1. 結(jié)構(gòu)差異 1.1 傳統(tǒng)
    的頭像 發(fā)表于 11-15 14:53 ?1878次閱讀

    深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)模型

    深度學(xué)習(xí)近年來在多個領(lǐng)域取得了顯著的進展,尤其是在圖像識別、語音識別和自然語言處理等方面。卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一個分支,因其在圖像處理任務(wù)中的卓越性能而受到廣泛關(guān)注。 卷積神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-15 14:52 ?847次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)準(zhǔn)備方法

    LSTM(Long Short-Term Memory,長短期記憶)神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)準(zhǔn)備方法是一個關(guān)鍵步驟,它直接影響到模型的性能和效果。以下是一些關(guān)于LSTM神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-13 10:08 ?2123次閱讀

    關(guān)于卷積神經(jīng)網(wǎng)絡(luò),這些概念你厘清了么~

    許多種類型,但本文將只關(guān)注卷積神經(jīng)網(wǎng)絡(luò)(CNN),其主要應(yīng)用領(lǐng)域是對輸入數(shù)據(jù)的模式識別和對象分類。CNN是一種用于深度學(xué)習(xí)的 人工神經(jīng)網(wǎng)絡(luò) 。這種網(wǎng)絡(luò)由輸入層、若干卷積層和輸出層組成。
    發(fā)表于 10-24 13:56

    【飛凌嵌入式OK3576-C開發(fā)板體驗】RKNN神經(jīng)網(wǎng)絡(luò)算法開發(fā)環(huán)境搭建

    download_model.sh 腳本,該腳本 將下載一個可用的 YOLOv5 ONNX 模型,并存放在當(dāng)前 model 目錄下,參考命令如下: 安裝COCO數(shù)據(jù)集,在深度神經(jīng)網(wǎng)絡(luò)算法中,模型的訓(xùn)練離不開大量的數(shù)據(jù)集,數(shù)據(jù)
    發(fā)表于 10-10 09:28

    FPGA在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)作為其核心算法之一,在圖像識別、語音識別、自然語言處理等領(lǐng)域取得了顯著成果。然而,傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-24 10:42 ?1209次閱讀