一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)方法「ReZero」

倩倩 ? 來源:機(jī)器之心Pro ? 2020-04-17 09:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

深度學(xué)習(xí)在眾多領(lǐng)域都取得了顯著進(jìn)展,但與此同時(shí)也存在一個(gè)問題:深層網(wǎng)絡(luò)的訓(xùn)練常常面臨梯度消失或梯度爆炸的阻礙,尤其是像 Transformer 這樣的大型網(wǎng)絡(luò)?,F(xiàn)在,加州大學(xué)圣迭戈分校的研究者提出了一種名為 ReZero 的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)方法,并使用 ReZero 訓(xùn)練了具有一萬層的全連接網(wǎng)絡(luò),以及首次訓(xùn)練了超過 100 層的 Tansformer,效果都十分驚艷。

深度學(xué)習(xí)在計(jì)算機(jī)視覺、自然語言處理等領(lǐng)域取得了很多重大突破。神經(jīng)網(wǎng)絡(luò)的表達(dá)能力通常隨著其網(wǎng)絡(luò)深度呈指數(shù)增長(zhǎng),這一特性賦予了它很強(qiáng)的泛化能力。然而深層的網(wǎng)絡(luò)也產(chǎn)生了梯度消失或梯度爆炸,以及模型中的信息傳遞變差等一系列問題。研究人員使用精心設(shè)計(jì)的權(quán)值初始化方法、BatchNorm 或 LayerNorm 這類標(biāo)準(zhǔn)化技術(shù)來緩解以上問題,然而這些技術(shù)往往會(huì)耗費(fèi)更多計(jì)算資源,或者存在其自身的局限。

近日,來自加州大學(xué)圣迭戈分校(UCSD)的研究者提出一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)方法「ReZero」,它能夠動(dòng)態(tài)地加快優(yōu)質(zhì)梯度和任意深層信號(hào)的傳播。

論文地址:https://arxiv.org/abs/2003.04887v1

代碼地址:https://github.com/majumderb/rezero

這個(gè)想法其實(shí)非常簡(jiǎn)單:ReZero 將所有網(wǎng)絡(luò)層均初始化為恒等映射。在每一層中,研究者引入了一個(gè)關(guān)于輸入信號(hào) x 的殘差連接和一個(gè)用于調(diào)節(jié)當(dāng)前網(wǎng)絡(luò)層輸出 F(x) 的可訓(xùn)練參數(shù)α,即:

在剛開始訓(xùn)練的時(shí)候?qū)ⅵ猎O(shè)置為零。這使得在神經(jīng)網(wǎng)絡(luò)訓(xùn)練初期,所有組成變換 F 的參數(shù)所對(duì)應(yīng)的梯度均消失了,之后這些參數(shù)在訓(xùn)練過程中動(dòng)態(tài)地產(chǎn)生合適的值。改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:

圖 1:ReZero 結(jié)構(gòu)示意圖

ReZero 主要帶來了以下兩個(gè)益處:

1. 能夠訓(xùn)練更深層神經(jīng)網(wǎng)絡(luò)

學(xué)習(xí)信號(hào)能夠有效地在深層神經(jīng)網(wǎng)絡(luò)中傳遞,這使得我們能夠訓(xùn)練一些之前所無法訓(xùn)練的網(wǎng)絡(luò)。研究者使用 ReZero 成功訓(xùn)練了具有一萬層的全連接網(wǎng)絡(luò),首次訓(xùn)練了超過 100 層的 Tansformer 并且沒有使用學(xué)習(xí)速率熱身和 LayerNorm 這些奇技淫巧。

2. 更快的收斂速度

與帶有標(biāo)準(zhǔn)化操作的常規(guī)殘差網(wǎng)絡(luò)相比,ReZero 的收斂速度明顯更快。當(dāng) ReZero 應(yīng)用于 Transformer 時(shí),在 enwiki8 語言建模基準(zhǔn)上,其收斂速度比一般的 Transformer 快 56%,達(dá)到 1.2BPB。當(dāng) ReZero 應(yīng)用于 ResNet,在 CIFAR 10 上可實(shí)現(xiàn) 32% 的加速和 85% 的精度。

ReZero (residual with zero initialization)

ReZero 對(duì)深度殘差網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了簡(jiǎn)單的更改,可促進(jìn)動(dòng)態(tài)等距(dynamical isometry)并實(shí)現(xiàn)對(duì)極深網(wǎng)絡(luò)的有效訓(xùn)練。研究者在初始階段沒有使用那些非平凡函數(shù) F[W_i] 傳遞信號(hào),而是添加了一個(gè)殘差連接并通過初始為零的 L 個(gè)可學(xué)習(xí)參數(shù)α_i(作者稱其為殘差權(quán)重)來重新縮放該函數(shù)。目前,信號(hào)根據(jù)以下方式進(jìn)行傳遞:

在初始階段,該網(wǎng)絡(luò)表示為恒等函數(shù)并且普遍滿足動(dòng)態(tài)等距關(guān)系。在該架構(gòu)修改中,即使某一層的 Jacobian 值消失,也可以訓(xùn)練深度網(wǎng)絡(luò)(正如 ReLU 激活函數(shù)或自注意力機(jī)制出現(xiàn)這樣的狀況)。這一技術(shù)還可以在現(xiàn)有的已訓(xùn)練網(wǎng)絡(luò)上添加新層。

實(shí)驗(yàn)結(jié)果

更快的深層全連接網(wǎng)絡(luò)訓(xùn)練

圖 3 展示了訓(xùn)練損失的演變過程。在一個(gè)簡(jiǎn)單實(shí)驗(yàn)中,一個(gè)使用了 ReZero 的 32 層網(wǎng)絡(luò),擬合訓(xùn)練數(shù)據(jù)的收斂速度相比其他技術(shù)快了 7 到 15 倍。值得注意的是,與常規(guī)的全連接網(wǎng)絡(luò)相比,殘差連接在沒有額外的標(biāo)準(zhǔn)化層時(shí)會(huì)降低收斂速度。這可能是因?yàn)槌跏蓟A段信號(hào)的方差并不獨(dú)立于網(wǎng)絡(luò)深度。

隨著深度的增加,ReZero 架構(gòu)的優(yōu)勢(shì)更加明顯。為了驗(yàn)證該架構(gòu)可用于深度網(wǎng)絡(luò)訓(xùn)練,研究者在一臺(tái)配備 GPU 的筆記本電腦上成功訓(xùn)練了多達(dá) 1 萬層的全連接 ReZero 網(wǎng)絡(luò),使其在訓(xùn)練數(shù)據(jù)集上過擬合。

圖 3:256 寬度和 ReLU 激活的 32 層全連接網(wǎng)絡(luò)四種變體,在訓(xùn)練過程中的交叉熵?fù)p失。

更快的深層 Transformer 訓(xùn)練

研究者提出,常規(guī)的 Transformer 會(huì)抑制深層信號(hào)傳遞,他們?cè)谳斎胄蛄?x 的 n x d 個(gè) entry 的無窮小變化下評(píng)估其變化,獲得注意力處理的輸入-輸出 Jacobian,從而驗(yàn)證了之前的觀點(diǎn)。

圖 5a 展示了不同深度中使用 Xavier 統(tǒng)一初始化權(quán)重的 Transformer 編碼層的輸入-輸出 Jacobian 值。淺層的 Transformer 表現(xiàn)出峰值在零點(diǎn)附近的單峰分布,可以發(fā)現(xiàn),深層結(jié)構(gòu)中 Jacobian 出現(xiàn)了大量超出計(jì)算精度的峰值。雖然這些分布取決于不同初始化方法,但以上量化的結(jié)論在很大范圍內(nèi)是成立的。這些結(jié)果與普遍認(rèn)為的相一致,也就是深層 Transformer 很難訓(xùn)練。

圖 5:多個(gè)輸入-輸出 Jacobian 矩陣中對(duì)數(shù)奇異值λ_io 的直方圖。(a)層數(shù)分別為 4、12、64 層的 Transformer 編碼器網(wǎng)絡(luò);(b)是 64 層時(shí)訓(xùn)練前和訓(xùn)練中的 ReZero Transformer 編碼器網(wǎng)絡(luò)。深層 Transformer 距離動(dòng)態(tài)等距很遠(yuǎn),即λ_io 1,而 ReZero Transformer 更接近動(dòng)態(tài)等距,平均奇異值 λ_io ≈ 1。

能夠在多項(xiàng) NLP 任務(wù)中實(shí)現(xiàn) SOTA 的 Transformer 模型通常是小于 24 層的,這項(xiàng)研究中,最深層模型最多使用了 78 層,并且需要 256 個(gè) GPU 來訓(xùn)練。研究者又將這一模型擴(kuò)展至數(shù)百個(gè) Transformer 層,并且仍然可以在臺(tái)式機(jī)上訓(xùn)練。為了檢查該方法是否可以擴(kuò)展至更深層的 Transformer 模型之上,研究者將 ReZero Transformer 拓展到了 64 及 128 層,并與普通 Transformer 進(jìn)行了對(duì)比。

結(jié)果顯示,收斂之后,12 層的 ReZero Transformer 與常規(guī)的 Transformer 取得了相同的 BPB。也就是說,用 ReZero 來替代 LayerNorm 不會(huì)失去任何模型表現(xiàn)。訓(xùn)練普通的 Transformer 模型會(huì)導(dǎo)致收斂困難或訓(xùn)練緩慢。當(dāng)達(dá)到 64 層時(shí),普通的 Transformer 模型即使用了 warm-up 也無法收斂。ReZero Transformer 在α初始化為 1 時(shí)發(fā)散,從而支持了α = 0 的初始化理論。深層的 ReZero Transformer 比淺層的 Transformer 表現(xiàn)出了更優(yōu)越的性能。

表 3:在 enwiki8 測(cè)試集上的 Transformers (TX) 對(duì)比。

收斂速度比較

選擇 enwiki8 上的語言建模作為基準(zhǔn),因?yàn)檩^難的語言模型是 NLP 任務(wù)性能的良好指標(biāo)。在實(shí)驗(yàn)中,其目標(biāo)是通過測(cè)量 12 層的 Transformer 在 enwiki8 上達(dá)到 1.2 位每字節(jié)(BPB)所需的迭代次數(shù),由此來衡量所提出的每種方法的收斂速度。

表二:針對(duì) ReZero 的 12 層 Transformers 歸一化后與 enwiki8 驗(yàn)證集上達(dá)到 1.2 BPB 時(shí)所需的訓(xùn)練迭代比較。

更快的殘差網(wǎng)絡(luò)訓(xùn)練

通過前述部分,看到了 ReZero 的連接是如何使深層網(wǎng)絡(luò)的訓(xùn)練成為可能的,并且這些深層網(wǎng)絡(luò)都包含會(huì)消失的 Jacobian 奇異值,例如 ReLU 激活或自我注意力。但是,如果沒有 ReZero 的連接或者是其他架構(gòu)的更改,其中某些架構(gòu)將無法執(zhí)行訓(xùn)練。在本節(jié)中,會(huì)將 ReZero 連接應(yīng)用于深層殘差網(wǎng)絡(luò)從而進(jìn)行圖像識(shí)別。

雖然這些網(wǎng)絡(luò)并不需要 ReZero 連接便可以進(jìn)行訓(xùn)練,但通過觀察發(fā)現(xiàn),在 CIFAR-10 數(shù)據(jù)集上訓(xùn)練的 ResNet56 model4(最多 200 個(gè) epochs)的驗(yàn)證誤差得到了非常明顯的提升:從(7.37±0.06)%到(6.46±0.05)%。這一效果是將模型中的所有殘差連接轉(zhuǎn)換為 ReZero 連接之后得到的。在實(shí)施 ReZero 之后,驗(yàn)證誤差降低到 15%以下的次數(shù)也減少了(32±14)%。盡管目前這些結(jié)果只提供了有限的信息,但它們?nèi)灾赋隽?ReZero 連接擁有更廣泛的適用性,從而也推進(jìn)了進(jìn)一步的研究。

上手實(shí)操

項(xiàng)目地址:

https://github.com/majumderb/rezero

在此提供了自定義的 ReZero Transformer 層(RZTX),比如以下操作將會(huì)創(chuàng)建一個(gè) Transformer 編碼器:

import torchimport torch.nn as nnfrom rezero.transformer import RZTXEncoderLayerencoder_layer = RZTXEncoderLayer(d_model=512, nhead=8)transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=6)src = torch.rand(10, 32, 512)out = transformer_encoder(src)

創(chuàng)建一個(gè) Transformer 解碼器:

import torchimport torch.nn as nnfrom rezero.transformer import RZTXDecoderLayerdecoder_layer = RZTXDecoderLayer(d_model=512, nhead=8)transformer_decoder = nn.TransformerDecoder(decoder_layer, num_layers=6)memory = torch.rand(10, 32, 512)tgt = torch.rand(20, 32, 512)out = transformer_decoder(tgt, memory)

注意確保 norm 參數(shù)保留為 None,以免在 Transformer 中用到 LayerNorm。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3796

    瀏覽量

    138011
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103575
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    628

    瀏覽量

    14155
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    無刷電機(jī)小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測(cè)方法的研究

    摘要:論文通過對(duì)無刷電機(jī)數(shù)學(xué)模型的推導(dǎo),得出轉(zhuǎn)角:與三相相電壓之間存在映射關(guān)系,因此構(gòu)建了個(gè)以三相相電壓為輸人,轉(zhuǎn)角為輸出的小波神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)轉(zhuǎn)角預(yù)測(cè),并采用改進(jìn)遺傳算法來訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)
    發(fā)表于 06-25 13:06

    BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)原則

    BP(back propagation)神經(jīng)網(wǎng)絡(luò)一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)原則主要基于以下幾個(gè)方面:
    的頭像 發(fā)表于 02-12 16:41 ?739次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)在多個(gè)方面存在顯著差異,以下是對(duì)兩者的比較: 、結(jié)構(gòu)特點(diǎn) BP神經(jīng)網(wǎng)絡(luò) : BP
    的頭像 發(fā)表于 02-12 15:53 ?662次閱讀

    什么是BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法

    BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法(Backpropagation Algorithm)是一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的有效方法。以下是關(guān)于BP神經(jīng)網(wǎng)絡(luò)的反
    的頭像 發(fā)表于 02-12 15:18 ?765次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系

    ),是一種多層前饋神經(jīng)網(wǎng)絡(luò),它通過反向傳播算法進(jìn)行訓(xùn)練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、個(gè)或多個(gè)隱藏層和輸出層組成,通過逐層遞減的方式調(diào)整網(wǎng)絡(luò)權(quán)重,
    的頭像 發(fā)表于 02-12 15:15 ?851次閱讀

    BP神經(jīng)網(wǎng)絡(luò)的基本原理

    BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)的基本原理涉及前向傳播和反向傳播兩個(gè)核心過程。以下是關(guān)于BP神經(jīng)網(wǎng)絡(luò)基本原理的介紹: 、網(wǎng)絡(luò)結(jié)構(gòu) BP
    的頭像 發(fā)表于 02-12 15:13 ?847次閱讀

    人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

    在上篇文章中,我們介紹了傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)和多種算法。在本文中,我們會(huì)介紹人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法,供各位老師選擇。 01 人工
    的頭像 發(fā)表于 01-09 10:24 ?1183次閱讀
    人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>架構(gòu)<b class='flag-5'>方法</b>

    文詳解物理信息神經(jīng)網(wǎng)絡(luò)

    物理信息神經(jīng)網(wǎng)絡(luò) (PINN) 是一種神經(jīng)網(wǎng)絡(luò),它將微分方程描述的物理定律納入其損失函數(shù)中,以引導(dǎo)學(xué)習(xí)過程得出更符合基本物理定律的解。
    的頭像 發(fā)表于 12-05 16:50 ?8338次閱讀
    <b class='flag-5'>一</b>文詳解物理信息<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>

    卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較

    在深度學(xué)習(xí)領(lǐng)域,神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于各種任務(wù),如圖像識(shí)別、自然語言處理和游戲智能等。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)是兩常見的模型。 1.
    的頭像 發(fā)表于 11-15 14:53 ?1866次閱讀

    RNN模型與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的區(qū)別

    傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(前饋神經(jīng)網(wǎng)絡(luò)) 2.1 結(jié)構(gòu) 傳統(tǒng)神經(jīng)網(wǎng)絡(luò),通常指的是前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Networks,
    的頭像 發(fā)表于 11-15 09:42 ?1125次閱讀

    基于LSTM神經(jīng)網(wǎng)絡(luò)的情感分析方法

    能力而受到廣泛關(guān)注。 1. 引言 情感分析在商業(yè)智能、客戶服務(wù)、社交媒體監(jiān)控等領(lǐng)域具有廣泛的應(yīng)用。傳統(tǒng)的情感分析方法依賴于手工特征提取和機(jī)器學(xué)習(xí)算法,但這些方法往往難以處理文本中的長(zhǎng)距離依賴關(guān)系。LSTM作為一種循環(huán)
    的頭像 發(fā)表于 11-13 10:15 ?1273次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與工作機(jī)制

    LSTM(Long Short-Term Memory,長(zhǎng)短期記憶)神經(jīng)網(wǎng)絡(luò)一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),設(shè)計(jì)用于解決長(zhǎng)期依賴問題,特別是在處理時(shí)間序列數(shù)據(jù)時(shí)表現(xiàn)出色。以下是LSTM神經(jīng)
    的頭像 發(fā)表于 11-13 10:05 ?1629次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)的調(diào)參技巧

    長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它能夠?qū)W習(xí)長(zhǎng)期依賴信息。在實(shí)際應(yīng)用中,LSTM網(wǎng)絡(luò)的調(diào)參是
    的頭像 發(fā)表于 11-13 10:01 ?1857次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)RNN的區(qū)別

    神經(jīng)網(wǎng)絡(luò)(RNN) RNN的基本結(jié)構(gòu) RNN是一種特殊的神經(jīng)網(wǎng)絡(luò),它能夠處理序列數(shù)據(jù)。在RNN中,每個(gè)時(shí)間步的輸入都會(huì)通過個(gè)循環(huán)
    的頭像 發(fā)表于 11-13 09:58 ?1208次閱讀

    UNet模型屬于哪種神經(jīng)網(wǎng)絡(luò)

    U-Net模型屬于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的一種特殊形式 。它最初由德國(guó)弗萊堡大學(xué)計(jì)算機(jī)科學(xué)系的研究人員在2015年提出,專為生物醫(yī)學(xué)圖像
    的頭像 發(fā)表于 07-24 10:59 ?5537次閱讀