一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

網(wǎng)絡架構對ResNet訓練時間有什么影響

zhKF_jqr_AI ? 來源:未知 ? 作者:易水寒 ? 2018-11-17 11:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

目前為止,我們使用的都是固定網(wǎng)絡架構,即在CIFAR10上用單個GPU最快的DAWNBench記錄,經(jīng)過簡單改變,我們將網(wǎng)絡達到94%精度的時間從341秒縮短至154秒。今天,我們要研究其他的替代性架構。

讓我們先回顧下目前所用的網(wǎng)絡:

粉色的殘差塊包含了一個identity shortcut并保留了輸入的空間和通道維度:

淺綠色的下采樣模塊將空間分辨率降低兩倍,輸出通道的數(shù)量增加一倍:

加入殘差模塊的原因是通過在網(wǎng)絡中創(chuàng)建shortcut讓優(yōu)化變得更簡單。我們希望較短的路徑代表相對容易訓練的淺層子網(wǎng)絡,而較長的路徑可以增加網(wǎng)絡的能力和計算深度。這樣一來,研究最短路徑如何通過網(wǎng)絡孤立訓練,并且如何采取措施進行改進似乎是合理的。

清除長分支會生成一下主要網(wǎng)絡,其中除了第一個網(wǎng)絡,所有的卷積網(wǎng)絡的步長都為2:

在接下來的實驗中,我們會訓練20個epoch,利用比之前學習速率更快速的版本訓練,因為網(wǎng)絡較小,收斂得更快。復現(xiàn)這一結果的代碼在此:github.com/davidcpage/cifar10-fast/blob/master/experiments.ipynb

對最短的路徑網(wǎng)絡訓練20個epoch,在36秒內的測試精度僅達到55.9%。刪除掉重復的批標準化ReLU群組,將訓練時間縮短到32秒,但是測試精度仍然不變。

這一網(wǎng)絡有個嚴重的缺陷,即下采樣卷積有1×1的核以及為2的步長,所以與其擴大接受域,它們反而會拋棄信息。如果我們用3×3的卷積替換,測試精度在36秒的訓練后達到了85.6%。

我們還能繼續(xù)對下采樣進行優(yōu)化,使用3×3、步長為1的卷積,并且后面跟一個池化層。我們選擇最大池化和2×2的窗口大小,43秒訓練后的測試精度為89.7%。用平均池化法得到相似的結果,但時間稍長。

分類器前的最后一個池化層是全局平均池化層和最大池化層的連接,從原始網(wǎng)絡中得來。我們用更標準的全局最大池化層替換它,并且將最終的卷積層的輸出維度變?yōu)樵瓉淼膬杀?,對輸入維度進行補償,最終在47秒內,測試精度達到了90.7%。注意,這一階段的平均池化層并不如最大池化層。

默認情況下,在PyTorch0.4中,初始批規(guī)范化的范圍在0到1之間隨機選擇。初始接近0的通道可能被浪費,所以我們用常數(shù)1來替代。這導致通過網(wǎng)絡中的信號更大。為了補償,我們提出了一種整體恒定懲罰對分類器進行重新調整。對這一額外超參數(shù),大致的手動優(yōu)化值是0.125。經(jīng)過這些改變,經(jīng)過20個epoch的訓練,網(wǎng)絡在47秒內達到了91.1%的測試精度。

下表總結了我們上文中提到的各種改進步驟:

現(xiàn)在的網(wǎng)絡看起來沒什么問題了,接下來我們要進行收益遞減,添加一些圖層。目前網(wǎng)絡僅有5個圖層(四個卷積,一個全連接層),所以還不確定我們是否需要殘差分支,或者添加額外的層后能否得到94%的目標精確度。

如果只增加寬度似乎不可行。如果我們讓通道維度增加一倍,訓練60個epoch后,可以達到93.5%的精確度,但是會用321秒。

在增加網(wǎng)絡深度方面,我們還面臨著多種問題,例如不同的殘差分支類型、深度和寬度以及新的超參數(shù),例如初始范圍和殘差分支的偏見。為了讓結果更進一步,我們要嚴格限制搜索空間,所以,不能調整任何新的超參數(shù)。

特別的是,我們要考慮兩種類型的網(wǎng)絡。第一種是選擇性地在每個最大池化層后添加一個卷積層。第二種是添加一個含有兩部分3×3卷積的殘差塊,其中有identity shortcut,也是在最大池化層之后添加。

我們在最后卷積模塊后、全局最大池化層之前插入了一個2×2的最大池化層。是否添加新層要根據(jù)不同情況決定,我們還考慮混合兩種類型,但這并沒有提升性能,所以我們就不在此展開了。

下圖是第一種網(wǎng)絡示例,其中我們在第二個最大池化層之后添加了額外的卷積:

下圖是第二種網(wǎng)絡示例,其中我們在第一和第三層之后添加了殘差分支:

現(xiàn)在要開始“暴力”架構搜索了!我們訓練了15種網(wǎng)絡(經(jīng)過改進的原始網(wǎng)絡和上述兩類網(wǎng)絡中每類的7種變體),各訓練20個epoch,另外還對比了訓練22個epoch的結果,了解訓練時間增長和更深的網(wǎng)絡架構之間的差別。如果每個實驗僅運行一次,就會花費30分鐘的計算時間。但不幸的是,每次最終測試精度的標準偏差約為0.15%。所以為了得出準確的結果,我們會對每個實驗運行10次,將每個數(shù)據(jù)點的標準偏差控制在0.05%左右。即便如此,不同架構之間從20到22個epoch運行后改進率之間的差異主要可能是噪音。

以下是結果,點表示20個epoch和精確度,線條的延伸表示22個epoch的結果:

與運用更深層的架構所得到的進步相比,訓練更長時間所得到的進步速度似乎很慢。在測試的框架中,最有前景的或許是Residual:L1+L3。網(wǎng)絡在66秒內達到了93.8%的精確度,如果我們將訓練擴展到24個epoch,平均精確度為94.08%,訓練時間為79秒。

目前為止,我們已經(jīng)得到了一個9層的深度殘差網(wǎng)絡,能在79秒內達到94%的訓練精確度,幾乎將訓練時間縮短了一半。最后還有一個問題:我們是否真的需要殘差分支才能讓測試精確度達到94%?答案顯然是否定的。例如,單一的分支網(wǎng)絡Extra:L1+L2+L3能在180秒、60個epoch內達到95%的精確度,加上正則化或更寬的版本后,精確度會更高。但是至少在現(xiàn)在最快的是一個殘差網(wǎng)絡。

結語

本文結束前,讓我們再簡單回顧一下研究的目的。很多觀點認為,訓練模型在CIAFR10上達到94%的測試精確度是無意義的行為,應為現(xiàn)在最高的精確度都達到98%了(另外還有人認為現(xiàn)在ImageNet才是“唯一”的數(shù)據(jù)集,其他實驗只是浪費時間罷了)。

事實上,我們可以通過9層網(wǎng)絡在24個epoch內達到94%的精確度,這也再次說明我們的目標門檻過低。另一方面,人類在CIFAR10上的表現(xiàn)也在94%左右,所以這一情況并不清楚。

在某種程度上,現(xiàn)在的精確度是一種“病態(tài)”的目標,只追求更大的模型、調整更多超參數(shù)、更多數(shù)據(jù)增強或者更長的訓練時間,讓各種工作之間的比較更難。另外,在訓練或結構設計上的創(chuàng)新會帶來額外的超參數(shù)維度,并且調整這些參數(shù)可能會導致有關訓練更好的隱式優(yōu)化,否則這些與研究中的擴展無關。如果基礎模型的外顯超參數(shù)的維度空間較低,那么通常被認為是最佳的對比試驗無法解決該問題。這種情況的結果是,最先進的模型難以進行比較、復現(xiàn)、重建。

有了這些問題,我們認為任何能輕易在各項實驗中進行比較的都是有益的。我們相信創(chuàng)建有競爭力的基準也是應對挑戰(zhàn)的一種方法。資源的限制讓各實驗之間的比較更公平,減少了為了培訓所需要做的調整。模型多余的復雜性可能會受到資源限制基線的懲罰,哪些明確控制相關參數(shù)的方法通常會獲勝。

最近,根據(jù)模型推理時間或模型大小公布曲線越來越多。這對于優(yōu)化和解決上面的問題來說都是積極的方法,但我們相信訓練時間所帶來的額外正則化會有更多好處。另一方面,優(yōu)化訓練時間并不考慮推理成本是否是次優(yōu)的,這也是為什么我們的訓練時間結構總是包含測量每個epoch中測試集的時間,并且我們避免了類似測試時間增強等技術,它可以在推理時減少訓練時間。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4948

    瀏覽量

    131250
  • 網(wǎng)絡架構

    關注

    1

    文章

    96

    瀏覽量

    12916

原文標題:如何訓練你的ResNet(四):網(wǎng)絡架構對訓練時間的影響

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    深度學習與圖神經(jīng)網(wǎng)絡學習分享:CNN經(jīng)典網(wǎng)絡之-ResNet

    深度學習與圖神經(jīng)網(wǎng)絡學習分享:CNN 經(jīng)典網(wǎng)絡之-ResNet resnet 又叫深度殘差網(wǎng)絡 圖像識別準確率很高,主要作者是國人哦 深度
    的頭像 發(fā)表于 10-12 09:54 ?1337次閱讀
    深度學習與圖神經(jīng)<b class='flag-5'>網(wǎng)絡</b>學習分享:CNN經(jīng)典<b class='flag-5'>網(wǎng)絡</b>之-<b class='flag-5'>ResNet</b>

    一文讀懂物體分類AI算法:LeNet-5 AlexNet VGG Inception ResNet MobileNet

    %左右,遠低于人眼的5.1%。本文主要講解各種網(wǎng)絡模型的結構,他們的特點,以及這些特點為何能減少訓練時間和降低錯誤率。2 LeNet-5LeNet-5的出現(xiàn)標志著CNN卷積神經(jīng)網(wǎng)絡在A
    發(fā)表于 06-07 17:26

    優(yōu)化神經(jīng)網(wǎng)絡訓練方法哪些?

    優(yōu)化神經(jīng)網(wǎng)絡訓練方法哪些?
    發(fā)表于 09-06 09:52

    如何進行高效的時序圖神經(jīng)網(wǎng)絡訓練

    現(xiàn)有的圖數(shù)據(jù)規(guī)模極大,導致時序圖神經(jīng)網(wǎng)絡訓練需要格外長的時間,因此使用多GPU進行訓練變得成為尤為重要,如何有效地將多GPU用于時序圖神經(jīng)網(wǎng)絡
    發(fā)表于 09-28 10:37

    YOLOv6中的用Channel-wise Distillation進行的量化感知訓練

    1、YOLOv6中的用Channel-wise Distillation進行的量化感知訓練來自哪里  知識蒸餾 (KD)已被證明是一種用于訓練緊湊密集預測模型的簡單有效的工具。輕量級學生網(wǎng)絡通過
    發(fā)表于 10-09 16:25

    【CANN訓練營第三季】基于Caffe ResNet-50網(wǎng)絡實現(xiàn)圖片分類

    【CANN訓練營第三季】基于Caffe ResNet-50網(wǎng)絡實現(xiàn)圖片分類
    發(fā)表于 12-19 22:34

    形象的理解深度網(wǎng)絡架構?

    在過去幾年里,許多計算機視覺相關的深度學習的發(fā)展,都可以歸結于少數(shù)幾個神經(jīng)網(wǎng)絡架構。拋開所有關于數(shù)學、代碼和實現(xiàn)的細節(jié),來探索一個簡單的問題:這些模型如何工作以及為什么工作? 在撰寫
    發(fā)表于 09-22 17:05 ?0次下載
    形象的理解深度<b class='flag-5'>網(wǎng)絡</b><b class='flag-5'>架構</b>?

    索尼發(fā)布新的方法,在ImageNet數(shù)據(jù)集上224秒內成功訓練ResNet-50

    近年來,許多研究人員提出了多種方案來解決這兩個問題(見原文參考文獻)。這些工作利用ImageNet/ResNet-50訓練來衡量訓練效果。ImageNet/ResNet-50分別是最流
    的頭像 發(fā)表于 11-16 10:01 ?1w次閱讀

    百度大腦EdgeBoard計算卡基于Resnet50/Mobile-SSD模型的性能評測

    GPU: V100 16GB VMem Edgeboard 訓練模型 模型使用AIStudio 進行訓練,RESNET、MOBILE訓練和預測代碼
    發(fā)表于 10-30 07:32 ?1236次閱讀

    首個關于深度神經(jīng)網(wǎng)絡訓練相關的理論證明

    實驗中,他們將一個實際的神經(jīng)網(wǎng)絡訓練過程與線性模型的訓練過程相比,發(fā)現(xiàn)兩者高度一致。這里用到的神經(jīng)網(wǎng)絡是一個wide ResNet,包括Re
    的頭像 發(fā)表于 04-17 11:15 ?3318次閱讀
    首個關于深度神經(jīng)<b class='flag-5'>網(wǎng)絡</b><b class='flag-5'>訓練</b>相關的理論證明

    基于改進U-Net網(wǎng)絡建立HU-ResNet模型

    Imagenet預訓練Resnet34殘差網(wǎng)絡作為編碼器,以保留裂縫細節(jié)信息并加速網(wǎng)絡收斂,引入scSE注意力機制模塊在空間和通道重新標定編碼塊與解碼塊的輸岀特征,并利用超柱模塊融
    發(fā)表于 03-17 10:12 ?12次下載
    基于改進U-Net<b class='flag-5'>網(wǎng)絡</b>建立HU-<b class='flag-5'>ResNet</b>模型

    PyTorch教程8.6之殘差網(wǎng)絡(ResNet)和ResNeXt

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程8.6之殘差網(wǎng)絡(ResNet)和ResNeXt.pdf》資料免費下載
    發(fā)表于 06-05 10:08 ?0次下載
    PyTorch教程8.6之殘差<b class='flag-5'>網(wǎng)絡</b>(<b class='flag-5'>ResNet</b>)和ResNeXt

    MATLAB如何使用訓練好的網(wǎng)絡

    的實現(xiàn)和應用變得簡單易行。 MATLAB神經(jīng)網(wǎng)絡概述 MATLAB提供了多種神經(jīng)網(wǎng)絡架構,如前饋神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡(CNN)、循環(huán)神經(jīng)
    的頭像 發(fā)表于 07-03 10:06 ?1876次閱讀

    怎么對神經(jīng)網(wǎng)絡重新訓練

    重新訓練神經(jīng)網(wǎng)絡是一個復雜的過程,涉及到多個步驟和考慮因素。 引言 神經(jīng)網(wǎng)絡是一種強大的機器學習模型,廣泛應用于圖像識別、自然語言處理、語音識別等領域。然而,隨著時間的推移,數(shù)據(jù)分布可
    的頭像 發(fā)表于 07-11 10:25 ?869次閱讀

    基于RV1126開發(fā)板的resnet50訓練部署教程

    本教程基于圖像分類算法ResNet50的訓練和部署到EASY-EAI-Nano(RV1126)進行說明
    的頭像 發(fā)表于 04-18 15:07 ?472次閱讀
    基于RV1126開發(fā)板的<b class='flag-5'>resnet</b>50<b class='flag-5'>訓練</b>部署教程