一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何理解泛化是深度學習領(lǐng)域尚未解決的基礎問題

Tensorflowers ? 來源:TensorFlow ? 作者:Google Research 團隊 ? 2021-04-08 17:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如何理解泛化是深度學習領(lǐng)域尚未解決的基礎問題之一。為什么使用有限訓練數(shù)據(jù)集優(yōu)化模型能使模型在預留測試集上取得良好表現(xiàn)?這一問題距今已有 50 多年的豐富歷史,并在機器學習中得到廣泛研究。如今有許多數(shù)學工具可以用來幫助研究人員了解某些模型的泛化能力。但遺憾的是,現(xiàn)有的大多數(shù)理論都無法應用到現(xiàn)代深度網(wǎng)絡中,這些理論在現(xiàn)實環(huán)境中顯得既空泛又不可預測。而理論和實踐之間的差距 在過度參數(shù)化模型中尤為巨大,這類模型在理論上能夠擬合訓練集,但在實踐中卻不能做到。

豐富歷史

數(shù)學工具

過度參數(shù)化

在《Deep Bootstrap 框架:擁有出色的在線學習能力即是擁有出色的泛化能力》(The Deep Bootstrap Framework: Good Online Learners are Good Offline Generalizers)(收錄于 ICLR 2021)這篇論文中,我們提出了一個解決此問題的新框架,該框架能夠?qū)⒎夯c在線優(yōu)化領(lǐng)域聯(lián)系起來。在通常情況下,模型會在有限的樣本集上進行訓練,而這些樣本會在多個訓練周期中被重復使用。但就在線優(yōu)化而言,模型可以訪問無限的樣本流,并且可以在處理樣本流的同時進行迭代更新。在這項研究中,我們發(fā)現(xiàn),能使用無限數(shù)據(jù)快速訓練的模型,它們在有限數(shù)據(jù)上同樣具有良好的泛化表現(xiàn)。二者之間的這種關(guān)聯(lián)為設計實踐提供了新思路,同時也為從理論角度理解泛化找到了方向。

《Deep Bootstrap 框架:擁有出色的在線學習能力即是擁有出色的泛化能力》

Deep Bootstrap 框架

Deep Bootstrap 框架的主要思路是將訓練數(shù)據(jù)有限的現(xiàn)實情況與數(shù)據(jù)無限的“理想情況”進行比較。它們的定義如下:

現(xiàn)實情況(N、T):使用來自一個分布的 N 個訓練樣本訓練模型;在 T 個小批量隨機梯度下降 (SGD) 步驟中,照常在多個訓練周期中重復使用這 N 個樣本。這相當于針對經(jīng)驗損失(訓練數(shù)據(jù)的損失)運行 SGD 算法,這是監(jiān)督學習中的標準訓練程序。

理想情況(T):在 T 個步驟中訓練同一個模型,但在每個 SGD 步驟中使用來自分布的新樣本。也就是說,我們運行相同的訓練代碼(相同的優(yōu)化器、學習速率、批次大小等),但在每個訓練周期中采用全新的訓練樣本集,而不是重復使用相同的樣本。理想情況下,對于一個幾乎達到無限的“訓練集”而言,其訓練誤差和測試誤差之間相差無幾。

35bc07e2-984e-11eb-8b86-12bb97331649.gif

在 SGD 迭代期間 ResNet-18 架構(gòu)理想情況及現(xiàn)實情況的測試軟誤差。可以看到,兩種誤差非常相近

一般而言,我們認為現(xiàn)實情況和理想情況不會有任何關(guān)聯(lián),因為在現(xiàn)實世界中用于模型處理的來自分布的示例數(shù)量是有限的,而在理想世界中模型處理的示例數(shù)量是無限的。但在實踐中,我們發(fā)現(xiàn)現(xiàn)實情況模型和理想情況模型之間的測試誤差非常相近。

為了將此觀察結(jié)果量化,我們通過創(chuàng)建一個名為 CIFAR-5m 的數(shù)據(jù)集模擬了一種理想情況。我們使用 CIFAR-10 訓練了一個生成模型,然后利用該模型生成約六百萬個圖像。選擇生成這么多圖像的目的是為了使此數(shù)據(jù)集對于模型而言具有“近乎無限性”,從而避免模型重復采樣相同的數(shù)據(jù)。也就是說,在理想情況下,模型面對的是一組全新的樣本。

CIFAR-5m

生成模型

下圖給出了幾種模型的測試誤差,對比了它們在現(xiàn)實情況(如重復使用數(shù)據(jù))和理想情況(使用“全新”數(shù)據(jù))中使用 CIFAR-5m 數(shù)據(jù)訓練的表現(xiàn)。藍色實線展示了 ResNet 模型在現(xiàn)實情況下使用標準 CIFAR-10 超參數(shù)針對 50000 個樣本訓練 100 個周期的表現(xiàn)。藍色虛線展示了同樣的模型在理想情況下使用五百萬個樣本一次性訓練完畢的表現(xiàn)。出人意料的是,現(xiàn)實情況和理想情況下的測試誤差非常接近,在某種程度上模型并不會受到樣本是重復使用還是全新的影響。

36cb59f8-984e-11eb-8b86-12bb97331649.png

現(xiàn)實情況下的模型使用 50000 個樣本訓練 100 個周期,理想情況下的模型使用五百萬個樣本訓練一個周期。圖中的線展示了測試誤差以及 SGD 步驟的執(zhí)行次數(shù)

這個結(jié)果也適用于其他架構(gòu),如多層感知架構(gòu)(紅線)、視覺 Transformer(綠線),以及許多其他架構(gòu)、優(yōu)化器、數(shù)據(jù)分布和樣本大小設置。從這些實驗中,我們得出了一個關(guān)于泛化的新觀點,即能使用無限數(shù)據(jù)快速優(yōu)化的模型,同樣能使用有限數(shù)據(jù)進行良好的泛化。例如,ResNet 模型使用有限數(shù)據(jù)進行泛化的能力要優(yōu)于 MLP 模型,其原因在于 ResNet 模型使用無限數(shù)據(jù)進行優(yōu)化的速度更快。

多層感知

基于優(yōu)化行為理解泛化

我們從中得出一個重要的觀察結(jié)果,即直到現(xiàn)實情況開始收斂前,現(xiàn)實情況和理想情況下的模型在所有時刻的測試誤差都非常接近(訓練誤差 《 1%)。因此,我們可以通過研究模型在理想情況下的行為來理解它們在現(xiàn)實情況下的表現(xiàn)。

也就是說,模型的泛化可以通過研究其在兩種框架下的優(yōu)化表現(xiàn)來理解:

1. 在線優(yōu)化:其用于在理想情況下觀察測試誤差的減小速度

2. 離線優(yōu)化:其用于在現(xiàn)實情況下觀察訓練誤差的收斂速度

因此,研究泛化時,我們可以相應地研究上述兩個方面,它們僅涉及優(yōu)化問題,因此在概念上較為簡單。通過這項觀察,我們發(fā)現(xiàn)出色的模型和訓練程序均符合兩個條件:(1) 能在理想情況下快速優(yōu)化;(2) 在現(xiàn)實情況下的優(yōu)化速度較慢。

所有深度學習設計方案都能通過了解它們在這兩方面的表現(xiàn)來進行評估。例如,一些改進,比如卷積、殘差連接和預訓練等,其主要作用是加速理想情況的優(yōu)化,而另一些改進,比如正則化和數(shù)據(jù)增強等,其主要作用則是減慢現(xiàn)實情況的優(yōu)化。

應用 Deep Bootstrap 框架

研究人員可以使用 Deep Bootstrap 框架來研究和指導深度學習設計方案。它所依循的原則是:每當我們做出影響現(xiàn)實情況泛化能力的更改時(架構(gòu)、學習速率等),我們都應考慮它對以下兩方面帶來的影響:(1) 理想情況的測試誤差優(yōu)化(越快越好)以及 (2) 現(xiàn)實情況的訓練誤差優(yōu)化(越慢越好)。

例如, 預訓練在實踐中通常用于促進小數(shù)據(jù)體系中的模型泛化。然而,人們對預訓練發(fā)生作用的機理知之甚少。我們可以使用 Deep Bootstrap 框架,通過觀察預訓練對上述兩方面形成的影響研究這個問題。我們發(fā)現(xiàn),預訓練的主要作用是促進理想情況的優(yōu)化 (1),即使網(wǎng)絡能夠“快速學習”在線優(yōu)化。預訓練模型泛化能力的增強幾乎總能帶來其在理想情況下優(yōu)化能力的提高。下圖比較了使用 CIFAR-10 訓練的視覺 Transformers (ViT) 在 ImageNet 上從零開始訓練和預訓練之間的差別。

ImageNet

372c0f96-984e-11eb-8b86-12bb97331649.png

預訓練的作用:經(jīng)過預訓練的 ViT 在理想情況下的優(yōu)化速度更快

我們還可以使用此框架研究數(shù)據(jù)增強。在理想情況下的數(shù)據(jù)增強相當于對每個新樣本進行一次增強,而不是對同一個樣本進行多次增強。此框架意味著好的數(shù)據(jù)增強均符合兩個條件:(1) 不會嚴重損害理想情況的優(yōu)化(即增強樣本的分布不會過于“失范”),(2) 抑制現(xiàn)實情況的優(yōu)化速度(以使現(xiàn)實世界花更多時間擬合其訓練集)。

數(shù)據(jù)增強的主要作用通過第二條:延長現(xiàn)實情況的優(yōu)化時間來實現(xiàn)。關(guān)于第一條,一些激進的數(shù)據(jù)增強 (混合/剪切) 可能會對理想情況造成不良影響,但這種影響與第二條相比不值一提。

結(jié)語

Deep Bootstrap 框架為理解深度學習的泛化和經(jīng)驗現(xiàn)象提供了一個新角度。我們非常期待能夠在未來看到它被用于理解深度學習的其他方面。尤為有趣的是,泛化可以通過純粹的優(yōu)化方面的考量來描述, 這在理論上和許多主流方法相悖。至關(guān)重要的是,我們需同時考慮在線優(yōu)化和離線優(yōu)化,單獨考慮二者中的任何一個都是不夠的,它們共同決定了泛化能力。

主流方法

Deep Bootstrap 框架還揭曉了為什么深度學習對于許多設計方案都異常穩(wěn)健,原因是許多中架構(gòu)、損失函數(shù)、優(yōu)化器、標準化和激活函數(shù)都具有良好的泛化能力。這個框架揭示了一個普適定律:基本上任何具有良好在線優(yōu)化表現(xiàn)的設計方案,其都能在離線狀態(tài)下有良好的泛化表現(xiàn)。

最后,現(xiàn)代神經(jīng)網(wǎng)絡既可能過參數(shù)化(如使用小型數(shù)據(jù)任務訓練的大型網(wǎng)絡),也可能欠參數(shù)化(如 OpenAI GPT-3、Google T5 或 Facebook ResNeXt WSL)。而 Deep Bootstrap 框架表明,在線優(yōu)化是在這兩種模式中取得成功的關(guān)鍵因素。

致謝

感謝我們的合著者 Behnam Neyshabur 對論文的巨大貢獻以及對于博文的寶貴反饋。感謝 Boaz Barak、Chenyang Yuan 和 Chiyuan Zhang 對于博文及論文的有益評論。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5560

    瀏覽量

    122769

原文標題:透過新視角理解深度學習中的泛化

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    明晚開播 |數(shù)據(jù)智能系列講座第7期:面向高能力的視覺感知系統(tǒng)空間建模與微調(diào)學習

    鷺島論壇數(shù)據(jù)智能系列講座第7期「面向高能力的視覺感知系統(tǒng)空間建模與微調(diào)學習」明晚8點精彩開播期待與您云相聚,共襄學術(shù)盛宴!|直播信息報告題目面向高
    的頭像 發(fā)表于 06-24 08:01 ?224次閱讀
    明晚開播 |數(shù)據(jù)智能系列講座第7期:面向高<b class='flag-5'>泛</b><b class='flag-5'>化</b>能力的視覺感知系統(tǒng)空間建模與微調(diào)<b class='flag-5'>學習</b>

    直播預約 |數(shù)據(jù)智能系列講座第7期:面向高能力的視覺感知系統(tǒng)空間建模與微調(diào)學習

    鷺島論壇數(shù)據(jù)智能系列講座第7期「面向高能力的視覺感知系統(tǒng)空間建模與微調(diào)學習」6月25日(周三)20:00精彩開播期待與您云相聚,共襄學術(shù)盛宴!|直播信息報告題目面向高
    的頭像 發(fā)表于 05-29 10:04 ?187次閱讀
    直播預約 |數(shù)據(jù)智能系列講座第7期:面向高<b class='flag-5'>泛</b><b class='flag-5'>化</b>能力的視覺感知系統(tǒng)空間建模與微調(diào)<b class='flag-5'>學習</b>

    軍事應用中深度學習的挑戰(zhàn)與機遇

    人工智能尤其是深度學習技術(shù)的最新進展,加速了不同應用領(lǐng)域的創(chuàng)新與發(fā)展。深度學習技術(shù)的發(fā)展深刻影響了軍事發(fā)展趨勢,導致戰(zhàn)爭形式和模式發(fā)生重大變
    的頭像 發(fā)表于 02-14 11:15 ?529次閱讀

    NPU在深度學習中的應用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學習作為其核心驅(qū)動力之一,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡處理單元)是專門為深度
    的頭像 發(fā)表于 11-14 15:17 ?1893次閱讀

    深度學習模型的魯棒性優(yōu)化

    。異常值和噪聲可能會誤導模型的訓練,導致模型在面對新數(shù)據(jù)時表現(xiàn)不佳。 數(shù)據(jù)標準/歸一 :將數(shù)據(jù)轉(zhuǎn)換到同一尺度上,有助于模型更好地學習數(shù)據(jù)的內(nèi)在規(guī)律,從而提高模型的
    的頭像 發(fā)表于 11-11 10:25 ?1175次閱讀

    GPU深度學習應用案例

    GPU在深度學習中的應用廣泛且重要,以下是一些GPU深度學習應用案例: 一、圖像識別 圖像識別是深度學習
    的頭像 發(fā)表于 10-27 11:13 ?1330次閱讀

    激光雷達技術(shù)的基于深度學習的進步

    信息。這使得激光雷達在自動駕駛、無人機、機器人等領(lǐng)域具有廣泛的應用前景。 二、深度學習技術(shù)的發(fā)展 深度學習是機器
    的頭像 發(fā)表于 10-27 10:57 ?1051次閱讀

    FPGA加速深度學習模型的案例

    FPGA(現(xiàn)場可編程門陣列)加速深度學習模型是當前硬件加速領(lǐng)域的一個熱門研究方向。以下是一些FPGA加速深度學習模型的案例: 一、基于FPG
    的頭像 發(fā)表于 10-25 09:22 ?1203次閱讀

    AI大模型與深度學習的關(guān)系

    人類的學習過程,實現(xiàn)對復雜數(shù)據(jù)的學習和識別。AI大模型則是指模型的參數(shù)數(shù)量巨大,需要龐大的計算資源來進行訓練和推理。深度學習算法為AI大模型提供了核心的技術(shù)支撐,使得大模型能夠更好地擬
    的頭像 發(fā)表于 10-23 15:25 ?2871次閱讀

    FPGA做深度學習能走多遠?

    。FPGA的優(yōu)勢就是可編程可配置,邏輯資源多,功耗低,而且賽靈思等都在極力推廣。不知道用FPGA做深度學習未來會怎樣發(fā)展,能走多遠,你怎么看。 A:FPGA 在深度學習
    發(fā)表于 09-27 20:53

    深度識別算法包括哪些內(nèi)容

    深度識別算法是深度學習領(lǐng)域的一個重要組成部分,它利用深度神經(jīng)網(wǎng)絡模型對輸入數(shù)據(jù)進行高層次的理解
    的頭像 發(fā)表于 09-10 15:28 ?833次閱讀

    深度學習算法在嵌入式平臺上的部署

    隨著人工智能技術(shù)的飛速發(fā)展,深度學習算法在各個領(lǐng)域的應用日益廣泛。然而,將深度學習算法部署到資源受限的嵌入式平臺上,仍然是一個具有挑戰(zhàn)性的任
    的頭像 發(fā)表于 07-15 10:03 ?3164次閱讀

    利用Matlab函數(shù)實現(xiàn)深度學習算法

    在Matlab中實現(xiàn)深度學習算法是一個復雜但強大的過程,可以應用于各種領(lǐng)域,如圖像識別、自然語言處理、時間序列預測等。這里,我將概述一個基本的流程,包括環(huán)境設置、數(shù)據(jù)準備、模型設計、訓練過程、以及測試和評估,并提供一個基于Mat
    的頭像 發(fā)表于 07-14 14:21 ?3617次閱讀

    基于Python的深度學習人臉識別方法

    基于Python的深度學習人臉識別方法是一個涉及多個技術(shù)領(lǐng)域的復雜話題,包括計算機視覺、深度學習、以及圖像處理等。在這里,我將概述一個基本的
    的頭像 發(fā)表于 07-14 11:52 ?1689次閱讀

    深度學習中反卷積的原理和應用

    深度學習的廣闊領(lǐng)域中,反卷積(Deconvolution,也稱作Transposed Convolution)作為一種重要的圖像上采樣技術(shù),扮演著至關(guān)重要的角色。特別是在計算機視覺任務中,如圖
    的頭像 發(fā)表于 07-14 10:22 ?4792次閱讀