一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何度量知識蒸餾中不同數(shù)據(jù)增強(qiáng)方法的好壞?

CVer ? 來源:CVer ? 2023-02-25 15:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 研究背景與動機(jī)

知識蒸餾(knowledge distillation,KD)是一種通用神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,它使用大的teacher模型來 “教” student模型,在各種AI任務(wù)上有著廣泛應(yīng)用。數(shù)據(jù)增強(qiáng)(data augmentation,DA) 更是神經(jīng)網(wǎng)絡(luò)訓(xùn)練的標(biāo)配技巧。

知識蒸餾按照蒸餾的位置通常分為(1)基于網(wǎng)絡(luò)中間特征圖的蒸餾,(2)基于網(wǎng)絡(luò)輸出的蒸餾。對于后者來說,近幾年分類任務(wù)上KD的發(fā)展主要集中在新的損失函數(shù),譬如ICLR’20的CRD和ECCV’20的SSKD將對比學(xué)習(xí)引入損失函數(shù),可以從teacher模型中提取到更豐富的信息,供student模型學(xué)習(xí),實(shí)現(xiàn)了當(dāng)時的SOTA。

本文沒有探索損失函數(shù)、蒸餾位置等傳統(tǒng)研究問題上, 我們延用了最原始版本的KD loss (也就是Hinton等人在NIPS’14 workshop上提出KD的時候用的Cross-Entropy + KL divergence )。我們重點(diǎn)關(guān)注網(wǎng)絡(luò)的輸入端:如何度量不同數(shù)據(jù)增強(qiáng)方法在KD中的好壞?(相比之下,之前的KD paper大多關(guān)注網(wǎng)絡(luò)的中間特征,或者輸出端)。系統(tǒng)框圖如下所示,本文的核心目標(biāo)是要提出一種指標(biāo)去度量圖中 “Stronger DA” 的強(qiáng)弱程度。

7b96bbf2-b351-11ed-bfe3-dac502259ad0.png

這一切起源于一個偶然的實(shí)驗(yàn)發(fā)現(xiàn):在KD中延長迭代次數(shù),通??梢苑浅C黠@地提升KD的性能。譬如KD實(shí)驗(yàn)中常用的ResNet34/ResNet18 pair, 在ImageNet-1K上,將迭代次數(shù)從100 epochs增加到200 epochs,可以將top1/top5準(zhǔn)確率從70.66/89.88提升到71.38/90.59, 達(dá)到當(dāng)時的SOTA方法CRD的性能(71.38/90.49)。這顯得很迷,將最baseline的方法訓(xùn)練久一點(diǎn)就可以SOTA?經(jīng)過很多實(shí)驗(yàn)分析我們最終發(fā)現(xiàn),是數(shù)據(jù)增強(qiáng)在背后起作用。

直覺上的解釋是:每次迭代,數(shù)據(jù)增強(qiáng)是隨機(jī)的,得到的樣本都不一樣。那么,迭代次數(shù)變多,student見到的不一樣的樣本就越多,這可以從teacher模型中提取到更豐富的信息(跟對比學(xué)習(xí)loss似乎有著異曲同工之妙),幫助student模型學(xué)習(xí)。

很自然我們可以進(jìn)一步推想:不同數(shù)據(jù)增強(qiáng)方法引入的數(shù)據(jù)“多樣性”應(yīng)該是不同的,譬如我們期待基于強(qiáng)化學(xué)習(xí)搜出來的AutoAugment應(yīng)該要比簡單的隨機(jī)翻轉(zhuǎn)要更具有多樣性。簡單地說,這篇paper就是在回答:具體怎么度量這種多樣性,以及度量完之后我們怎么在實(shí)際中應(yīng)用。

為什么這個問題重要?(1)理論意義:幫助我們更深地理解KD和DA,(2)實(shí)際意義:實(shí)驗(yàn)表明在KD中使用更強(qiáng)的DA總能提高性能,如果我們知道了什么因素在控制這種“強(qiáng)弱”,那么我們就可以締造出更強(qiáng)的DA,從而坐享KD性能的提升。

2. 主要貢獻(xiàn)和內(nèi)容

文章的主要貢獻(xiàn)是三點(diǎn):

(1)我們提出了一個定理來嚴(yán)格回答什么樣的數(shù)據(jù)增強(qiáng)是好的,結(jié)論是:好的數(shù)據(jù)增強(qiáng)方法應(yīng)該降低teacher-student交叉熵的協(xié)方差。

定理的核心部分是看不同數(shù)據(jù)增強(qiáng)方法下訓(xùn)練樣本之間的相關(guān)性,相關(guān)性越大意味著樣本越相似,多樣性就越低,student性能應(yīng)該越差。這個直覺完全符合文中的證明,這是理論上的貢獻(xiàn)。值得一提的是,相關(guān)性不是直接算原始樣本之間的相關(guān)性,而是算樣本經(jīng)過了teacher得到的logits之間的相關(guān)性,也就是,raw data層面上樣本的相關(guān)性不重要,重要的是在teacher看來這些樣本有多么相似,越不相似越好。

(2)基于這個定理,提出了一個具體可用的指標(biāo)(stddev of teacher’s mean probability, T. stddev),可以對每一種數(shù)據(jù)增強(qiáng)方法算一個數(shù)值出來, 按照這個數(shù)值排序,就知道哪種數(shù)據(jù)增強(qiáng)方法最好。文中測試了7種既有數(shù)據(jù)增強(qiáng)方法, 發(fā)現(xiàn)CutMix最好用。

(3)基于該定理,提出了一種新的基于信息熵篩選的數(shù)據(jù)增強(qiáng)方法,叫做CutMixPick,它是在CutMix的基礎(chǔ)上挑選出熵最大的樣本(熵大意味著信息量大,多樣性多)進(jìn)行訓(xùn)練。實(shí)驗(yàn)表明,即使是使用最普通的KD loss也可以達(dá)到SOTA KD方法(例如CRD)的水平。

3. 實(shí)驗(yàn)效果

文中最重要的實(shí)驗(yàn)是,驗(yàn)證提出的指標(biāo)(T. Stddev)是否真的能刻畫不同數(shù)據(jù)增強(qiáng)方法下student性能(S. test loss)的好壞,也就是二者之間的相關(guān)性如何。結(jié)果表明:相關(guān)性顯著!

文章總共測試了9種數(shù)據(jù)增強(qiáng)方法,我們在CIFAR100,Tiny ImageNet, ImageNet100上均做了驗(yàn)證,相關(guān)性都很強(qiáng),p-value多數(shù)情況下遠(yuǎn)小于5%的顯著性界限,如下所示:

7ba9d214-b351-11ed-bfe3-dac502259ad0.png

7bde4698-b351-11ed-bfe3-dac502259ad0.png

這其中最有意思的一點(diǎn)是,縱軸是student的性能,而橫軸的指標(biāo)是完全用teacher計算出來的,對于student沒有任何信息,但是somehow,二者呈現(xiàn)出很強(qiáng)的相關(guān)性。這說明,KD中對DA好壞的評價很可能獨(dú)立于student的。同時,對于不同teacher、數(shù)據(jù)集,DA之間的相對排序也比較穩(wěn)定(譬如CutMix穩(wěn)定地比Cutout要好)。這些都意味著我們在一種網(wǎng)絡(luò)、數(shù)據(jù)集下找到的好的DA有很大概率可以遷移到其他的網(wǎng)絡(luò)跟數(shù)據(jù)集中,大大提升了實(shí)際應(yīng)用價值。

4. 總結(jié)和局限性

本文關(guān)注數(shù)據(jù)增強(qiáng)在知識蒸餾中的影響,在理論和實(shí)際算法方面均有貢獻(xiàn),主要有三點(diǎn):(1) 我們對 “如何度量知識蒸餾中不同數(shù)據(jù)增強(qiáng)方法的好壞” 這一問題給出了嚴(yán)格的理論分析(答:好的數(shù)據(jù)增強(qiáng)方法應(yīng)該最小化teacher-student交叉熵的協(xié)方差);(2)基于該理論提出了一個實(shí)際可計算的度量指標(biāo)(stddev of teacher’s mean probability);(3)最后提出了一個基于信息熵篩選的新數(shù)據(jù)增強(qiáng)方法(CutMixPick),可以進(jìn)一步提升CutMix,在KD中達(dá)到新的SOTA性能。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4812

    瀏覽量

    103213
  • CRD
    CRD
    +關(guān)注

    關(guān)注

    0

    文章

    14

    瀏覽量

    4128

原文標(biāo)題:NeurIPS 2022 | 如何度量知識蒸餾中不同數(shù)據(jù)增強(qiáng)方法的好壞?一種統(tǒng)計學(xué)視角

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于AHP度量模型的安全管理度量方法

    本文以GB17859、ISO/IEC17799 等相關(guān)標(biāo)準(zhǔn)作為指導(dǎo)依據(jù),針對信息安全管理績效的 度量問題提出了一套基于AHP 模型的安全管理度量方法,并重點(diǎn)闡述了度量模型中
    發(fā)表于 06-18 09:36 ?28次下載

    基于等級保護(hù)的安全管理度量方法研究

    本文提出了一種基于國家等級保護(hù)標(biāo)準(zhǔn)GB17895 的安全管理度量方法,闡述了度量要素的提取及度量結(jié)果的量化等問題的解決方案,并依據(jù)ISO/IEC17799 標(biāo)準(zhǔn)設(shè)計了安全管理
    發(fā)表于 08-24 15:22 ?21次下載

    構(gòu)件內(nèi)聚性度量方法研究

    構(gòu)件的內(nèi)聚性度量是衡量構(gòu)件質(zhì)量的一個重要指標(biāo)。度量構(gòu)件內(nèi)聚度的經(jīng)典方法程序切片,由于切片劃分的不同,其度量值不同。本文不僅很好地度量構(gòu)件的內(nèi)
    發(fā)表于 01-09 11:58 ?7次下載

    面向云數(shù)據(jù)的隱私度量研究進(jìn)展

    的隱私度量方法進(jìn)行綜述:首先,對隱私保護(hù)技術(shù)和隱私度量進(jìn)行概述,給出攻擊者背景知識的量化方法,提出云數(shù)據(jù)
    發(fā)表于 12-15 16:46 ?0次下載
    面向云<b class='flag-5'>數(shù)據(jù)</b>的隱私<b class='flag-5'>度量</b>研究進(jìn)展

    混雜數(shù)據(jù)的多核幾何平均度量學(xué)習(xí)

    在機(jī)器學(xué)習(xí)和模式識別任務(wù),選擇一種合適的距離度量方法是至關(guān)重要的,度量學(xué)習(xí)主要利用判別性信息學(xué)習(xí)一個馬氏距離或相似性度量.然而,大多數(shù)現(xiàn)有
    發(fā)表于 12-25 17:16 ?0次下載

    內(nèi)存取證的內(nèi)核完整性度量方法

    內(nèi)核級攻擊對操作系統(tǒng)的完整性和安全性造成嚴(yán)重威脅.當(dāng)前,內(nèi)核完整性度量方法度量對象選取上存在片面性,且大部分方法采用周期性度量,無法避免T
    發(fā)表于 01-10 14:52 ?2次下載

    深度學(xué)習(xí):知識蒸餾的全過程

    知識蒸餾的核心思想是通過遷移知識,從而通過訓(xùn)練好的大模型得到更加適合推理的小模型。本文作者介紹了知識蒸餾的全過程,以及引用Hinton等人的
    的頭像 發(fā)表于 01-07 14:36 ?6479次閱讀

    基于知識蒸餾的惡意代碼家族檢測方法研究綜述

    近年來,惡意代碼變種層出不窮,惡意軟件更具隱蔽性和持久性,亟需快速有效的檢測方法來識別惡意樣本。針對現(xiàn)文中提出了一種基于知識蒸餾的惡意代碼家族檢測方法,該模型通過逆向反編譯惡意樣本,利
    發(fā)表于 04-20 14:49 ?9次下載
    基于<b class='flag-5'>知識</b><b class='flag-5'>蒸餾</b>的惡意代碼家族檢測<b class='flag-5'>方法</b>研究綜述

    電池修復(fù)技術(shù):做蒸餾水的方法是怎樣的

    許多年前,該村經(jīng)常停電,應(yīng)急燈也很流行。 每個人都在玩電池逆變器。 電池和應(yīng)急燈必須充滿蒸餾水。 如果您不愿購買它們,請使用以下本機(jī)方法: 這個方法很好。 用這種蒸餾
    發(fā)表于 05-18 17:15 ?2492次閱讀
    電池修復(fù)技術(shù):做<b class='flag-5'>蒸餾</b>水的<b class='flag-5'>方法</b>是怎樣的

    若干蒸餾方法之間的細(xì)節(jié)以及差異

    以往的知識蒸餾雖然可以有效的壓縮模型尺寸,但很難將teacher模型的能力蒸餾到一個更小詞表的student模型,而DualTrain+SharedProj解決了這個難題。
    的頭像 發(fā)表于 05-12 11:39 ?1746次閱讀

    關(guān)于快速知識蒸餾的視覺框架

    知識蒸餾框架包含了一個預(yù)訓(xùn)練好的 teacher 模型(蒸餾過程權(quán)重固定),和一個待學(xué)習(xí)的 student 模型, teacher 用來產(chǎn)生 soft 的 label 用于監(jiān)督 student 的學(xué)習(xí)。
    的頭像 發(fā)表于 08-31 10:13 ?1145次閱讀

    用于NAT的選擇性知識蒸餾框架

    盡管NAT在擁有許多潛在的優(yōu)勢,目前的工作這類模型仍然在很大程度上依賴于句子級別的知識蒸餾(sequence-level knowledge distillation, KD)[2]。由于需要并行預(yù)測所有token,NAT對單
    的頭像 發(fā)表于 12-06 14:44 ?997次閱讀

    TPAMI 2023 | 用于視覺識別的相互對比學(xué)習(xí)在線知識蒸餾

    representation learning [1] 的擴(kuò)展版本,論文講解鏈接為: https://zhuanlan.zhihu.com/p/574701719 摘要: 無需教師的在線知識蒸餾聯(lián)合地訓(xùn)練多個學(xué)生模型并且相互地蒸餾
    的頭像 發(fā)表于 09-19 10:00 ?1249次閱讀
    TPAMI 2023 | 用于視覺識別的相互對比學(xué)習(xí)在線<b class='flag-5'>知識</b><b class='flag-5'>蒸餾</b>

    任意模型都能蒸餾!華為諾亞提出異構(gòu)模型的知識蒸餾方法

    相比于僅使用logits的蒸餾方法,同步使用模型中間層特征進(jìn)行蒸餾方法通常能取得更好的性能。然而在異構(gòu)模型的情況下,由于不同架構(gòu)模型對特征的不同學(xué)習(xí)偏好,它們的中間層特征往往具有較大
    的頭像 發(fā)表于 11-01 16:18 ?1730次閱讀
    任意模型都能<b class='flag-5'>蒸餾</b>!華為諾亞提出異構(gòu)模型的<b class='flag-5'>知識</b><b class='flag-5'>蒸餾</b><b class='flag-5'>方法</b>

    大連理工提出基于Wasserstein距離(WD)的知識蒸餾方法

    的機(jī)制,應(yīng)用于中間層蒸餾時存在問題,其無法處理不重疊的分布且無法感知底層流形的幾何結(jié)構(gòu)。 為了解決這些問題,大連理工大學(xué)的研究人員提出了一種基于 Wasserstein 距離(WD)的知識蒸餾
    的頭像 發(fā)表于 01-21 09:45 ?612次閱讀