一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

半監(jiān)督學(xué)習(xí)代碼庫(kù)存在的問(wèn)題與挑戰(zhàn)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2022-10-18 16:28 ? 次閱讀

當(dāng)使用監(jiān)督學(xué)習(xí)(Supervised Learning)對(duì)大量高質(zhì)量的標(biāo)記數(shù)據(jù)(Labeled Data)進(jìn)行訓(xùn)練時(shí),神經(jīng)網(wǎng)絡(luò)模型會(huì)產(chǎn)生有競(jìng)爭(zhēng)力的結(jié)果。例如,根據(jù)Paperswithcode網(wǎng)站統(tǒng)計(jì),在ImageNet這一百萬(wàn)量級(jí)的數(shù)據(jù)集上,傳統(tǒng)的監(jiān)督學(xué)習(xí)方法可以達(dá)到超過(guò)88%的準(zhǔn)確率。然而,獲取大量有標(biāo)簽的數(shù)據(jù)往往費(fèi)時(shí)費(fèi)力。

為了緩解對(duì)標(biāo)注數(shù)據(jù)的依賴,「半監(jiān)督學(xué)習(xí)」(Semi-supervised Learning/SSL)致力于在僅有「少量」的標(biāo)注數(shù)據(jù)時(shí)利用「大量無(wú)標(biāo)簽」數(shù)據(jù)(Unlabeled Data)來(lái)提升模型的泛化性。半監(jiān)督學(xué)習(xí)亦是機(jī)器學(xué)習(xí)的重要主題之一。深度學(xué)習(xí)之前,這一領(lǐng)域的研究者們提出了諸如半監(jiān)督支持向量機(jī)、熵正則化、協(xié)同訓(xùn)練等經(jīng)典算法。

深度半監(jiān)督學(xué)習(xí)

隨著深度學(xué)習(xí)的興起,「深度」半監(jiān)督學(xué)習(xí)算法也取得了長(zhǎng)足的進(jìn)步。同時(shí),包括Google、Meta和微軟等在內(nèi)的科技巨頭也認(rèn)識(shí)到了半監(jiān)督學(xué)習(xí)在實(shí)際場(chǎng)景中的巨大潛力。例如,Google利用噪聲學(xué)生訓(xùn)練(Noisy student training)這一半監(jiān)督算法提高了其在搜索方面的性能[1]。當(dāng)前最具代表性的半監(jiān)督算法通常對(duì)標(biāo)注數(shù)據(jù)使用交叉熵?fù)p失進(jìn)行訓(xùn)練,對(duì)無(wú)標(biāo)注數(shù)據(jù)使用「一致性正則」技術(shù)(Consistency Regularization)鼓勵(lì)對(duì)輸入擾動(dòng)進(jìn)行不變預(yù)測(cè)。例如,Google在NeurIPS 2020提出的FixMatch[2]算法利用增強(qiáng)錨定(Augmentation Anchoring)和固定閾值(Fixed Thresholding)技術(shù)來(lái)增強(qiáng)模型對(duì)不同強(qiáng)增強(qiáng)數(shù)據(jù)的泛化性和減少噪聲偽標(biāo)簽(Noisy Pseudo Labels)的影響。在訓(xùn)練中,F(xiàn)ixMatch過(guò)濾了低于用戶指定(user-provided / pre-defined)閾值的無(wú)標(biāo)簽數(shù)據(jù)。

微軟亞洲研究院與東京工業(yè)大學(xué)等在NeurIPS 2021合作提出的FlexMatch[3]則考慮到了「不同類」之間的學(xué)習(xí)難度不同,因此提出了「課程偽標(biāo)簽」(Curriculum Pseudo Labeling)技術(shù)對(duì)于不同類應(yīng)該采用不同的閾值。具體來(lái)說(shuō),對(duì)于容易學(xué)習(xí)的類別,模型應(yīng)該設(shè)置高閾值以降低噪聲偽標(biāo)簽的影響;對(duì)于難學(xué)習(xí)的類,模型應(yīng)該設(shè)置低閾值鼓勵(lì)該類的擬合。每個(gè)類的學(xué)習(xí)難度評(píng)估取決于落入該類且高于固定值的未標(biāo)記數(shù)據(jù)樣本的數(shù)量。

同時(shí),研究員和這些學(xué)校還合作提出了一個(gè)統(tǒng)一的基于Pytorch的半監(jiān)督方法代碼庫(kù)「TorchSSL」[4],對(duì)該領(lǐng)域的深度方法、常用數(shù)據(jù)集、和基準(zhǔn)結(jié)果進(jìn)行了統(tǒng)一的支持。

3e74bd92-4ded-11ed-a3b6-dac502259ad0.png

當(dāng)前「半監(jiān)督學(xué)習(xí)代碼庫(kù)存在的問(wèn)題與挑戰(zhàn)」

盡管半監(jiān)督學(xué)習(xí)的發(fā)展如火如荼,但是,研究員們注意到目前大部分半監(jiān)督論文「只關(guān)注」計(jì)算機(jī)視覺(jué) (CV) 分類任務(wù),而「其他領(lǐng)域」(例如自然語(yǔ)言處理 (NLP)、音頻處理 (Audio))研究者無(wú)法得知這些在CV任務(wù)上有效的算法是否依然有效。另外,大部分半監(jiān)督論文都是由谷歌,微軟等大型機(jī)構(gòu)發(fā)表的,學(xué)術(shù)界的實(shí)驗(yàn)室往往由于計(jì)算資源的限制不能一起推動(dòng)半監(jiān)督領(lǐng)域的發(fā)展??偟膩?lái)說(shuō),半監(jiān)督學(xué)習(xí)基準(zhǔn)目前存在以下兩個(gè)問(wèn)題:

(1)多樣性不足。現(xiàn)有的半監(jiān)督學(xué)習(xí)基準(zhǔn)大多局限于計(jì)算機(jī)視覺(jué) (CV) 分類任務(wù)(即 CIFAR-10/100,SVHN,STL-10 和 ImageNet 分類),「排除了對(duì)自然語(yǔ)言處理 (NLP)、音頻處理 (Audio) 等分類任務(wù)的一致和多樣化評(píng)估,而在NLP和Audio中缺乏足夠的標(biāo)記數(shù)據(jù)也是一個(gè)普遍問(wèn)題?!?/strong>

(2)耗時(shí)且對(duì)學(xué)術(shù)界不友好?,F(xiàn)有的半監(jiān)督學(xué)習(xí)基準(zhǔn)(如TorchSSL)通常是耗時(shí)且不環(huán)保的,因?yàn)樗枰ǔ念^開(kāi)始訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型。具體而言,使用 TorchSSL評(píng)估FixMatch[1]大約需要「300」個(gè)GPU日。如此高的訓(xùn)練成本使得許多研究實(shí)驗(yàn)室(尤其是學(xué)術(shù)界的實(shí)驗(yàn)室或小研究團(tuán)體)無(wú)法負(fù)擔(dān)得起SSL的相關(guān)研究,從而阻礙了SSL的進(jìn)展。

USB: 任務(wù)多樣化和對(duì)研究者更友好的新基準(zhǔn)庫(kù)

微軟亞洲研究院的研究員們聯(lián)合西湖大學(xué)、東京工業(yè)大學(xué)、卡內(nèi)基梅隆大學(xué)、馬克斯-普朗克研究所等機(jī)構(gòu)的研究人員們提出了「USB」:第一個(gè)將「視覺(jué),語(yǔ)言,和音頻」分類任務(wù)進(jìn)行統(tǒng)一的半監(jiān)督分類學(xué)習(xí)基準(zhǔn)。相比于之前的半監(jiān)督學(xué)習(xí)基準(zhǔn)(如TorchSSL)只關(guān)注少量視覺(jué)任務(wù),該論文不僅引入更多樣化的應(yīng)用領(lǐng)域,還「首次」利用視覺(jué)預(yù)訓(xùn)練模型(Pretrained Vision Transformer)大大縮減了半監(jiān)督算法的驗(yàn)證時(shí)間(「從7000GPU時(shí)縮減至900GPU時(shí)」),使得半監(jiān)督研究對(duì)研究者、特別是小研究團(tuán)體更友好。USB的相關(guān)論文已被國(guó)際人工智能頂會(huì)NeurIPS 2022接收。

USB

「USB提供的解決方案」

那么,USB如何一次性解決當(dāng)前半監(jiān)督基準(zhǔn)存在的問(wèn)題呢?研究員們進(jìn)行了如下的改進(jìn):

(1)為增強(qiáng)任務(wù)多樣性,USB引入了5個(gè)CV 數(shù)據(jù)集,5個(gè)NLP數(shù)據(jù)集和5個(gè)音頻數(shù)據(jù)集提供了一個(gè)多樣化且具有挑戰(zhàn)性的基準(zhǔn),從而能夠?qū)?lái)自不同領(lǐng)域的多個(gè)任務(wù)進(jìn)行一致的評(píng)估。下表提供了USB與TorchSSL的任務(wù)和訓(xùn)練時(shí)間等方面的詳細(xì)對(duì)比。

(2)為提高訓(xùn)練效率,研究員們將預(yù)訓(xùn)練的Vision Transformer引入SSL,而不是從頭訓(xùn)練ResNets。具體而言,研究員們發(fā)現(xiàn)在「不影響性能」的情況下使用預(yù)訓(xùn)練模型可以大大減少訓(xùn)練迭代次數(shù)(例如,將 CV 任務(wù)的訓(xùn)練迭代次數(shù)從100萬(wàn)步減少到「20」萬(wàn)步)。(3)為了對(duì)研究人員更加友好,研究員們開(kāi)源實(shí)現(xiàn)了14種 SSL算法并開(kāi)源了一個(gè)模塊化代碼庫(kù)和相關(guān)的配置文件以供研究者輕松再現(xiàn)USB報(bào)告中的結(jié)果。為了快速上手,USB還提供詳細(xì)的文檔和教程。此外,USB還提供pip包」以供使用者直接調(diào)用SSL算法。研究員們承諾未來(lái)會(huì)在USB中不斷加入新的算法(例如不平衡半監(jiān)督算法等)和更多更具挑戰(zhàn)性的數(shù)據(jù)集。

總結(jié)

半監(jiān)督學(xué)習(xí)通過(guò)利用大量無(wú)標(biāo)簽數(shù)據(jù)來(lái)訓(xùn)練更精確、更魯棒的模型,在未來(lái)有著重要的研究和應(yīng)用價(jià)值。研究員們期待通過(guò)USB這一工作,能夠予力學(xué)術(shù)界和工業(yè)界在半監(jiān)督學(xué)習(xí)領(lǐng)域取得更大的進(jìn)展。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:NIPS'22 | USB: 統(tǒng)一、任務(wù)多樣化、對(duì)學(xué)術(shù)界更友好的半監(jiān)督學(xué)習(xí)算法庫(kù)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于監(jiān)督學(xué)習(xí)的跌倒檢測(cè)系統(tǒng)設(shè)計(jì)_李仲年

    基于監(jiān)督學(xué)習(xí)的跌倒檢測(cè)系統(tǒng)設(shè)計(jì)_李仲年
    發(fā)表于 03-19 19:11 ?4次下載

    基于監(jiān)督學(xué)習(xí)框架的識(shí)別算法

    問(wèn)題,對(duì)半監(jiān)督學(xué)習(xí)中的協(xié)同訓(xùn)練算法進(jìn)行改進(jìn),提出了一種基于多學(xué)習(xí)器協(xié)同訓(xùn)練模型的人體行為識(shí)別方法.這是一種基于監(jiān)督學(xué)習(xí)框架的識(shí)別算法,該方法首先通過(guò)基于Q統(tǒng)計(jì)量的
    發(fā)表于 01-21 10:41 ?1次下載

    你想要的機(jī)器學(xué)習(xí)課程筆記在這:主要討論監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)

    with experience E(一個(gè)程序從經(jīng)驗(yàn)E中學(xué)習(xí)解決任務(wù)T進(jìn)行某一任務(wù)量度P,通過(guò)P測(cè)量在T的表現(xiàn)而提高經(jīng)驗(yàn)E(另一種定義:機(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗(yàn),以此優(yōu)化計(jì)算機(jī)程序的性能標(biāo)準(zhǔn)。) 不同類型的機(jī)器學(xué)習(xí)算法:主要
    發(fā)表于 12-03 17:12 ?664次閱讀

    如何用Python進(jìn)行無(wú)監(jiān)督學(xué)習(xí)

    無(wú)監(jiān)督學(xué)習(xí)是一種用于在數(shù)據(jù)中查找模式的機(jī)器學(xué)習(xí)技術(shù)。無(wú)監(jiān)督算法給出的數(shù)據(jù)不帶標(biāo)記,只給出輸入變量(X),沒(méi)有相應(yīng)的輸出變量。在無(wú)監(jiān)督學(xué)習(xí)中,算法自己去發(fā)現(xiàn)數(shù)據(jù)中有趣的結(jié)構(gòu)。
    的頭像 發(fā)表于 01-21 17:23 ?4481次閱讀

    谷歌:監(jiān)督學(xué)習(xí)其實(shí)正在悄然的進(jìn)化

    上圖可以看出來(lái),最開(kāi)始的時(shí)候,監(jiān)督學(xué)習(xí)訓(xùn)練確實(shí)有種提升監(jiān)督學(xué)習(xí)效果的趨勢(shì),然而實(shí)際操作中,我們經(jīng)常陷入從“可怕又不可用”的狀態(tài),到“不那么可怕但仍然完全不可用”。
    的頭像 發(fā)表于 05-25 09:58 ?3115次閱讀
    谷歌:<b class='flag-5'>半</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>其實(shí)正在悄然的進(jìn)化

    聚焦 | 新技術(shù)“紅”不過(guò)十年?監(jiān)督學(xué)習(xí)卻成例外?

    就目前來(lái)看,監(jiān)督學(xué)習(xí)是一個(gè)很有潛力的方向。
    的頭像 發(fā)表于 06-18 17:24 ?2700次閱讀

    機(jī)器學(xué)習(xí)算法中有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)的區(qū)別

    無(wú)監(jiān)督學(xué)習(xí)的好處之一是,它不需要監(jiān)督學(xué)習(xí)必須經(jīng)歷的費(fèi)力的數(shù)據(jù)標(biāo)記過(guò)程。但是,要權(quán)衡的是,評(píng)估其性能的有效性也非常困難。相反,通過(guò)將監(jiān)督學(xué)習(xí)算法的輸出與測(cè)試數(shù)據(jù)的實(shí)際標(biāo)簽進(jìn)行比較,可以很容易地衡量
    的頭像 發(fā)表于 07-07 10:18 ?5966次閱讀

    最基礎(chǔ)的監(jiān)督學(xué)習(xí)

    導(dǎo)讀 最基礎(chǔ)的監(jiān)督學(xué)習(xí)的概念,給大家一個(gè)感性的認(rèn)識(shí)。 監(jiān)督學(xué)習(xí)(SSL)是一種機(jī)器學(xué)習(xí)技術(shù),其中任務(wù)是從一個(gè)小的帶標(biāo)簽的數(shù)據(jù)集和相對(duì)較大
    的頭像 發(fā)表于 11-02 16:08 ?2814次閱讀

    監(jiān)督學(xué)習(xí)最基礎(chǔ)的3個(gè)概念

    導(dǎo)讀 今天給大家介紹監(jiān)督學(xué)習(xí)中的3個(gè)最基礎(chǔ)的概念:一致性正則化,熵最小化和偽標(biāo)簽,并介紹了兩個(gè)經(jīng)典的監(jiān)督學(xué)習(xí)方法。 沒(méi)看一的點(diǎn)這里哈:
    的頭像 發(fā)表于 11-02 16:14 ?3154次閱讀
    <b class='flag-5'>半</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>最基礎(chǔ)的3個(gè)概念

    為什么監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)的未來(lái)?

    為什么監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)的未來(lái)。 監(jiān)督學(xué)習(xí)是人工智能領(lǐng)域的第一種學(xué)習(xí)類型。從它的概念開(kāi)始,無(wú)數(shù)的算法,從簡(jiǎn)單的邏輯回歸到大規(guī)模的神經(jīng)網(wǎng)絡(luò),
    的頭像 發(fā)表于 11-27 10:42 ?4055次閱讀

    監(jiān)督學(xué)習(xí):比監(jiān)督學(xué)習(xí)做的更好

    監(jiān)督學(xué)習(xí)是人工智能領(lǐng)域的第一種學(xué)習(xí)類型。從它的概念開(kāi)始,無(wú)數(shù)的算法,從簡(jiǎn)單的邏輯回歸到大規(guī)模的神經(jīng)網(wǎng)絡(luò),都已經(jīng)被研究用來(lái)提高精...
    的頭像 發(fā)表于 12-08 23:32 ?1593次閱讀

    基于特征組分層和監(jiān)督學(xué)習(xí)的鼠標(biāo)軌跡識(shí)別方法

    傳統(tǒng)時(shí)間序列分類方法存在鼠標(biāo)軌跡特征挖掘不充分、數(shù)據(jù)不平衡與標(biāo)記樣本量少等問(wèn)題,造成識(shí)別效果較差。結(jié)合特征組分層和監(jiān)督學(xué)習(xí),提出一種鼠標(biāo)軌跡識(shí)別方法。通過(guò)不同視角構(gòu)建有層次的鼠標(biāo)軌跡特征組,并借鑒
    發(fā)表于 05-13 15:41 ?9次下載

    機(jī)器學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)應(yīng)用在哪些領(lǐng)域

    監(jiān)督學(xué)習(xí)|機(jī)器學(xué)習(xí)| 集成學(xué)習(xí)|進(jìn)化計(jì)算| 非監(jiān)督學(xué)習(xí)| 監(jiān)督學(xué)習(xí)| 自
    發(fā)表于 01-20 10:52 ?5126次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的無(wú)<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>應(yīng)用在哪些領(lǐng)域

    一種基于偽標(biāo)簽監(jiān)督學(xué)習(xí)的小樣本調(diào)制識(shí)別算法

    一種基于偽標(biāo)簽監(jiān)督學(xué)習(xí)的小樣本調(diào)制識(shí)別算法 來(lái)源:《西北工業(yè)大學(xué)學(xué)報(bào)》,作者史蘊(yùn)豪等 摘 要:針對(duì)有標(biāo)簽樣本較少條件下的通信信號(hào)調(diào)制識(shí)別問(wèn)題,提出了一種基于偽標(biāo)簽監(jiān)督學(xué)習(xí)技術(shù)的小樣
    發(fā)表于 02-10 11:37 ?1006次閱讀

    跨解剖域自適應(yīng)對(duì)比監(jiān)督學(xué)習(xí)方法解析

    監(jiān)督學(xué)習(xí)中,一個(gè)典型的例子是 Mean-Teacher。與對(duì)抗網(wǎng)絡(luò)類似,其整體架構(gòu)包含了兩個(gè)網(wǎng)絡(luò):teacher 網(wǎng)絡(luò)和 student 網(wǎng)絡(luò)。
    發(fā)表于 04-14 14:37 ?1728次閱讀