成人欧美一区二区三区黑人孕妇,亚洲图片一区二区

當使用監(jiān)督學習(Supervised Learning)對大量高質(zhì)量的標記數(shù)據(jù)(Labeled Data)進行訓(xùn)練時，神經(jīng)網(wǎng)絡(luò)模型會產(chǎn)生有競爭力的結(jié)果。例如，根據(jù)Paperswithcode網(wǎng)站統(tǒng)計，在ImageNet這一百萬量級的數(shù)據(jù)集上，傳統(tǒng)的監(jiān)督學習方法可以達到超過88%的準確率。然而，獲取大量有標簽的數(shù)據(jù)往往費時費力。

為了緩解對標注數(shù)據(jù)的依賴，「半監(jiān)督學習」(Semi-supervised Learning/SSL)致力于在僅有「少量」的標注數(shù)據(jù)時利用「大量無標簽」數(shù)據(jù)(Unlabeled Data)來提升模型的泛化性。半監(jiān)督學習亦是機器學習的重要主題之一。深度學習之前，這一領(lǐng)域的研究者們提出了諸如半監(jiān)督支持向量機、熵正則化、協(xié)同訓(xùn)練等經(jīng)典算法。

深度半監(jiān)督學習

隨著深度學習的興起，「深度」半監(jiān)督學習算法也取得了長足的進步。同時，包括Google、Meta和微軟等在內(nèi)的科技巨頭也認識到了半監(jiān)督學習在實際場景中的巨大潛力。例如，Google利用噪聲學生訓(xùn)練(Noisy student training)這一半監(jiān)督算法提高了其在搜索方面的性能[1]。當前最具代表性的半監(jiān)督算法通常對標注數(shù)據(jù)使用交叉熵損失進行訓(xùn)練，對無標注數(shù)據(jù)使用「一致性正則」技術(shù)(Consistency Regularization)鼓勵對輸入擾動進行不變預(yù)測。例如，Google在NeurIPS 2020提出的FixMatch[2]算法利用增強錨定(Augmentation Anchoring)和固定閾值(Fixed Thresholding)技術(shù)來增強模型對不同強增強數(shù)據(jù)的泛化性和減少噪聲偽標簽(Noisy Pseudo Labels)的影響。在訓(xùn)練中，F(xiàn)ixMatch過濾了低于用戶指定(user-provided / pre-defined)閾值的無標簽數(shù)據(jù)。

微軟亞洲研究院與東京工業(yè)大學等在NeurIPS 2021合作提出的FlexMatch[3]則考慮到了「不同類」之間的學習難度不同，因此提出了「課程偽標簽」(Curriculum Pseudo Labeling)技術(shù)對于不同類應(yīng)該采用不同的閾值。具體來說，對于容易學習的類別，模型應(yīng)該設(shè)置高閾值以降低噪聲偽標簽的影響；對于難學習的類，模型應(yīng)該設(shè)置低閾值鼓勵該類的擬合。每個類的學習難度評估取決于落入該類且高于固定值的未標記數(shù)據(jù)樣本的數(shù)量。

同時，研究員和這些學校還合作提出了一個統(tǒng)一的基于Pytorch的半監(jiān)督方法代碼庫「TorchSSL」[4]，對該領(lǐng)域的深度方法、常用數(shù)據(jù)集、和基準結(jié)果進行了統(tǒng)一的支持。

當前「半監(jiān)督學習代碼庫存在的問題與挑戰(zhàn)」

盡管半監(jiān)督學習的發(fā)展如火如荼，但是，研究員們注意到目前大部分半監(jiān)督論文「只關(guān)注」計算機視覺 (CV) 分類任務(wù)，而「其他領(lǐng)域」（例如自然語言處理 (NLP)、音頻處理 (Audio)）研究者無法得知這些在CV任務(wù)上有效的算法是否依然有效。另外，大部分半監(jiān)督論文都是由谷歌，微軟等大型機構(gòu)發(fā)表的，學術(shù)界的實驗室往往由于計算資源的限制不能一起推動半監(jiān)督領(lǐng)域的發(fā)展?？偟膩碚f，半監(jiān)督學習基準目前存在以下兩個問題：

（1）多樣性不足?，F(xiàn)有的半監(jiān)督學習基準大多局限于計算機視覺 (CV) 分類任務(wù)（即 CIFAR-10/100，SVHN，STL-10 和 ImageNet 分類），「排除了對自然語言處理 (NLP)、音頻處理 (Audio) 等分類任務(wù)的一致和多樣化評估，而在NLP和Audio中缺乏足夠的標記數(shù)據(jù)也是一個普遍問題?！?/strong>

（2）耗時且對學術(shù)界不友好?，F(xiàn)有的半監(jiān)督學習基準（如TorchSSL）通常是耗時且不環(huán)保的，因為它需要通常從頭開始訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型。具體而言，使用 TorchSSL評估FixMatch[1]大約需要「300」個GPU日。如此高的訓(xùn)練成本使得許多研究實驗室（尤其是學術(shù)界的實驗室或小研究團體）無法負擔得起SSL的相關(guān)研究，從而阻礙了SSL的進展。

USB: 任務(wù)多樣化和對研究者更友好的新基準庫

微軟亞洲研究院的研究員們聯(lián)合西湖大學、東京工業(yè)大學、卡內(nèi)基梅隆大學、馬克斯-普朗克研究所等機構(gòu)的研究人員們提出了「USB」：第一個將「視覺，語言，和音頻」分類任務(wù)進行統(tǒng)一的半監(jiān)督分類學習基準。相比于之前的半監(jiān)督學習基準(如TorchSSL)只關(guān)注少量視覺任務(wù)，該論文不僅引入更多樣化的應(yīng)用領(lǐng)域，還「首次」利用視覺預(yù)訓(xùn)練模型（Pretrained Vision Transformer）大大縮減了半監(jiān)督算法的驗證時間（「從7000GPU時縮減至900GPU時」），使得半監(jiān)督研究對研究者、特別是小研究團體更友好。USB的相關(guān)論文已被國際人工智能頂會NeurIPS 2022接收。

USB

「USB提供的解決方案」

那么，USB如何一次性解決當前半監(jiān)督基準存在的問題呢？研究員們進行了如下的改進：

（1）為增強任務(wù)多樣性，USB引入了5個CV 數(shù)據(jù)集，5個NLP數(shù)據(jù)集和5個音頻數(shù)據(jù)集提供了一個多樣化且具有挑戰(zhàn)性的基準，從而能夠?qū)碜圆煌I(lǐng)域的多個任務(wù)進行一致的評估。下表提供了USB與TorchSSL的任務(wù)和訓(xùn)練時間等方面的詳細對比。

（2）為提高訓(xùn)練效率，研究員們將預(yù)訓(xùn)練的Vision Transformer引入SSL，而不是從頭訓(xùn)練ResNets。具體而言，研究員們發(fā)現(xiàn)在「不影響性能」的情況下使用預(yù)訓(xùn)練模型可以大大減少訓(xùn)練迭代次數(shù)（例如，將 CV 任務(wù)的訓(xùn)練迭代次數(shù)從100萬步減少到「20」萬步）。（3）為了對研究人員更加友好，研究員們開源實現(xiàn)了14種 SSL算法并開源了一個模塊化代碼庫和相關(guān)的配置文件以供研究者輕松再現(xiàn)USB報告中的結(jié)果。為了快速上手，USB還提供詳細的文檔和教程。此外，USB還提供「pip包」以供使用者直接調(diào)用SSL算法。研究員們承諾未來會在USB中不斷加入新的算法（例如不平衡半監(jiān)督算法等）和更多更具挑戰(zhàn)性的數(shù)據(jù)集。

總結(jié)

半監(jiān)督學習通過利用大量無標簽數(shù)據(jù)來訓(xùn)練更精確、更魯棒的模型，在未來有著重要的研究和應(yīng)用價值。研究員們期待通過USB這一工作，能夠予力學術(shù)界和工業(yè)界在半監(jiān)督學習領(lǐng)域取得更大的進展。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

代碼

代碼

+關(guān)注

關(guān)注
30

文章
4899

瀏覽量
70639

深度學習

深度學習

+關(guān)注

關(guān)注
73

文章
5560

瀏覽量
122763

半監(jiān)督學習

半監(jiān)督學習

+關(guān)注

關(guān)注
0

文章
20

瀏覽量
2629

原文標題：NIPS'22 | USB: 統(tǒng)一、任務(wù)多樣化、對學術(shù)界更友好的半監(jiān)督學習算法庫

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

收藏人收藏

掃一掃，分享給好友

復(fù)制鏈接分享

加入交流群

掃碼添加小助手

加入工程師交流群

評論

發(fā)布評論請先登錄

相關(guān)推薦

熱點推薦

使用MATLAB進行無監(jiān)督學習

無監(jiān)督學習是一種根據(jù)未標注數(shù)據(jù)進行推斷的機器學習方法。無監(jiān)督學習旨在識別數(shù)據(jù)中隱藏的模式和關(guān)系，無需任何監(jiān)督或關(guān)于結(jié)果的先驗知識。

發(fā)表于 05-16 14:48 ?662次閱讀

基于半監(jiān)督學習的跌倒檢測系統(tǒng)設(shè)計_李仲年

基于半監(jiān)督學習的跌倒檢測系統(tǒng)設(shè)計_李仲年

發(fā)表于 03-19 19:11 ?4次下載

基于半監(jiān)督學習框架的識別算法

問題，對半監(jiān)督學習中的協(xié)同訓(xùn)練算法進行改進，提出了一種基于多學習器協(xié)同訓(xùn)練模型的人體行為識別方法．這是一種基于半監(jiān)督學習框架的識別算法，該方法首先通過基于Q統(tǒng)計量的

發(fā)表于 01-21 10:41 ?1次下載

你想要的機器學習課程筆記在這：主要討論監(jiān)督學習和無監(jiān)督學習

with experience E（一個程序從經(jīng)驗E中學習解決任務(wù)T進行某一任務(wù)量度P，通過P測量在T的表現(xiàn)而提高經(jīng)驗E（另一種定義：機器學習是用數(shù)據(jù)或以往的經(jīng)驗，以此優(yōu)化計算機程序的性能標準。）不同類型的機器學習算法：主要

發(fā)表于 12-03 17:12 ?723次閱讀

如何用Python進行無監(jiān)督學習

無監(jiān)督學習是一種用于在數(shù)據(jù)中查找模式的機器學習技術(shù)。無監(jiān)督算法給出的數(shù)據(jù)不帶標記，只給出輸入變量(X)，沒有相應(yīng)的輸出變量。在無監(jiān)督學習中，算法自己去發(fā)現(xiàn)數(shù)據(jù)中有趣的結(jié)構(gòu)。

發(fā)表于 01-21 17:23 ?4663次閱讀

谷歌：半監(jiān)督學習其實正在悄然的進化

上圖可以看出來，最開始的時候，半監(jiān)督學習訓(xùn)練確實有種提升監(jiān)督學習效果的趨勢，然而實際操作中，我們經(jīng)常陷入從“可怕又不可用”的狀態(tài)，到“不那么可怕但仍然完全不可用”。

發(fā)表于 05-25 09:58 ?3218次閱讀

聚焦 | 新技術(shù)“紅”不過十年?半監(jiān)督學習卻成例外?

就目前來看，半監(jiān)督學習是一個很有潛力的方向。

發(fā)表于 06-18 17:24 ?2802次閱讀

機器學習算法中有監(jiān)督和無監(jiān)督學習的區(qū)別

無監(jiān)督學習的好處之一是，它不需要監(jiān)督學習必須經(jīng)歷的費力的數(shù)據(jù)標記過程。但是，要權(quán)衡的是，評估其性能的有效性也非常困難。相反，通過將監(jiān)督學習算法的輸出與測試數(shù)據(jù)的實際標簽進行比較，可以很容易地衡量

發(fā)表于 07-07 10:18 ?6092次閱讀

最基礎(chǔ)的半監(jiān)督學習

導(dǎo)讀最基礎(chǔ)的半監(jiān)督學習的概念，給大家一個感性的認識。半監(jiān)督學習(SSL)是一種機器學習技術(shù)，其中任務(wù)是從一個小的帶標簽的數(shù)據(jù)集和相對較大

發(fā)表于 11-02 16:08 ?2936次閱讀

半監(jiān)督學習最基礎(chǔ)的3個概念

導(dǎo)讀今天給大家介紹半監(jiān)督學習中的3個最基礎(chǔ)的概念：一致性正則化，熵最小化和偽標簽，并介紹了兩個經(jīng)典的半監(jiān)督學習方法。沒看一的點這里哈：半

發(fā)表于 11-02 16:14 ?3277次閱讀

為什么半監(jiān)督學習是機器學習的未來？

為什么半監(jiān)督學習是機器學習的未來。 監(jiān)督學習是人工智能領(lǐng)域的第一種學習類型。從它的概念開始，無數(shù)的算法，從簡單的邏輯回歸到大規(guī)模的神經(jīng)網(wǎng)絡(luò)，

發(fā)表于 11-27 10:42 ?4142次閱讀

半監(jiān)督學習：比監(jiān)督學習做的更好

監(jiān)督學習是人工智能領(lǐng)域的第一種學習類型。從它的概念開始，無數(shù)的算法，從簡單的邏輯回歸到大規(guī)模的神經(jīng)網(wǎng)絡(luò)，都已經(jīng)被研究用來提高精...

發(fā)表于 12-08 23:32 ?1708次閱讀

基于特征組分層和半監(jiān)督學習的鼠標軌跡識別方法

傳統(tǒng)時間序列分類方法存在鼠標軌跡特征挖掘不充分、數(shù)據(jù)不平衡與標記樣本量少等問題，造成識別效果較差。結(jié)合特征組分層和半監(jiān)督學習，提出一種鼠標軌跡識別方法。通過不同視角構(gòu)建有層次的鼠標軌跡特征組，并借鑒

發(fā)表于 05-13 15:41 ?9次下載

機器學習中的無監(jiān)督學習應(yīng)用在哪些領(lǐng)域

監(jiān)督學習|機器學習| 集成學習|進化計算| 非監(jiān)督學習| 半監(jiān)督學習| 自

發(fā)表于 01-20 10:52 ?5247次閱讀

跨解剖域自適應(yīng)對比半監(jiān)督學習方法解析

在半監(jiān)督學習中，一個典型的例子是 Mean-Teacher。與對抗網(wǎng)絡(luò)類似，其整體架構(gòu)包含了兩個網(wǎng)絡(luò)：teacher 網(wǎng)絡(luò)和 student 網(wǎng)絡(luò)。

發(fā)表于 04-14 14:37 ?1855次閱讀

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

半監(jiān)督學習代碼庫存在的問題與挑戰(zhàn)

評論