一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google AI最新研究用無監(jiān)督數(shù)據(jù)增強推進(jìn)半監(jiān)督學(xué)習(xí),取得令人矚目的成果

DPVg_AI_era ? 來源:lq ? 2019-07-13 07:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Google AI最新研究用無監(jiān)督數(shù)據(jù)增強推進(jìn)半監(jiān)督學(xué)習(xí),取得令人矚目的成果。該方法超越了所有現(xiàn)有的半監(jiān)督學(xué)習(xí)方法,并實現(xiàn)了僅使用極少量標(biāo)記樣本即可達(dá)到使用大量標(biāo)記樣本訓(xùn)練集的精度。

深度學(xué)習(xí)之所以能夠成功的關(guān)鍵因素,是算法的進(jìn)步,以及并行處理硬件(GPU / TPU)以及大型標(biāo)記數(shù)據(jù)集(如ImageNet)。

然而,當(dāng)標(biāo)記數(shù)據(jù)稀缺時,深度學(xué)習(xí)就像缺了一條腿。在這種情況下,需要應(yīng)用數(shù)據(jù)增強方法,例如對句子進(jìn)行釋義或?qū)D像進(jìn)行旋轉(zhuǎn),以有效地增加標(biāo)記的訓(xùn)練數(shù)據(jù)的量。

如今,在諸如自然語言處理(NLP),視覺和語音等各種領(lǐng)域的數(shù)據(jù)增強方法的設(shè)計上,已經(jīng)取得了重大進(jìn)展。不幸的是,數(shù)據(jù)增加通常僅限于監(jiān)督學(xué)習(xí),需要標(biāo)簽從原始示例轉(zhuǎn)移到增強示例。

上圖:基于文本(頂部)或基于圖像(底部)訓(xùn)練數(shù)據(jù)的示例增強操作。

在谷歌最近“用于一致性訓(xùn)練的無監(jiān)督數(shù)據(jù)增強(UDA)”的研究中,證明還可以對未標(biāo)記數(shù)據(jù)執(zhí)行數(shù)據(jù)增強,以顯著改善半監(jiān)督學(xué)習(xí)(SSL)。

谷歌的結(jié)果促進(jìn)了半監(jiān)督學(xué)習(xí)的復(fù)興,而且還發(fā)現(xiàn)3點有趣的現(xiàn)象:(1)SSL可以匹配甚至優(yōu)于使用數(shù)量級更多標(biāo)記數(shù)據(jù)的純監(jiān)督學(xué)習(xí)。(2)SSL在文本和視覺兩個領(lǐng)域都能很好地工作。(3)SSL能夠與遷移學(xué)習(xí)很好地結(jié)合。

此外谷歌還開放了代碼在GitHub。

GitHub地址:

https://github.com/google-research/uda

無監(jiān)督數(shù)據(jù)擴充

無監(jiān)督數(shù)據(jù)增強同時使用標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)。在標(biāo)記數(shù)據(jù)方面,它使用監(jiān)督學(xué)習(xí)的標(biāo)準(zhǔn)方法來計算損失函數(shù)以訓(xùn)練模型,如下圖的左側(cè)部分所示。

而對于未標(biāo)記的數(shù)據(jù),則應(yīng)用一致性訓(xùn)練來強制預(yù)測未標(biāo)記的示例和增強的未標(biāo)記示例是否相似,如下圖的右側(cè)部分所示。

這里,相同的模型被同時應(yīng)用于未標(biāo)記的示例和增強的對應(yīng)物,以產(chǎn)生兩個模型預(yù)測,從中計算一致性損失(即,兩個預(yù)測分布之間的距離)。

然后,UDA通過聯(lián)合優(yōu)化標(biāo)記數(shù)據(jù)的監(jiān)督損失和未標(biāo)記數(shù)據(jù)的無監(jiān)督一致性損失,來計算最終損失。

通過最小化一致性損失,UDA允許標(biāo)簽信息從標(biāo)記的示例平滑地傳播到未標(biāo)記的示例。

直覺上,人們可以將UDA視為隱含的迭代過程:該模型依賴于少量標(biāo)記的示例,來對一些未標(biāo)記的示例進(jìn)行正確的預(yù)測,從中通過一致性損失,并將標(biāo)簽信息傳播到增強的對應(yīng)物。隨著時間的推移,越來越多未標(biāo)記的示例終將被正確預(yù)測,這反映了模型的改進(jìn)的泛化。

谷歌對各種其他類型的噪聲進(jìn)行一致性訓(xùn)練測試(例如高斯噪聲、對抗性噪聲等)后,在各種各樣的噪聲上實現(xiàn)了最先進(jìn)的性能。

UDA根據(jù)任務(wù)應(yīng)用不同的現(xiàn)有增強方法,包括反向翻譯、自動增強和TF-IDF單詞替換。

新的NLP和計算機視覺的基準(zhǔn)

UDA在低數(shù)據(jù)體系中出乎意料地有效。只用20個標(biāo)記示例,UDA通過50000個未標(biāo)記的示例,在IMDb情緒分析任務(wù)中實現(xiàn)了4.20的錯誤率。

該結(jié)果優(yōu)于先前使用25000個標(biāo)記示例訓(xùn)練的最先進(jìn)模型(錯誤率為4.32)。在大數(shù)據(jù)制度中,通過完整的訓(xùn)練集,UDA也提供了強大的收益。

IMDb的基準(zhǔn),是一種情緒分析任務(wù)。UDA在不同培訓(xùn)規(guī)模的監(jiān)督學(xué)習(xí)中超越了最先進(jìn)的成果,如下圖。

在CIFAR-10半監(jiān)督學(xué)習(xí)基準(zhǔn)測試中,UDA的表現(xiàn)同樣優(yōu)于所有現(xiàn)有的SSL方法,如VAT、ICT和MixMatch。

在4k示例情況下,UDA實現(xiàn)了5.27的錯誤率,與使用50k示例的完全監(jiān)督模型的性能相匹配。

此外,通過更先進(jìn)的PyramidNet+ShakeDro架構(gòu)p,UDA實現(xiàn)了2.7的新的最新錯誤率,與之前的最佳半監(jiān)督結(jié)果相比,錯誤率降低了45%以上。

在SVHN上,UDA僅使用250個標(biāo)記示例,就實現(xiàn)了2.85的錯誤率,與使用70k標(biāo)記示例訓(xùn)練的完全監(jiān)督模型的性能相匹配。

CIFAR-10的SSL基準(zhǔn)測試,圖像分類任務(wù)。UDA超越了所有現(xiàn)有的半監(jiān)督學(xué)習(xí)方法,所有這些方法都使用Wide-ResNet-28-2架構(gòu)。在4000個示例中,UDA將完全監(jiān)督設(shè)置的性能與50000個示例相匹配。

在具有10%標(biāo)記示例的ImageNet上,UDA將TOP 1精度從55.1%提高到68.7%。

在具有完全標(biāo)記集和1.3M額外未標(biāo)記示例的高數(shù)據(jù)體系中,UDA繼續(xù)為前1精度提供78.3%至79.0%的增益。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1789

    瀏覽量

    59047
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4381

    瀏覽量

    64895
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25449

原文標(biāo)題:讓半監(jiān)督學(xué)習(xí)再次偉大!谷歌最新無監(jiān)督數(shù)據(jù)增強研究,全面超越現(xiàn)有半監(jiān)督學(xué)習(xí)方法

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    使用MATLAB進(jìn)行監(jiān)督學(xué)習(xí)

    監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機器學(xué)習(xí)方法。監(jiān)督學(xué)習(xí)旨在識別
    的頭像 發(fā)表于 05-16 14:48 ?689次閱讀
    使用MATLAB進(jìn)行<b class='flag-5'>無</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>

    適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學(xué)習(xí)數(shù)據(jù)增強技術(shù)

    本文提出了一種適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學(xué)習(xí)數(shù)據(jù)增強技術(shù)。 ? 自監(jiān)督學(xué)習(xí)算法在自然語言處理、計算機視覺等領(lǐng)域
    的頭像 發(fā)表于 09-04 10:07 ?1407次閱讀
    適用于任意<b class='flag-5'>數(shù)據(jù)</b>模態(tài)的自<b class='flag-5'>監(jiān)督學(xué)習(xí)</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>增強</b>技術(shù)

    基于監(jiān)督學(xué)習(xí)的跌倒檢測系統(tǒng)設(shè)計_李仲年

    基于監(jiān)督學(xué)習(xí)的跌倒檢測系統(tǒng)設(shè)計_李仲年
    發(fā)表于 03-19 19:11 ?4次下載

    基于監(jiān)督學(xué)習(xí)框架的識別算法

    人體行為識別是計算機視覺研究的熱點問題,現(xiàn)有的行為識別方法都是基于監(jiān)督學(xué)習(xí)框架.為了取得較好的識別效果,通常需要大量的有標(biāo)記樣本來建模.然而,獲取有標(biāo)記樣本是一個費時又費力的工作.為了解決這個
    發(fā)表于 01-21 10:41 ?1次下載

    你想要的機器學(xué)習(xí)課程筆記在這:主要討論監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)

    with experience E(一個程序從經(jīng)驗E中學(xué)習(xí)解決任務(wù)T進(jìn)行某一任務(wù)量度P,通過P測量在T的表現(xiàn)而提高經(jīng)驗E(另一種定義:機器學(xué)習(xí)數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序
    發(fā)表于 12-03 17:12 ?730次閱讀

    如何用Python進(jìn)行監(jiān)督學(xué)習(xí)

    監(jiān)督學(xué)習(xí)是一種用于在數(shù)據(jù)中查找模式的機器學(xué)習(xí)技術(shù)。監(jiān)督算法給出的
    的頭像 發(fā)表于 01-21 17:23 ?4673次閱讀

    谷歌:監(jiān)督學(xué)習(xí)其實正在悄然的進(jìn)化

    上圖可以看出來,最開始的時候,監(jiān)督學(xué)習(xí)訓(xùn)練確實有種提升監(jiān)督學(xué)習(xí)效果的趨勢,然而實際操作中,我們經(jīng)常陷入從“可怕又不可用”的狀態(tài),到“不那么可怕但仍然完全不可用”。
    的頭像 發(fā)表于 05-25 09:58 ?3226次閱讀
    谷歌:<b class='flag-5'>半</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>其實正在悄然的進(jìn)化

    機器學(xué)習(xí)算法中有監(jiān)督監(jiān)督學(xué)習(xí)的區(qū)別

    監(jiān)督學(xué)習(xí)的好處之一是,它不需要監(jiān)督學(xué)習(xí)必須經(jīng)歷的費力的數(shù)據(jù)標(biāo)記過程。但是,要權(quán)衡的是,評估其性能的有效性也非常困難。相反,通過將監(jiān)督學(xué)習(xí)
    的頭像 發(fā)表于 07-07 10:18 ?6110次閱讀

    最基礎(chǔ)的監(jiān)督學(xué)習(xí)

    標(biāo)記數(shù)據(jù)訓(xùn)練的監(jiān)督學(xué)習(xí)技術(shù)得到更好的結(jié)果。這是監(jiān)督學(xué)習(xí)系列文章的第1部分,對這個機器學(xué)習(xí)的重要子領(lǐng)域進(jìn)行了簡要的介紹。 區(qū)分
    的頭像 發(fā)表于 11-02 16:08 ?2956次閱讀

    監(jiān)督學(xué)習(xí)最基礎(chǔ)的3個概念

    有趣的方法,用來解決機器學(xué)習(xí)中缺少標(biāo)簽數(shù)據(jù)的問題。SSL利用未標(biāo)記的數(shù)據(jù)和標(biāo)記的數(shù)據(jù)集來學(xué)習(xí)任務(wù)。SSL的目標(biāo)是得到比單獨使用標(biāo)記
    的頭像 發(fā)表于 11-02 16:14 ?3291次閱讀
    <b class='flag-5'>半</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>最基礎(chǔ)的3個概念

    為什么監(jiān)督學(xué)習(xí)是機器學(xué)習(xí)的未來?

    揭示了添加監(jiān)督數(shù)據(jù)可以提高模型泛化和性能。事實上,在非常多的場景中,帶有標(biāo)簽的數(shù)據(jù)并不容易獲得。監(jiān)督
    的頭像 發(fā)表于 11-27 10:42 ?4151次閱讀

    監(jiān)督學(xué)習(xí):比監(jiān)督學(xué)習(xí)做的更好

    監(jiān)督學(xué)習(xí)是人工智能領(lǐng)域的第一種學(xué)習(xí)類型。從它的概念開始,無數(shù)的算法,從簡單的邏輯回歸到大規(guī)模的神經(jīng)網(wǎng)絡(luò),都已經(jīng)被研究用來提高精...
    的頭像 發(fā)表于 12-08 23:32 ?1716次閱讀

    機器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)應(yīng)用在哪些領(lǐng)域

    監(jiān)督學(xué)習(xí)|機器學(xué)習(xí)| 集成學(xué)習(xí)|進(jìn)化計算| 非監(jiān)督學(xué)習(xí)| 監(jiān)督學(xué)習(xí)| 自
    發(fā)表于 01-20 10:52 ?5261次閱讀
    機器<b class='flag-5'>學(xué)習(xí)</b>中的<b class='flag-5'>無</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>應(yīng)用在哪些領(lǐng)域

    監(jiān)督學(xué)習(xí)代碼庫存在的問題與挑戰(zhàn)

    當(dāng)使用監(jiān)督學(xué)習(xí)(Supervised Learning)對大量高質(zhì)量的標(biāo)記數(shù)據(jù)(Labeled Data)進(jìn)行訓(xùn)練時,神經(jīng)網(wǎng)絡(luò)模型會產(chǎn)生有競爭力的結(jié)果。例如,根據(jù)Paperswithcode網(wǎng)站統(tǒng)計
    的頭像 發(fā)表于 10-18 16:28 ?1607次閱讀

    深度學(xué)習(xí)中的監(jiān)督學(xué)習(xí)方法綜述

    深度學(xué)習(xí)作為機器學(xué)習(xí)領(lǐng)域的一個重要分支,近年來在多個領(lǐng)域取得了顯著的成果,特別是在圖像識別、語音識別、自然語言處理等領(lǐng)域。然而,深度學(xué)習(xí)模型
    的頭像 發(fā)表于 07-09 10:50 ?1718次閱讀