Google AI最新研究用無監(jiān)督數(shù)據(jù)增強推進(jìn)半監(jiān)督學(xué)習(xí),取得令人矚目的成果。該方法超越了所有現(xiàn)有的半監(jiān)督學(xué)習(xí)方法,并實現(xiàn)了僅使用極少量標(biāo)記樣本即可達(dá)到使用大量標(biāo)記樣本訓(xùn)練集的精度。
深度學(xué)習(xí)之所以能夠成功的關(guān)鍵因素,是算法的進(jìn)步,以及并行處理硬件(GPU / TPU)以及大型標(biāo)記數(shù)據(jù)集(如ImageNet)。
然而,當(dāng)標(biāo)記數(shù)據(jù)稀缺時,深度學(xué)習(xí)就像缺了一條腿。在這種情況下,需要應(yīng)用數(shù)據(jù)增強方法,例如對句子進(jìn)行釋義或?qū)D像進(jìn)行旋轉(zhuǎn),以有效地增加標(biāo)記的訓(xùn)練數(shù)據(jù)的量。
如今,在諸如自然語言處理(NLP),視覺和語音等各種領(lǐng)域的數(shù)據(jù)增強方法的設(shè)計上,已經(jīng)取得了重大進(jìn)展。不幸的是,數(shù)據(jù)增加通常僅限于監(jiān)督學(xué)習(xí),需要標(biāo)簽從原始示例轉(zhuǎn)移到增強示例。
上圖:基于文本(頂部)或基于圖像(底部)訓(xùn)練數(shù)據(jù)的示例增強操作。
在谷歌最近“用于一致性訓(xùn)練的無監(jiān)督數(shù)據(jù)增強(UDA)”的研究中,證明還可以對未標(biāo)記數(shù)據(jù)執(zhí)行數(shù)據(jù)增強,以顯著改善半監(jiān)督學(xué)習(xí)(SSL)。
谷歌的結(jié)果促進(jìn)了半監(jiān)督學(xué)習(xí)的復(fù)興,而且還發(fā)現(xiàn)3點有趣的現(xiàn)象:(1)SSL可以匹配甚至優(yōu)于使用數(shù)量級更多標(biāo)記數(shù)據(jù)的純監(jiān)督學(xué)習(xí)。(2)SSL在文本和視覺兩個領(lǐng)域都能很好地工作。(3)SSL能夠與遷移學(xué)習(xí)很好地結(jié)合。
此外谷歌還開放了代碼在GitHub。
GitHub地址:
https://github.com/google-research/uda
無監(jiān)督數(shù)據(jù)擴充
無監(jiān)督數(shù)據(jù)增強同時使用標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)。在標(biāo)記數(shù)據(jù)方面,它使用監(jiān)督學(xué)習(xí)的標(biāo)準(zhǔn)方法來計算損失函數(shù)以訓(xùn)練模型,如下圖的左側(cè)部分所示。
而對于未標(biāo)記的數(shù)據(jù),則應(yīng)用一致性訓(xùn)練來強制預(yù)測未標(biāo)記的示例和增強的未標(biāo)記示例是否相似,如下圖的右側(cè)部分所示。
這里,相同的模型被同時應(yīng)用于未標(biāo)記的示例和增強的對應(yīng)物,以產(chǎn)生兩個模型預(yù)測,從中計算一致性損失(即,兩個預(yù)測分布之間的距離)。
然后,UDA通過聯(lián)合優(yōu)化標(biāo)記數(shù)據(jù)的監(jiān)督損失和未標(biāo)記數(shù)據(jù)的無監(jiān)督一致性損失,來計算最終損失。
通過最小化一致性損失,UDA允許標(biāo)簽信息從標(biāo)記的示例平滑地傳播到未標(biāo)記的示例。
直覺上,人們可以將UDA視為隱含的迭代過程:該模型依賴于少量標(biāo)記的示例,來對一些未標(biāo)記的示例進(jìn)行正確的預(yù)測,從中通過一致性損失,并將標(biāo)簽信息傳播到增強的對應(yīng)物。隨著時間的推移,越來越多未標(biāo)記的示例終將被正確預(yù)測,這反映了模型的改進(jìn)的泛化。
谷歌對各種其他類型的噪聲進(jìn)行一致性訓(xùn)練測試(例如高斯噪聲、對抗性噪聲等)后,在各種各樣的噪聲上實現(xiàn)了最先進(jìn)的性能。
UDA根據(jù)任務(wù)應(yīng)用不同的現(xiàn)有增強方法,包括反向翻譯、自動增強和TF-IDF單詞替換。
新的NLP和計算機視覺的基準(zhǔn)
UDA在低數(shù)據(jù)體系中出乎意料地有效。只用20個標(biāo)記示例,UDA通過50000個未標(biāo)記的示例,在IMDb情緒分析任務(wù)中實現(xiàn)了4.20的錯誤率。
該結(jié)果優(yōu)于先前使用25000個標(biāo)記示例訓(xùn)練的最先進(jìn)模型(錯誤率為4.32)。在大數(shù)據(jù)制度中,通過完整的訓(xùn)練集,UDA也提供了強大的收益。
IMDb的基準(zhǔn),是一種情緒分析任務(wù)。UDA在不同培訓(xùn)規(guī)模的監(jiān)督學(xué)習(xí)中超越了最先進(jìn)的成果,如下圖。
在CIFAR-10半監(jiān)督學(xué)習(xí)基準(zhǔn)測試中,UDA的表現(xiàn)同樣優(yōu)于所有現(xiàn)有的SSL方法,如VAT、ICT和MixMatch。
在4k示例情況下,UDA實現(xiàn)了5.27的錯誤率,與使用50k示例的完全監(jiān)督模型的性能相匹配。
此外,通過更先進(jìn)的PyramidNet+ShakeDro架構(gòu)p,UDA實現(xiàn)了2.7的新的最新錯誤率,與之前的最佳半監(jiān)督結(jié)果相比,錯誤率降低了45%以上。
在SVHN上,UDA僅使用250個標(biāo)記示例,就實現(xiàn)了2.85的錯誤率,與使用70k標(biāo)記示例訓(xùn)練的完全監(jiān)督模型的性能相匹配。
CIFAR-10的SSL基準(zhǔn)測試,圖像分類任務(wù)。UDA超越了所有現(xiàn)有的半監(jiān)督學(xué)習(xí)方法,所有這些方法都使用Wide-ResNet-28-2架構(gòu)。在4000個示例中,UDA將完全監(jiān)督設(shè)置的性能與50000個示例相匹配。
在具有10%標(biāo)記示例的ImageNet上,UDA將TOP 1精度從55.1%提高到68.7%。
在具有完全標(biāo)記集和1.3M額外未標(biāo)記示例的高數(shù)據(jù)體系中,UDA繼續(xù)為前1精度提供78.3%至79.0%的增益。
-
Google
+關(guān)注
關(guān)注
5文章
1789瀏覽量
59047 -
函數(shù)
+關(guān)注
關(guān)注
3文章
4381瀏覽量
64895 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25449
原文標(biāo)題:讓半監(jiān)督學(xué)習(xí)再次偉大!谷歌最新無監(jiān)督數(shù)據(jù)增強研究,全面超越現(xiàn)有半監(jiān)督學(xué)習(xí)方法
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)

適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學(xué)習(xí)數(shù)據(jù)增強技術(shù)

基于半監(jiān)督學(xué)習(xí)的跌倒檢測系統(tǒng)設(shè)計_李仲年
基于半監(jiān)督學(xué)習(xí)框架的識別算法
你想要的機器學(xué)習(xí)課程筆記在這:主要討論監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)
如何用Python進(jìn)行無監(jiān)督學(xué)習(xí)
谷歌:半監(jiān)督學(xué)習(xí)其實正在悄然的進(jìn)化

機器學(xué)習(xí)算法中有監(jiān)督和無監(jiān)督學(xué)習(xí)的區(qū)別
最基礎(chǔ)的半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)最基礎(chǔ)的3個概念

為什么半監(jiān)督學(xué)習(xí)是機器學(xué)習(xí)的未來?
半監(jiān)督學(xué)習(xí):比監(jiān)督學(xué)習(xí)做的更好
機器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)應(yīng)用在哪些領(lǐng)域

評論