
論文鏈接:
https://openreview.net/forum?id=j8IiQUM33s
此外,團隊還提出了一種名為混合自編碼器 (MixedAE) 的簡單而有效的方法,將圖像混合應(yīng)用于 MAE 數(shù)據(jù)增強。MixedAE 在各種下游任務(wù)(包括圖像分類、語義分割和目標檢測)上實現(xiàn)了最先進的遷移性能,同時保持了顯著的效率。這是第一個從任務(wù)設(shè)計的角度將圖像混合作為有效數(shù)據(jù)增強策略應(yīng)用于基于純自編碼器結(jié)構(gòu)的 Masked Image Modeling (MIM) 的研究。該工作已被 CVPR 2023 會議接收。
論文鏈接:
https://arxiv.org/abs/2303.17152
研究背景
在機器學(xué)習(xí)領(lǐng)域,預(yù)訓(xùn)練模型已經(jīng)成為一種流行的方法,可以提高各種下游任務(wù)的性能。然而,研究發(fā)現(xiàn),自監(jiān)督預(yù)訓(xùn)練存在的負遷移現(xiàn)象。諾亞 AI 基礎(chǔ)理論團隊的前期工作 SDR (AAAI 2022) [1] 首次指出自監(jiān)督預(yù)訓(xùn)練的負遷移問題,并提供初步解決方案。具體來說,負遷移是指在預(yù)訓(xùn)練過程中使用的數(shù)據(jù)與下游任務(wù)的數(shù)據(jù)分布不同,導(dǎo)致預(yù)訓(xùn)練模型在下游任務(wù)上的性能下降。在自監(jiān)督學(xué)習(xí)中,模型在無標簽數(shù)據(jù)上進行預(yù)訓(xùn)練,學(xué)習(xí)數(shù)據(jù)的潛在特征和表示。然而,當預(yù)訓(xùn)練數(shù)據(jù)與下游任務(wù)的數(shù)據(jù)分布存在顯著差異時,模型可能學(xué)到與下游任務(wù)無關(guān)或甚至有害的特征。

▲圖一:我們用ImageNet的兩個子集,Split-A和Split-B,訓(xùn)練兩個MAE模型,和全量數(shù)據(jù)集訓(xùn)練的模型相比較,后者僅在2個數(shù)據(jù)集上達到了最優(yōu)。這說明,增大數(shù)據(jù)量并不總是帶來更強的遷移效果。
以目前較為流行的自監(jiān)督學(xué)習(xí)算法 MAE 為例,我們評估了使用不同語義數(shù)據(jù)進行預(yù)訓(xùn)練的 MAE 模型在遷移性能上的表現(xiàn)。我們將 ImageNet 數(shù)據(jù)集分為兩個不相交的子集 Split-A 和 Split-B,根據(jù) WordNet 樹中標簽的語義差異進行劃分。Split-A 主要包含無生命物體(如汽車和飛機),而 Split-B 則主要涉及有機體(如植物和動物)。接著,我們在 Split-A、Split-B 和完整的 ImageNet 數(shù)據(jù)集上分別進行了 MAE 預(yù)訓(xùn)練,并在 11 個下游任務(wù)上評估了這三個模型的性能。如圖一所示,在僅含 2 個語義豐富數(shù)據(jù)集(Caltech,VOC)的情況下,基于完整 ImageNet 訓(xùn)練的 MAE 獲得了最佳的遷移效果;在非生物下游數(shù)據(jù)集 (Aircraft,Cars,SUN,DTD) 上,Split-A 的表現(xiàn)更佳;而在包含 Flowers,F(xiàn)ood,Pets,CIFAR10,CIFAR100 等數(shù)據(jù)集上,Split-B 的表現(xiàn)更優(yōu)。這表明,當下游任務(wù)與預(yù)訓(xùn)練數(shù)據(jù)分布不同時,與任務(wù)無關(guān)的預(yù)訓(xùn)練信息可能導(dǎo)致負遷移,從而限制了 MAE 模型的可擴展性。換言之,若一個 MAE 模型的預(yù)訓(xùn)練數(shù)據(jù)去除了與下游任務(wù)數(shù)據(jù)集相似度較低的部分,則其性能可能優(yōu)于包含這些無關(guān)數(shù)據(jù)的預(yù)訓(xùn)練模型。這突顯了開發(fā)針對特定下游任務(wù)的定制化預(yù)訓(xùn)練方法以避免負遷移現(xiàn)象的重要性。2. 自監(jiān)督數(shù)據(jù)增強難題在自監(jiān)督預(yù)訓(xùn)練中,與依賴數(shù)據(jù)增強的對比學(xué)習(xí)不同,我們發(fā)現(xiàn)傳統(tǒng)數(shù)據(jù)增強手段可能會削弱 MAE 的模型性能。以圖像混合增強(Image Mixing)為例,設(shè)隨機變量 X1 和 X2 表示兩個輸入圖像,M 表示隨機生成的掩碼,我們可以證明混合輸入 σmix({X1,X2},M) 與重構(gòu)目標 X1 之間的互信息 (MI) 不小于 MAE 輸入 σmae(X1,M) 與 X1 之間的互信息(詳見論文附錄)。




實驗分析
1. MoCE我們在之前提到的 11 個下游分類數(shù)據(jù)集和檢測分割任務(wù)上做了實驗。實驗結(jié)果表明,MoCE 在多個下游任務(wù)中的性能超過了傳統(tǒng)的 MAE 預(yù)訓(xùn)練方法。具體而言,在圖像分類任務(wù)中,MoCE 相較于 MAE 實現(xiàn)了更高的準確率。在目標檢測和分割任務(wù)中,MoCE 也取得了更好的表現(xiàn),包括更高的 mIoU 和 AP 指標。這些實驗結(jié)果表明,MoCE 通過利用相似語義圖像進行聚類并為每個專家進行任務(wù)定制的自監(jiān)督預(yù)訓(xùn)練,能夠在各種下游任務(wù)中提高遷移性能。

在 14 個下游視覺任務(wù)(包括圖像分類、語義分割和物體檢測)的評估中,MixedAE 展現(xiàn)了最優(yōu)的遷移性能和卓越的計算效率。相較于 iBOT,MixedAE 實現(xiàn)了約 2 倍預(yù)訓(xùn)練加速。得益于圖像混合所帶來的物體感知預(yù)訓(xùn)練,MixedAE 在下游密集預(yù)測任務(wù)上取得更顯著的性能提升。注意力圖可視化結(jié)果表明,MixedAE 能比 MAE 更準確完整地識別圖像前景物體,從而實現(xiàn)優(yōu)異的密集預(yù)測遷移性能。

▲圖二:注意力圖可視化。得益于ImageNet的單實例假設(shè)[2]以及物體感知的自監(jiān)督預(yù)訓(xùn)練,MixedAE可以更準確完整地發(fā)現(xiàn)圖像前景物體,從而實現(xiàn)更好的密集預(yù)測遷移性能。


參考文獻

[1] Task-customized Self-supervised Pre-training with Scalable Dynamic Routing, AAAI 2022.
[2] MultiSiam: Self-supervised Multi-instance Siamese Representation Learning for Autonomous Driving, ICCV 2021.
·
原文標題:基礎(chǔ)模型自監(jiān)督預(yù)訓(xùn)練的數(shù)據(jù)之謎:大量數(shù)據(jù)究竟是福還是禍?
文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2923文章
45693瀏覽量
385771
原文標題:基礎(chǔ)模型自監(jiān)督預(yù)訓(xùn)練的數(shù)據(jù)之謎:大量數(shù)據(jù)究竟是福還是禍?
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
用PaddleNLP為GPT-2模型制作FineWeb二進制預(yù)訓(xùn)練數(shù)據(jù)集

室內(nèi)導(dǎo)航究竟是如何實現(xiàn)的
ADS1298R PACE_OUT1和PACE_OUT2這兩條引腿究竟是輸入還是輸出?有什么用?怎樣使用?
PCM1861 INT腳究竟是輸出還是輸入?
AI大模型的訓(xùn)練數(shù)據(jù)來源分析
直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

評論