計算機視覺深度學(xué)習(xí)的成功部分歸功于擁有大量帶標(biāo)記的訓(xùn)練數(shù)據(jù),因為模型的性能通常會隨著訓(xùn)練數(shù)據(jù)質(zhì)量、多樣性和數(shù)量的增加而相應(yīng)提高。然而,要收集足夠多的高質(zhì)量數(shù)據(jù)來訓(xùn)練模型以使其具有良好的性能,往往非常困難。要解決這一問題,一種方法是將圖像對稱性硬編碼到神經(jīng)網(wǎng)絡(luò)架構(gòu)中來提高性能,另一種是由專家手動設(shè)計訓(xùn)練高性能視覺模型常用的數(shù)據(jù)增強方法,如旋轉(zhuǎn)和翻轉(zhuǎn)。不過,直到最近,人們還很少關(guān)注如何利用機器學(xué)習(xí)來自動增強現(xiàn)有數(shù)據(jù)。我們此前推出了 AutoML,代替人為設(shè)計的系統(tǒng)組件,自動設(shè)計神經(jīng)網(wǎng)絡(luò)架構(gòu)和優(yōu)化器,取得了良好效果。受此啟發(fā),我們提出新的設(shè)想:數(shù)據(jù)增強過程是否也可以實現(xiàn)自動化?
在 “AutoAugment:Learning Augmentation Policies from Data” 一文中,我們探索了一種增強學(xué)習(xí)算法,這種算法增加了現(xiàn)有訓(xùn)練數(shù)據(jù)集中數(shù)據(jù)的數(shù)量和多樣性。直觀地說,數(shù)據(jù)增強用于教會模型有關(guān)數(shù)據(jù)域中的圖像不變性,讓神經(jīng)網(wǎng)絡(luò)對這些重要的對稱性保持不變,從而改善其性能。與以往使用手工設(shè)計的數(shù)據(jù)增強策略的先進深度學(xué)習(xí)模型不同,我們使用增強學(xué)習(xí)從數(shù)據(jù)本身尋找最佳圖像變換策略,從而在不依賴于生成新的和不斷擴展的數(shù)據(jù)集的情況下,提高了計算機視覺模型的性能。
增強訓(xùn)練數(shù)據(jù)
數(shù)據(jù)增強的思路很簡單:圖像有許多對稱性,這些對稱性不會改變圖像中存在的信息。例如,狗的鏡面反射仍然是狗。雖然其中一些“不變性”對人類來說顯而易見,但有許多卻并非如此。例如,mixup 方法通過在訓(xùn)練期間將圖像彼此疊加來增強數(shù)據(jù),從而產(chǎn)生可改善神經(jīng)網(wǎng)絡(luò)性能的數(shù)據(jù)。
左圖:來自 ImageNet 數(shù)據(jù)集的原始圖像。右圖:同一圖像通過常用的數(shù)據(jù)增強變換(圍繞中心水平翻轉(zhuǎn))處理后。
AutoAugment 是為計算機視覺數(shù)據(jù)集設(shè)計自定義數(shù)據(jù)增強策略的一種自動方式,例如,可指導(dǎo)基本圖像變換操作的選擇,如水平/垂直翻轉(zhuǎn)圖像、旋轉(zhuǎn)圖像和更改圖像顏色等。AutoAugment 不僅可以預(yù)測要組合的圖像變換,還可以預(yù)測每個圖像使用變換的概率和數(shù)量,以便確保圖像操作并不局限于一種方式。AutoAugment 能夠從具有 2.9 x 1032 種圖像變換可能性的搜索空間中選出最佳策略。
AutoAugment 根據(jù)所運行的數(shù)據(jù)集學(xué)習(xí)不同的變換。例如,對于包含數(shù)字自然場景圖像的門牌號街景 (SVHN) 圖像,AutoAugment 側(cè)重于剪切和平移等幾何變換,這些操作表示在該數(shù)據(jù)集中通常觀察到的失真。此外,考慮到世界上不同樓號和門牌號材料的多樣性,AutoAugment 已經(jīng)學(xué)會完全顛倒原始 SVHN 數(shù)據(jù)集中自然出現(xiàn)的顏色。
左圖:來自 SVHN 數(shù)據(jù)集的原始圖像。右圖:同一圖像通過 AutoAugment 變換后。在這種情況下,通過剪切圖像和反轉(zhuǎn)像素顏色實現(xiàn)最佳變換。
在 CIFAR-10 和 ImageNet 上,AutoAugment 不使用剪切,因為這些數(shù)據(jù)集通常不包括剪切物體的圖像,也不完全反轉(zhuǎn)顏色,因為這些變換會導(dǎo)致圖像失真。相反,AutoAugment 側(cè)重于微調(diào)顏色和色相分布,同時保留一般顏色屬性。這表明 CIFAR-10 和 ImageNet 中物體的實際顏色十分重要,而在 SVHN 上只有相對顏色是重要的。
左圖:來自 ImageNet 數(shù)據(jù)集的原始圖像。右圖:同一圖像通過 AutoAugment 策略變換后。首先最大化圖像對比度,然后旋轉(zhuǎn)圖像。
成果
我們的 AutoAugment 算法為一些最著名的計算機視覺數(shù)據(jù)集找到了增強策略,將這些策略納入神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中后,準確性得到了質(zhì)的提升。通過增強 ImageNet 數(shù)據(jù),top1 準確度達到 83.54% 的最新水平,在 CIFAR10 上,我們的錯誤率為 1.48%,比研究員設(shè)計的默認數(shù)據(jù)增強降低了 0.83%。
在 SVHN 上,我們將最新的誤差從 1.30% 降到 1.02%。重要的是,我們發(fā)現(xiàn) AutoAugment 策略是可轉(zhuǎn)移的 - 為 ImageNet 數(shù)據(jù)集找到的策略也可以應(yīng)用于其他視覺數(shù)據(jù)集(Stanford Cars、FGVC-Aircraft,等等),從而提高神經(jīng)網(wǎng)絡(luò)性能。
我們很高興看到 AutoAugment 算法在競爭對手的許多不同計算機視覺數(shù)據(jù)集上都達到了這種性能水平,同時也期待這項技術(shù)未來在更多的計算機視覺任務(wù),甚至在音頻處理或語言模型等其他領(lǐng)域得到廣泛應(yīng)用。論文附錄中提供了可實現(xiàn)最佳性能的策略,研究人員可以使用這些策略來改進相關(guān)視覺任務(wù)的模型。
-
自動化
+關(guān)注
關(guān)注
29文章
5781瀏覽量
84838 -
計算機視覺
+關(guān)注
關(guān)注
9文章
1708瀏覽量
46775 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122793
原文標(biāo)題:利用 AutoAugment 提升深度學(xué)習(xí)性能
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論