午夜两个人无码视频,午夜福利一二区伊人春色成人网

本文提出了一種適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學(xué)習(xí)數(shù)據(jù)增強技術(shù)。

自監(jiān)督學(xué)習(xí)算法在自然語言處理、計算機視覺等領(lǐng)域取得了重大進展。這些自監(jiān)督學(xué)習(xí)算法盡管在概念上是通用的，但是在具體操作上是基于特定的數(shù)據(jù)模態(tài)的。這意味著需要為不同的數(shù)據(jù)模態(tài)開發(fā)不同的自監(jiān)督學(xué)習(xí)算法。為此，本文提出了一種通用的數(shù)據(jù)增強技術(shù)，可以應(yīng)用于任意數(shù)據(jù)模態(tài)。相較于已有的通用的自監(jiān)督學(xué)習(xí)，該方法能夠取得明顯的性能提升，同時能夠代替一系列為特定模態(tài)設(shè)計的復(fù)雜的數(shù)據(jù)增強方式并取得與之類似的性能。

論文地址：https://arxiv.org/abs/2212.08663

代碼：https://github.com/microsoft/random_quantize

簡介當前 Siamese 表征學(xué)習(xí) / 對比學(xué)習(xí)需要利用數(shù)據(jù)增強技術(shù)來構(gòu)建同一個數(shù)據(jù)的不同樣本，并將其輸入兩個并行的網(wǎng)絡(luò)結(jié)構(gòu)，從而產(chǎn)生足夠強的監(jiān)督信號。然而這些數(shù)據(jù)增強技術(shù)往往非常依賴于模態(tài)特定的先驗知識，通常需要手動設(shè)計或者搜索適用于當前模態(tài)的最佳組合。除了耗時耗力外，找到的最優(yōu)數(shù)據(jù)增強方式也極難遷移到別的領(lǐng)域。例如，常見的針對于自然 RGB 圖像的顏色抖動（color jittering）無法應(yīng)用于除了自然圖像以外的其他數(shù)據(jù)模態(tài)。

一般性地，輸入數(shù)據(jù)可以被表征為由序列維度（sequential）和通道維度（channel）組成的二維向量。其中序列維度通常是模態(tài)相關(guān)的，例如圖像上的空間維度、語音的時間維度以及語言的句法維度。而通道維度是模態(tài)無關(guān)的。在自監(jiān)督學(xué)習(xí)中，masked modeling ［1］或者以 masking 作為數(shù)據(jù)增強［2］已經(jīng)成為一種有效的學(xué)習(xí)方式。然而這些操作都作用于序列維度。為了能夠廣泛應(yīng)用于不同數(shù)據(jù)模態(tài)，本文提出一種作用于通道維度的數(shù)據(jù)增強手段：隨機量化（randomized quantization）。每個通道中的數(shù)據(jù)通過非均勻量化器進行動態(tài)量化，量化值是從隨機劃分的區(qū)間中隨機采樣的。通過這種方式，落在同一個區(qū)間內(nèi)原始輸入的信息差被刪除，同時不同區(qū)間數(shù)據(jù)的相對大小被保留，從而達到 masking 的效果。

該方法在各種不同數(shù)據(jù)模態(tài)上超過了已有任意模態(tài)自監(jiān)督學(xué)習(xí)方法，包括自然圖像、3D 點云、語音、文本、傳感器數(shù)據(jù)、醫(yī)療圖像等。在多種預(yù)訓(xùn)練學(xué)習(xí)任務(wù)中，例如對比學(xué)習(xí)（例如 MoCo-v3）和自蒸餾自監(jiān)督學(xué)習(xí)（例如 BYOL）都學(xué)到了比已有方法更優(yōu)的特征。該方法還經(jīng)過驗證，適用于不同的骨干網(wǎng)絡(luò)結(jié)構(gòu)，例如 CNN 和 Transformer。

方法

量化（Quantization）指的是利用一組離散的數(shù)值表征連續(xù)數(shù)據(jù)，以便于數(shù)據(jù)的高效存儲、運算以及傳輸。然而，一般的量化操作的目標是在不損失精確度的前提下壓縮數(shù)據(jù)，因而該過程是確定性的，而且是設(shè)計為與原數(shù)據(jù)盡量接近的。這就限制了其作為增強手段的強度和輸出的數(shù)據(jù)豐富程度。

本文提出一種隨機量化操作（randomized quantization），將輸入的每個 channel 數(shù)據(jù)獨立劃分為多個互不重疊的隨機區(qū)間（

），并將落在各個區(qū)間內(nèi)的原始輸入映射到從該區(qū)間內(nèi)隨機采樣的一個常數(shù)。

隨機量化作為自監(jiān)督學(xué)習(xí)任務(wù)中 masking 通道維度數(shù)據(jù)的能力取決于以下三個方面的設(shè)計：1）隨機劃分數(shù)值區(qū)間；2）隨機采樣輸出值以及 3）劃分的數(shù)值區(qū)間個數(shù)。

具體而言，隨機的過程帶來了更加豐富的樣本，同一個數(shù)據(jù)每次執(zhí)行隨機量化操作都可以生成不同的數(shù)據(jù)樣本。同時，隨機的過程也帶來對原始數(shù)據(jù)更大的增強力度，例如隨機劃分出大的數(shù)據(jù)區(qū)間，或者當映射點偏離區(qū)間中值點時，都可以導(dǎo)致落在該區(qū)間的原始輸入和輸出之間的更大差異。

除此之外，也可以非常容易地通過適當減少劃分區(qū)間的個數(shù)，提高增強力度。這樣，當應(yīng)用于 Siamese 表征學(xué)習(xí)的時候，兩個網(wǎng)絡(luò)分支就可以見到有足夠信息差異的輸入數(shù)據(jù)，從而構(gòu)建足夠強的學(xué)習(xí)信號，幫助到特征學(xué)習(xí)。下圖可視化了不同數(shù)據(jù)模態(tài)在使用了該數(shù)據(jù)增強方式之后的效果：

實驗結(jié)果

模態(tài) 1：圖像

本文在 ImageNet-1K 數(shù)據(jù)集上評估了 randomized quantization 應(yīng)用于 MoCo-v3 和 BYOL 的效果，評測指標為 linear evaluation。當作為唯一的數(shù)據(jù)增強方式單獨使用的時候，即將本文的 augmentation 應(yīng)用于原始圖像的 center crop，以及和常見的 random resized crop（RRC）配合使用的時候，該方法都取得了比已有通用自監(jiān)督學(xué)習(xí)方法更好的效果。

相比于已有的針對圖像數(shù)據(jù)開發(fā)的數(shù)據(jù)增強方式，例如 color jittering （CJ），本文的方法有著明顯的性能優(yōu)勢。同時，該方法也可以取代 MoCo-v3/BYOL 中一系列復(fù)雜的數(shù)據(jù)增強方式（Full），包括顏色抖動（color jittering）、隨機灰度化（gray scale）、隨機高斯模糊（Gaussian blur）、隨機曝光（solarization），并達到與復(fù)雜數(shù)據(jù)增強方式類似的效果。

模態(tài) 2：3D 點云

本文還在 ModelNet40 數(shù)據(jù)集的分類任務(wù)和 ShapeNet Part 數(shù)據(jù)集的分割任務(wù)上驗證了 randomized quantization 相對于已有自監(jiān)督工作的優(yōu)越性。尤其在下游訓(xùn)練集數(shù)據(jù)量較少的情況下，本文的方法顯著超過已有點云自監(jiān)督算法。

模態(tài) 3：語音

在語音數(shù)據(jù)集上本文的方法也取得了比已有自監(jiān)督學(xué)習(xí)方法更優(yōu)的性能。本文在六個下游數(shù)據(jù)集上驗證了該方法的優(yōu)越性，其中在最難的數(shù)據(jù)集 VoxCeleb1 上（包含最多且遠超其他數(shù)據(jù)集的類別個數(shù)），本文方法取得了顯著的性能提升（5.6 個點）。

模態(tài) 4：DABS

DABS 是一個模態(tài)通用自監(jiān)督學(xué)習(xí)的基準，涵蓋了多種模態(tài)數(shù)據(jù)，包括自然圖像、文本、語音、傳感器數(shù)據(jù)、醫(yī)學(xué)圖像、圖文等。在 DABS 涵蓋的多種不同模態(tài)數(shù)據(jù)上，我們的方法也優(yōu)于已有的任意模態(tài)自監(jiān)督學(xué)習(xí)方式。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴