論文:MCSE: Multimodal Contrastive Learning of Sentence Embeddings
鏈接:https://aclanthology.org/2022.naacl-main.436.pdf
代碼:https://github.com/uds-lsv/MCSE
視覺作為人類感知體驗(yàn)的核心部分,已被證明在建立語(yǔ)言模型和提高各種NLP任務(wù)的性能方面是有效的。作者認(rèn)為視覺作為輔助語(yǔ)義信息可以進(jìn)一步促進(jìn)句子表征學(xué)習(xí)。在這篇論文中,為了同時(shí)利用視覺信息和文本信息,作者采用了sota句子嵌入框架SimCSE,并將其擴(kuò)展為多模態(tài)對(duì)比目標(biāo)。作者發(fā)現(xiàn),除了文本語(yǔ)料庫(kù)之外,使用少量多模態(tài)數(shù)據(jù)可以顯著提高STS任務(wù)的性能。在論文的最后,作者也對(duì)該方法所存在的局限性進(jìn)行了分析
雖然這篇論文的框架非常簡(jiǎn)單,但是我覺得對(duì)于實(shí)驗(yàn)和作者的局限性分析還是有值得思考的地方
方法
MCSE模型
SimCSE:
就是通過dropout+編碼兩次構(gòu)建正樣本對(duì),進(jìn)行對(duì)比學(xué)習(xí)
給定一個(gè)圖像句子對(duì),把他們映射到一個(gè)共同的嵌入空間中
f()為預(yù)訓(xùn)練的語(yǔ)言編碼器和預(yù)訓(xùn)練的圖像編碼器,g()為映射頭
接下來(lái)就是多模態(tài)對(duì)比學(xué)習(xí):
最終的損失函數(shù)為 SimCSE的損失+多模態(tài)對(duì)比損失:
Experiments
作者使用Flickr30k(包含29, 783個(gè)訓(xùn)練圖像)和MS-COCO(包含82, 783個(gè)訓(xùn)練圖像)作為多模態(tài)數(shù)據(jù)集,使用Wiki1M(個(gè)句子)作為文本語(yǔ)料庫(kù)
SimCSE和MCSE的差別就是,MCSE利用了圖像-句子對(duì),引入了多模態(tài)對(duì)比損失。即使多模態(tài)數(shù)據(jù)量相對(duì)較小,可獲得輔助視覺信息的MCSE模型也能進(jìn)一步取得顯著的改進(jìn)。在STS16上,Bert+MCSE的性能較差,作者解釋為域差異,其中一些接近訓(xùn)練分布的子集比其他子集更能從視覺基礎(chǔ)中獲益。
表1
為了進(jìn)一步研究不同數(shù)據(jù)集的影響,作者只在多模態(tài)數(shù)據(jù)上訓(xùn)練模型,并在表2中報(bào)告結(jié)果。我們觀察到,在沒有大型純文本語(yǔ)料庫(kù)的情況下,性能比表1中的結(jié)果下降了很多,但是依然可以超過SimCSE。此外,作者將成對(duì)的圖像替換為打亂的圖像進(jìn)行訓(xùn)練,模型下降了0.8-5.0個(gè)點(diǎn),進(jìn)一步驗(yàn)證了視覺語(yǔ)義的有效性。
這點(diǎn)其實(shí)我不太理解,是將圖像句子對(duì)的匹配關(guān)系給打亂了么,如果是這樣的話,感覺好像沒什么意義呀
表2
作者使用bert-base model只在多模態(tài)數(shù)據(jù)上進(jìn)行了訓(xùn)練,來(lái)研究數(shù)據(jù)規(guī)模大小對(duì)性能的影響,在數(shù)量有限的樣本上,SimCSE取得了更好的性能,隨著數(shù)據(jù)量的增加,MCSE的性能更好,作者推測(cè),這一現(xiàn)象可以歸因于多模態(tài)映射投權(quán)重的漸進(jìn)訓(xùn)練。
作者報(bào)告了alignment and uniformity兩個(gè)量化指標(biāo),結(jié)果表明,與SimCSE模型相比,MCSE模型在保持一致性的同時(shí)獲得了更好的對(duì)齊得分。這一分析進(jìn)一步支持了視覺基礎(chǔ)可以通過改善文本嵌入空間的對(duì)齊特性來(lái)增強(qiáng)句子特征學(xué)習(xí)。
Limitations
作者還指出了該方法所存在的局限性,多模態(tài)數(shù)據(jù)收集標(biāo)注困難,如果可以合理的利用噪聲圖像-句子對(duì),或者擺脫顯式的圖像文本對(duì)齊關(guān)系,將會(huì)有很大的實(shí)用價(jià)值。此外,我們發(fā)現(xiàn)只有來(lái)自相關(guān)領(lǐng)域的子集可以獲得顯著的改進(jìn),而其他子集則受到域偏移的影響。對(duì)于學(xué)習(xí)通用的句子嵌入來(lái)說,減小域偏移是至關(guān)重要的。此外,“語(yǔ)義相似度”的定義是高度任務(wù)依賴的。除了STS基準(zhǔn)之外,值得探討的是純文本模型和多模態(tài)模型在其他基準(zhǔn)上的性能差距,這些基準(zhǔn)也可以評(píng)估句子特征的質(zhì)量。
編輯:黃飛
-
nlp
+關(guān)注
關(guān)注
1文章
490瀏覽量
22623
原文標(biāo)題:NAACL22 | 引入多模態(tài)對(duì)比學(xué)習(xí)來(lái)增強(qiáng)句子特征學(xué)習(xí)
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學(xué)習(xí)數(shù)據(jù)增強(qiáng)技術(shù)

基于增強(qiáng)學(xué)習(xí)算法的PID參數(shù)調(diào)整方法研究
通過對(duì)比深度學(xué)習(xí)各大框架的優(yōu)缺點(diǎn)尋找最優(yōu)

基于多模態(tài)特征數(shù)據(jù)的多標(biāo)記遷移學(xué)習(xí)方法的早期阿爾茨海默病診斷
多文化場(chǎng)景下的多模態(tài)情感識(shí)別
通過多模態(tài)特征融合來(lái)設(shè)計(jì)三維點(diǎn)云分類模型

基于語(yǔ)義耦合相關(guān)的判別式跨模態(tài)哈希特征表示學(xué)習(xí)算法

可提高跨模態(tài)行人重識(shí)別算法精度的特征學(xué)習(xí)框架
特征選擇和機(jī)器學(xué)習(xí)的軟件缺陷跟蹤系統(tǒng)對(duì)比
對(duì)比學(xué)習(xí)的關(guān)鍵技術(shù)和基本應(yīng)用分析
結(jié)合句子間差異的無(wú)監(jiān)督句子嵌入對(duì)比學(xué)習(xí)方法-DiffCSE
通過對(duì)比學(xué)習(xí)的角度來(lái)解決細(xì)粒度分類的特征質(zhì)量問題

CMU最新《多模態(tài)機(jī)器學(xué)習(xí)的基礎(chǔ)和最新趨勢(shì)》綜述
通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

評(píng)論