成人国产视频在线,超碰97人人模人人爽人人喊 ,日本欧美成人一二三站

論文：MCSE: Multimodal Contrastive Learning of Sentence Embeddings

鏈接：https://aclanthology.org/2022.naacl-main.436.pdf

代碼：https://github.com/uds-lsv/MCSE

視覺作為人類感知體驗(yàn)的核心部分，已被證明在建立語(yǔ)言模型和提高各種NLP任務(wù)的性能方面是有效的。作者認(rèn)為視覺作為輔助語(yǔ)義信息可以進(jìn)一步促進(jìn)句子表征學(xué)習(xí)。在這篇論文中，為了同時(shí)利用視覺信息和文本信息，作者采用了sota句子嵌入框架SimCSE，并將其擴(kuò)展為多模態(tài)對(duì)比目標(biāo)。作者發(fā)現(xiàn)，除了文本語(yǔ)料庫(kù)之外，使用少量多模態(tài)數(shù)據(jù)可以顯著提高STS任務(wù)的性能。在論文的最后，作者也對(duì)該方法所存在的局限性進(jìn)行了分析

雖然這篇論文的框架非常簡(jiǎn)單，但是我覺得對(duì)于實(shí)驗(yàn)和作者的局限性分析還是有值得思考的地方

方法

MCSE模型

SimCSE：

就是通過dropout+編碼兩次構(gòu)建正樣本對(duì)，進(jìn)行對(duì)比學(xué)習(xí)

給定一個(gè)圖像句子對(duì)，把他們映射到一個(gè)共同的嵌入空間中

f()為預(yù)訓(xùn)練的語(yǔ)言編碼器和預(yù)訓(xùn)練的圖像編碼器，g()為映射頭

接下來(lái)就是多模態(tài)對(duì)比學(xué)習(xí)：

最終的損失函數(shù)為 SimCSE的損失+多模態(tài)對(duì)比損失：

Experiments

作者使用Flickr30k（包含29, 783個(gè)訓(xùn)練圖像）和MS-COCO（包含82, 783個(gè)訓(xùn)練圖像）作為多模態(tài)數(shù)據(jù)集，使用Wiki1M（個(gè)句子）作為文本語(yǔ)料庫(kù)

SimCSE和MCSE的差別就是，MCSE利用了圖像-句子對(duì)，引入了多模態(tài)對(duì)比損失。即使多模態(tài)數(shù)據(jù)量相對(duì)較小，可獲得輔助視覺信息的MCSE模型也能進(jìn)一步取得顯著的改進(jìn)。在STS16上，Bert+MCSE的性能較差，作者解釋為域差異，其中一些接近訓(xùn)練分布的子集比其他子集更能從視覺基礎(chǔ)中獲益。

表1

為了進(jìn)一步研究不同數(shù)據(jù)集的影響，作者只在多模態(tài)數(shù)據(jù)上訓(xùn)練模型，并在表2中報(bào)告結(jié)果。我們觀察到，在沒有大型純文本語(yǔ)料庫(kù)的情況下，性能比表1中的結(jié)果下降了很多，但是依然可以超過SimCSE。此外，作者將成對(duì)的圖像替換為打亂的圖像進(jìn)行訓(xùn)練，模型下降了0.8-5.0個(gè)點(diǎn)，進(jìn)一步驗(yàn)證了視覺語(yǔ)義的有效性。

這點(diǎn)其實(shí)我不太理解，是將圖像句子對(duì)的匹配關(guān)系給打亂了么，如果是這樣的話，感覺好像沒什么意義呀

表2

作者使用bert-base model只在多模態(tài)數(shù)據(jù)上進(jìn)行了訓(xùn)練，來(lái)研究數(shù)據(jù)規(guī)模大小對(duì)性能的影響，在數(shù)量有限的樣本上，SimCSE取得了更好的性能，隨著數(shù)據(jù)量的增加，MCSE的性能更好，作者推測(cè)，這一現(xiàn)象可以歸因于多模態(tài)映射投權(quán)重的漸進(jìn)訓(xùn)練。

作者報(bào)告了alignment and uniformity兩個(gè)量化指標(biāo)，結(jié)果表明，與SimCSE模型相比，MCSE模型在保持一致性的同時(shí)獲得了更好的對(duì)齊得分。這一分析進(jìn)一步支持了視覺基礎(chǔ)可以通過改善文本嵌入空間的對(duì)齊特性來(lái)增強(qiáng)句子特征學(xué)習(xí)。

Limitations

作者還指出了該方法所存在的局限性，多模態(tài)數(shù)據(jù)收集標(biāo)注困難，如果可以合理的利用噪聲圖像-句子對(duì)，或者擺脫顯式的圖像文本對(duì)齊關(guān)系，將會(huì)有很大的實(shí)用價(jià)值。此外，我們發(fā)現(xiàn)只有來(lái)自相關(guān)領(lǐng)域的子集可以獲得顯著的改進(jìn)，而其他子集則受到域偏移的影響。對(duì)于學(xué)習(xí)通用的句子嵌入來(lái)說，減小域偏移是至關(guān)重要的。此外，“語(yǔ)義相似度”的定義是高度任務(wù)依賴的。除了STS基準(zhǔn)之外，值得探討的是純文本模型和多模態(tài)模型在其他基準(zhǔn)上的性能差距，這些基準(zhǔn)也可以評(píng)估句子特征的質(zhì)量。

編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴