一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

快速了解文本語義相似度領(lǐng)域的研究脈絡(luò)和進(jìn)展

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2022-08-16 10:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文旨在幫大家快速了解文本語義相似度領(lǐng)域的研究脈絡(luò)和進(jìn)展,其中包含了本人總結(jié)的文本語義相似度任務(wù)的處理步驟,文本相似度模型發(fā)展歷程,相關(guān)數(shù)據(jù)集,以及重要論文分享。

文本相似度任務(wù)處理步驟

通過該領(lǐng)域的大量論文閱讀,我認(rèn)為處理文本相似度任務(wù)時可以分為一下三個步驟:

預(yù)處理:如數(shù)據(jù)清洗等。此步驟旨在對文本做一些規(guī)范化操作,篩選有用特征,去除噪音。

文本表示:當(dāng)數(shù)據(jù)被預(yù)處理完成后,就可以送入模型了。在文本相似度任務(wù)中,需要有一個模塊用于對文本的向量化表示,從而為下一步相似度比較做準(zhǔn)備。這個部分一般會選用一些 backbone 模型,如 LSTM,BERT 等。

學(xué)習(xí)范式的選擇:這個步驟也是文本相似度任務(wù)中最重要的模塊,同時也是區(qū)別于 NLP 領(lǐng)域其他任務(wù)的一個模塊。其主要原因在于相似度是一個比較的過程,因此我們可以選用各種各樣的比較的方式來達(dá)成目標(biāo)。可供選擇的學(xué)習(xí)方式有:孿生網(wǎng)絡(luò)模型,交互網(wǎng)絡(luò)模型,對比學(xué)習(xí)模型等。

文本相似度模型發(fā)展歷程

從傳統(tǒng)的無監(jiān)督相似度方法,到孿生模型,交互式模型,BERT,以及基于BERT的一些改進(jìn)工作,如下圖:

bbcb77b8-1cfb-11ed-ba43-dac502259ad0.png

總體來說,在 BERT 出現(xiàn)之前,文本相似度任務(wù)可以說是一個百花齊放的過程。大家通過各種方式來做相似度比較的都有。從 BERT 出現(xiàn)之后,由于 BERT 出色的性能,之后的工作主要是基于 BERT 的改進(jìn)。在這個階段,大家所采用的數(shù)據(jù)集,評價指標(biāo)等也逐漸進(jìn)行了統(tǒng)一。

數(shù)據(jù)集

在 BERT 以后,大家在文本相似度任務(wù)上逐漸統(tǒng)一了數(shù)據(jù)集的選擇,分別為 STS12,STS13,STS14,STS15,STS16,STS-B,SICK-R 七個數(shù)據(jù)集。STS12-16 分別為 SemEval 比賽 2012~2016 年的數(shù)據(jù)集。此外,STS-B 和 SICK-R 也是 SemEval 比賽數(shù)據(jù)集。在這些數(shù)據(jù)集中,每一個文本對都有一個 0~5 分的人工打標(biāo)相似度分?jǐn)?shù)(也稱為 gold label),代表這個文本對的相似程度。

評價指標(biāo)

首先,對于每一個文本對,采用余弦相似度對其打分。打分完成后,采用所有余弦相似度分?jǐn)?shù)和所有 gold label 計算 Spearman Correlation。

其中,Pearson Correlation 與 Spearman Correlation 都是用來計算兩個分布之間相關(guān)程度的指標(biāo)。Pearson Correlation 計算的是兩個變量是否線性相關(guān),而 Spearman Correlation 關(guān)注的是兩個序列的單調(diào)性是否一致。并且論文《Task-Oriented Intrinsic Evaluation of Semantic Textual Similarity》證明,采用 Spearman Correlation 更適合評判語義相似度任務(wù)。Pearson Correlation 與 Spearman Correlation 的公式如下:

bbfbd610-1cfb-11ed-ba43-dac502259ad0.png

論文分享

Siamese Recurrent Architectures for Learning Sentence Similarity, AAAI 2016

https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12195/12023

bc1747ec-1cfb-11ed-ba43-dac502259ad0.png

Siamese LSTM 是一個經(jīng)典的孿生網(wǎng)絡(luò)模型,它將需要對比的兩句話分別通過不同的 LSTM 進(jìn)行編碼,并采用兩個 LSTM 最后一個時間步的輸出來計算曼哈頓距離,并通過 MSE loss 進(jìn)行反向傳導(dǎo)。

Bilateral Multi-Perspective Matching for Natural Language Sentences, IJCAI 2017

https://arxiv.org/abs/1702.03814

bc263d10-1cfb-11ed-ba43-dac502259ad0.png

BiMPM 是一個經(jīng)典的交互式模型,它將兩句話用不同的 Bi-LSTM 模型分別編碼,并通過注意力的方式使得當(dāng)前句子的每一個詞都和另一個句子中的每一個詞建立交互關(guān)系(左右句子是對稱的過程),從而學(xué)習(xí)到更深層次的匹配知識。在交互之后,再通過 Bi-LSTM 模型分別編碼,并最終輸出。

對于交互的過程,作者設(shè)計了四種交互方式,分別為:

句子 A 中每個詞與句子 B 的最后一個詞進(jìn)行交互

句子 A 中每個詞與句子 B 的每個詞進(jìn)行交互,并求 element-wise maximum

通過句子 A 中的詞篩選句子 B 中的每一個詞,并將句子 B 的詞向量加權(quán)求和,最終于 A 詞對比

與 c 幾乎一致,只不過將加權(quán)求和操作變成 element-wise maximum

具體的交互形式是由加權(quán)的余弦相似度方式完成。

bc39e1da-1cfb-11ed-ba43-dac502259ad0.png

bc461d60-1cfb-11ed-ba43-dac502259ad0.png

其中,Wk 是參數(shù)矩陣,可以理解為 attention 的 query 或者 key,v1 和 v2 分別是要進(jìn)行交互的兩個詞,這樣計算 l 次余弦相似度,就會得到 m 向量(一個 l 維向量)。

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

https://arxiv.org/abs/1810.04805

BERT 可以認(rèn)為是語義相似度任務(wù)的分水嶺。BERT 論文中對 STS-B 數(shù)據(jù)集進(jìn)行有監(jiān)督訓(xùn)練,最終達(dá)到了 85.8 的 Spearman Correlation 值。這個分?jǐn)?shù)相較于后續(xù)絕大部分的改進(jìn)工作都要高,但 BERT 的缺點也很明顯。對于語義相似度任務(wù)來說:

在有監(jiān)督范式下,BERT 需要將兩個句子合并成一個句子再對其編碼,如果需要求很多文本兩兩之間的相似度,BERT 則需要將其排列組合后送入模型,這極大的增加了模型的計算量。

在無監(jiān)督范式下,BERT 句向量中攜帶的語義相似度信息較少。從下圖可以看出,無論是采用 CLS 向量還是詞向量平均的方式,都還比不過通過 GloVe 訓(xùn)練的詞向量求平均的方式要效果好。

bc559024-1cfb-11ed-ba43-dac502259ad0.png

基于以上痛點,涌現(xiàn)出一批基于 BERT 改進(jìn)的優(yōu)秀工作。

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, EMNLP 2019

https://arxiv.org/abs/1908.10084

Sentence-BERT 是一篇采用孿生 BERT 架構(gòu)的工作。Sentence-BERT 作者指出,如果想用 BERT 求出 10000 個句子之間兩兩的相似度,排列組合的方式在 V100 GPU 上測試需要花費(fèi) 65 小時;而如果先求出 10000 個句子,再計算余弦相似度矩陣,則只需要花費(fèi) 5 秒左右。因此,作者提出了通過孿生網(wǎng)絡(luò)架構(gòu)訓(xùn)練 BERT 句向量的方式。

Sentence-BERT 一共采用了三種 loss,也就是三種不同的方式訓(xùn)練孿生 BERT 架構(gòu),分別為 Cross-entropy loss,MSE loss 以及 Triple loss,模型圖如下:

bc673bb2-1cfb-11ed-ba43-dac502259ad0.png

On the Sentence Embeddings from Pre-trained Language Models, EMNLP 2020

https://arxiv.org/abs/2011.05864

BERT-flow 是一篇通過對 BERT 句向量做后處理的工作。作者認(rèn)為,直接用 BERT 句向量來做相似度計算效果較差的原因并不是 BERT 句向量中不包含語義相似度信息,而是其中包含的相似度信息在余弦相似度等簡單的指標(biāo)下無法很好的體現(xiàn)出來。

首先,作者認(rèn)為,無論是 Language Modelling 還是 Masked Language Modelling,其實都是在最大化給定的上下文與目標(biāo)詞的共現(xiàn)概率,也就是 Ct 和 Xt 的貢獻(xiàn)概率。Language Modelling 與 Masked Language Modelling 的目標(biāo)函數(shù)如下:

bc782e0e-1cfb-11ed-ba43-dac502259ad0.png

因此,如果兩句話預(yù)測出的 Xt 一致,那么兩句話的 Ct 向量很有可能也是相似的!考慮如下兩句話:

今天中午吃什么?

今天晚上吃什么?

通過這兩句話訓(xùn)練出的語言模型都通過上下文預(yù)測出了“吃“這個字,那說明這兩句話的句向量也很可能是相似的,具有相似的語義信息。

其次,作者通過觀察發(fā)現(xiàn),BERT 的句向量空間是各向異性的,且高頻詞距離原點較近,低頻詞距離較遠(yuǎn),且分布稀疏。因此 BERT 句向量無法體現(xiàn)出其中包含的相似度信息。

bc86c338-1cfb-11ed-ba43-dac502259ad0.png

因此,作者認(rèn)為可以通過一個基于流的生成模型來對 BERT 句向量空間進(jìn)行映射。具體來說,作者希望訓(xùn)練出一個標(biāo)準(zhǔn)的高斯分布,使得該分布中的點可以與 BERT 句向量中的點一一映射。由于該方法采用的映射方式是可逆的,因此就可以通過給定的 BERT 句向量去映射回標(biāo)準(zhǔn)高斯空間,然后再去做相似度計算。由于標(biāo)準(zhǔn)高斯空間是各向同性的,因此能夠?qū)⒕湎蛄恐械恼Z義相似度信息更好的展現(xiàn)出來。

bc9ed608-1cfb-11ed-ba43-dac502259ad0.png

SimCSE: Simple Contrastive Learning of Sentence Embeddings, EMNLP 2021

https://arxiv.org/abs/2104.08821

SimCSE 是一篇基于對比學(xué)習(xí)的語義相似度模型。首先,對比學(xué)習(xí)相較于文本對之間的匹配,可以在拉近正例的同時,同時將其與更多負(fù)例之間的距離拉遠(yuǎn),從而訓(xùn)練出一個更加均勻的超球體向量空間。作為一類無監(jiān)督算法,對比學(xué)習(xí)中最重要的創(chuàng)新點之一是如何構(gòu)造正樣本對,去學(xué)習(xí)到類別內(nèi)部的一些本質(zhì)特征。

SimCSE 采用的是一個極其樸素,性能卻又出奇的好的方法,那就是將一句話在訓(xùn)練的時候送入模型兩次,利用模型自身的 dropout 來生成兩個不同的 sentence embedding 作為正例進(jìn)行對比。模型圖如下:

bcaafb86-1cfb-11ed-ba43-dac502259ad0.png

ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer, ACL 2021

https://arxiv.org/abs/2105.11741

ConSERT 同樣也是一篇基于對比學(xué)習(xí)的文本相似度工作。ConSERT 是采用多種數(shù)據(jù)增強(qiáng)的方式來構(gòu)造正例的。其中包括對抗攻擊,打亂文本中的詞順序,Cutoff以及 Dropout。這里需要注意的是,雖然 ConSERT 與 SimCSE 都采用了 Dropout,但 ConSERT 的數(shù)據(jù)增強(qiáng)操作只停留在 embedding layer,而 SimCSE 則是采用了 BERT 所有層中的 Dropout。此外,作者實驗證明,在這四種數(shù)據(jù)增強(qiáng)方式中,Token Shuffling 和 Token Cutoff 是最有效的。

Exploiting Sentence Embedding for Medical Question Answering, AAAI 2018

https://arxiv.org/abs/1811.06156

注:由于本人工作中涉及的業(yè)務(wù)主要為智慧醫(yī)療,因此會有傾向的關(guān)注醫(yī)療人工智能領(lǐng)域的方法和模型。

MACSE 是一篇針對醫(yī)學(xué)文本的句向量表征工作,雖然其主要關(guān)注的是 QA 任務(wù),但他的句向量表征方式在文本相似度任務(wù)中同樣適用。

醫(yī)學(xué)文本區(qū)別于通用文本的一大特征就是包含復(fù)雜的多尺度信息,如下:

bcc39448-1cfb-11ed-ba43-dac502259ad0.png

因此,我們就需要一個能夠關(guān)注到醫(yī)學(xué)文本多尺度信息的模型。

bcd2bb6c-1cfb-11ed-ba43-dac502259ad0.png

在本文中,通過多尺度的卷積操作,就可以有效的提取到文本中的多尺度信息,并且通過注意力機(jī)制對多尺度信息進(jìn)行加權(quán),從而有效的關(guān)注到特定文本中在特定尺度上存在的重要信息。

實驗結(jié)果匯總

以下為眾多基于 BERT 改進(jìn)的模型在標(biāo)準(zhǔn)數(shù)據(jù)集上測試的結(jié)果,出自 SimCSE 論文:

bcf801d8-1cfb-11ed-ba43-dac502259ad0.png

可以看到,BERT-flow 相較于原生 BERT 提升了將近 10 個點,而基于對比學(xué)習(xí)的工作又要比基于后處理的工作的效果好很多。此外需要注意的是,在這里 Sentence-BERT 被歸為了有監(jiān)督模型中。這是因為 Sentence-BERT 雖然沒有用到 STS 標(biāo)簽,但訓(xùn)練時用的是 NLI 數(shù)據(jù)集,也用到了 NLI 中人工打標(biāo)的標(biāo)簽,因此 SimCSE 作者將 Sentence-BERT 歸為了有監(jiān)督模型中。

好了,以上就是文本語義相似度領(lǐng)域的研究脈絡(luò)和進(jìn)展,希望能對大家有所幫助。當(dāng)然 2022 年也有不少優(yōu)秀的工作出現(xiàn),不過這一部分就留到以后吧!

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3516

    瀏覽量

    50346
  • 語義
    +關(guān)注

    關(guān)注

    0

    文章

    21

    瀏覽量

    8738
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    119

    瀏覽量

    17441

原文標(biāo)題:一文詳解文本語義相似度的研究脈絡(luò)和最新進(jìn)展

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    在AI領(lǐng)域的最新進(jìn)展

    近日,我們在武漢舉辦了Create2025百AI開發(fā)者大會,與全球各地的5000多名開發(fā)者,分享了百在AI領(lǐng)域的新進(jìn)展。
    的頭像 發(fā)表于 04-30 10:14 ?577次閱讀

    蘭州大學(xué):研究團(tuán)隊在溫度傳感用發(fā)光材料領(lǐng)域取得新進(jìn)展

    ? 近日,蘭州大學(xué)材料與能源學(xué)院王育華教授課題組在溫度傳感用發(fā)光材料領(lǐng)域取得了新進(jìn)展。相關(guān)研究成果以“Luminescence Thermometry via MultiParameter
    的頭像 發(fā)表于 04-25 15:23 ?220次閱讀
    蘭州大學(xué):<b class='flag-5'>研究</b>團(tuán)隊在溫度傳感用發(fā)光材料<b class='flag-5'>領(lǐng)域</b>取得新<b class='flag-5'>進(jìn)展</b>

    《AI Agent 應(yīng)用與項目實戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識庫

    。RAG技術(shù)建立在向量數(shù)據(jù)庫的基礎(chǔ)上,通過高維向量空間中的相似計算來實現(xiàn)語義層面的匹配,這比傳統(tǒng)的關(guān)鍵詞搜索更能捕捉文本的深層語義關(guān)聯(lián)。
    發(fā)表于 03-07 19:49

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+Embedding技術(shù)解讀

    與文檔庫中每個文檔向量的相似,來檢索最相關(guān)的文檔。這一過程依賴于Embedding模型對文本語義的準(zhǔn)確捕捉。檢索到的文檔與用戶的問題一起被Embedding模型轉(zhuǎn)換為向量,形成新的上
    發(fā)表于 01-17 19:53

    SparseViT:以非語義為中心、參數(shù)高效的稀疏化視覺Transformer

    ? 背景簡介 隨著圖像編輯工具和圖像生成技術(shù)的快速發(fā)展,圖像處理變得非常方便。然而圖像在經(jīng)過處理后不可避免的會留下偽影(操作痕跡),這些偽影可分為語義和非語義特征。因此目前幾乎所有的圖像篡改檢測模型
    的頭像 發(fā)表于 01-15 09:30 ?449次閱讀
    SparseViT:以非<b class='flag-5'>語義</b>為中心、參數(shù)高效的稀疏化視覺Transformer

    利用VLM和MLLMs實現(xiàn)SLAM語義增強(qiáng)

    語義同步定位與建圖(SLAM)系統(tǒng)在對鄰近的語義相似物體進(jìn)行建圖時面臨困境,特別是在復(fù)雜的室內(nèi)環(huán)境中。本文提出了一種面向?qū)ο骃LAM的語義增強(qiáng)(SEO-SLAM)的新型SLAM系統(tǒng),借
    的頭像 發(fā)表于 12-05 10:00 ?1310次閱讀
    利用VLM和MLLMs實現(xiàn)SLAM<b class='flag-5'>語義</b>增強(qiáng)

    AI大模型的最新研究進(jìn)展

    AI大模型的最新研究進(jìn)展體現(xiàn)在多個方面,以下是對其最新進(jìn)展的介紹: 一、技術(shù)創(chuàng)新與突破 生成式AI技術(shù)的爆發(fā) : 生成式AI技術(shù)正在迅速發(fā)展,其強(qiáng)大的生成能力使得AI大模型在多個領(lǐng)域得到廣泛應(yīng)用
    的頭像 發(fā)表于 10-23 15:19 ?1480次閱讀

    北京大學(xué)研究團(tuán)隊在新型激光領(lǐng)域取得重要進(jìn)展

    原理示意圖及1470nm極壞腔激光的實現(xiàn) 近日,北京大學(xué)電子學(xué)院陳景標(biāo)教授團(tuán)隊在新型激光領(lǐng)域研究方面取得突破性進(jìn)展,成功利用精細(xì)達(dá)最低極限值2的光學(xué)諧振腔實現(xiàn)了線寬在kHz量級的極壞
    的頭像 發(fā)表于 10-21 06:26 ?477次閱讀
    北京大學(xué)<b class='flag-5'>研究</b>團(tuán)隊在新型激光<b class='flag-5'>領(lǐng)域</b>取得重要<b class='flag-5'>進(jìn)展</b>

    紫光展銳分析5G廣播技術(shù)的發(fā)展脈絡(luò)

    本期,我們將一起了解關(guān)于5G廣播技術(shù)的發(fā)展脈絡(luò),探究它如何提供“免流量刷視頻”等多元豐富的視聽服務(wù)。
    的頭像 發(fā)表于 08-26 09:24 ?952次閱讀
    紫光展銳分析5G廣播技術(shù)的發(fā)展<b class='flag-5'>脈絡(luò)</b>

    中國科學(xué)院大學(xué):實現(xiàn)可再生高靈敏生物傳感器新進(jìn)展

    高靈敏和優(yōu)異的循環(huán)使用次數(shù),制約了該領(lǐng)域快速發(fā)展。 中國科學(xué)院大學(xué)張鳳嬌副教授、中國科學(xué)院大學(xué)/中國科學(xué)院化學(xué)研究所狄重安研究員與中國人
    的頭像 發(fā)表于 08-14 19:14 ?2111次閱讀
    中國科學(xué)院大學(xué):實現(xiàn)可再生高靈敏<b class='flag-5'>度</b>生物傳感器新<b class='flag-5'>進(jìn)展</b>

    【《時間序列與機(jī)器學(xué)習(xí)》閱讀體驗】+ 了解時間序列

    據(jù)分析處理的專業(yè)書籍。再看一下目錄結(jié)構(gòu): 可看出書的前五章以理論為主,先后介紹了時間序列分析的基礎(chǔ)知識、時間序列的信息提取、時間序列預(yù)測、時間序列異常檢測和時間序列的相似和聚類;后面三章以應(yīng)用為
    發(fā)表于 08-11 17:55

    OpenAI正深入探索文本水印技術(shù)的前沿領(lǐng)域

    8月5日最新資訊透露,OpenAI正積極投身于文本水印技術(shù)的尖端探索,但與此同時,公司也坦誠地指出了這一創(chuàng)新領(lǐng)域所面臨的艱巨技術(shù)障礙與未解之謎。
    的頭像 發(fā)表于 08-05 12:59 ?830次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    、機(jī)器翻譯、文本生成等領(lǐng)域具有廣泛應(yīng)用。它們能夠基于用戶的提問或描述生成相關(guān)的答案或執(zhí)行指令,極大地提升了信息檢索和利用的效率。 2. 局限性 盡管大語言模型在自然語言理解方面取得了顯著進(jìn)展,但它們?nèi)匀淮嬖?/div>
    發(fā)表于 08-02 11:03

    圖像語義分割的實用性是什么

    圖像語義分割是一種重要的計算機(jī)視覺任務(wù),它旨在將圖像中的每個像素分配到相應(yīng)的語義類別中。這項技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。 一、圖像語義分割的基
    的頭像 發(fā)表于 07-17 09:56 ?900次閱讀

    圖像分割和語義分割的區(qū)別與聯(lián)系

    圖像分割和語義分割是計算機(jī)視覺領(lǐng)域中兩個重要的概念,它們在圖像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分割簡介 圖像分割是將圖像劃分為多個區(qū)域或?qū)ο蟮倪^程。這些區(qū)域或?qū)ο缶哂?b class='flag-5'>相似的屬性,如顏色、紋理
    的頭像 發(fā)表于 07-17 09:55 ?1928次閱讀