一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

稠密檢索模型在zero-shot場景下的泛化能力

深度學(xué)習(xí)自然語言處理 ? 來源:RUC AI Box ? 作者:任瑞陽 ? 2022-05-16 15:06 ? 次閱讀

引言

隨著預(yù)訓(xùn)練語言模型在自然語言處理領(lǐng)域的蓬勃發(fā)展,基于預(yù)訓(xùn)練語言模型的稠密檢索(dense retrieval)近年來也變成了主流的一階段檢索(召回)技術(shù),在學(xué)術(shù)界和工業(yè)界均已經(jīng)得到了廣泛的研究。與傳統(tǒng)的基于字面匹配的稀疏檢索(sparse retrieval)模型相比,稠密檢索模型通過學(xué)習(xí)低維的查詢和文檔向量來實(shí)現(xiàn)語義級別的檢索,能夠更好地理解用戶的查詢意圖,返回能夠更好地滿足用戶信息需求的結(jié)果。

通常情況下,訓(xùn)練一個優(yōu)秀的稠密檢索模型離不開大規(guī)模的人工標(biāo)注數(shù)據(jù),然而,在很多應(yīng)用場景和業(yè)務(wù)問題上,這種與領(lǐng)域相關(guān)的大規(guī)模標(biāo)注數(shù)據(jù)非常難以獲得,因此稠密檢索模型的零樣本域外泛化能力(zero-shot OOD generalizability)就變得非常重要。在實(shí)際應(yīng)用中,不同領(lǐng)域之間通常存在較大差異,這種zero-shot能力直接影響著稠密檢索模型在現(xiàn)實(shí)場景中的大規(guī)模應(yīng)用。相比之下,傳統(tǒng)的BM25可以簡單有效地部署在不同場景下,如果稠密檢索模型無法在現(xiàn)實(shí)場景中取得比BM25顯著優(yōu)異的性能,則稠密檢索模型的應(yīng)用價值將會大打折扣。

目前,已經(jīng)有一些工作開始研究如何評估稠密檢索模型的zero-shot泛化能力以及提高該能力的方法?,F(xiàn)有的一些研究指出,稠密檢索模型的zero-shot能力非常有限,在某些場景下甚至無法超越傳統(tǒng)的BM25算法。然而,現(xiàn)有研究的實(shí)驗(yàn)設(shè)置相對比較單一,大多關(guān)注于模型在不同目標(biāo)領(lǐng)域上的測試結(jié)果,而沒有關(guān)注不同的源域設(shè)置會如何影響模型的zero-shot泛化性能,從而導(dǎo)致我們并不清楚是什么因素影響了稠密檢索模型的零樣本泛化能力。

因此,本文針對zero-shot場景下的稠密檢索模型泛化能力進(jìn)行了較為深入的研究,旨在理解何種因素影響了稠密檢索模型的zero-shot泛化能力,以及如何改善這些因素從而提升模型的zero-shot泛化能力。為此,我們設(shè)計了充分的實(shí)驗(yàn),從源域query分布、源域document分布、數(shù)據(jù)規(guī)模、目標(biāo)域分布偏移程度等幾個方面進(jìn)行了全面的分析,并發(fā)現(xiàn)了不同因素對模型zero-shot泛化能力的影響。另外,我們還系統(tǒng)梳理了近期出現(xiàn)的幾種提升zero-shot泛化性能的優(yōu)化策略,并指出每種策略是如何影響上述幾個因素從而實(shí)現(xiàn)改進(jìn)的。

背景和設(shè)置

Zero-shot場景下的稠密檢索

稠密檢索任務(wù)旨在通過給定的query,在一個龐大的document語料庫中召回與query高度相關(guān)的document(本文中document泛指語料庫中的文本內(nèi)容,可以是句子,段落,文章等),其中query和document的語義相關(guān)性通常建模為query和document表示向量的點(diǎn)積或余弦相似度。本文主要關(guān)注zero-shot場景下的稠密檢索,即使用源域上的標(biāo)注數(shù)據(jù)訓(xùn)練模型,在目標(biāo)領(lǐng)域的測試集上評估模型,且不能使用該目標(biāo)域上的標(biāo)注數(shù)據(jù)進(jìn)一步訓(xùn)練模型。

數(shù)據(jù)集

為了能夠更全面地評估稠密檢索模型的zero-shot泛化能力,我們收集了12個當(dāng)前常用的檢索數(shù)據(jù)集,它們分屬于多個不同領(lǐng)域,其數(shù)據(jù)特性也各不相同。我們把這些數(shù)據(jù)集劃分為源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集,其中每個數(shù)據(jù)集都有對應(yīng)的query集合和document集合。數(shù)據(jù)的統(tǒng)計信息如下表所示:

2e3e0aa8-d4d2-11ec-bce3-dac502259ad0.png

表1 數(shù)據(jù)集概覽。上半部分為源領(lǐng)域數(shù)據(jù)集,下半部分為目標(biāo)領(lǐng)域數(shù)據(jù)集

后續(xù)分析實(shí)驗(yàn)中,我們采用控制變量法,分別調(diào)整源領(lǐng)域上訓(xùn)練樣本的構(gòu)造方式,從而探索樣本層面不同因素對于模型zero-shot能力的影響。我們使用的形式來表示參與模型訓(xùn)練的query集合和document集合的組合。其中"query集合"表示在構(gòu)造訓(xùn)練數(shù)據(jù)時,query和相關(guān)性標(biāo)注的來源。對于標(biāo)注形式為長答案(即document)的數(shù)據(jù)集,直接使用該document作為正樣本;而對于標(biāo)注形式為短答案的數(shù)據(jù)集,便可以利用短答案來從不同的document集合上構(gòu)建訓(xùn)練數(shù)據(jù)的正負(fù)樣本。更多訓(xùn)練上的細(xì)節(jié)可以參考原論文。

MSMARCO和NQ上的初步分析

為了初步理解稠密檢索模型的zero-shot泛化能力,我們首先在兩個最常用的公開檢索數(shù)據(jù)集MSMARCO和NQ上進(jìn)行實(shí)驗(yàn)。本文中我們使用RocketQAv2[1]作為基礎(chǔ)模型,在這兩個數(shù)據(jù)集上分別訓(xùn)練模型(RocketQA(MSMARCO/NQ)),同時進(jìn)行了域內(nèi)和域外的模型性能評測,結(jié)果如下表所示:

2e5ea2ae-d4d2-11ec-bce3-dac502259ad0.png

表2 MSMARCO和NQ上的評估結(jié)果

可以發(fā)現(xiàn),在這兩個數(shù)據(jù)集上,稠密檢索模型的zero-shot評估結(jié)果均優(yōu)于BM25。同時,RocketQAv2(MSMARCO)的zero-shot泛化性能損失(MRR@10 61.1 -> 50.8)要低于RocketQAv2(NQ)的zero-shot泛化性能損失(MRR@10 38.8 -> 22.4),說明在MSMARCO上訓(xùn)練的稠密檢索模型的zero-shot泛化性能更好。

進(jìn)一步,我們還在六個目標(biāo)域數(shù)據(jù)集上分別測試了RocketQAv2(MSMARCO)和RocketQAv2(NQ)的zero-shot性能(表3 A部分)。我們發(fā)現(xiàn)RocketQAv2(MSMARCO)幾乎在所有目標(biāo)域數(shù)據(jù)集上的性能都領(lǐng)先于RocketQAv2(NQ)。另外值得注意的是,BM25也是一個較強(qiáng)的baseline,在某些數(shù)據(jù)集上大幅領(lǐng)先稠密檢索模型。

通過初步實(shí)驗(yàn),可以發(fā)現(xiàn)在不同的源域數(shù)據(jù)集上訓(xùn)練的模型的zero-shot泛化能力存在差異,但是由于MSMARCO和NQ的差異點(diǎn)很多,從目前的實(shí)驗(yàn)結(jié)果不能得到更多的結(jié)論。接下來,我們會從多個方面深入地分析有哪些因素影響著模型的zero-shot泛化能力。

2e981be2-d4d2-11ec-bce3-dac502259ad0.png

表3 六個目標(biāo)集上的評估結(jié)果。M@10和R@50分別為檢索模型的MRR@10和Recall@50的結(jié)果

分析與發(fā)現(xiàn)

1. 源領(lǐng)域query集合的影響

實(shí)驗(yàn)結(jié)果

為了研究源域query集合分布的影響,我們在下面的實(shí)驗(yàn)中固定住document集合不變,只改變query集合進(jìn)行分析。

首先,我們固定MSMARCO作為document集合,分別使用NQ和MSMARCO的query集合構(gòu)造訓(xùn)練數(shù)據(jù)。另外,我們還收集了MRQA中的四個數(shù)據(jù)集,包括TriviaQA,SearchQA,HotpotQA和NQ,它們統(tǒng)一使用Wikipedia作為document集合。

表3(B部分)展示了模型在六個目標(biāo)數(shù)據(jù)集上的zero-shot結(jié)果。使用NQ訓(xùn)練的模型整體的zero-shot泛化性能弱于使用MSMARCO訓(xùn)練的模型,和上面初步實(shí)驗(yàn)中的結(jié)果一致,這也證明了源域query集合對稠密檢索模型的zero-shot能力有比較大的影響。同時我們發(fā)現(xiàn)HotpotQA訓(xùn)練的模型在目標(biāo)域數(shù)據(jù)集上的效果最差,因?yàn)樗膓uery主要由多跳問題組成,說明特殊格式的源域query集合可能會影響模型的zero-shot泛化性能。

基于這些實(shí)驗(yàn)分析,我們對更細(xì)節(jié)的因素進(jìn)行了研究。

query的詞匯重疊

詞匯重疊率是衡量兩個領(lǐng)域相似性的重要指標(biāo),對于每個源域query集合和目標(biāo)域query集合的組合,我們計算了它們的weighted Jaccard相似度,該指標(biāo)越高說明兩個集合的詞匯重疊程度越高。

圖1(紅線)展示了在六個目標(biāo)域上,不同的源域和目標(biāo)域query詞匯重疊程度與模型zero-shot性能的關(guān)系(對應(yīng)表3結(jié)果),我們發(fā)現(xiàn)它們之間存在一定的正相關(guān)關(guān)系,因?yàn)楦蟮脑~項重疊程度意味著更大的領(lǐng)域相似度。document的詞匯重疊情況也有類似的結(jié)果(藍(lán)線),不再額外贅述。

2ee144d4-d4d2-11ec-bce3-dac502259ad0.png

圖1 詞項重疊程度與zero-shot性能的關(guān)系。橫坐標(biāo)對應(yīng)在不同源領(lǐng)域訓(xùn)練模型從低到高的zero-shot性能,縱坐標(biāo)表示源領(lǐng)域和目標(biāo)領(lǐng)域間query/document的詞項重疊程度。

query的類型分布

另一個重要的因素是query的類型分布,我們分析了不同源域和目標(biāo)域數(shù)據(jù)集各自的query類型分布,主要關(guān)注“WH”、”Y/N“和陳述類的query占整個query集合的比例,我們同時計算了每個query類型分布的信息熵來體現(xiàn)平衡性,如圖2所示。

首先,我們發(fā)現(xiàn)模型在query類型分布更均衡的源域數(shù)據(jù)集上訓(xùn)練模型可能有助于更穩(wěn)定的整體zero-shot泛化性能。如圖2所示,MSMARCO數(shù)據(jù)集包含最全面和多樣化的query類型,這使得在該數(shù)據(jù)集訓(xùn)練的模型具有最好的zero-shot能力。雖然NQ數(shù)據(jù)集多樣性也較高,但是該數(shù)據(jù)集上占比最高query類型的是”Who“類型,我們猜測由于這種問題類型在其他大多數(shù)數(shù)據(jù)集中出現(xiàn)頻率較低,過度學(xué)習(xí)該類型的問題可能不利于模型的zero-shot泛化能力。

另外,當(dāng)源域和目標(biāo)域query集合的query類型分布一致性較高時,模型在該目標(biāo)域上的zero-shot泛化性能也較好。比如在SearchQA上訓(xùn)練的模型在ArguAna和SciFact數(shù)據(jù)集上都有不錯的表現(xiàn),而這幾個數(shù)據(jù)集中的query絕大多數(shù)都為陳述類問題。

2efe2202-d4d2-11ec-bce3-dac502259ad0.png

圖2 各數(shù)據(jù)集的query類型分布及信息熵

2. 源領(lǐng)域document集合的影響

與針對query集合的分析類似,我們在不同實(shí)驗(yàn)設(shè)置下固定NQ的query集合作為源域query集合,并分別使用Wikipedia和MSMARCO作為源域document集合,另外我們還合并了這兩個集合組成一個新的document集合,用于研究在原document集合中引入額外document的影響。

測試結(jié)果如表3(C部分)所示,我們發(fā)現(xiàn)引入了額外document后,訓(xùn)練出來的模型在目標(biāo)域上的zero-shot性能有所下降。一個可能的原因是query集合的短答案標(biāo)注是基于原始的document集合,而這種數(shù)據(jù)標(biāo)注方式并不能很好地適應(yīng)其他document集合,從而導(dǎo)致性能下降。但從整體上來看,document集合的影響不如query集合的影響顯著。

3. 數(shù)據(jù)規(guī)模的影響

由于稠密檢索比較依賴于大規(guī)模訓(xùn)練數(shù)據(jù),因此數(shù)據(jù)規(guī)模的影響也值得關(guān)注。

Query規(guī)模

Query的規(guī)模指源域數(shù)據(jù)集上訓(xùn)練集query的數(shù)量。我們使用不同數(shù)據(jù)規(guī)模的NQ和MSMARCO數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),每個數(shù)據(jù)集的訓(xùn)練集中隨機(jī)采樣10%、50%和100%的query子集,構(gòu)造三組訓(xùn)練集,分別訓(xùn)練模型并進(jìn)行域內(nèi)和域外的測試。

表4展示了模型在NQ和MSMARCO上的域內(nèi)測試效果,表3(D1部分)展示了模型在六個目標(biāo)域上的zero-shot性能。首先可以發(fā)現(xiàn),隨著query規(guī)模的提高,模型在域內(nèi)和域外的性能都有提高,在數(shù)據(jù)規(guī)模較小時,模型性能對于query規(guī)模的變動可能更敏感。另外,“NQ 100%”和“MSMARCO 10%”數(shù)據(jù)量基本一致,但是MSMARCO訓(xùn)練的模型仍然具有較好的zero-shot性能,說明了MSMARCO數(shù)據(jù)集上更好的zero-shot泛化能力并不完全來自于更大的query規(guī)模。

2f48979c-d4d2-11ec-bce3-dac502259ad0.png

表4 不同規(guī)模query集合訓(xùn)練的模型在NQ和MSMARCO上的領(lǐng)域內(nèi)測試結(jié)果

Document規(guī)模

我們使用MSMARCOv2 passage版本的數(shù)據(jù)集進(jìn)行document規(guī)模的分析,它擁有140M左右段落,據(jù)我們所知,這是目前最大的公開document集合。

我們隨機(jī)從MSMARCOv2的document集合中采樣了1%、10%和100%三個子集,各包含1.4M、14M和140M的document,結(jié)合MSMARCOv2的query集合,構(gòu)造了三組訓(xùn)練數(shù)據(jù)來訓(xùn)練模型。

2f8eaf3e-d4d2-11ec-bce3-dac502259ad0.png

表5 MSMARCOv2上的不同document規(guī)模實(shí)驗(yàn)

首先我們使用采樣的三組不同規(guī)模的document集合,在MSMARCOv2 dev集合上對三個模型進(jìn)行了測試。如表5所示,在更大規(guī)模的域內(nèi)document集合上訓(xùn)練的模型在域內(nèi)看起來有更好的性能。

之后,我們依然在目標(biāo)領(lǐng)域上對上述三個模型進(jìn)行了zero-shot性能測試。我們意外地發(fā)現(xiàn)使用1% document規(guī)模訓(xùn)練的模型獲得了最好的zero-shot效果。我們猜測在更大規(guī)模的document集合上采樣的負(fù)樣本可能帶來更豐富的本領(lǐng)域特征,導(dǎo)致對本領(lǐng)域的過度擬合,這可能會損害模型在其他領(lǐng)域上的泛化能力。

進(jìn)一步地,我們查看了MSMARCOv2上三個document集合、以及MSMARCO上document集合的主題重合情況,使用與前文類似的方法計算不同document集合間的詞項重疊率。我們發(fā)現(xiàn)雖然MSMARCOv2有大規(guī)模的document集合,但相比于MSMARCO和MSMARCOv2的兩個子集,并沒有帶來與數(shù)據(jù)量成正比的更豐富的主題,可能這也是模型在這種大規(guī)模document庫上效果不佳的原因之一,即對源域上的document集合產(chǎn)生了過擬合。

4. 目標(biāo)集合的有偏情況

BEIR[2]指出了稀疏檢索模型通常被用于數(shù)據(jù)集構(gòu)造,這可能導(dǎo)致BM25在這種數(shù)據(jù)集上的評測結(jié)果偏高。因此,我們定量地研究了這種有偏情況是如何影響稀疏檢索和稠密檢索模型的zero-shot泛化性能的。

我們計算了不同目標(biāo)域測試集上query和正例document間的詞項重疊率,并研究這種詞項匹配程度如何影響不同檢索模型的zero-shot泛化性能。這里的詞項重疊率計算方式為每對query-document中出現(xiàn)詞項重疊的個數(shù)除以query長度(去掉停用詞后),并在整個測試集上求平均。

2fac67b8-d4d2-11ec-bce3-dac502259ad0.png

圖3 稠密檢索模型相比于BM25的效果提升比例和query與標(biāo)注document的overlap coefficient間的關(guān)系

我們計算了六個目標(biāo)域測試集上query和正例document的詞項重疊率,并據(jù)其對數(shù)據(jù)集做排序。圖3展示了其與稀疏、稠密檢索模型的性能差異的關(guān)系。

我們發(fā)現(xiàn)整體上,BM25在有更大詞項重疊率的目標(biāo)域測試集上表現(xiàn)更好,這也與預(yù)期相符,而稠密檢索模型在詞項重疊率更小的時候有更好的表現(xiàn),這說明現(xiàn)有的數(shù)據(jù)集中確實(shí)存在一定程度的模型偏好,從而導(dǎo)致BM25相比于稠密檢索模型有著更好的zero-shot泛化性能,這種有偏情況體現(xiàn)在query和標(biāo)注的document之間的詞項重疊率中。

模型分析

現(xiàn)有方案歸納

表6總結(jié)了現(xiàn)有的zero-shot稠密檢索相關(guān)的方法。隨后,我們分類討論了目前的主要技術(shù)以及代表性方法。

3004f7e8-d4d2-11ec-bce3-dac502259ad0.png

表6 Zero-shot稠密檢索方法及其采用的技術(shù)和涉及到的影響因素。其中VO、QT和QS分別代表vocabulary overlap,query type和query scale

Query生成(QG)

Query生成方法通常使用現(xiàn)成的query生成模型為目標(biāo)域的document生成偽query,從而實(shí)現(xiàn)目標(biāo)域的數(shù)據(jù)增廣。這種方法可以提高源域和目標(biāo)域的詞匯重疊率,同時也提高了訓(xùn)練數(shù)據(jù)規(guī)模(query規(guī)模)。比如QGen[3]在源域訓(xùn)練了一個生成模型,為目標(biāo)域的document生成偽query;GPL[4]使用一個經(jīng)過預(yù)訓(xùn)練的T5模型生成偽query然后使用MarginMSE loss來實(shí)現(xiàn)更穩(wěn)定的模型訓(xùn)練。

知識蒸餾(KD)

知識蒸餾是稠密檢索中一個常用的方法,其利用一個性能更強(qiáng)大的教師模型來提升稠密檢索模型的性能。當(dāng)前研究表明,這種方式也有助于提高模型的域外檢索性能?;谥R蒸餾的方法緩解了數(shù)據(jù)匱乏的問題,其相當(dāng)于增加訓(xùn)練數(shù)據(jù)規(guī)模(query規(guī)模)。比如AugSBERT[5]和GPL使用一個交互式模型來標(biāo)注無標(biāo)簽的query-document對訓(xùn)練稠密檢索模型;SPAR[6]提出通過使用BM25召回的段落讓稠密檢索模型蒸餾BM25的知識。

對比學(xué)習(xí)預(yù)訓(xùn)練(CP)

隨著無監(jiān)督對比學(xué)習(xí)在NLP領(lǐng)域的興起,研究者開始應(yīng)用該方法到zero-shot稠密檢索中。其基本思路為利用無標(biāo)簽語料庫構(gòu)造大規(guī)模偽標(biāo)簽訓(xùn)練數(shù)據(jù),讓模型可以在預(yù)訓(xùn)練階段就學(xué)會捕獲兩個文本間的匹配關(guān)系,其本質(zhì)上仍然是增大訓(xùn)練數(shù)據(jù)規(guī)模。Contriever[7]和LaPraDoR[8]是兩個典型的無監(jiān)督預(yù)訓(xùn)練方法,它們通過dropout等方法構(gòu)造了大規(guī)模的偽標(biāo)簽預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行對比學(xué)習(xí)預(yù)訓(xùn)練。

擴(kuò)大模型規(guī)模(MSS)

增大預(yù)訓(xùn)練語言模型的規(guī)模帶來性能提升已經(jīng)成為了一個廣泛的共識。近期,這種方法也已經(jīng)在zero-shot稠密檢索領(lǐng)域得到了證明。GTR[9]是一個基于50億參數(shù)的T5模型的稠密檢索模型,其使用了20億query-document對進(jìn)行預(yù)訓(xùn)練,證明了增大模型和數(shù)據(jù)的規(guī)模可以持續(xù)帶來性能提升。

結(jié)合稀疏檢索(ISR)

很多工作已經(jīng)指出稀疏檢索在zero-shot場景下的強(qiáng)大能力,稀疏檢索和稠密檢索模型在處理不同數(shù)據(jù)時各有優(yōu)劣。因此,對這兩種模型做一個有效的結(jié)合是很重要的性能提升手段,我們認(rèn)為該方法更多地是實(shí)現(xiàn)了稠密檢索和稀疏檢索模型的集成。比如SPAR通過知識蒸餾的方式把稀疏檢索模型的能力融入稠密檢索模型中;LaPraDoR把稀疏檢索模型和稠密檢索模型的相似度打分進(jìn)行了乘性結(jié)合,提升了模型的zero-shot泛化能力。

方法比較

我們本著盡量進(jìn)行公平對比的原則,對現(xiàn)有的zero-shot稠密檢索方法性能進(jìn)行了整理,提取或復(fù)現(xiàn)了部分方法在三個目標(biāo)數(shù)據(jù)集上的效果,展示在表7中。

3023e93c-d4d2-11ec-bce3-dac502259ad0.png

表7 不同方法在三個目標(biāo)領(lǐng)域數(shù)據(jù)集上的NDCG@10結(jié)果

首先我們發(fā)現(xiàn)LaPraDoR整體表現(xiàn)最好,而去掉ISR策略后,模型性能在BioASQ和SciFact上有較大下滑,說明引入稀疏檢索模型在有偏情況較嚴(yán)重的數(shù)據(jù)集上更有效。GPL也獲得了較好的效果,它涉及到前文分析中的提升詞匯重疊程度、提高query規(guī)模和擬合query類型分布三個因素。我們也發(fā)現(xiàn),除了結(jié)合稀疏檢索類方法,現(xiàn)有方法的zero-shot性能在BioASQ和SciFact數(shù)據(jù)集上仍然整體落后于BM25。我們猜測其原因很大程度上是前文分析提到的這兩個數(shù)據(jù)集比較依賴于詞項匹配,導(dǎo)致稠密檢索方法相比于稀疏檢索方法具有天然的劣勢。

總結(jié)和展望

本文深入地研究了稠密檢索模型在zero-shot場景下的泛化能力,廣泛地分析了不同因素對模型zero-shot泛化能力的影響。具體來講,我們發(fā)現(xiàn)詞匯重疊、query類型分布以及數(shù)據(jù)規(guī)模是影響該能力的重要因素。另外,數(shù)據(jù)集的構(gòu)造方式可能會影響對稀疏檢索模型和稠密檢索模型的zero-shot泛化能力的對比。我們認(rèn)為,稠密檢索模型的zero-shot泛化能力仍有提升空間,并且值得進(jìn)一步地深入研究。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3469

    瀏覽量

    49844
  • 檢索
    +關(guān)注

    關(guān)注

    0

    文章

    27

    瀏覽量

    13243
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    625

    瀏覽量

    13935

原文標(biāo)題:總結(jié)和展望

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    東軟醫(yī)療大模型覆蓋眾多應(yīng)用場景

    “AI+醫(yī)療”的創(chuàng)新實(shí)踐,依托大健康聯(lián)盟實(shí)現(xiàn)規(guī)模產(chǎn)業(yè)轉(zhuǎn)化,東軟醫(yī)療大模型已成功覆蓋眾多核心應(yīng)用場景,展現(xiàn)出領(lǐng)先的全場景落地能力。
    的頭像 發(fā)表于 04-14 17:04 ?406次閱讀

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+Embedding技術(shù)解讀

    引入外部知識庫來增強(qiáng)生成模型能力。而Embedding Embedding模型將用戶的問題和文檔庫中的文本轉(zhuǎn)換為向量表示,這是RAG系統(tǒng)進(jìn)行信息
    發(fā)表于 01-17 19:53

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    重復(fù)項或使用編輯距離算法比較文本相似度。數(shù)據(jù)標(biāo)注:高質(zhì)量的數(shù)據(jù)標(biāo)注直接影響模型的性能。標(biāo)注過程應(yīng)遵循明確標(biāo)注規(guī)則、選擇合適的標(biāo)注工具、進(jìn)行多輪審核和質(zhì)量控制等原則。數(shù)據(jù)增強(qiáng):提高模型
    發(fā)表于 01-14 16:51

    智譜推出深度推理模型GLM-Zero預(yù)覽版

    近日,智譜公司正式發(fā)布了其深度推理模型GLM-Zero的預(yù)覽版——GLM-Zero-Preview。這款模型標(biāo)志著智譜在擴(kuò)展強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練推理模型
    的頭像 發(fā)表于 01-03 10:42 ?380次閱讀

    智譜GLM-Zero深度推理模型預(yù)覽版正式上線

    。 GLM-Zero-Preview專注于提升AI的推理能力,擅長處理數(shù)理邏輯、代碼以及需要深度推理的復(fù)雜問題。據(jù)官方介紹,與同基座模型相比,GLM-Zero-Preview
    的頭像 發(fā)表于 01-02 10:55 ?396次閱讀

    開源大模型多個業(yè)務(wù)場景的應(yīng)用案例

    人工智能發(fā)展浪潮中,大模型的開源與閉源之爭一直是業(yè)內(nèi)的熱點(diǎn)話題。隨著技術(shù)的不斷進(jìn)步和應(yīng)用場景的日益豐富,如何降低大模型的使用門檻,讓更多人能夠便捷地應(yīng)用于實(shí)際業(yè)務(wù)
    的頭像 發(fā)表于 12-30 10:16 ?825次閱讀

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測模型

    的規(guī)律,從而降低了模型新數(shù)據(jù)上的能力。 對抗攻擊易感性:圖像分類模型容易受到精心設(shè)計的對抗
    發(fā)表于 12-19 14:33

    PCM1680這個zero1/2 out是個什么應(yīng)用場景?不接有什么問題嗎?

    PCM16801680這個zero1/2out是個什么應(yīng)用場景?不接有沒什么問題?
    發(fā)表于 12-11 06:32

    名單公布!【書籍評測活動NO.52】基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化

    (Retrieval-Augmented Agenerated,檢索增強(qiáng)生成)與Agent(AI智能體)。本篇小棗君首先嘗試用通俗易懂的語言幫助大家認(rèn)識RAG這一重要應(yīng)用形式。 01 了解大模型的“幻覺” 了解為什么出現(xiàn)RA
    發(fā)表于 12-04 10:50

    簡述中軟國際模型工場服務(wù)場景

    大力發(fā)展新質(zhì)生產(chǎn)力背景,人工智能正成為高質(zhì)量發(fā)展的最大增量。而大模型以其模型精度高、
    的頭像 發(fā)表于 09-19 14:16 ?600次閱讀
    簡述中軟國際<b class='flag-5'>模型</b>工場服務(wù)<b class='flag-5'>場景</b>

    中國電信發(fā)布全球首個單體稠密萬億參數(shù)語義模型

    近日,中國電信人工智能研究院(TeleAI)攜手北京智源人工智能研究院,共同推出了全球首個單體稠密萬億參數(shù)語義模型——Tele-FLM-1T,這一里程碑式的成就標(biāo)志著中國電信人工智能領(lǐng)域取得了重大突破,并成為了國內(nèi)首批發(fā)布
    的頭像 發(fā)表于 06-20 10:50 ?845次閱讀

    【大規(guī)模語言模型:從理論到實(shí)踐】- 每日進(jìn)步一點(diǎn)點(diǎn)

    據(jù)中微小變化的敏感度,從而提高模型能力。 二、常見的歸一方法 Batch Normalization(BatchNorm) 原理
    發(fā)表于 05-31 19:54

    【大語言模型:原理與工程實(shí)踐】大語言模型的應(yīng)用

    操作。所謂零樣本提示(Zero-Shot Prompt),指的是提示詞中不包含與指令任務(wù)相似的任何示例。 當(dāng)大語言模型訓(xùn)練完成后,它便具備了分析情緒和識別命名實(shí)體等常見任務(wù)的能力,
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實(shí)踐】大語言模型的評測

    計算和代碼糾錯等。這些場景覆蓋日常生活和學(xué)習(xí)的多個方面,使得對話能力評測變得尤為復(fù)雜和關(guān)鍵。為了全面評估大語言模型各種應(yīng)用場景
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

    和多樣性。高質(zhì)量數(shù)據(jù)能確保模型穩(wěn)定收斂,而數(shù)據(jù)的多樣性則有助于模型學(xué)習(xí)廣泛的通用能力,如文本生成、信息抽取、問答和編程等。此外,數(shù)據(jù)的多樣性對于確保模型
    發(fā)表于 05-07 17:10