一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SimANS:簡(jiǎn)單有效的困惑負(fù)樣本采樣方法

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:RUC AI Box ? 2023-03-03 10:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文介紹了本小組發(fā)表于EMNLP2022 Industry Track的論文SimANS,其設(shè)計(jì)了一簡(jiǎn)單有效的通用困惑負(fù)樣本采樣方法,在5個(gè)數(shù)據(jù)集上提升了SOTA的稠密檢索模型的效果。

論文下載地址:https://arxiv.org/pdf/2210.11773.pdf

論文開源代碼:https://github.com/microsoft/SimXNS

前言

在各類檢索任務(wù)中,為訓(xùn)練好一個(gè)高質(zhì)量的檢索模型,往往需要從大量的候選樣本集合中采樣高質(zhì)量的負(fù)例,配合正例一起進(jìn)行訓(xùn)練。已有的負(fù)采樣方法往往采用隨機(jī)采樣策略(Random Sampling)或直接基于該檢索模型自身選擇Top-K負(fù)例(Top-K Hard Negative Sampling),前者易得到過(guò)于簡(jiǎn)單的樣例,無(wú)法為模型訓(xùn)練提供足夠信息;后者很可能采樣得到假負(fù)例(False Negative),反而干擾模型訓(xùn)練。本文針對(duì)稠密檢索場(chǎng)景,通過(guò)一系列基于負(fù)例梯度的實(shí)驗(yàn)對(duì)隨機(jī)采樣和Top-K采樣兩種方式導(dǎo)致的問(wèn)題進(jìn)行分析,發(fā)現(xiàn)前一種負(fù)例產(chǎn)生的梯度均值較小、后一種負(fù)例產(chǎn)生的梯度方差較大,這兩者都不利于檢索模型訓(xùn)練。此外,以上實(shí)驗(yàn)還發(fā)現(xiàn),在所有負(fù)例候選中,與Query的語(yǔ)義相似度接近于正例的負(fù)例可以同時(shí)具有較大的梯度均值和較小的梯度方差,是更加高質(zhì)量的困惑負(fù)樣本。因此我們?cè)O(shè)計(jì)了一個(gè)簡(jiǎn)單的困惑負(fù)樣本采樣方法SimANS,在4個(gè)篇章和文檔檢索數(shù)據(jù)集,以及Bing真實(shí)數(shù)據(jù)集上均成功提升了SOTA模型的效果,且該方法已經(jīng)應(yīng)用于Bing搜索系統(tǒng)。

一、研究背景與動(dòng)機(jī)

1、稠密檢索

給出用戶的查詢Query,檢索任務(wù)關(guān)注于從大量的候選文檔集中檢索最相關(guān)的Top-K文檔。隨著近年來(lái)文本表示方法的發(fā)展,稠密檢索任務(wù)開始成為該任務(wù)的主流方法,其通常采用一雙塔模型架構(gòu),分別將查詢Query和候選Document轉(zhuǎn)換成低維的稠密表示,然后基于Query和Document稠密表示的點(diǎn)積來(lái)預(yù)測(cè)兩者的語(yǔ)義相關(guān)性,并依此進(jìn)行候選文檔的排序。這一計(jì)算方式支持ANN等方法加速,故可以推廣到千萬(wàn)級(jí)別文檔的查詢。

近年來(lái),由于預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn),已有的稠密檢索方法往往采用預(yù)訓(xùn)練語(yǔ)言模型作為Query和Document的Encoder,然后將其編碼后生成的[CLS]表示作為其稠密表示。

2、負(fù)采樣方法

為訓(xùn)練該稠密檢索模型,已有方法通?;谝粚?duì)比學(xué)習(xí)訓(xùn)練目標(biāo),即拉近語(yǔ)義一致的Query和Document的表示(Positive),并推遠(yuǎn)語(yǔ)義無(wú)關(guān)的Document(Negative)。由于在大量的候選文檔集中,大量的文檔都是語(yǔ)義無(wú)關(guān)的,故需要采用一合適的負(fù)采樣方法,從中選擇高質(zhì)量的負(fù)例來(lái)進(jìn)行訓(xùn)練,依此減少需要的負(fù)樣本數(shù)量。

2.1.隨機(jī)負(fù)采樣

該類方法直接基于一均勻分布從所有的候選Document中隨機(jī)抽取Document作為負(fù)例,這一過(guò)程中由于無(wú)法保證采樣得到的負(fù)例的質(zhì)量,故經(jīng)常會(huì)采樣得到過(guò)于簡(jiǎn)單的負(fù)例,其不僅無(wú)法給模型帶來(lái)有用信息,還可能導(dǎo)致模型過(guò)擬合,進(jìn)而無(wú)法區(qū)分某些較難的負(fù)例樣本。

2.2.Top-K負(fù)采樣

該類方法往往基于一稠密檢索模型對(duì)所有候選Document與Query計(jì)算匹配分?jǐn)?shù),然后直接選擇其中Top-K的候選Document作為負(fù)例。該方法雖然可以保證采樣得到的負(fù)例是模型未能較好區(qū)分的較難負(fù)例,但是其很可能將潛在的正例也誤判為負(fù)例,即假負(fù)例(False Negative)。如果訓(xùn)練模型去將該部分假負(fù)例與正例區(qū)分開來(lái),反而會(huì)導(dǎo)致模型無(wú)法準(zhǔn)確衡量Query-Document的語(yǔ)義相似度。

二、先導(dǎo)實(shí)驗(yàn)

1、理論分析不同負(fù)例訓(xùn)練時(shí)對(duì)梯度的影響

以稠密檢索常用的BCE loss為例,正例與采樣的負(fù)例在計(jì)算完語(yǔ)義相似度分?jǐn)?shù)后,均會(huì)被softmax歸一化,之后計(jì)算得到的梯度如下所示:

上式中是經(jīng)過(guò)softmax歸一化后的語(yǔ)義相似度分?jǐn)?shù)。對(duì)于隨機(jī)采樣方法,由于其采樣得到的負(fù)例往往過(guò)于簡(jiǎn)單,其會(huì)導(dǎo)致該分?jǐn)?shù)接近于零,,進(jìn)而導(dǎo)致其生成的梯度均值也接近于零,,這樣過(guò)于小的梯度均值會(huì)導(dǎo)致模型不易于收斂。對(duì)于Top-K采樣方法,由于其很容易采樣得到語(yǔ)義與正例一致的假負(fù)例,其會(huì)導(dǎo)致正負(fù)樣本的右項(xiàng)值相似,但是左項(xiàng)符號(hào)相反,這樣會(huì)導(dǎo)致計(jì)算得到的梯度方差很大,同樣導(dǎo)致模型訓(xùn)練不穩(wěn)定。

2、實(shí)驗(yàn)驗(yàn)證不同負(fù)例的梯度與語(yǔ)義相似度關(guān)系

我們基于SOTA的稠密檢索模型AR2,在MS-MARCO數(shù)據(jù)集上,首先計(jì)算候選Document與Query的語(yǔ)義相似度分?jǐn)?shù),然后將這些Document進(jìn)行排序,并計(jì)算其梯度的均值與方差。如下圖所示,我們可以看到實(shí)驗(yàn)結(jié)論與以上分析一致,排名靠前的Top-K負(fù)例產(chǎn)生的梯度均值和方差均很大;而排名靠后的負(fù)例產(chǎn)生的均值和方差均很小,兩者不能很好的平衡大均值和小方差這兩個(gè)很重要的負(fù)例性質(zhì)。作為對(duì)比的是,與正例語(yǔ)義相似度接近的負(fù)例往往能夠同時(shí)取得較大的梯度均值和較小的梯度方差,有利于模型訓(xùn)練。我們將其命名為困惑樣本(既不過(guò)于難又不過(guò)于容易區(qū)分),并關(guān)注于對(duì)其進(jìn)行采樣。

7bed60ce-b91e-11ed-bfe3-dac502259ad0.png

三、SimANS:簡(jiǎn)單的困惑樣本采樣方法

基于上述實(shí)驗(yàn),我們考慮對(duì)與正例語(yǔ)義相似度接近的困惑負(fù)例樣本進(jìn)行采樣。故設(shè)計(jì)的采樣方法應(yīng)該具有以下特點(diǎn):(1)與Query無(wú)關(guān)的Document應(yīng)被賦予較低的相關(guān)分?jǐn)?shù),因其可提供的信息量不足;(2)與Query很可能相關(guān)的Document應(yīng)被賦予較低的相關(guān)分?jǐn)?shù),因其可能是假負(fù)例;(3)與正例語(yǔ)義相似度接近的Document應(yīng)該被賦予較高的相關(guān)分?jǐn)?shù),因其既需要被學(xué)習(xí),同時(shí)是假負(fù)例的概率相對(duì)較低。

7c0827e2-b91e-11ed-bfe3-dac502259ad0.png

困惑樣本采樣分布

通過(guò)以上分析可得,在該采樣分布中,隨著Query與候選Document相關(guān)分?jǐn)?shù)和與正例的相關(guān)分?jǐn)?shù)的差值的縮小,該候選Document被采樣作為負(fù)例的概率應(yīng)該逐漸增大,故可將該差值作為輸入,配合任意一單調(diào)遞減函數(shù)即可實(shí)現(xiàn)(如)。故可設(shè)計(jì)采樣分布如下所示:

其中為控制該分布密度的超參數(shù),為控制該分布極值點(diǎn)的超參數(shù),是一隨機(jī)采樣的正例樣本,是Top-K的負(fù)例。通過(guò)調(diào)節(jié)K的大小,我們可以控制該采樣分布的計(jì)算開銷。以下為該采樣方法具體實(shí)現(xiàn)的偽代碼:

7c17d3fe-b91e-11ed-bfe3-dac502259ad0.png

四、實(shí)驗(yàn)結(jié)果

1、主實(shí)驗(yàn)

我們?cè)?個(gè)公開的文檔檢索數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別是Natural Question(NQ)、Trivia QA(TQ)、MS-MARCO Passage Ranking(MS-Pas)和MS-MARCO Document Ranking(MS-Doc)數(shù)據(jù)集;同時(shí)還在Bing真實(shí)工業(yè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下表所示。通過(guò)對(duì)比可以清晰地看出我們的方法可以提升SOTA的AR2模型的效果,進(jìn)一步領(lǐng)先其他模型。

7c4138fc-b91e-11ed-bfe3-dac502259ad0.png

7c5b1506-b91e-11ed-bfe3-dac502259ad0.png

2、該負(fù)采樣方法的通用性

我們還在RocketQA和ANCE這兩個(gè)經(jīng)典的稠密檢索模型上實(shí)現(xiàn)了我們提出的SimANS方法,來(lái)提升這些模型的性能??梢钥闯觯诓捎迷摲椒ㄖ?,以上兩個(gè)模型的的表現(xiàn)都超過(guò)了原始模型,證明了我們提出的方法的通用性。

7c70fa74-b91e-11ed-bfe3-dac502259ad0.png

3、負(fù)采樣分布的可視化

在實(shí)驗(yàn)的最后,我們將SimANS得到的采樣分布制作成圖,可以看到我們的采樣分布函數(shù)確實(shí)能夠懲罰過(guò)于難和過(guò)于簡(jiǎn)單的負(fù)例,并保證與正例的語(yǔ)義相似度接近的負(fù)例的采樣概率較大。實(shí)現(xiàn)了我們的設(shè)計(jì)初衷。

7c87cb32-b91e-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 參數(shù)
    +關(guān)注

    關(guān)注

    11

    文章

    1867

    瀏覽量

    32960
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10735
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25366

原文標(biāo)題:EMNLP2022 | SimANS:簡(jiǎn)單有效的困惑負(fù)樣本采樣方法

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    機(jī)器學(xué)習(xí)的5種采樣方法介紹

    一種廣泛采用的處理高度不平衡數(shù)據(jù)集的技術(shù)稱為重采樣。它包括從多數(shù)類(欠采樣)中刪除樣本或向少數(shù)類(過(guò)采樣)中添加更多示例。
    發(fā)表于 05-17 09:53 ?5839次閱讀

    PCB接地設(shè)計(jì)寶典4:采樣時(shí)鐘考量和混合信號(hào)接地的困惑根源

    的噪聲源來(lái)自rms采樣時(shí)鐘抖動(dòng)tj。通過(guò)簡(jiǎn)單示例可知,如果tj = 50 ps (rms),f = 100 kHz,則SNR = 90 dB,相當(dāng)于約15位的動(dòng)態(tài)范圍。應(yīng)注意,以上示例中的tj 實(shí)際上
    發(fā)表于 11-20 10:58

    怎么使用UART向PC發(fā)送數(shù)字樣本

    你好,我正在研究我們的語(yǔ)音信號(hào),并使用UART向PC發(fā)送這些數(shù)字樣本,并使用超終端在PC中進(jìn)行采集。問(wèn)題是我丟失了很多樣品。對(duì)于16000個(gè)BPS采樣率,我只收集每秒1600個(gè)樣本。我沒(méi)有使用DMA
    發(fā)表于 04-28 10:28

    一種先分割后分類的兩階段同步端到端缺陷檢測(cè)方法

    作者:SFXiang首發(fā):AI算法修煉營(yíng)本文是一種端到端的先分割后分類的表面缺陷檢測(cè)方法。主要的創(chuàng)新點(diǎn)在于如何將兩類任務(wù)更好地進(jìn)行同步學(xué)習(xí),本文首先平衡分割損失和分類損失,然后對(duì)負(fù)樣本采樣
    發(fā)表于 07-24 11:01

    有什么簡(jiǎn)單可行的方法可以實(shí)現(xiàn)負(fù)壓輸出呢

    BUCK電路的接法是怎樣的?有什么簡(jiǎn)單可行的方法可以實(shí)現(xiàn)負(fù)壓輸出呢?
    發(fā)表于 11-03 07:16

    測(cè)量功率二極管的反向恢復(fù)時(shí)間簡(jiǎn)單有效方法

    測(cè)量功率二極管的反向恢復(fù)時(shí)間簡(jiǎn)單有效方法 在互聯(lián)網(wǎng)上很少看到測(cè)量二極管的反向恢復(fù)時(shí)間(trr and Irr)簡(jiǎn)單有效
    發(fā)表于 11-11 09:48 ?101次下載

    什么是采樣頻率?什么叫采樣頻率

    什么是采樣頻率?什么叫采樣頻率 采樣頻率:即取樣頻率,指每秒鐘取得聲音樣本的次數(shù).它的采樣頻率越高,聲音的
    發(fā)表于 05-04 19:42 ?2.2w次閱讀
    什么是<b class='flag-5'>采樣</b>頻率?什么叫<b class='flag-5'>采樣</b>頻率

    入侵檢測(cè)樣本數(shù)據(jù)優(yōu)化方法

    ,分析了算法的時(shí)間復(fù)雜度。實(shí)驗(yàn)結(jié)果表明,該方法有效減少數(shù)據(jù)信息損失,具有迭代次數(shù)少、收斂速度快等優(yōu)點(diǎn),可有效提高入侵檢測(cè)樣本數(shù)據(jù)的優(yōu)化效率。
    發(fā)表于 02-26 10:29 ?0次下載

    經(jīng)典的采樣方法有哪些?

    可以看到蒙特卡洛法其實(shí)就是按一定的概率分布中獲取大量樣本,用于計(jì)算函數(shù)在樣本的概率分布上的期望。其中最關(guān)鍵的一個(gè)步驟就是如何按照指定的概率分布 p 進(jìn)行樣本采樣,拋硬幣這個(gè) case
    的頭像 發(fā)表于 07-09 09:43 ?1.4w次閱讀
    經(jīng)典的<b class='flag-5'>采樣</b><b class='flag-5'>方法</b>有哪些?

    基于構(gòu)造性覆蓋算法的過(guò)采樣技術(shù)CMOTE

    如何提高對(duì)少數(shù)類樣本的識(shí)別能力是不平衡數(shù)據(jù)分類中的一個(gè)研究熱點(diǎn)。合成少數(shù)類過(guò)采樣技術(shù)( SMOTE)是解決此類問(wèn)題的代表性方法之一。近年來(lái),不少研究者對(duì) SMOTE做出了一些改進(jìn),較好地提高了該
    發(fā)表于 04-12 16:09 ?5次下載
    基于構(gòu)造性覆蓋算法的過(guò)<b class='flag-5'>采樣</b>技術(shù)CMOTE

    一種從患者血液樣本有效分離異質(zhì)性CTCs的簡(jiǎn)單、廣譜的方法

    針對(duì)上述挑戰(zhàn),中國(guó)科學(xué)院蘇州納米所裴仁軍研究團(tuán)隊(duì)利用單寧酸(TA)功能化磁性納米顆粒(MNPs),建立了一種從患者血液樣本有效分離異質(zhì)性CTCs的簡(jiǎn)單、廣譜的方法。
    的頭像 發(fā)表于 06-11 09:19 ?2454次閱讀
    一種從患者血液<b class='flag-5'>樣本</b>中<b class='flag-5'>有效</b>分離異質(zhì)性CTCs的<b class='flag-5'>簡(jiǎn)單</b>、廣譜的<b class='flag-5'>方法</b>

    基于有效樣本的類別不平衡損失

    導(dǎo)讀 使用每個(gè)類的有效樣本數(shù)量來(lái)重新為每個(gè)類的Loss分配權(quán)重,效果優(yōu)于RetinaNet中的Focal Loss。 本文綜述了康奈爾大學(xué)、康奈爾科技、谷歌Brain和Alphabet公司的基于有效
    的頭像 發(fā)表于 08-16 11:14 ?2100次閱讀
    基于<b class='flag-5'>有效</b><b class='flag-5'>樣本</b>的類別不平衡損失

    融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述

    融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述 來(lái)源:《系統(tǒng)工程與電子技術(shù)》,作者潘崇煜等 摘 要:?深度學(xué)習(xí)模型嚴(yán)重依賴于大量人工標(biāo)注的數(shù)據(jù),使得其在數(shù)據(jù)缺乏的特殊領(lǐng)域內(nèi)應(yīng)用嚴(yán)重受限。面對(duì)數(shù)據(jù)缺乏
    發(fā)表于 02-09 11:22 ?2687次閱讀
    融合零<b class='flag-5'>樣本</b>學(xué)習(xí)和小<b class='flag-5'>樣本</b>學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)<b class='flag-5'>方法</b>綜述

    雙塔模型擴(kuò)量負(fù)樣本方法比較

    雙塔模型在訓(xùn)練時(shí)是對(duì)一個(gè)batch內(nèi)樣本訓(xùn)練。一個(gè)batch內(nèi)每個(gè)樣本 (user和item對(duì))為正樣本,該user與batch內(nèi)其它item為負(fù)
    的頭像 發(fā)表于 07-08 10:57 ?1561次閱讀

    基于有效樣本數(shù)的類平衡損失

    本文綜述了康奈爾大學(xué)、康奈爾科技、谷歌Brain和Alphabet公司的基于有效樣本數(shù)的類平衡損失(CB損失)。
    的頭像 發(fā)表于 08-25 09:41 ?1474次閱讀