中文字幕一区AV网站大全,久久久无码精品亚洲日韩男男,水多多成人精彩视频

美團(tuán)技術(shù)團(tuán)隊(duì) 近日，美團(tuán)搜索與NLP部NLP中心語(yǔ)義理解團(tuán)隊(duì)的小樣本學(xué)習(xí)模型FSL++在中文小樣本語(yǔ)言理解權(quán)威評(píng)測(cè)基準(zhǔn)FewCLUE榜單登頂，在自然語(yǔ)言推理（OCNLI）單任務(wù)中取得第一，并在極少數(shù)樣本（一個(gè)類別僅100余個(gè)）的條件下，在新聞分類(TNEWS)、科學(xué)文獻(xiàn)學(xué)科分類（CSLDCP）任務(wù)上超過(guò)了人類識(shí)別精確度。

1 概述

2 方法介紹

2.1 增強(qiáng)預(yù)訓(xùn)練

2.2 模型結(jié)構(gòu)

2.3 數(shù)據(jù)增強(qiáng)

2.4 集成學(xué)習(xí)&自訓(xùn)練

3 實(shí)驗(yàn)結(jié)果

3.1 數(shù)據(jù)集介紹

3.2 實(shí)驗(yàn)對(duì)比

4 小樣本學(xué)習(xí)策略在美團(tuán)場(chǎng)景的應(yīng)用

5 總結(jié)

1 概述

CLUE(Chinese Language Understanding Evaluation)[1]是中文語(yǔ)言理解權(quán)威測(cè)評(píng)榜單，包含了文本分類、句間關(guān)系、閱讀理解等眾多語(yǔ)義分析和語(yǔ)義理解類子任務(wù)，對(duì)學(xué)術(shù)界和工業(yè)界都產(chǎn)生了較大的影響。

圖1 FewCLUE榜單（截止到2022-04-18）

FewCLUE[2,3]是CLUE中專門用于中文小樣本學(xué)習(xí)評(píng)測(cè)的一個(gè)子榜，旨在結(jié)合預(yù)訓(xùn)練語(yǔ)言模型通用和強(qiáng)大的泛化能力，探索小樣本學(xué)習(xí)最佳模型和在中文上的實(shí)踐。FewCLUE的部分?jǐn)?shù)據(jù)集只有一百多條有標(biāo)簽樣本，可以衡量模型在極少有標(biāo)簽樣本下的泛化性能，發(fā)布后吸引了包括網(wǎng)易、微信AI、阿里巴巴、IDEA研究院、浪潮人工智能研究院等多家企業(yè)與研究院的參與。不久前，美團(tuán)平臺(tái)搜索與NLP部NLP中心語(yǔ)義理解團(tuán)隊(duì)的小樣本學(xué)習(xí)模型FSL++以優(yōu)越的性能在FewCLUE榜單上取得第一名，達(dá)到SOTA水平。

2 方法介紹

大規(guī)模預(yù)訓(xùn)練模型雖然在各大任務(wù)里面取得非常好的效果，但是在特定的任務(wù)上，還是需要許多標(biāo)注數(shù)據(jù)。美團(tuán)的各個(gè)業(yè)務(wù)中，有著豐富的NLP場(chǎng)景，往往需要較高的人工標(biāo)注成本。在業(yè)務(wù)發(fā)展早期或者新的業(yè)務(wù)需求需要快速上線時(shí)，往往會(huì)出現(xiàn)標(biāo)注樣本不足的現(xiàn)象，使用傳統(tǒng)Pretrain（預(yù)訓(xùn)練）+ Fine-Tune（微調(diào)）的深度學(xué)習(xí)訓(xùn)練方法往往達(dá)不到理想的指標(biāo)要求，因此研究小樣本場(chǎng)景的模型訓(xùn)練問(wèn)題就變得非常必要。

本文提出了一套大模型 + 小樣本的聯(lián)合訓(xùn)練方案FSL++，綜合了模型結(jié)構(gòu)優(yōu)選、大規(guī)模預(yù)訓(xùn)練、樣本增強(qiáng)、集成學(xué)習(xí)以及自訓(xùn)練等模型優(yōu)化策略，最終在中文語(yǔ)言理解權(quán)威評(píng)測(cè)基準(zhǔn)下的FewCLUE榜單取得了優(yōu)異的成績(jī)，并且在部分任務(wù)上性能超過(guò)了人類水平，而在部分任務(wù)上（如CLUEWSC）還有一定的提升空間。

FewCLUE發(fā)布后，網(wǎng)易伏羲使用自研的EET模型[4]，并通過(guò)二次訓(xùn)練增強(qiáng)模型的語(yǔ)義理解能力，再加入模版進(jìn)行多任務(wù)學(xué)習(xí)；IDEA研究院的二郎神模型[5]在BERT模型的基礎(chǔ)上使用更先進(jìn)的預(yù)訓(xùn)練技術(shù)訓(xùn)練大模型，在下游任務(wù)微調(diào)的過(guò)程中用加入動(dòng)態(tài)Mask策略的Masked Language Model(MLM)作為輔助任務(wù)。這些方法都使用Prompt Learning作為基本的任務(wù)架構(gòu)，跟這些自研的大模型相比，我們的方法主要在Prompt Learning框架的基礎(chǔ)上加入了樣本增強(qiáng)、集成學(xué)習(xí)以及自學(xué)習(xí)等模型優(yōu)化策略，極大地提高模型的任務(wù)表現(xiàn)和魯棒性，同時(shí)這套方法可以適用于各種預(yù)訓(xùn)練模型，更加靈活便捷。

FSL++整體模型結(jié)構(gòu)如下圖2所示。FewCLUE數(shù)據(jù)集為每個(gè)任務(wù)提供160條有標(biāo)簽數(shù)據(jù)以及接近兩萬(wàn)條無(wú)標(biāo)簽數(shù)據(jù)。本次FewCLUE實(shí)踐中，我們先在Fine-Tune階段構(gòu)造多模板Prompt Learning，并對(duì)有標(biāo)簽數(shù)據(jù)采用對(duì)抗訓(xùn)練、對(duì)比學(xué)習(xí)、Mixup等增強(qiáng)策略。由于這些數(shù)據(jù)增強(qiáng)策略采用不同的增強(qiáng)原理，可以認(rèn)為這些模型之間差異性比較顯著，經(jīng)過(guò)集成學(xué)習(xí)之后會(huì)有比較好的效果。所以在采用數(shù)據(jù)增強(qiáng)策略進(jìn)行訓(xùn)練以后，我們擁有了多個(gè)弱監(jiān)督模型，并且用這些弱監(jiān)督模型在無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行預(yù)測(cè)，得到無(wú)標(biāo)簽數(shù)據(jù)的偽標(biāo)簽分布。之后，我們將多個(gè)經(jīng)過(guò)不同的數(shù)據(jù)增強(qiáng)模型預(yù)測(cè)得到的無(wú)標(biāo)簽數(shù)據(jù)的偽標(biāo)簽分布整合起來(lái)，得到一份總的無(wú)標(biāo)簽數(shù)據(jù)的偽標(biāo)簽分布，接著重新構(gòu)造多模板Prompt Learning，并再次使用數(shù)據(jù)增強(qiáng)策略，選擇最優(yōu)策略。目前，我們的實(shí)驗(yàn)只進(jìn)行一輪迭代，也可以嘗試多輪迭代，不過(guò)隨著迭代次數(shù)增加，提升也不再明顯。

圖2 FSL++模型框架

2.1 增強(qiáng)預(yù)訓(xùn)練

預(yù)訓(xùn)練語(yǔ)言模型是在龐大的無(wú)標(biāo)簽語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練的。例如，RoBERTa[6]在160GB以上的文本進(jìn)行訓(xùn)練，包括百科全書、新聞文章、文學(xué)作品和Web內(nèi)容。通過(guò)這些模型學(xué)習(xí)到的表示，在包含多種來(lái)源的各種大小的數(shù)據(jù)集的任務(wù)中實(shí)現(xiàn)出色的性能。

FSL++模型使用RoBERTa-large模型作為基礎(chǔ)模型，并且采用融入領(lǐng)域知識(shí)的Domain-Adaptive Pretraining (DAPT)[7]預(yù)訓(xùn)練方法和融入任務(wù)知識(shí)的Task-Adaptive Pretraining (TAPT)[7]。DAPT旨在預(yù)訓(xùn)練模型的基礎(chǔ)上，增加大量領(lǐng)域內(nèi)無(wú)標(biāo)簽文本繼續(xù)訓(xùn)練語(yǔ)言模型，之后再在指定任務(wù)的數(shù)據(jù)集上進(jìn)行微調(diào)。

對(duì)目標(biāo)文本領(lǐng)域進(jìn)行繼續(xù)預(yù)訓(xùn)練，可以提高語(yǔ)言模型的性能，尤其是在與目標(biāo)文本領(lǐng)域相關(guān)的下游任務(wù)上的性能。并且，預(yù)訓(xùn)練文本與任務(wù)領(lǐng)域的相關(guān)度越高，帶來(lái)的提升越大。在本次實(shí)踐中，我們最終使用了在100G包含娛樂(lè)節(jié)目、體育、健康、國(guó)際事務(wù)、電影、名人等各個(gè)領(lǐng)域的語(yǔ)料的CLUE Vocab[8]上預(yù)訓(xùn)練得到的RoBERTa Large模型。TAPT指在預(yù)訓(xùn)練模型的基礎(chǔ)上，增加數(shù)量較少但與任務(wù)直接相關(guān)的無(wú)標(biāo)簽語(yǔ)料進(jìn)行預(yù)訓(xùn)練。針對(duì)TAPT任務(wù)，我們選擇使用的預(yù)訓(xùn)練數(shù)據(jù)是FewCLUE榜單為每個(gè)任務(wù)提供的無(wú)標(biāo)簽數(shù)據(jù)。

除此之外，在針對(duì)句間關(guān)系任務(wù)，如中文自然語(yǔ)言推理任務(wù)OCNLI、中文對(duì)話短文本匹配任務(wù)BUSTM的實(shí)踐中，我們使用在其他句間關(guān)系任務(wù)如中文自然語(yǔ)言推理數(shù)據(jù)集CMNLI、中文短文本相似度數(shù)據(jù)集LCQMC上進(jìn)行預(yù)訓(xùn)練的模型參數(shù)作為初始參數(shù)，相比直接用原始模型完成任務(wù)，也能提升一定的效果。

2.2 模型結(jié)構(gòu)

FewCLUE包含多種任務(wù)形式，我們?yōu)槊糠N任務(wù)選擇了合適的模型結(jié)構(gòu)。文本分類任務(wù)和機(jī)器閱讀理解(MRC)任務(wù)本身的類別詞就攜帶了信息，因此更適合建模為Masked Language Model(MLM)形式；而句間關(guān)系任務(wù)判斷兩個(gè)句子的相關(guān)性，更類似于Next Sentence Prediction(NSP)[9]任務(wù)形式。因此，我們?yōu)榉诸惾蝿?wù)和閱讀理解任務(wù)選擇PET[10]模型，為句間關(guān)系任務(wù)選擇EFL[11]模型，EFL方法可以通過(guò)全局采樣構(gòu)造負(fù)樣本，學(xué)習(xí)到更魯棒的分類器。

2.2.1 Prompt Learning

Prompt Learning的主要目標(biāo)是盡可能減小預(yù)訓(xùn)練目標(biāo)與下游微調(diào)目標(biāo)的差距。通?，F(xiàn)有的預(yù)訓(xùn)練任務(wù)均包含MLM損失函數(shù)，但是下游的任務(wù)則并未采用MLM，而是引入新的分類器，使得預(yù)訓(xùn)練任務(wù)和下游任務(wù)出現(xiàn)了不一致。Prompt Learning不引入額外的分類器或其他參數(shù)，而是通過(guò)拼接模板（Template，即為輸入數(shù)據(jù)拼接語(yǔ)言片段，從而改造任務(wù)為MLM形式）和標(biāo)簽詞映射（Verbalizer，即為每個(gè)標(biāo)簽在詞表中找到對(duì)應(yīng)的詞，從而為MLM任務(wù)設(shè)定預(yù)測(cè)目標(biāo)），使得模型可以在少量樣本的條件下在下游任務(wù)中使用。

圖3 Prompt Learning方法完成情感分析任務(wù)的流程圖

以圖3展示的電商評(píng)價(jià)情感分析任務(wù)EPRSTMT為例。給定文本“這個(gè)電影真不錯(cuò)，值得第二次觀看!”，傳統(tǒng)的文本分類則是在CLS部分的Embedding接上分類器，并映射到0-1分類上（0：負(fù)向，1：正向）。這種方法在小樣本場(chǎng)景下需要訓(xùn)練新的分類器，比較難獲得好的效果。而基于Prompt Learning的方法則是創(chuàng)建模板“這是一條 [MASK] 評(píng)?！?，再將模板與原文進(jìn)行拼接，訓(xùn)練時(shí)通過(guò)語(yǔ)言模型預(yù)測(cè)[MASK]位置的詞，再將其映射到對(duì)應(yīng)的類別上（好：正向，差：負(fù)向）。

由于缺乏足夠數(shù)據(jù)，有時(shí)很難確定表現(xiàn)最好的模板和標(biāo)簽詞映射。因此，也可以采用多模板與多標(biāo)簽詞映射的設(shè)計(jì)。通過(guò)設(shè)計(jì)多個(gè)模板，最終的結(jié)果采用多個(gè)模板的結(jié)果的整合，或設(shè)計(jì)一對(duì)多的標(biāo)簽詞映射，讓一個(gè)標(biāo)簽對(duì)應(yīng)多個(gè)詞。同上述例子，可以設(shè)計(jì)如下模板組合（左：同一個(gè)句子的多模板，右：多標(biāo)簽映射）。

圖4 PET多模板與多標(biāo)簽映射圖

任務(wù)樣例

表1 FewCLUE數(shù)據(jù)集中PET模板構(gòu)建

2.2.2 EFL

EFL模型將兩個(gè)句子拼接在一起，用輸出層的[CLS]位置處的Embedding后接一個(gè)分類器完成預(yù)測(cè)。EFL的訓(xùn)練過(guò)程中，除了訓(xùn)練集的樣本，還會(huì)進(jìn)行負(fù)樣本構(gòu)造，訓(xùn)練過(guò)程中，在每個(gè)Batch里隨機(jī)選擇其他數(shù)據(jù)中的句子作為負(fù)樣本，通過(guò)構(gòu)造負(fù)樣本進(jìn)行數(shù)據(jù)增強(qiáng)。雖然EFL模型需要訓(xùn)練新的分類器，但目前有很多公開的文本蘊(yùn)含/句間關(guān)系數(shù)據(jù)集，如CMNLI、LCQMC等，可以通過(guò)在這些樣本上進(jìn)行持續(xù)學(xué)習(xí)(continue-train)，再將學(xué)習(xí)到的參數(shù)遷移到小樣本場(chǎng)景中，用FewCLUE的任務(wù)數(shù)據(jù)集進(jìn)行進(jìn)一步微調(diào)。

任務(wù)樣例

表2 FewCLUE數(shù)據(jù)集中EFL模板構(gòu)建

2.3 數(shù)據(jù)增強(qiáng)

數(shù)據(jù)增強(qiáng)方法主要有樣本增強(qiáng)和Embedding增強(qiáng)。NLP領(lǐng)域中，數(shù)據(jù)增強(qiáng)的目的是在不改變語(yǔ)義的前提下擴(kuò)充文本數(shù)據(jù)。主要的方法包括簡(jiǎn)單文本替換、使用語(yǔ)言模型生成相似句子等，我們嘗試過(guò)EDA等擴(kuò)充文本數(shù)據(jù)的方法，但是一個(gè)詞的變化就可能導(dǎo)致整個(gè)句子的意思發(fā)生翻轉(zhuǎn)，經(jīng)過(guò)替換的文本攜帶大量噪音，所以很難用簡(jiǎn)單的規(guī)則樣本變化產(chǎn)生足夠的增強(qiáng)數(shù)據(jù)。而Embedding增強(qiáng)，則不再對(duì)輸入進(jìn)行操作，轉(zhuǎn)而在Embedding層面進(jìn)行操作，可以通過(guò)對(duì)Embedding增加擾動(dòng)或者插值等方式提升模型的魯棒性。

因此，本次實(shí)踐中我們主要進(jìn)行Embedding增強(qiáng)。我們用的數(shù)據(jù)增強(qiáng)策略分別有Mixup[12]、Manifold-Mixup[13]、對(duì)抗訓(xùn)練(Adversarial training, AT) [14]和對(duì)比學(xué)習(xí)R-drop[15]。數(shù)據(jù)增強(qiáng)策略的詳細(xì)介紹見之前的技術(shù)博客小樣本學(xué)習(xí)及其在美團(tuán)場(chǎng)景中的應(yīng)用。

表3 數(shù)據(jù)增強(qiáng)策略簡(jiǎn)述

Mixup通過(guò)對(duì)輸入數(shù)據(jù)進(jìn)行簡(jiǎn)單的線性變換，構(gòu)造新的組合樣本和組合標(biāo)簽，可以增強(qiáng)模型的泛化能力。在各種有監(jiān)督任務(wù)或者半監(jiān)督任務(wù)上，使用Mixup都能極大提高模型的泛化能力。Mixup方法可以視為正則化操作，它要求模型在特征層面生成的組合特征滿足線性約束，并且利用這種約束對(duì)模型施加正則化。直觀來(lái)看，當(dāng)模型的輸入為另外兩個(gè)輸入的線性組合時(shí)，其輸出也是這兩個(gè)數(shù)據(jù)單獨(dú)輸入模型后所得輸出的線性組合，其實(shí)就是要求模型近似為一個(gè)線性系統(tǒng)。

Manifold Mixup將上述的Mixup操作泛化到特征上。因?yàn)樘卣骶哂懈唠A的語(yǔ)義信息，所以在其維度上插值可能會(huì)產(chǎn)生更有意義的樣本。在類似于BERT[9]、RoBERTa[6]的模型中，隨機(jī)選擇層數(shù)k，對(duì)該層的特征表示進(jìn)行Mixup插值。普通的Mixup的插值發(fā)生在輸出層Embedding部分，而Manifold Mixup相當(dāng)于把這一系列插值操作加入到語(yǔ)言模型內(nèi)部的Transformers結(jié)構(gòu)的隨機(jī)某層中。

對(duì)抗訓(xùn)練通過(guò)在輸入樣本上增加微小的擾動(dòng)來(lái)顯著提高模型Loss。對(duì)抗訓(xùn)練就是訓(xùn)練一個(gè)能有效識(shí)別原始樣本和對(duì)抗樣本的模型?；驹砭褪峭ㄟ^(guò)添加擾動(dòng)構(gòu)造一些對(duì)抗樣本，交給模型去訓(xùn)練，提高模型在遇到對(duì)抗樣本時(shí)的魯棒性，同時(shí)也能提高模型的表現(xiàn)和泛化能力。對(duì)抗樣本需要具有兩個(gè)特點(diǎn)，分別是：

相對(duì)于原始輸入，所添加的擾動(dòng)是微小的。

能使模型犯錯(cuò)。對(duì)抗訓(xùn)練有兩個(gè)作用，分別是提高模型對(duì)惡意攻擊的魯棒性和提高模型的泛化能力。

R-Drop對(duì)同一個(gè)句子做兩次Dropout，并且強(qiáng)制由Dropout生成的不同子模型的輸出概率保持一致。Dropout的引入雖然效果很好，但是它會(huì)導(dǎo)致訓(xùn)練和推理過(guò)程的不一致性問(wèn)題。為緩解這種訓(xùn)練推理過(guò)程的不一致性，R-Drop對(duì)Dropout進(jìn)行正則化處理，在兩個(gè)子模型產(chǎn)生的輸出中增加對(duì)輸出數(shù)據(jù)分布的限制，引入數(shù)據(jù)分布度量的KL散度損失，使得Batch內(nèi)同一個(gè)樣本生成的兩個(gè)數(shù)據(jù)分布盡量接近，具有分布一致性。具體來(lái)說(shuō)，對(duì)于每個(gè)訓(xùn)練樣本，R-Drop最小化了由不同Dropout生成的子模型的輸出概率之間的KL 散度。R-Drop作為一種訓(xùn)練思想，可以用到大部分有監(jiān)督或半監(jiān)督的訓(xùn)練中，通用性強(qiáng)。

我們使用的三種數(shù)據(jù)增強(qiáng)策略，Mixup是在語(yǔ)言模型的輸出層Embedding和語(yǔ)言模型的內(nèi)部隨機(jī)某層Transformers的輸出層中做兩個(gè)樣本的線性變化，對(duì)抗訓(xùn)練是在樣本上增加微小的擾動(dòng)，而對(duì)比學(xué)習(xí)是對(duì)同一個(gè)句子做兩次Dropout形成正樣本對(duì)，再用KL散度限制兩個(gè)子模型保持一致。三種策略都是通過(guò)在Embedding完成一些操作來(lái)增強(qiáng)模型的泛化性，經(jīng)過(guò)不同策略得到的模型分別都具有不同的偏好，這就為下一步的集成學(xué)習(xí)提供了條件。

2.4 集成學(xué)習(xí)&自訓(xùn)練

集成學(xué)習(xí)可以組合多個(gè)弱監(jiān)督模型，以期得到一個(gè)更好更全面的強(qiáng)監(jiān)督模型。集成學(xué)習(xí)潛在的思想是即便某一個(gè)弱分類器得到了錯(cuò)誤的預(yù)測(cè)，其他的弱分類器也可以將錯(cuò)誤糾正回來(lái)。如果待組合的各個(gè)模型之間差異性比較顯著，那么集成學(xué)習(xí)之后通常會(huì)有一個(gè)較好的結(jié)果。

自訓(xùn)練使用少量的標(biāo)記數(shù)據(jù)和大量的未標(biāo)記數(shù)據(jù)對(duì)模型進(jìn)行聯(lián)合訓(xùn)練，首先使用經(jīng)過(guò)訓(xùn)練的分類器來(lái)預(yù)測(cè)所有未標(biāo)記數(shù)據(jù)的標(biāo)簽，然后選擇置信度較高的標(biāo)簽作為偽標(biāo)簽數(shù)據(jù)，將偽標(biāo)記數(shù)據(jù)與人工標(biāo)記的訓(xùn)練數(shù)據(jù)聯(lián)合起來(lái)重新訓(xùn)練分類器。

集成學(xué)習(xí)+自訓(xùn)練是一套可以利用多個(gè)模型以及無(wú)標(biāo)簽數(shù)據(jù)的方案。這其中，集成學(xué)習(xí)的一般步驟為：訓(xùn)練多個(gè)不同的弱監(jiān)督模型，分別用每個(gè)模型預(yù)測(cè)無(wú)標(biāo)簽數(shù)據(jù)的標(biāo)簽概率分布，計(jì)算標(biāo)簽概率分布的加權(quán)和，得到無(wú)標(biāo)簽數(shù)據(jù)的偽標(biāo)簽概率分布。自訓(xùn)練指訓(xùn)練一個(gè)模型用于組合其他各個(gè)模型，其一般步驟為：訓(xùn)練多個(gè)Teacher模型，Student模型學(xué)習(xí)偽標(biāo)簽概率分布中高置信度樣本的Soft Prediction，Student模型作為最后的強(qiáng)學(xué)習(xí)器。

圖5 集成學(xué)習(xí)+自訓(xùn)練結(jié)構(gòu)

在本次FewCLUE實(shí)踐中，我們先在Fine-Tune階段構(gòu)造多模板Prompt Learning，并對(duì)有標(biāo)注數(shù)據(jù)采用對(duì)抗訓(xùn)練、對(duì)比學(xué)習(xí)、Mixup等增強(qiáng)策略。由于這些數(shù)據(jù)增強(qiáng)策略采用不同的增強(qiáng)原理，可以認(rèn)為這些模型之間差異性比較顯著，經(jīng)過(guò)集成學(xué)習(xí)之后會(huì)有比較好的效果。

在采用數(shù)據(jù)增強(qiáng)策略進(jìn)行訓(xùn)練以后，我們擁有了多個(gè)弱監(jiān)督模型，并且用這些弱監(jiān)督模型在無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行預(yù)測(cè)，得到無(wú)標(biāo)簽數(shù)據(jù)的偽標(biāo)簽分布。之后，我們將多個(gè)經(jīng)過(guò)不同的數(shù)據(jù)增強(qiáng)模型預(yù)測(cè)得到的無(wú)標(biāo)簽數(shù)據(jù)的偽標(biāo)簽分布整合起來(lái)，得到一份總的無(wú)標(biāo)簽數(shù)據(jù)的偽標(biāo)簽分布。篩選偽標(biāo)簽數(shù)據(jù)的過(guò)程中，我們不一定會(huì)選擇置信度最高的樣本，因?yàn)槿绻總€(gè)數(shù)據(jù)增強(qiáng)模型給出的置信度都很高，說(shuō)明這個(gè)樣本可能是容易學(xué)習(xí)的樣本，不一定有很大價(jià)值。

我們綜合多個(gè)數(shù)據(jù)增強(qiáng)模型給出的置信度，盡量選擇置信度較高，但是又不容易學(xué)習(xí)的樣本（比如多個(gè)模型預(yù)測(cè)不全部一致）。接著用標(biāo)注數(shù)據(jù)和偽標(biāo)注數(shù)據(jù)的集合重新構(gòu)造多模板Prompt Learning，再次使用數(shù)據(jù)增強(qiáng)策略，并選擇最好的策略。目前，我們的實(shí)驗(yàn)?zāi)壳爸贿M(jìn)行一輪迭代，也可以嘗試多輪迭代，不過(guò)隨著迭代次數(shù)增加，提升也會(huì)減少，不再顯著。

3 實(shí)驗(yàn)結(jié)果

3.1 數(shù)據(jù)集介紹

FewCLUE榜單提供了9個(gè)任務(wù)，其中分別為4個(gè)文本分類任務(wù)，2個(gè)句間關(guān)系任務(wù)和3個(gè)閱讀理解任務(wù)。文本分類任務(wù)有電商評(píng)價(jià)情感分析、科學(xué)文獻(xiàn)分類、新聞分類和App應(yīng)用描述主題分類任務(wù)。主要?dú)w類為短文本二分類、短文本多分類和長(zhǎng)文本多分類。其中有的任務(wù)類別眾多，超過(guò)100類，并且出現(xiàn)了類別不均衡問(wèn)題。句間關(guān)系任務(wù)有自然語(yǔ)言推理和短文本匹配任務(wù)。閱讀理解任務(wù)則有成語(yǔ)閱讀理解選擇填空，摘要判斷關(guān)鍵詞判別和代詞消歧任務(wù)。每個(gè)任務(wù)大體提供了160條有標(biāo)簽數(shù)據(jù)和兩萬(wàn)條左右的無(wú)標(biāo)簽數(shù)據(jù)。因?yàn)殚L(zhǎng)文本分類任務(wù)類別眾多，過(guò)于困難，也提供了更多的有標(biāo)簽數(shù)據(jù)。詳細(xì)的任務(wù)數(shù)據(jù)情況如表4所示：

表4 FewCLUE數(shù)據(jù)集任務(wù)介紹

3.2 實(shí)驗(yàn)對(duì)比

表5展示了不同模型和參數(shù)量的實(shí)驗(yàn)結(jié)果的對(duì)比。在RoBERTa Base實(shí)驗(yàn)中，使用PET/EFL模型會(huì)超過(guò)傳統(tǒng)的直接Fine-Tune模型結(jié)果2-28PP。以PET/EFL模型為基礎(chǔ)，為了探索大模型在小樣本場(chǎng)景中的效果，我們?cè)赗oBERTa Large上進(jìn)行了實(shí)驗(yàn)，相對(duì)于RoBERTa Base，大模型可以提升模型0.5-13PP；為了更好地利用領(lǐng)域知識(shí)，我們進(jìn)一步在經(jīng)過(guò)CLUE數(shù)據(jù)集上增強(qiáng)預(yù)訓(xùn)練的RoBERTa Large Clue模型上進(jìn)行實(shí)驗(yàn)，融入了領(lǐng)域知識(shí)的大模型進(jìn)一步提升結(jié)果0.1-9pp?；诖耍谥蟮膶?shí)驗(yàn)中，我們都在RoBERTa Large Clue上進(jìn)行實(shí)驗(yàn)。

表5 不同模型和參數(shù)量的實(shí)驗(yàn)結(jié)果對(duì)比（加粗紅色字體表示最好的結(jié)果）

表6展示了在PET/EFL模型上進(jìn)行數(shù)據(jù)增強(qiáng)和集成學(xué)習(xí)實(shí)驗(yàn)結(jié)果，可以發(fā)現(xiàn)即使是在大模型上使用數(shù)據(jù)增強(qiáng)策略，模型也能帶來(lái)0.8-9PP的提升，而進(jìn)一步進(jìn)行集成學(xué)習(xí)&自訓(xùn)練以后，模型表現(xiàn)會(huì)繼續(xù)提升0.4-4PP。

表6 基礎(chǔ)模型+數(shù)據(jù)增強(qiáng)+集成學(xué)習(xí)實(shí)驗(yàn)效果 (加粗紅色字體表示最好的結(jié)果)

其中集成學(xué)習(xí)+自訓(xùn)練步驟中，我們嘗試了幾種篩選策略：

選擇置信度最高的樣本，這種策略帶來(lái)的提升在1PP以內(nèi)，置信度最高的偽標(biāo)簽樣本中很多是多個(gè)模型預(yù)測(cè)一致且置信度都比較高的樣本，這部分樣本比較容易學(xué)習(xí)，融入這部分樣本帶來(lái)的收益有限。

選擇置信度高且具有爭(zhēng)議性的樣本（存在至少一個(gè)模型和其他模型預(yù)測(cè)結(jié)果不一致，但多個(gè)模型總體置信度超過(guò)閾值1），這種策略規(guī)避了特別容易學(xué)習(xí)的樣本，又通過(guò)設(shè)置閾值避免帶來(lái)過(guò)多臟數(shù)據(jù)，可以帶來(lái)0-3PP的提升；

融合上面的兩種策略，若多個(gè)模型對(duì)于一個(gè)樣本的預(yù)測(cè)結(jié)果是一致的，我們選擇置信度小于閾值2的樣本；對(duì)于存在至少一個(gè)模型和其他模型預(yù)測(cè)結(jié)果不一致的，我們選擇置信度大于閾值3的樣本。這種方式同時(shí)選擇了置信度較高的樣本保證輸出的可信度，又選擇了較有爭(zhēng)議的樣本保證篩選出來(lái)的偽標(biāo)簽樣本具有較大學(xué)習(xí)難度，可以帶來(lái)0.4-4PP的提升。

4 小樣本學(xué)習(xí)策略在美團(tuán)場(chǎng)景的應(yīng)用

在美團(tuán)的各個(gè)業(yè)務(wù)中，有著豐富的NLP場(chǎng)景，部分任務(wù)可以歸類為文本分類任務(wù)和句間關(guān)系任務(wù)，以上提到的小樣本學(xué)習(xí)策略已經(jīng)應(yīng)用于美團(tuán)點(diǎn)評(píng)的各種場(chǎng)景，期望在數(shù)據(jù)資源稀少的情況下訓(xùn)練出比較好的模型。此外，小樣本學(xué)習(xí)策略已經(jīng)廣泛應(yīng)用于美團(tuán)內(nèi)部自然語(yǔ)言處理(NLP)平臺(tái)的各個(gè)NLP算法能力中，在眾多業(yè)務(wù)場(chǎng)景下落地并取得顯著收益，美團(tuán)內(nèi)部的工程師可通過(guò)該平臺(tái)來(lái)體驗(yàn)NLP中心相關(guān)的能力。

文本分類任務(wù)

醫(yī)美題材分類：對(duì)美團(tuán)和點(diǎn)評(píng)的筆記內(nèi)容按題材分為8類：獵奇、探店、測(cè)評(píng)、真人案例、治療過(guò)程、避坑、效果對(duì)比、科普。用戶點(diǎn)擊某一種題材時(shí)，返回對(duì)應(yīng)的筆記內(nèi)容，上線至美團(tuán)和點(diǎn)評(píng)App醫(yī)療美容頻道的百科頁(yè)、方案頁(yè)經(jīng)驗(yàn)分享，小樣本學(xué)習(xí)利用2,989條訓(xùn)練數(shù)據(jù)準(zhǔn)確率提升1.8PP，達(dá)到了89.24%。

攻略識(shí)別：從UGC和筆記中挖掘旅游攻略，提供旅游攻略的內(nèi)容供給，應(yīng)用于景點(diǎn)精搜下的攻略模塊，召回內(nèi)容為描述旅游攻略的筆記，小樣本學(xué)習(xí)利用384條訓(xùn)練數(shù)據(jù)準(zhǔn)確率提升2PP，達(dá)到了87%。

學(xué)城文本分類：學(xué)城（美團(tuán)內(nèi)部知識(shí)庫(kù)）有大量的用戶文本，經(jīng)歸納將文本分為17種類別，已有模型在700條數(shù)據(jù)上訓(xùn)練，通過(guò)小樣本學(xué)習(xí)，在已有模型上提升模型精度2.5PP，達(dá)到84%。

項(xiàng)目篩選：LE生活服務(wù)/麗人等業(yè)務(wù)目前的評(píng)價(jià)列表頁(yè)混排評(píng)價(jià)的方式不便讓用戶快速找到?jīng)Q策信息，因此需要更有結(jié)構(gòu)化的分類標(biāo)簽來(lái)滿足用戶的需求，小樣本學(xué)習(xí)在這兩個(gè)業(yè)務(wù)上利用300-500條數(shù)據(jù)上準(zhǔn)確率均達(dá)到95%+（多個(gè)數(shù)據(jù)集分別提升1.5-4PP）。

句間關(guān)系任務(wù)

醫(yī)美功效打標(biāo)：對(duì)美團(tuán)和大眾點(diǎn)評(píng)的筆記內(nèi)容按功效進(jìn)行召回，功效的類型有：補(bǔ)水、美白、瘦臉、除皺等，上線至醫(yī)美頻道頁(yè)，有110種功效類型需要打標(biāo)，小樣本學(xué)習(xí)僅用2909條訓(xùn)練數(shù)據(jù)準(zhǔn)確率達(dá)到了91.88%（提升2.8PP）。

醫(yī)美品牌打標(biāo)：品牌上游企業(yè)有針對(duì)旗下產(chǎn)品進(jìn)行品牌宣傳和營(yíng)銷的訴求，而內(nèi)容營(yíng)銷是當(dāng)前主流、有效的營(yíng)銷方式之一。品牌打標(biāo)就是為每種品牌如“伊膚泉”、“術(shù)唯可”召回詳細(xì)介紹該品牌的筆記內(nèi)容，共有103種品牌，已上線至醫(yī)美品牌館，小樣本學(xué)習(xí)僅用1676條訓(xùn)練數(shù)據(jù)準(zhǔn)確率達(dá)到了88.59%（提升2.9PP）。

5 總結(jié)

在本次榜單提交中，我們構(gòu)建了一種基于RoBERTa的語(yǔ)義理解模型，并通過(guò)增強(qiáng)預(yù)訓(xùn)練、PET/EFL模型、數(shù)據(jù)增強(qiáng)和集成學(xué)習(xí)&自訓(xùn)練來(lái)提升模型的效果。該模型能完成文本分類、句間關(guān)系推理任務(wù)和幾種閱讀理解任務(wù)。

通過(guò)參加本次測(cè)評(píng)任務(wù)，我們對(duì)小樣本場(chǎng)景下的自然語(yǔ)言理解領(lǐng)域的算法和研究有了更深的認(rèn)識(shí)，也借此對(duì)前沿算法的中文落地能力進(jìn)行了摸底測(cè)試，為后續(xù)進(jìn)一步算法研究、算法落地打下了基礎(chǔ)。此外，本次數(shù)據(jù)集中的任務(wù)場(chǎng)景與美團(tuán)搜索與NLP部的業(yè)務(wù)場(chǎng)景存在很大相似性，該模型的很多策略也直接應(yīng)用在實(shí)際業(yè)務(wù)中，直接為業(yè)務(wù)賦能。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴