一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

預(yù)訓(xùn)練語(yǔ)言模型的字典描述

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2022-08-11 10:37 ? 次閱讀

今天給大家?guī)硪黄狪JCAI2022浙大和阿里聯(lián)合出品的采用對(duì)比學(xué)習(xí)的字典描述知識(shí)增強(qiáng)的預(yù)訓(xùn)練語(yǔ)言模型-DictBERT,全名為《Dictionary Description Knowledge Enhanced Language Model Pre-training via Contrastive Learning》

又鴿了許久,其實(shí)最近看到一些有趣的論文,大多以知乎想法的形式發(fā)了,感興趣可以去看看,其實(shí)碼字還是很不易的~

介紹

預(yù)訓(xùn)練語(yǔ)言模型(PLMs)目前在各種自然語(yǔ)言處理任務(wù)中均取得了優(yōu)異的效果,并且部分研究學(xué)者將外部知識(shí)(知識(shí)圖譜)融入預(yù)訓(xùn)練語(yǔ)言模型中后獲取了更加優(yōu)異的效果,但具體場(chǎng)景下的知識(shí)圖譜信息往往是不容易獲取的,因此,我們提出一種新方法DictBert,將字典描述信息作為外部知識(shí)增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型,相較于知識(shí)圖譜的信息增強(qiáng),字典描述更容易獲取。

在預(yù)訓(xùn)練階段,提出來兩種新的預(yù)訓(xùn)練任務(wù)來訓(xùn)練DictBert模型,通過掩碼語(yǔ)言模型任務(wù)和對(duì)比學(xué)習(xí)任務(wù)將字典知識(shí)注入到DictBert模型中,其中,掩碼語(yǔ)言模型任務(wù)為字典中詞條預(yù)測(cè)任務(wù)(Dictionary Entry Prediction);對(duì)比學(xué)習(xí)任務(wù)為字典中詞條描述判斷任務(wù)(Entry Description Discrimination)。

在微調(diào)階段,我們將DictBert模型作為可插拔的外部知識(shí)庫(kù),對(duì)輸入序列中所包含字典中的詞條信息作為外部隱含知識(shí)內(nèi)容,注入到輸入中,并通過注意機(jī)制來增強(qiáng)輸入的表示,最終提升模型表征效果。

模型

字典描述知識(shí)

字典是一種常見的資源,它列出了某一種語(yǔ)言所包含的字/詞,并通過解釋性描述對(duì)其進(jìn)行含義的闡述,常常也會(huì)指定它們的發(fā)音、來源、用法、同義詞、反義詞等,如下表所示,9b54f80c-1895-11ed-ba43-dac502259ad0.png我們主要利用四種信息進(jìn)行模型的預(yù)訓(xùn)練,包括:詞條、描述、同義詞和反義詞。在詞條預(yù)測(cè)任務(wù)中,利用字典的詞條及其描述進(jìn)行知識(shí)學(xué)習(xí);在詞條描述判斷任務(wù)中,利用同義詞和反義詞來進(jìn)行對(duì)比學(xué)習(xí),從而學(xué)習(xí)到知識(shí)表征。

預(yù)訓(xùn)練任務(wù)

預(yù)訓(xùn)練任務(wù)主要包含字典中詞條預(yù)測(cè)任務(wù)和字典中詞條描述判斷任務(wù),如下圖所示。9b6402ac-1895-11ed-ba43-dac502259ad0.png詞條預(yù)測(cè)任務(wù),實(shí)際上是一個(gè)掩碼語(yǔ)言模型任務(wù),給定詞條和它對(duì)于的描述,然后將詞條的內(nèi)容使用特殊字符[MASK]進(jìn)行替換,最終將其[MASK]內(nèi)容進(jìn)行還原。注意,當(dāng)詞條包含多個(gè)token時(shí),需要將其全部掩掉。

詞條描述判斷任務(wù),實(shí)際上是一個(gè)對(duì)比學(xué)習(xí)任務(wù),而對(duì)比學(xué)習(xí)就是以拉近相似數(shù)據(jù),推開不相似數(shù)據(jù)為目標(biāo),有效地學(xué)習(xí)數(shù)據(jù)表征。如下表所示,9b93dbe4-1895-11ed-ba43-dac502259ad0.png對(duì)于詞條“forest”,正例樣本為同義詞“woodland”,負(fù)例樣本為反義詞“desert”。對(duì)比學(xué)習(xí)中,分別對(duì)原始詞條+描述、正例樣本+描述和負(fù)例樣本+描述進(jìn)行模型編碼,獲取、和,獲取對(duì)比學(xué)習(xí)損失,

最終,模型預(yù)訓(xùn)練的損失為

其中,為0.4,為0.6。

微調(diào)任務(wù)

在微調(diào)過程中,將DictBert模型作為可插拔的外部知識(shí)庫(kù),如下圖所示,首先識(shí)別出輸入序列中所包含字典中的詞條信息,然后通過DictBert模型獲取外部信息表征,再通過三種不同的方式進(jìn)行外部知識(shí)的注入,最終將其綜合表征進(jìn)行下游具體的任務(wù)。并且由于可以事先離線對(duì)一個(gè)字典中所有詞條進(jìn)行外部信息表征獲取,因此,在真實(shí)落地場(chǎng)景時(shí)并不會(huì)增加太多的額外耗時(shí)。9bacbe8e-1895-11ed-ba43-dac502259ad0.png知識(shí)注入的方式包含三種:

Pooled Output Concatenation,即將所有詞條的信息表征進(jìn)行求和,然后與原始模型的進(jìn)行拼接,最終進(jìn)行下游任務(wù);

Extra-hop Attention,即將所有詞條的信息表征對(duì)進(jìn)行attition操作,獲取分布注意力后加權(quán)求和的外部信息表征,然后與原始模型的進(jìn)行拼接,最終進(jìn)行下游任務(wù);

Layer-wise Extra-hop Attention,即將所有詞條的信息表征對(duì)每一層的進(jìn)行attition操作,獲取每一層分布注意力后加權(quán)求和的外部信息表征,然后對(duì)其所有層進(jìn)行mean-pooling操作,然后與原始模型的進(jìn)行拼接,最終進(jìn)行下游任務(wù);

結(jié)果

如下表所示,采用劍橋字典進(jìn)行預(yù)訓(xùn)練后的DictBert模型,在CoNLL2003、TACRED、CommonsenseQA、OpenBookQA和GLUE上均有提高。其中,Concat表示Pooled Output Concatenation方式,EHA表示Extra-hop Attention,LWA表示Layer-wise Extra-hop Attention,K表示僅采用詞條進(jìn)行信息表征,K+V表示采用詞條和描述進(jìn)行信息表征。9bd971a4-1895-11ed-ba43-dac502259ad0.png9bf0d920-1895-11ed-ba43-dac502259ad0.png9c07435e-1895-11ed-ba43-dac502259ad0.png

總結(jié)

挺有意思的一篇論文吧,相較于知識(shí)圖譜來說,字典確實(shí)較容易獲取,并在不同領(lǐng)域中,也比較好通過爬蟲的形式進(jìn)行詞條和描述的獲取;并且由于字典的表征可以進(jìn)行離線生成,所以對(duì)線上模型的耗時(shí)并不明顯,主要在attention上。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    965

    瀏覽量

    55356
  • 字典
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    7758
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    557

    瀏覽量

    10606

原文標(biāo)題:IJCAI2022 | DictBert:采用對(duì)比學(xué)習(xí)的字典描述知識(shí)增強(qiáng)的預(yù)訓(xùn)練語(yǔ)言模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    一文詳解知識(shí)增強(qiáng)的語(yǔ)言預(yù)訓(xùn)練模型

    隨著預(yù)訓(xùn)練語(yǔ)言模型(PLMs)的不斷發(fā)展,各種NLP任務(wù)設(shè)置上都取得了不俗的性能。盡管PLMs可以從大量語(yǔ)料庫(kù)中學(xué)習(xí)一定的知識(shí),但仍舊存在很多問題,如知識(shí)量有限、受
    的頭像 發(fā)表于 04-02 17:21 ?9989次閱讀

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    全面剖析大語(yǔ)言模型的核心技術(shù)與基礎(chǔ)知識(shí)。首先,概述自然語(yǔ)言的基本表示,這是理解大語(yǔ)言模型技術(shù)的前提。接著,詳細(xì)介紹自然
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型預(yù)訓(xùn)練

    語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無(wú)需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對(duì)預(yù)
    發(fā)表于 05-07 17:10

    預(yù)訓(xùn)練語(yǔ)言模型設(shè)計(jì)的理論化認(rèn)識(shí)

    在這篇文章中,我會(huì)介紹一篇最新的預(yù)訓(xùn)練語(yǔ)言模型的論文,出自MASS的同一作者。這篇文章的亮點(diǎn)是:將兩種經(jīng)典的預(yù)
    的頭像 發(fā)表于 11-02 15:09 ?2899次閱讀

    如何向大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型中融入知識(shí)?

    本文關(guān)注于向大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(如RoBERTa、BERT等)中融入知識(shí)。
    的頭像 發(fā)表于 06-23 15:07 ?4531次閱讀
    如何向大規(guī)模<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>中融入知識(shí)?

    Multilingual多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM預(yù)訓(xùn)練語(yǔ)言模型,整體思路基于BERT,并提出了針
    的頭像 發(fā)表于 05-05 15:23 ?3264次閱讀

    一種基于亂序語(yǔ)言模型預(yù)訓(xùn)練模型-PERT

    由于亂序語(yǔ)言模型不使用[MASK]標(biāo)記,減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap,并由于預(yù)測(cè)空間大小為輸入序列長(zhǎng)度,使得計(jì)算效率高于掩碼語(yǔ)言
    的頭像 發(fā)表于 05-10 15:01 ?1720次閱讀

    如何更高效地使用預(yù)訓(xùn)練語(yǔ)言模型

    本文對(duì)任務(wù)低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預(yù)訓(xùn)練模型的參數(shù)實(shí)在是太多了,很難找到這么多參數(shù)的低維本征子空間。作者基于之前的工作提出了一個(gè)
    的頭像 發(fā)表于 07-08 11:28 ?1441次閱讀

    利用視覺語(yǔ)言模型對(duì)檢測(cè)器進(jìn)行預(yù)訓(xùn)練

    預(yù)訓(xùn)練通常被用于自然語(yǔ)言處理以及計(jì)算機(jī)視覺領(lǐng)域,以增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力,達(dá)到加速訓(xùn)練和提高模型泛化性能的目的。該方法亦可以用于場(chǎng)景文本
    的頭像 發(fā)表于 08-08 15:33 ?1600次閱讀

    CogBERT:腦認(rèn)知指導(dǎo)的預(yù)訓(xùn)練語(yǔ)言模型

    另一方面,從語(yǔ)言處理的角度來看,認(rèn)知神經(jīng)科學(xué)研究人類大腦中語(yǔ)言處理的生物和認(rèn)知過程。研究人員專門設(shè)計(jì)了預(yù)訓(xùn)練模型來捕捉大腦如何表示
    的頭像 發(fā)表于 11-03 15:07 ?1245次閱讀

    預(yù)訓(xùn)練數(shù)據(jù)大小對(duì)于預(yù)訓(xùn)練模型的影響

    BERT類模型的工作模式簡(jiǎn)單,但取得的效果也是極佳的,其在各項(xiàng)任務(wù)上的良好表現(xiàn)主要得益于其在大量無(wú)監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語(yǔ)言學(xué)的特征角度來衡量一個(gè)預(yù)訓(xùn)練
    的頭像 發(fā)表于 03-03 11:20 ?1737次閱讀

    什么是預(yù)訓(xùn)練 AI 模型

    該向孩子展示這種生物的圖像并描述其獨(dú)有特征。 那么,如果要教一臺(tái)人工智能(AI)機(jī)器什么是獨(dú)角獸,該從什么地方做起呢? 預(yù)訓(xùn)練 AI 模型提供了解決方案。
    的頭像 發(fā)表于 04-04 01:45 ?1748次閱讀

    什么是預(yù)訓(xùn)練AI模型?

    預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用,
    的頭像 發(fā)表于 05-25 17:10 ?1308次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,尤其是在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(CV)等領(lǐng)域中得到了廣泛應(yīng)用。
    的頭像 發(fā)表于 07-03 18:20 ?3929次閱讀

    語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?803次閱讀