一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP:關(guān)系抽取到底在乎什么

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:高能A ? 2021-01-07 14:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

關(guān)系抽取到底在乎什么?這是來自EMNLP20上清華大學(xué)劉知遠(yuǎn)團(tuán)隊的“靈魂發(fā)問”~ 關(guān)系抽取是每一位NLPer都很熟知的任務(wù),特別是基于BERT的神經(jīng)關(guān)系抽取模型已經(jīng)登頂各大榜單SOTA,某些甚至直逼人類表現(xiàn)。但也許你和JayJay一樣,可能只是調(diào)個包、從不過問關(guān)系抽取的核心要素是啥吧~ 在劉知遠(yuǎn)老師的EMNLP20論文《Learning from Context or Names? An Empirical Study on Neural Relation Extraction》中,就「關(guān)系抽取到底在乎什么」這一問題進(jìn)行深入全面的探究,是難得的好文!

注意:本文所稱的關(guān)系抽取也稱關(guān)系分類,即判斷兩個實體

論文下載:https://arxiv.org/pdf/2010.01923.pdfgithub開源:https://github.com/thunlp/RE-Context-or-Names 為具備更好的閱讀體驗,本文以QA形式進(jìn)行組織:

8316f48a-5036-11eb-8b86-12bb97331649.png

我們廢話不說,先po結(jié)論(劃重點): 1、對關(guān)系抽取的兩個主要特征(上下文信息和實體信息),進(jìn)行了對比分析發(fā)現(xiàn):

上下文信息 和 實體信息 對于關(guān)系模型都很關(guān)鍵;

上下文信息是關(guān)系模型的主要信息來源;

實體信息中最重要的實體類型信息,但模型會存在對實體信息的過度依賴問題;

現(xiàn)有的數(shù)據(jù)集可能會通過實體泄漏淺層的啟發(fā)式信息,導(dǎo)致當(dāng)前關(guān)系任務(wù)的指標(biāo)虛高!

2、構(gòu)建了關(guān)系預(yù)訓(xùn)練模型,基于關(guān)系抽取的實體遮蔽的對比學(xué)習(xí)框架:

能幫助模型更好地的借助上下文信息和實體類型信息,避免“死記硬背”實體表面表述;

提高了多個場景下神經(jīng)關(guān)系抽取模型的有效性和魯棒性,特別是在低資源場景下;

Q1: 關(guān)系抽取為什么主要利用「上下文信息」和「實體信息」?

836f28e4-5036-11eb-8b86-12bb97331649.png

為什么本篇論文會選取上下文和實體信息進(jìn)行對比研究呢?作者認(rèn)為:

上下文信息:從人的直覺來看,文本上下文是主要的信息來源;最為簡單的一種方式,就是可以用關(guān)系模板進(jìn)行歸納。如上圖所示,「... be founded ... by ...」模板就可以很好地映射到某一類關(guān)系上。因此,上下文關(guān)系肯定會對關(guān)系預(yù)測結(jié)構(gòu)起著某種作用。

實體信息:實體信息主要包括實體類型、實體ID、實體屬性信息等,如果實體可以被鏈接到知識圖譜上,那么相關(guān)信息也可以被模型所利用。既然關(guān)系抽取基于實體pair進(jìn)行的分類預(yù)測,那么實體信息就必不可少了。

Q2: 關(guān)系抽取的baseline模型選擇哪些?

83a4f046-5036-11eb-8b86-12bb97331649.png

為了更好地進(jìn)行分析驗證,本文主要主要采取CNN、BERT、MTB三種模型進(jìn)行實驗(如上圖所示):采取BERT時主要是提取實體pair的相關(guān)標(biāo)識符對應(yīng)的表示進(jìn)行關(guān)系分類。 MTB是由Google在2019年提出預(yù)訓(xùn)練關(guān)系模型 ,其只在獲得更好的適配于關(guān)系抽取的特征表示,其具體的預(yù)訓(xùn)練方式為:認(rèn)為包含相同實體pair的句子表示相同的關(guān)系,將相似度得分作為預(yù)訓(xùn)練目標(biāo),如下圖示意。

83cfc8de-5036-11eb-8b86-12bb97331649.png

Q3: 「上下文信息」和「實體信息」到底哪家強(qiáng)?

83fbcfb0-5036-11eb-8b86-12bb97331649.png

為了分析「上下文信息」和「實體信息」對于關(guān)系模型的內(nèi)在影響,論文設(shè)置眾多輸入格式(如上圖所示):

Context+Mention (C+M) :即最為廣泛的使用方式,在原句子輸入的同時,強(qiáng)調(diào)實體mention:對于BERT模型,采用位置向量和特殊的實體標(biāo)識符來強(qiáng)化metion。

Context+Type (C+T) :將實體mention用其實體類型Type代替,如上圖,「SpaceX」用「organization」代替,「Elon Musk」用「person」代替。

Only Context (OnlyC) :即只利用上下文信息,將實體mention用「subject」或「object」代替,通過這種方式可以將實體信息源完全阻擋。

Only Mention (OnlyM) :即只利用實體提及,忽略其他文本上下文的輸入。

Only Type (OnlyT) :即只利用實體類型信息,如「organization」「SEP」「person」。

論文通過上述設(shè)置在最大的有監(jiān)督關(guān)系數(shù)據(jù)集TACRED上(共42種關(guān)系,10w+實例)進(jìn)行了相關(guān)實驗,結(jié)果如下(指標(biāo)為micro F1值):

842bd2fa-5036-11eb-8b86-12bb97331649.png

由上圖的紅框(OnlyC、OnlyM、OnlyT)可以看出,只利用上下文信息或?qū)嶓w信息指標(biāo)都大幅下降,這表明:上下文信息 和 實體信息 對于關(guān)系模型都很關(guān)鍵;

844a9e56-5036-11eb-8b86-12bb97331649.png

由上圖的紅框可以看出,C+M和C+T表現(xiàn)一致,這表明:實體提及中的類型Type信息很重要!這與之前女神的SOTA《反直覺!陳丹琦用pipeline方式刷新關(guān)系抽取SOTA》中關(guān)于「類型信息」的重要性相互佐證~

84aadf96-5036-11eb-8b86-12bb97331649.png

由上圖的紅框可以看出:

OnlyC總體高于OnlyM,可以看出:上下文信息比實體信息更重要~(PS:CNN中OnlyC沒有明顯高于OnlyM,也說明其上下文的捕捉能力不如BERT吧)

OnlyM也有較高指標(biāo),這表明:現(xiàn)有的數(shù)據(jù)集可能會通過實體泄漏淺層的啟發(fā)式信息,導(dǎo)致當(dāng)前關(guān)系任務(wù)的指標(biāo)虛高!

此外,本篇論文也通過Case Study進(jìn)一步證明了上述結(jié)果、并有了新的發(fā)現(xiàn):

C+M與C+T類似,共享95.7%的正確預(yù)測和68.1%的錯誤預(yù)測,充分說明了實體提及的主要的信息來源是其類型Type信息。

C+M容易對實體提及產(chǎn)生過高的偏置依賴,特別是容易對訓(xùn)練集中的實體提及進(jìn)行“死記硬背”,如下圖:模型容易死記住訓(xùn)練集中「Washington」的實體提及只存在于「stateorprovinceofresidence 」關(guān)系中,從而導(dǎo)致關(guān)系預(yù)測錯誤。

84dae8d0-5036-11eb-8b86-12bb97331649.png

C+T不容易捕捉共指信息和語義信息,如下圖所示,「Natalie」和「she」兩個實體如果被實體Type替代后,不容易捕捉到原有的共指關(guān)系:

850591ca-5036-11eb-8b86-12bb97331649.png

再通過對OnlyC的case分析中發(fā)現(xiàn):人類可以本能地從上下文中判斷關(guān)系,但模型似乎在捕捉上下文信息的能力上還有很大缺失。如下圖所示,具體體現(xiàn)在3個方面:

Wrong:對于那些很清晰的關(guān)系模式仍然會預(yù)測錯誤。

No pattern:對于那些不具備pattern的關(guān)系會預(yù)測錯誤。

Confusing:對于困惑的關(guān)系類型缺乏魯棒能力。

85514c14-5036-11eb-8b86-12bb97331649.png

Q4: 如何提升關(guān)系模型的預(yù)測性能? 從上文的分析中,我們可以發(fā)現(xiàn):上下文信息和實體信息對于關(guān)系模型都很重要,但在一些情況下,關(guān)系模型并不能很好地理解關(guān)系模式、會過度依賴于實體mention的淺層提示信息。 為了更好地捕捉上下文信息和實體類型Type信息,論文提出了一種基于實體遮蔽的對比學(xué)習(xí)框架,來進(jìn)行關(guān)系預(yù)訓(xùn)練。 1、對比學(xué)習(xí)數(shù)據(jù)生成方法

860d47ca-5036-11eb-8b86-12bb97331649.png

對比學(xué)習(xí)預(yù)訓(xùn)練框架如上圖所示,論文借鑒了「對比學(xué)習(xí)」的思想,通過聚合“neighbors”、分離“non-neighbors”來學(xué)習(xí)特征表示;通過這種模式,“neighbors”具備相似的表示。因此,定義“neighbors”對于對比學(xué)習(xí)至關(guān)重要。

本文定義:實體pair共享同種關(guān)系的句子是“neighbors”。

為了防止模型在預(yù)訓(xùn)練過程中對實體mention死記硬背、或者抽取比較淺層的表面特征,作者采取了隨機(jī)mask實體的辦法,將實體mention替換為「BLANK」,替換率為0.7. 事實上,生成預(yù)訓(xùn)練數(shù)據(jù)是通過遠(yuǎn)程監(jiān)督的方法進(jìn)行,這雖然會造成噪聲;但作者認(rèn)為噪聲問題對于預(yù)訓(xùn)練框架不是關(guān)鍵的,因為:預(yù)訓(xùn)練目標(biāo)是相對于像BERT這樣的原始預(yù)訓(xùn)練模型,獲得相對更好的關(guān)系表示,而不是直接訓(xùn)練關(guān)系模型對于下游任務(wù),因此數(shù)據(jù)中的噪聲是可以接受的。 通過上述的對比學(xué)習(xí)生成方法,預(yù)訓(xùn)練模型可以學(xué)習(xí)更好地從實體metion中掌握類型Type信息,并從文本上下文中提取關(guān)系語義:

成對的兩個句子雖然包含不同的實體pair,但共享相同的關(guān)系,提示模型發(fā)現(xiàn)這些實體mention之間的聯(lián)系。此外,實體mask策略可以有效地避免簡單的記憶實體mention。這最終鼓勵模型利用實體類型Type信息。

生成策略提供了相同關(guān)系類型下的多種上下文集合,這有利于模型學(xué)習(xí)從多種表達(dá)方式中提取關(guān)系pattern。

2、對比學(xué)習(xí)訓(xùn)練目標(biāo) 上述預(yù)訓(xùn)練的目標(biāo)函數(shù)共包含兩部分:對比學(xué)習(xí)目標(biāo)( Contrastive Pre-training,CP)和遮蔽語言模型(MLM):

8683c74c-5036-11eb-8b86-12bb97331649.png

對比損失CP采取隨機(jī)負(fù)樣本采樣,加速訓(xùn)練過程。 3、對比學(xué)習(xí)實驗結(jié)果

86a806fc-5036-11eb-8b86-12bb97331649.png

基于對比學(xué)習(xí)的預(yù)訓(xùn)練框架的關(guān)系模型最終表現(xiàn)如何?作者在不同的數(shù)據(jù)集上設(shè)置不同數(shù)據(jù)使用量(1%、10%、100%)進(jìn)行了對比分析,發(fā)現(xiàn):對比學(xué)習(xí)模型CP在不同數(shù)據(jù)集上均超過了BERT和MTB,特別是在低資源(1%數(shù)據(jù)量)條件下也能呈現(xiàn)較高指標(biāo),如上圖紅框所示。 可見,對比學(xué)習(xí)機(jī)制相比于Google的MTB模型更具備多樣性的數(shù)據(jù)特征、能更充分的學(xué)習(xí)實體類型Type信息。

總結(jié) 本文主要基于「關(guān)系抽取到底在乎什么」、「上下文和實體mention如何影響關(guān)系模型」進(jìn)行了討論,發(fā)現(xiàn):

文本上下文和實體mention都給關(guān)系模型提供了關(guān)鍵信息;

關(guān)系抽取數(shù)據(jù)集可能會通過實體泄漏淺層的啟發(fā)式信息,導(dǎo)致當(dāng)前關(guān)系任務(wù)的指標(biāo)虛高!

關(guān)系模型并不能很好地理解關(guān)系模式、會過度依賴于實體mention的淺層提示信息

基于上述幾點,論文提出了一種基于實體遮蔽的對比學(xué)習(xí)框架來改進(jìn)關(guān)系模型的表現(xiàn),最終提高了多個場景下神經(jīng)關(guān)系抽取模型的有效性和魯棒性(特別是在低資源條件下)。 有了本文全面的實驗分析,或許未來我們可以進(jìn)一步研究開放關(guān)系抽取和關(guān)系發(fā)現(xiàn)問題,這些需要我們考慮zero-shot問題,但可以確信:預(yù)訓(xùn)練關(guān)系模型將對這些領(lǐng)域產(chǎn)生積極影響。

責(zé)任編輯:xj

原文標(biāo)題:劉知遠(yuǎn)老師的“靈魂發(fā)問”:關(guān)系抽取到底在乎什么?

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13656
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22625
  • 知識圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    8008

原文標(biāo)題:劉知遠(yuǎn)老師的“靈魂發(fā)問”:關(guān)系抽取到底在乎什么?

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    ICY DOCK PCIe可拆卸式擴(kuò)展插槽硬盤抽取盒或轉(zhuǎn)接器,革新存儲解決方案

    插槽硬盤抽取盒或轉(zhuǎn)接器站在創(chuàng)新的最前沿。我們的解決方案重新定義了易用性,提供快速、免工具的硬盤抽取盒安裝和無縫的硬盤更換。它們非常適合存儲敏捷性,專為快速維護(hù)和輕
    的頭像 發(fā)表于 04-18 14:42 ?297次閱讀
    ICY DOCK PCIe可拆卸式擴(kuò)展插槽硬盤<b class='flag-5'>抽取</b>盒或轉(zhuǎn)接器,革新存儲解決方案

    請問移植rtthread nano版時官網(wǎng)里面系統(tǒng)時鐘函數(shù)在哪里實現(xiàn)的?

    我在已有的華大HC32開發(fā)板的LED例程里我找不到官網(wǎng)移植教程里的這三個函數(shù),文檔也沒說明這三個函數(shù)的移植步驟?到底在哪里找的?是rtthread里的實現(xiàn)還是需要用戶自己找函數(shù)實現(xiàn)?
    發(fā)表于 03-10 06:16

    ADS1298 tdr的值到底是多大,跟采樣率等有沒有什么關(guān)系

    我想請問一下, 1、tdr的值到底是多大,跟采樣率等有沒有什么關(guān)系。數(shù)據(jù)手冊上只找到建立時間,好像沒有這個時間的值,28頁那個最小SCLK時鐘為110khz是怎么計算的。 2、 tdr到底
    發(fā)表于 02-13 06:11

    DAC3482設(shè)置DACCLK時,到底需要設(shè)置成和DATACLK相等還是二分之一的關(guān)系?

    =DACCLK時則可以看到報警寄存器先為不沖突,一段時間后變?yōu)?-away,再過一段時間變?yōu)?-away,再過一段時間變?yōu)閒ifo-collision,依次循環(huán),請問我設(shè)置DACCLK時到底需要設(shè)置成和DATACLK相等還是二分之一的關(guān)系????求解救啊
    發(fā)表于 01-08 07:24

    請問AMC1203文檔中的OSC過采樣率和sinc3濾波器中的抽取率是不是同一個概念?

    1、請問AMC1203文檔中的OSC過采樣率和sinc3濾波器中的抽取率是不是同一個概念?同為256? 2、抽取率是不是MCLK時鐘的分頻因子? 3、Combining the ADS1202
    發(fā)表于 12-16 06:42

    自然語言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的一個核心領(lǐng)域,它使計算機(jī)能夠從數(shù)據(jù)中學(xué)習(xí)并做出預(yù)測或決策。自然語言處理與機(jī)器學(xué)習(xí)之間有著密切的關(guān)系,因為機(jī)器學(xué)習(xí)提供了一種強(qiáng)大的工具,用于從大量文本數(shù)據(jù)中提取模式和知識,從而提高NLP系統(tǒng)的性能。 自然語言處理的基本概念 語言模型
    的頭像 發(fā)表于 12-05 15:21 ?1988次閱讀

    軌道交通行業(yè) ICY DOCK硬盤抽取盒解決方案

    在當(dāng)今的數(shù)據(jù)存儲領(lǐng)域,硬盤抽取盒已成為眾多應(yīng)用中不可或缺的關(guān)鍵環(huán)節(jié),尤其在軌道交通行業(yè)中,硬盤盒解決方案至關(guān)重要,它直接關(guān)系到數(shù)據(jù)存儲的安全性、穩(wěn)定性和可靠性,以及系統(tǒng)維護(hù)的便利性。ICYDOCK
    的頭像 發(fā)表于 11-21 17:10 ?549次閱讀
    軌道交通行業(yè) ICY DOCK硬盤<b class='flag-5'>抽取</b>盒解決方案

    ADS1299用ADS采集數(shù)據(jù),ADS可以不抽取看原始得數(shù)據(jù)嗎?

    1.用ADS采集數(shù)據(jù),將時域的數(shù)據(jù)進(jìn)行FFT變換,得到頻譜里面看似有 Sinc Filter 抽取,不需要抽取是否可以?ADS可以不抽取看原始得數(shù)據(jù)嗎? 2.這個和手冊上的頻譜不一樣? 請問這個是什么問題呢?
    發(fā)表于 11-20 06:05

    求助,關(guān)于AMC1306M25抽取率OSR的疑問求解

    我客戶目前正在評估AMC1306M25,有以下疑問需要解答,可否幫忙確認(rèn)一下: 圖為官方的例程,兩個都應(yīng)該指的是抽取率OSR。但是當(dāng)客戶在第一個函數(shù)中填的抽取率為64,到第二張圖中ratio的值
    發(fā)表于 11-14 07:09

    NLP技術(shù)在聊天機(jī)器人中的作用

    聊天機(jī)器人,也稱為聊天AI,是一種通過文本或語音與人類進(jìn)行交流的軟件。它們廣泛應(yīng)用于客戶服務(wù)、在線購物、個人助理等領(lǐng)域。NLP技術(shù)是實現(xiàn)聊天機(jī)器人智能對話能力的關(guān)鍵。 1. 理解用戶意圖 NLP技術(shù)
    的頭像 發(fā)表于 11-11 10:33 ?1034次閱讀

    TLV320AIC3254內(nèi)部中的ADC處理模塊和minidsp到底是什么關(guān)系?

    我想請問一下幾個問題: 1.3254內(nèi)部中的ADC處理模塊和minidsp到底是什么關(guān)系,是并列的還是串行關(guān)系?還是ADC處理模塊就是minidsp特殊情況下的部分? 2.minidsp的
    發(fā)表于 10-31 06:02

    labview如何獲取到圖像的內(nèi)存地址

    請問各位大佬們,labview如何獲取到圖像的內(nèi)存地址,以便的別的語言中根據(jù)這個內(nèi)存地址中的圖片進(jìn)行處理?
    發(fā)表于 10-04 18:59

    求助,AD7190關(guān)于Σ-Δ ADC其中的抽取濾波器的數(shù)據(jù)轉(zhuǎn)換問題求解

    AD7190可以通過模式寄存器的FS[0:9]設(shè)置輸出速率, 0-1023的范圍;此時設(shè)置的數(shù)據(jù)速率選擇位是否就是Σ-Δ ADC抽取濾波器的抽取比? 關(guān)于抽取濾波器,此時我設(shè)置的為1023,那我是否
    發(fā)表于 09-09 06:11

    INA116把電流轉(zhuǎn)換成電壓,那么還需要在乎放大器的輸入偏置電流大小嗎?

    上傳感器,這樣就能把電流信號轉(zhuǎn)換成電壓讀出來。 我想問的是: 1.我已經(jīng)把電流轉(zhuǎn)換成電壓,那么還需要在乎放大器的輸入偏置電流大小嗎? 2.有經(jīng)驗的大神,覺得我這樣的做法可行嗎?有沒有其他更好的方案推薦?
    發(fā)表于 09-02 07:25

    防水和防振動功能2.5 英寸SAS/SATA硬盤抽取盒 非常適合車載數(shù)據(jù)存儲

    首創(chuàng)的防水和防振動功能 2.5 英寸 SAS/SATA 硬盤抽取盒 – 非常適合車載數(shù)據(jù)存儲
    的頭像 發(fā)表于 08-12 19:16 ?661次閱讀
    防水和防振動功能2.5 英寸SAS/SATA硬盤<b class='flag-5'>抽取</b>盒 非常適合車載數(shù)據(jù)存儲