一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語義分割在三元組關(guān)系抽取中的作用是什么?

深度學(xué)習(xí)自然語言處理 ? 來源:浙大KG ? 作者:陳想,張寧豫 ? 2021-06-26 11:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 總述

關(guān)系抽取(Relation Extraction, RE)是從純文本中提取未知關(guān)系事實(shí),是自然語言處理領(lǐng)域非常重要的一項(xiàng)任務(wù)。過去的關(guān)系抽取方法主要將注意力集中于抽取單個實(shí)體對在某個句子內(nèi)反映的關(guān)系,然而單句關(guān)系抽取在實(shí)踐中受到不可避免的限制:在真實(shí)場景如醫(yī)療、金融文檔中,有許多關(guān)系事實(shí)是蘊(yùn)含在文檔中不同句子的實(shí)體對中的,且文檔中的多個實(shí)體之間,往往存在復(fù)雜的相互關(guān)系。如下圖所示:

7063c540-d5ea-11eb-9e57-12bb97331649.png

圖中包括了文章中的三個關(guān)系事實(shí)(從文檔標(biāo)注的諸多關(guān)系事實(shí)中采樣得到),其中涉及這些關(guān)系事實(shí)的命名實(shí)體用彩色著色,其它命名實(shí)體用下劃線標(biāo)出。與句子級相比,文檔級關(guān)系抽取中的文本要長得多,并且包含更多的實(shí)體, 這使得文檔級關(guān)系抽取更加困難。其中(Maryland, country, US)、(Baltimore, located_in, Maryland) 和 (Eldersburg, located_in, Maryland)三組triples中的實(shí)體在同一個句子中的出現(xiàn),這種句內(nèi)關(guān)系相對容易識別。然而,跨句實(shí)體之間的關(guān)系識別更具挑戰(zhàn)性, 例如,關(guān)系事實(shí)(Baltimore,country,U.S.)和(Eldersburg,country,U.S.)中的相關(guān)實(shí)體并沒有出現(xiàn)在同一個句子中并且需要長距離依賴, 具體來說,多個三元組之間的相互依賴是有利的,可以為實(shí)體多的情況下的關(guān)系分類提供指導(dǎo)。例如,如果句內(nèi)關(guān)系 (Maryland, country, US) 已被識別,則{US} 不可能處于任何 person-social 關(guān)系中,例如"is the father of." 此外,根據(jù){Eldersburg} 位于{Maryland} 和{Maryland} 屬于{US} 的三元組,我們可以推斷{Eldersburg} 屬于{US} . 如上所述,每個關(guān)系三元組可以向同一文本中的其他關(guān)系三元組提供信息。

文檔級關(guān)系抽取主要面臨以下三個挑戰(zhàn):

1.相同關(guān)系會出現(xiàn)在多個句子。在文檔級關(guān)系抽取中,單一關(guān)系可能出現(xiàn)在多個輸入的句子中,因此模型需要依賴多個句子進(jìn)行關(guān)系推斷。

2.相同實(shí)體會具有多個指稱。在復(fù)雜的文檔中,同一個實(shí)體具有各種各樣的指稱,因此模型需要聚合不同的指稱學(xué)習(xí)實(shí)體表示。

3.不同三元組之間需要信息交互。文檔包含多個實(shí)體關(guān)系三元組,不同的實(shí)體關(guān)系三元組之間存在邏輯關(guān)聯(lián),因此模型需要捕捉同一篇文檔中三元組之間的信息交互。

然而先前的基于graph或基于transformer的模型僅單獨(dú)地使用實(shí)體對,而未考慮關(guān)系三元組之間的全局信息。本文創(chuàng)新性地提出DocuNet模型,首次將文檔級關(guān)系抽取任務(wù)類比于計(jì)算機(jī)視覺中的語義分割任務(wù)。DocuNet模型利用編碼器模塊捕獲實(shí)體的上下文信息,并采用U-shaped分割模塊在image-style特征圖上捕獲三元組之間的全局相互依賴性,通過預(yù)測實(shí)體級關(guān)系矩陣來捕獲local和global信息以增強(qiáng)文檔級關(guān)系抽取。實(shí)驗(yàn)結(jié)果表明,我們的方法可以在三個基準(zhǔn)數(shù)據(jù)集DocRED,CDR和GDA上獲得SOTA性能。

2.方法

71415ebe-d5ea-11eb-9e57-12bb97331649.png

具體來說,DocuNet模型分為三個模塊:

(1)Encoder Module

我們將triple抽取視為sequence-to-sequence的任務(wù),以更好地對實(shí)體和關(guān)系之間的交叉依賴進(jìn)行建模。我們將輸入文本和輸出三元組定義為源和目標(biāo)序列。源序列僅由輸入句子的標(biāo)記組成,例如“[CLS] The United States President Trump was raised in the borough of Queens ...[SEP]”。我們連接由特殊標(biāo)記 ”< e >” 和 ”< /e >”分隔的每個實(shí)體/關(guān)系的三元組作為目標(biāo)序列。

715264d4-d5ea-11eb-9e57-12bb97331649.png

717d912c-d5ea-11eb-9e57-12bb97331649.png

71962354-d5ea-11eb-9e57-12bb97331649.png

其中是實(shí)體感知注意力的注意力權(quán)重,對于矩陣中的每個實(shí)體,它們的相關(guān)性由一維特征向量捕獲。

(2)U-shaped Segmentation Module

三元組之間存在局部語義依賴,語義分割中的CNN可以促進(jìn)感受野中實(shí)體對之間的局部信息交換。文檔級RE還需要全局信息來推斷三元組之間的關(guān)系,語義分割模塊中的下采樣和上采樣可以擴(kuò)大當(dāng)前實(shí)體pair對嵌入的感受野,能夠增強(qiáng)全局隱式推理:

71c4a83c-d5ea-11eb-9e57-12bb97331649.png

我們把實(shí)體級關(guān)系矩陣作為D-channel圖像,我們將文檔級關(guān)系預(yù)測公式化為像素級掩碼, 其中N是從所有數(shù)據(jù)集樣本中統(tǒng)計(jì)出的最大實(shí)體數(shù)。

(3)Classification Module

給定實(shí)體pair的特征表示和實(shí)體級關(guān)系矩陣Y,我們使用前饋神經(jīng)網(wǎng)絡(luò)將它們映射到隱藏表示z。然后,我們通過雙線性函數(shù)獲得實(shí)體pair之間關(guān)系預(yù)測的概率表示如下:

71e0f366-d5ea-11eb-9e57-12bb97331649.png

由于觀察到 RE 存在不平衡關(guān)系分布(許多實(shí)體對具有 NA 的關(guān)系),我們引入了一種平衡的 softmax 方法進(jìn)行訓(xùn)練:

71ff3740-d5ea-11eb-9e57-12bb97331649.png

3. 實(shí)驗(yàn)

(1)數(shù)據(jù)集

為了驗(yàn)證DocuNet的效果,我們在三個文檔級關(guān)系抽取數(shù)據(jù)集上評測,數(shù)據(jù)集具體分析如下所示:

72270bd0-d5ea-11eb-9e57-12bb97331649.png

(2)實(shí)驗(yàn)結(jié)果

由下面實(shí)驗(yàn)結(jié)果表明,DocuNet比以往的文檔級關(guān)系抽取方法效果更佳。

7233d586-d5ea-11eb-9e57-12bb97331649.png

7241ef04-d5ea-11eb-9e57-12bb97331649.png

4. 總結(jié)與展望

在本文中,我們把文檔級關(guān)系抽取任務(wù)看作語義分割來求解,直接給出了如何將 UNet 應(yīng)用于文檔級 RE 的解決方案,實(shí)驗(yàn)結(jié)果表明U-shaped模塊能有效得理解局部上下文和全局相互依賴性。目前結(jié)果表明U-shaped模塊中的卷積學(xué)習(xí)了 RE 三元組之間的相互作用,但仍U-shaped模塊的推理作用尚是隱式的,未來對U-shaped模塊進(jìn)一步的可視化分析有助于我們加強(qiáng)理解其是如何做三元組之間推理的。我們的方法證實(shí)了語義分割模塊在處理RE中有效性,仍需要更多的工作去探索U-shaped模塊在如aspect-based sentiment analysis等其他nlp任務(wù)上的應(yīng)用。

責(zé)任編輯:lq6
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 語義
    +關(guān)注

    關(guān)注

    0

    文章

    21

    瀏覽量

    8741
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    119

    瀏覽量

    17454

原文標(biāo)題:【IJCAI2021】長文本知識抽?。夯谡Z義分割的文檔級三元組關(guān)系抽取

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    OCAD應(yīng)用:四連續(xù)變焦系統(tǒng)

    連續(xù)變焦系統(tǒng)是在三連續(xù)變焦系統(tǒng)的基礎(chǔ)上增加了一個變焦組分擔(dān)系統(tǒng)像面位移,由兩個變焦
    發(fā)表于 05-20 08:49

    三元鋰8650電池 3.7V7.4V12V2.5AH10AH機(jī)器人智能設(shè)備專用電池

    三元鋰 8650 電池憑借其多樣的電壓和容量選擇、卓越的性能優(yōu)勢以及廣泛的應(yīng)用場景,成為了機(jī)器人智能設(shè)備的理想電源。隨著科技的不斷進(jìn)步,相信這款電池還將在更多領(lǐng)域發(fā)揮重要作用,推動
    的頭像 發(fā)表于 02-06 16:23 ?562次閱讀
    <b class='flag-5'>三元</b>鋰8650電池<b class='flag-5'>組</b> 3.7V7.4V12V2.5AH10AH機(jī)器人智能設(shè)備專用電池

    三元鋰電生命循環(huán)究竟是多長?朗凱威鋰電電池定制 三元鋰電池DIY

    隨著新能源汽車的續(xù)航里程受到限制,如何提高續(xù)航能力影響了整個市場。而在電池行業(yè),三元鋰電池憑借著眾多的優(yōu)勢迅速的占領(lǐng)了3C、汽車等市場,并逐漸取代傳統(tǒng)鉛酸蓄電池。對于傳統(tǒng)電池來說,三元鋰電池具有
    的頭像 發(fā)表于 12-19 15:59 ?517次閱讀
    <b class='flag-5'>三元</b>鋰電生命循環(huán)究竟是多長?朗凱威鋰電電池定制 <b class='flag-5'>三元</b>鋰電池<b class='flag-5'>組</b>DIY

    朗凱威三元鋰電池 6020:高性能能源解決方案

    三元鋰電池 6020 (133-2632-1310)作為一種高性能的能源解決方案,具有高能量密度、長壽命、快速充電、安全可靠、環(huán)保節(jié)能等優(yōu)點(diǎn),廣泛應(yīng)用于電動自行車、電動摩托車、電動汽車等領(lǐng)域。在
    的頭像 發(fā)表于 11-21 17:23 ?1227次閱讀
    朗凱威<b class='flag-5'>三元</b>鋰電池<b class='flag-5'>組</b> 6020:高性能能源解決方案

    三元鋰電池的市場前景分析

    隨著全球能源結(jié)構(gòu)的轉(zhuǎn)型和新能源汽車的快速發(fā)展,鋰電池作為核心動力源,其市場需求持續(xù)增長。三元鋰電池因其卓越的性能,成為動力電池市場的主流選擇之一。 技術(shù)發(fā)展 能量密度提升 :三元鋰電池通過不斷優(yōu)化
    的頭像 發(fā)表于 10-31 10:31 ?1474次閱讀

    三元鋰電池行業(yè)發(fā)展趨勢

    三元鋰電池,即三元正極材料鋰電池,因其正極材料由鎳、鈷、錳(或鋁)種元素組成而得名。這種電池因其高能量密度、長循環(huán)壽命和良好的安全性能而受到市場的廣泛關(guān)注。 三元鋰電池行業(yè)發(fā)展趨勢
    的頭像 發(fā)表于 10-31 10:28 ?1466次閱讀

    三元鋰電池的優(yōu)勢和劣勢

    三元鋰電池,指的是以鎳(Ni)、鈷(Co)和錳(Mn)種元素作為正極材料的鋰電池。這種電池因其高能量密度、長循環(huán)壽命和較好的安全性能而被廣泛應(yīng)用于電動汽車、移動設(shè)備和儲能系統(tǒng)等領(lǐng)域。 三元鋰電池
    的頭像 發(fā)表于 10-31 09:49 ?4222次閱讀

    三元鋰電池在電動車的應(yīng)用

    著全球能源危機(jī)的加劇和環(huán)境污染問題的日益嚴(yán)重,新能源汽車逐漸成為汽車工業(yè)發(fā)展的重要方向。電動車(EV)作為新能源汽車的代表,其動力電池技術(shù)的發(fā)展尤為關(guān)鍵。三元鋰電池因其卓越的性能,已成為電動車
    的頭像 發(fā)表于 10-31 09:47 ?1773次閱讀

    三元鋰電池放電特性及應(yīng)用

    隨著科技的進(jìn)步和環(huán)保意識的增強(qiáng),鋰電池因其高能量密度、長壽命和環(huán)保特性而成為新能源領(lǐng)域的明星。三元鋰電池作為鋰電池的一種,因其獨(dú)特的優(yōu)勢在眾多領(lǐng)域得到廣泛應(yīng)用。 三元鋰電池放電特性 1. 高能量密度
    的頭像 發(fā)表于 10-31 09:46 ?1960次閱讀

    三元鋰電池使用壽命分析

    隨著全球能源結(jié)構(gòu)的轉(zhuǎn)型和新能源汽車的快速發(fā)展,電池技術(shù)成為推動這一變革的關(guān)鍵因素。三元鋰電池因其高能量密度、良好的循環(huán)穩(wěn)定性和較低的成本而受到青睞。 一、三元鋰電池的基本特性 三元鋰電池由鎳、鈷、錳
    的頭像 發(fā)表于 10-31 09:39 ?2350次閱讀

    三元鋰電池實(shí)際應(yīng)用的缺點(diǎn)

    三元鋰電池其性能優(yōu)勢被廣泛認(rèn)可。然而,盡管其具有高能量密度和優(yōu)良的低溫性能,三元鋰電池在實(shí)際應(yīng)用仍面臨一系列挑戰(zhàn)。這些挑戰(zhàn)主要包括高制造成本、安全性問題、高溫下的不穩(wěn)定性和相對較短的使用壽命。 高
    的頭像 發(fā)表于 09-17 16:17 ?2560次閱讀

    三元鋰電池的優(yōu)點(diǎn)是什么

    三元鋰電池,作為現(xiàn)代能源存儲技術(shù)的前沿產(chǎn)品,其在多個領(lǐng)域的廣泛應(yīng)用不僅得益于其卓越的性能特點(diǎn),還源于其對復(fù)雜環(huán)境條件極強(qiáng)的適應(yīng)性。在眾多優(yōu)勢,高能量密度及優(yōu)異的低溫性能尤為突出,這些特性使得三元
    的頭像 發(fā)表于 09-17 16:14 ?1932次閱讀

    三元鋰電池的組成與功能

    在當(dāng)前新能源汽車的發(fā)展浪潮,三元鋰電池作為一種先進(jìn)的儲能技術(shù),已經(jīng)成為推動電動汽車行業(yè)進(jìn)步的關(guān)鍵因素之一。這種電池之所以被稱為“三元”,是因?yàn)樗Y(jié)合了種不同的金屬元素——鎳(Ni)
    的頭像 發(fā)表于 09-17 16:07 ?2909次閱讀

    鴻蒙原生應(yīng)用服務(wù)開發(fā)-倉頡基礎(chǔ)數(shù)據(jù)類型元組類型

    ,例如,(Int64, Float64) 表示一個二元組類型,(Int64, Float64, String) 表示一個三元組類型。 元組的長度是固定的,即一旦定義了一個
    發(fā)表于 09-12 11:02

    18650三元鋰電池的優(yōu)點(diǎn)

    18650三元鋰電池的優(yōu)點(diǎn)
    的頭像 發(fā)表于 08-30 20:07 ?1834次閱讀
    18650<b class='flag-5'>三元</b>鋰電池的優(yōu)點(diǎn)