前言
關(guān)系抽取是自然語言處理中一個(gè)比較基礎(chǔ)的任務(wù),除了關(guān)系抽取之外還有類似的任務(wù)如:屬性抽取等。這些任務(wù)也都可看成三元組抽取,即(subject,predicate,object)。常見的抽取范式包含:
基于pipeline的分布抽取方式,在已知兩個(gè)實(shí)體subject和object,去預(yù)測(cè)predicate。
聯(lián)合抽取方式,一個(gè)模型同時(shí)將subject,predicate和object抽取出來。
「現(xiàn)實(shí)的場(chǎng)景中還存在重疊關(guān)系情況,那么針對(duì)這種情況該如何解決呢?」,ACL2020有一篇論文:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction[1]介紹了如何一種級(jí)聯(lián)的并解決嵌套的實(shí)體的三元組(文中介紹的是關(guān)系抽?。┏槿∧P汀O旅嫖覀儊砜纯催@篇論文介紹的內(nèi)容。
背景
早期基于pipeline的方法首先識(shí)別出語句中的所有實(shí)體,然后在對(duì)所有的實(shí)體對(duì)分類。這種方式的一個(gè)缺點(diǎn)是:實(shí)體識(shí)別過程中的誤差會(huì)被引入到關(guān)系抽取的環(huán)節(jié)中,如下圖中的Normal情況。
現(xiàn)有的聯(lián)合抽取模型中不能夠有效地解決:一個(gè)句子包含多個(gè)相互重疊的關(guān)系三元組。如下圖中的EPO和SEO。
前言
關(guān)系抽取是自然語言處理中一個(gè)比較基礎(chǔ)的任務(wù),除了關(guān)系抽取之外還有類似的任務(wù)如:屬性抽取等。這些任務(wù)也都可看成三元組抽取,即(subject,predicate,object)。常見的抽取范式包含:
基于pipeline的分布抽取方式,在已知兩個(gè)實(shí)體subject和object,去預(yù)測(cè)predicate。
聯(lián)合抽取方式,一個(gè)模型同時(shí)將subject,predicate和object抽取出來。
「現(xiàn)實(shí)的場(chǎng)景中還存在重疊關(guān)系情況,那么針對(duì)這種情況該如何解決呢?」,ACL2020有一篇論文:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction[1]介紹了如何一種級(jí)聯(lián)的并解決嵌套的實(shí)體的三元組(文中介紹的是關(guān)系抽?。┏槿∧P?。下面我們來看看這篇論文介紹的內(nèi)容。
背景
早期基于pipeline的方法首先識(shí)別出語句中的所有實(shí)體,然后在對(duì)所有的實(shí)體對(duì)分類。這種方式的一個(gè)缺點(diǎn)是:實(shí)體識(shí)別過程中的誤差會(huì)被引入到關(guān)系抽取的環(huán)節(jié)中,如下圖中的Normal情況。
現(xiàn)有的聯(lián)合抽取模型中不能夠有效地解決:一個(gè)句子包含多個(gè)相互重疊的關(guān)系三元組。如下圖中的EPO和SEO。
EPO(Entity Pair Overlap)實(shí)體對(duì)的重疊,換句話說一個(gè)實(shí)體對(duì)包含多種關(guān)系,文中的例子就是一個(gè)人同時(shí)擔(dān)任一部電影中的導(dǎo)演和演員的角色。
SEO(Single Entity Overlap)單個(gè)實(shí)體的重疊,就是有多個(gè)關(guān)系共享一個(gè)實(shí)體。
在2020年,預(yù)訓(xùn)練模型大行其道的時(shí)期下,文中也是結(jié)合了Bert模型完成文本的特征抽取工作。文中的模型在當(dāng)時(shí)也達(dá)到了sota水平,下面我們看看模型的具體內(nèi)容。
模型結(jié)構(gòu)
關(guān)系三元組提取的目標(biāo)是識(shí)別句子中所有可能的三元組(主語、關(guān)系、賓語),其中一些三元組可能與主語或賓語共享相同的實(shí)體。數(shù)學(xué)表達(dá)如下:
具體如下:
BERT Encoder
在編碼器模塊中,使用預(yù)訓(xùn)練Bert模型提取語句的特征為,作為接下來的tagging模塊的輸入。
Cascade Decoder
該模塊主要分為兩個(gè)部分,首先從輸入的語句中監(jiān)測(cè)出subjects,即Subject Tagger。接著對(duì)候選的subject,檢查其可能的所有關(guān)系類型,即Relation-Specific Object Taggers。
Subject Tagger
在這個(gè)模塊中主要去識(shí)別輸入語句中可能存在的subjects。每一個(gè)token會(huì)輸出兩個(gè)結(jié)果:start和end,通過為每個(gè)token分配一個(gè)二進(jìn)制標(biāo)記(0/1)來分別檢測(cè)subject的開始和結(jié)束位置,該標(biāo)記指示當(dāng)前標(biāo)記是否對(duì)應(yīng)于subject的開始或結(jié)束位置。subject標(biāo)記器對(duì)每個(gè)token的詳細(xì)操作如下:
其中:
總結(jié)
實(shí)驗(yàn)效果如下圖:
審核編輯:劉清
-
編碼器
+關(guān)注
關(guān)注
45文章
3787瀏覽量
137713 -
SEO
+關(guān)注
關(guān)注
0文章
51瀏覽量
10140
原文標(biāo)題:一種基于聯(lián)合方式的三元組抽取模型——CasRel
文章出處:【微信號(hào):NLP_lover,微信公眾號(hào):自然語言處理愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
乙烯裝置三元制冷技術(shù)
回收電芯組,回收庫存電芯組,回收聚合物電芯組,回收鋰電芯組,回收動(dòng)力電芯組,三元電芯組回收
根據(jù)mac地址創(chuàng)建五元組的步驟
一種基于策略元素三元組的策略描述語言
一種基于結(jié)構(gòu)的本體分解方法
三元相圖基礎(chǔ)
基于句法語義依存分析的金融事件抽取

一種改進(jìn)的膠囊網(wǎng)絡(luò)知識(shí)圖譜補(bǔ)全方法

融合實(shí)體信息的類別增強(qiáng)知識(shí)圖譜表示學(xué)習(xí)模型

評(píng)論