一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于重疊和嵌套事件抽取領(lǐng)域的主流方法

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2022-09-30 15:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本研究設(shè)計了一種簡單有效的標(biāo)簽系統(tǒng)將重疊和嵌套事件抽取轉(zhuǎn)換成了詞對關(guān)系分類的任務(wù),觸發(fā)詞、論元以及其間的關(guān)系可以并行地同時被預(yù)測出來,達(dá)到非??斓某槿∷俣龋?個重疊或嵌套的事件抽取數(shù)據(jù)集上的實驗結(jié)果達(dá)到了SOTA。

一、動機(jī)介紹

1.1重疊和嵌套事件抽取

事件抽?。‥vent Extraction,EE)是自然語言處理領(lǐng)域的一項非?;镜娜蝿?wù),在社區(qū)長久以來一直得到廣泛的研究。EE的目標(biāo)是從文本中抽取事件觸發(fā)詞和相關(guān)的論元。傳統(tǒng)的事件抽取關(guān)注于普通的事件,認(rèn)為觸發(fā)詞和論元之間沒有重疊,忽視了復(fù)雜的事件模式,即重疊事件和嵌套事件:

Flat Event:觸發(fā)詞和論元之間沒有重疊;

Overlapped Event:多個事件的共享重疊的觸發(fā)詞或論元;

Nested Event:一個事件的論元是另外一個事件。

ceff6b20-3fef-11ed-b1c7-dac502259ad0.png

圖1:普通事件(a),重疊事件(b),嵌套事件(c)

以圖1為例,(b)中Investment事件和Share Transfer事件共享了”acquired”這一重疊觸發(fā)詞,以及”Citic Securities”,”Guangzhou Securities”是重疊的論元。(c)中Gene Expression事件是Positive Regulation的Theme論元。

1.2重疊和嵌套事件抽取方法

截止當(dāng)前,重疊和嵌套事件抽取領(lǐng)域的主流方法大致有三類:

基于Pipleline的方法;

基于多輪QA的方法;

基于級聯(lián)網(wǎng)絡(luò)的方法。

這些方法都是Multi-stage的,用多個連續(xù)的階段分別抽取事件觸發(fā)詞和論元。其中,基于級聯(lián)網(wǎng)絡(luò)的方法CasEE是之前的SOTA,CasEE依次預(yù)測事件類型、抽取觸發(fā)詞、抽取論元。這些Multi-stage的方法后面階段的預(yù)測依賴于前面的預(yù)測結(jié)果,難以避免地帶來了誤差傳播的問題。

本研究關(guān)注于構(gòu)建一種高效的EE框架,能夠在一個階段同時解決重疊和嵌套的事件抽取。

1.3本文的方法

傳統(tǒng)的事件抽取使用序列標(biāo)注的方法無法解決重疊和嵌套的問題,現(xiàn)有的工作使用指針網(wǎng)絡(luò)分別識別觸發(fā)詞或論元的頭尾token;我們在針對重疊和嵌套事件的共性進(jìn)行深入挖掘后,發(fā)現(xiàn)可以通過token-pair之間的關(guān)系分類進(jìn)行統(tǒng)一建模。觸發(fā)詞和論元可以通過token-head和token-tail之間聯(lián)系,而論元的角色可以通過觸發(fā)詞和論元之間的關(guān)系建模,例如圖1(b)中觸發(fā)詞”acquired”和論元”Guangzhou Securities”表達(dá)了object關(guān)系。

根據(jù)上述觀察,本文將Overlapped and Nested EE任務(wù)轉(zhuǎn)化成一種詞對的關(guān)系分類任務(wù),通過這種標(biāo)簽體系能夠在一個階段內(nèi)抽取出事件類型、觸發(fā)詞、論元以及論元的角色,在此基礎(chǔ)提出了一種新的EE框架(A One-Stage Framework for Fast Overlapping and Nested Event Extraction),名為OneEE。具體地,該框架的目標(biāo)是將EE轉(zhuǎn)變?yōu)樽R別出觸發(fā)詞和論元中所蘊(yùn)含的兩種類型的關(guān)系,即:

Span關(guān)系(S-T, S-A);

Role關(guān)系(R-*);

具體的詞對關(guān)系分類示例如圖2所示。其中S-T表示兩個詞是某個觸發(fā)詞的頭部和尾部,S-A表示兩個詞是某個論元的頭部和尾部(如”Citic”->”Securities”,Argument),R-*表示該詞作為觸發(fā)詞的事件中,另一個詞扮演了角色類型為*的論元(如“acquired”->“Citic Securities”,Subject)。

cf146d68-3fef-11ed-b1c7-dac502259ad0.png

圖2:關(guān)系分類示例

二、模型框架

圖3給出了OneEE整體的框架結(jié)構(gòu)。其整體可分為三層:輸入編碼層,自適應(yīng)事件融合曾以及最后的聯(lián)合解碼層。其中解碼層是本論文的核心。

cfa6247e-3fef-11ed-b1c7-dac502259ad0.png

圖3:模型整體結(jié)構(gòu)

2.1 編碼層

給定一個輸入句子,將每一個詞轉(zhuǎn)換成多個word piece,并將他們輸入預(yù)訓(xùn)練的BERT模塊中。進(jìn)過BERT計算后,使用最大池化操作將這些word piece表示重新聚合成詞表示。

2.2 自適應(yīng)事件融合層

由于該框架的目標(biāo)是預(yù)測目標(biāo)事件類型的詞對之間的關(guān)系,因此生成高質(zhì)量的事件感知的表示十分重要。因此,為了融合編碼器提供的事件信息和上下文信息,本論文設(shè)計了一個自適應(yīng)事件融合層。其中注意力模塊用于建模不同事件類型之間的交互并獲得全局事件信息,兩個門融合模塊用于將全局事件信息和目標(biāo)事件類型信息與上下文化的詞表示融合。

2.3 解碼層

在自適應(yīng)事件融合層之后,獲得了事件感知的詞表示,用于預(yù)測詞對之間的Span關(guān)系和Role關(guān)系,對于每個詞對(w_i , w_j ),計算一個分?jǐn)?shù)來衡量它們對于關(guān)系 s ∈ S 和 r ∈ R 的可能性。為了使預(yù)測層對于詞與詞之間的相對距離敏感,論文還引入了旋轉(zhuǎn)式的相對位置編碼,設(shè)計了距離感知的打分函數(shù)。損失函數(shù)部分本文使用了Circle Loss的變體,將交叉熵?fù)p失擴(kuò)展到多標(biāo)簽分類問題,并緩解了類別不均衡的問題。

在解碼階段,該模型通過將事件類型Embedding并行地插入自適應(yīng)事件融合層來抽取所有事件。如圖 4 所示,一旦該模型在一個階段預(yù)測了某種事件類型的所有標(biāo)簽,整個解碼過程可以概括為四個步驟:首先,獲得觸發(fā)詞或論元的開始和結(jié)束索引;其次,獲得觸發(fā)詞和論元的span;第三,根據(jù) R-* 關(guān)系匹配觸發(fā)詞和論元;最后,將事件類型分配給該事件結(jié)構(gòu)。

cfd4827e-3fef-11ed-b1c7-dac502259ad0.png

圖4:解碼示例

三、實驗結(jié)果

本文在3個重疊和嵌套的事件抽取數(shù)據(jù)集上(包括英文和中文)進(jìn)行了實驗,分別是:

FewFC,一個中文金融事件抽取數(shù)據(jù)集,標(biāo)注了10種事件類型和18種論元,有約22%的句子包含重疊事件;

Genia 11和Genia 13,兩個英文醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集,有約18%的句子包含嵌套事件,Genia11 標(biāo)注了9種事件類型和10種論元,而Genia13的數(shù)字是13和7。

表1-2分別展示了上述任務(wù)和數(shù)據(jù)集上與基線模型對比的結(jié)果。實驗結(jié)果表明,本文提出的基于詞對關(guān)系分類的One-Stage方法,可以同時解決重疊和嵌套的事件抽取,并在3個數(shù)據(jù)集上的效果都優(yōu)于之前的工作,并且推理速度也是最快的。

d1375f42-3fef-11ed-b1c7-dac502259ad0.png

表1:FewFC, 重疊事件抽取

d20cec3e-3fef-11ed-b1c7-dac502259ad0.png

表2:Genia 11和Genia 13, 嵌套事件抽取

d2ae4962-3fef-11ed-b1c7-dac502259ad0.png

圖5:重疊事件與嵌套事件抽取效果對比

d2dfe350-3fef-11ed-b1c7-dac502259ad0.png

圖6:觸發(fā)詞和論元不同距離論元角色抽取效果對比

通過進(jìn)一步的消融實驗,我們探索了不同參數(shù)和部件對整體框架的影響。此外我們模型在相對較小的參數(shù)情況下,其訓(xùn)練和推理速度超過了多個非連續(xù)實體識別模型。

d32ab7ea-3fef-11ed-b1c7-dac502259ad0.png

表6:消融實驗

d3457fbc-3fef-11ed-b1c7-dac502259ad0.png

表 7:模型參數(shù)與效率對比

四、總結(jié)

在本文中,我們提出了一種基于詞-詞關(guān)系識別的新型單階段框架,以同時解決重疊和嵌套的事件抽取。詞對之間的關(guān)系被預(yù)定義為觸發(fā)詞或論元內(nèi)的詞-詞關(guān)系以及跨越觸發(fā)詞-論元對。此外,我們提出了一個有效的模型,該模型由一個用于融合目標(biāo)事件表示的自適應(yīng)事件融合層和一個用于聯(lián)合識別各種關(guān)系的距離感知的預(yù)測層組成。實驗結(jié)果表明,我們提出的模型在三個數(shù)據(jù)集上實現(xiàn)了新的 SoTA 結(jié)果,并且比 SoTA 模型更快。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3786

    瀏覽量

    137607
  • 網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    14

    文章

    7795

    瀏覽量

    90628
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    404

    瀏覽量

    17845
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3504

    瀏覽量

    50198

原文標(biāo)題:COLING 2022 | 基于token-pair關(guān)系建模解決重疊和嵌套事件抽取的One-stage框架

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    面向領(lǐng)域的Web數(shù)據(jù)抽取與集成架構(gòu)

    數(shù)據(jù)抽取與集成架構(gòu),在給出Web數(shù)據(jù)模型與Web數(shù)據(jù)模式、領(lǐng)域數(shù)據(jù)模型和領(lǐng)域數(shù)據(jù)模式等相關(guān)概念基礎(chǔ)上,提出Web數(shù)據(jù)模式與領(lǐng)域數(shù)據(jù)模式的映射方法
    發(fā)表于 12-08 11:40 ?0次下載
    面向<b class='flag-5'>領(lǐng)域</b>的Web數(shù)據(jù)<b class='flag-5'>抽取</b>與集成架構(gòu)

    基于本體約束的知識抽取方法

    在信息抽取領(lǐng)域,命名實體識別方法可以為實體賦予正確的語義,實體關(guān)系抽取則可以明確兩個實體間的關(guān)系語義。但從知識的角度來看,無論是命名實體識別還是實體關(guān)系
    發(fā)表于 12-19 11:24 ?0次下載
    基于本體約束的知識<b class='flag-5'>抽取</b><b class='flag-5'>方法</b>

    基于標(biāo)簽優(yōu)先的抽取排序方法

    針對微博關(guān)鍵詞抽取準(zhǔn)確率不高的問題,提出一種基于標(biāo)簽優(yōu)先的抽取排序方法。該方法利用微博本身具有的社交特征標(biāo)簽,從微博內(nèi)容集中抽取關(guān)鍵詞。該
    發(fā)表于 12-25 15:04 ?0次下載
    基于標(biāo)簽優(yōu)先的<b class='flag-5'>抽取</b>排序<b class='flag-5'>方法</b>

    基于WebHarvest的健康領(lǐng)域Web信息抽取方法

    針對Web信息抽取(WIE)技術(shù)在健康領(lǐng)域應(yīng)用的問題,提出了一種基于WebHarvest的健康領(lǐng)域Web信息抽取方法。通過對不同健康網(wǎng)站的結(jié)
    發(fā)表于 12-26 13:44 ?0次下載

    基于自動關(guān)鍵詞抽取方法

    科學(xué)、心理學(xué)和社會科學(xué)等多個方面研究了自動關(guān)鍵詞抽取的理論基礎(chǔ).從宏觀、中觀和微觀角度,回顧和分析了自動關(guān)鍵詞抽取的發(fā)展、技術(shù)和方法.針對目前廣泛應(yīng)用的自動關(guān)鍵詞抽取
    發(fā)表于 12-26 16:47 ?2次下載
    基于自動關(guān)鍵詞<b class='flag-5'>抽取</b><b class='flag-5'>方法</b>

    基于XML特征的網(wǎng)頁文本抽取方法

    Web信息抽取(Web Information Extraction,簡稱WIE)是指:給出屬于同一類型的若干樣本網(wǎng)頁。找出它們的源數(shù)據(jù)集的嵌套結(jié)構(gòu),并將源數(shù)據(jù)集從網(wǎng)頁中抽取出來。即通過對原文
    發(fā)表于 01-02 14:14 ?0次下載

    語料庫中術(shù)語抽取算法

    術(shù)語抽取在中文信息處理領(lǐng)域中是一項重要的基礎(chǔ)性研究課題。隨著科技、經(jīng)濟(jì)、文化的快速發(fā)展,各個學(xué)科領(lǐng)域中的術(shù)語也發(fā)生了很大變化,為了及時了解學(xué)科的發(fā)展動態(tài),術(shù)語抽取的需求應(yīng)運而生。術(shù)語
    發(fā)表于 01-12 14:12 ?0次下載

    節(jié)點屬性的海量Web信息抽取方法

    為解決大數(shù)據(jù)場景下從海量Web頁面中抽取有價值的信息,提出了一種基于節(jié)點屬性與正文內(nèi)容的海量Web信息抽取方法。將Web頁面轉(zhuǎn)化為DOM樹表示,并提出剪枝與融合算法,對DOM樹進(jìn)行簡化;定義DOM
    發(fā)表于 02-06 14:36 ?0次下載

    模型NLP事件抽取方法總結(jié)

    本系列文章主要分享近年來事件抽取方法總結(jié),包括中文事件抽取、開放域事件抽取、事件數(shù)據(jù)生成、跨語言事件抽取、小樣本事件
    的頭像 發(fā)表于 12-31 10:19 ?1w次閱讀
    模型NLP事件<b class='flag-5'>抽取</b><b class='flag-5'>方法</b>總結(jié)

    實體關(guān)系聯(lián)合抽取取得SOTA的三種方法

    2020實體關(guān)系聯(lián)合抽取一片紅海,各種SOTA方法你方唱罷我方登場,在一些數(shù)據(jù)集上也是不斷刷出新高度,為信息抽取領(lǐng)域帶來了新思路,推動了信息抽取
    的頭像 發(fā)表于 02-10 17:08 ?1.3w次閱讀
    實體關(guān)系聯(lián)合<b class='flag-5'>抽取</b>取得SOTA的三種<b class='flag-5'>方法</b>

    基于句法語義依存分析的金融事件抽取

    事件抽取在自然語言處理應(yīng)用中扮演著重要的角色,如股票市場趨勢預(yù)測.傳統(tǒng)事件抽取較為關(guān)注觸發(fā)詞和論元所屬類型的正確性,較少地結(jié)合應(yīng)用需求去分析研究事件抽取效果及使用價值.在財經(jīng)領(lǐng)域,事件
    發(fā)表于 03-24 14:03 ?8次下載
    基于句法語義依存分析的金融事件<b class='flag-5'>抽取</b>

    抽取式摘要方法中如何合理設(shè)置抽取單元?

    的核心問題。抽取式摘要則是文本摘要技術(shù)中效果穩(wěn)定,實現(xiàn)簡單的一類方法,本文結(jié)合COLING 2020中抽取式摘要相關(guān)的兩篇最新工作,對抽取式摘要方法
    的頭像 發(fā)表于 05-03 18:23 ?1862次閱讀
    <b class='flag-5'>抽取</b>式摘要<b class='flag-5'>方法</b>中如何合理設(shè)置<b class='flag-5'>抽取</b>單元?

    基于規(guī)則的商品評論搭配抽取方法

    分析商品評論中評價對象和評價短語的詞性和句法關(guān)系,提出一種使用規(guī)則模板進(jìn)行評價搭配抽取方法。通過詞性、依存句法分析及語義依存分析結(jié)果,設(shè)計核心搭配抽取規(guī)則。引入COO算法及改進(jìn)的ATT鏈算法,根據(jù)
    發(fā)表于 06-11 10:50 ?128次下載

    如何用一種級聯(lián)的并解決嵌套的實體的三元組抽取模型?

    關(guān)系抽取是自然語言處理中一個比較基礎(chǔ)的任務(wù),除了關(guān)系抽取之外還有類似的任務(wù)如:屬性抽取等。
    的頭像 發(fā)表于 02-08 09:28 ?1570次閱讀
    如何用一種級聯(lián)的并解決<b class='flag-5'>嵌套</b>的實體的三元組<b class='flag-5'>抽取</b>模型?

    if嵌套函數(shù)的正確輸入方法

    輸入方法是在if語句內(nèi)部創(chuàng)建一個新的函數(shù)。這個函數(shù)可以是一個匿名函數(shù)或者是一個有名稱的函數(shù),具體取決于你的需求和偏好。下面是一個if嵌套函數(shù)的正確輸入方法的示例: def main_function
    的頭像 發(fā)表于 11-30 16:50 ?1785次閱讀