本系列文章主要總結(jié)近年來(lái)事件抽取方法總結(jié),包括中文事件抽取、開(kāi)放域事件抽取、事件數(shù)據(jù)生成、跨語(yǔ)言事件抽取、小樣本事件抽取、零樣本事件抽取等。主要包括以下幾大部分:
定義(Define)
綜述(Survey)
模型(Models)
數(shù)據(jù)集(Datasets)
挑戰(zhàn)與展望(Future Research Challenges)
Github地址:https://github.com/xiaoqian19940510/Event-Extraction
任務(wù)定義
Closed-domain
Closed-domain事件抽取使用預(yù)定義的事件模式從文本中發(fā)現(xiàn)和提取所需的特定類型的事件。事件模式包含多個(gè)事件類型及其相應(yīng)的事件結(jié)構(gòu)。D.Ahn首先提出將ACE事件抽取任務(wù)分成四個(gè)子任務(wù):觸發(fā)詞檢測(cè)、事件/觸發(fā)詞類型識(shí)別、事件論元檢測(cè)和參數(shù)角色識(shí)別。我們使用ACE術(shù)語(yǔ)來(lái)介紹如下事件結(jié)構(gòu):
「事件提及」:描述事件的短語(yǔ)或句子,包括觸發(fā)詞和幾個(gè)參數(shù)。
「事件觸發(fā)詞」:最清楚地表達(dá)事件發(fā)生的主要詞,一般指動(dòng)詞或名詞。
「事件論元」:一個(gè)實(shí)體,時(shí)間表達(dá)式,作為參與者的值和在事件中具有特定角色的屬性。
「論元角色」:論元與它所參與的事件之間的關(guān)系
Open domain
在沒(méi)有預(yù)定義的事件模式的情況下,開(kāi)放域事件抽取的目的是從文本中檢測(cè)事件,在大多數(shù)情況下,還可以通過(guò)提取的事件關(guān)鍵詞聚類相似的事件。事件關(guān)鍵詞指的是那些主要描述事件的詞/短語(yǔ),有時(shí)關(guān)鍵詞還進(jìn)一步分為觸發(fā)器和參數(shù)。
「故事分割」:從新聞中檢測(cè)故事的邊界。
「第一個(gè)故事檢測(cè)」:檢測(cè)新聞流中討論新話題的故事。
「話題檢測(cè)」:根據(jù)討論的主題將故事分組。
「話題追蹤」:檢測(cè)討論先前已知話題的故事。
「故事鏈檢測(cè)」:決定兩個(gè)故事是否討論同一個(gè)主題。
前兩個(gè)任務(wù)主要關(guān)注事件檢測(cè);其余三個(gè)任務(wù)用于事件集群。雖然這五項(xiàng)任務(wù)之間的關(guān)系很明顯,但每一項(xiàng)任務(wù)都需要一個(gè)不同的評(píng)價(jià)過(guò)程,并鼓勵(lì)采用不同的方法來(lái)解決特定問(wèn)題。
綜述
元事件抽取研究綜述, 2019[1]
事件抽取是信息抽取領(lǐng)域的一個(gè)重要研究方向,在情報(bào)收集、知識(shí)提取、文檔摘要、知識(shí)問(wèn)答等領(lǐng)域有著廣泛應(yīng)用。寫(xiě)了一篇對(duì)當(dāng)前事件抽取領(lǐng)域研究得較多的元事件抽取任務(wù)的綜述。
首先,簡(jiǎn)要介紹了元事件和元事件抽取的基本概念,以及元事件抽取的主要實(shí)現(xiàn)方法。然后,重點(diǎn)闡述了元事件抽取的主要任務(wù),詳細(xì)介紹了元事件檢測(cè)過(guò)程,并對(duì)其他相關(guān)任務(wù)進(jìn)行了概述。最后,總結(jié)了元事件抽取面臨的問(wèn)題,在此基礎(chǔ)上展望了元事件抽取的發(fā)展趨勢(shì)。
An Overview of Event Extraction from Text, 2019[2]
文本挖掘的一個(gè)常見(jiàn)應(yīng)用是事件抽取,它包括推導(dǎo)出與事件相關(guān)的特定知識(shí),這些知識(shí)重新映射到文本中。事件抽取可處理各種類型的文本,如(在線)新聞消息、博客和手稿。本文獻(xiàn)回顧了用于各種事件抽取目的的文本挖掘技術(shù)。它提供了關(guān)于如何根據(jù)用戶、可用內(nèi)容和使用場(chǎng)景選擇特定事件抽取技術(shù)的一般指南。
A Survey of Event Extraction from Text, 2019[3]
事件抽取的任務(wù)定義、數(shù)據(jù)源和性能評(píng)估,還為其解決方案方法提供了分類。在每個(gè)解決方案組中,提供了最具代表性的方法的詳細(xì)分析,特別是它們的起源、基礎(chǔ)、優(yōu)勢(shì)和弱點(diǎn)。最后,對(duì)未來(lái)的研究方向進(jìn)行了展望。
A Survey of Textual Event Extraction from Social Networks, 2017[4]
過(guò)去的十年中,在社交網(wǎng)絡(luò)上挖掘文本內(nèi)容以抽取相關(guān)數(shù)據(jù)和有用的知識(shí)已成為無(wú)所不在的任務(wù)。文本挖掘的一種常見(jiàn)應(yīng)用是事件抽取,它被認(rèn)為是一個(gè)復(fù)雜的任務(wù),分為不同難度的多個(gè)子任務(wù)。
在本文中,對(duì)現(xiàn)有的主要文本挖掘技術(shù)進(jìn)行了概述,這些技術(shù)可用于許多不同的事件抽取目標(biāo)。首先,介紹基于統(tǒng)計(jì)模型將數(shù)據(jù)轉(zhuǎn)換為知識(shí)的主要數(shù)據(jù)驅(qū)動(dòng)方法。其次,介紹了基于專家知識(shí)的知識(shí)驅(qū)動(dòng)方法,通常通過(guò)基于模式的方法來(lái)抽取知識(shí)。然后,介紹結(jié)合了數(shù)據(jù)驅(qū)動(dòng)和知識(shí)驅(qū)動(dòng)方法的主要現(xiàn)有混合方法。最后,比較社交網(wǎng)絡(luò)事件抽取研究,概括了每種提出的方法的主要特征。
A Survey of event extraction methods from text for decision support systems, 2016[5]
事件抽取是一種可以追溯到20世紀(jì)80年代的專門(mén)的信息抽取流程,由于大數(shù)據(jù)的出現(xiàn)以及文本挖掘和自然語(yǔ)言處理等相關(guān)領(lǐng)域的發(fā)展,事件抽取技術(shù)得到了極大的普及。然而,到目前為止,對(duì)這一特殊領(lǐng)域的概述仍然是難以捉摸的。
因此,總結(jié)了文本數(shù)據(jù)的事件抽取技術(shù),劃分成數(shù)據(jù)驅(qū)動(dòng)、知識(shí)驅(qū)動(dòng)和混合方法三類,并對(duì)這些方法進(jìn)行了定性評(píng)價(jià)。此外,還討論了從文本語(yǔ)料庫(kù)中抽取事件的常見(jiàn)決策支持應(yīng)用。最后,對(duì)事件抽取系統(tǒng)的評(píng)價(jià)進(jìn)行了闡述,并指出了當(dāng)前的研究問(wèn)題。
數(shù)據(jù)集
英文數(shù)據(jù)集
ACE2005 English Corpus[6]
ACE 2005多語(yǔ)種訓(xùn)練語(yǔ)料庫(kù)包含了用于2005年自動(dòng)內(nèi)容抽取(ACE)技術(shù)評(píng)價(jià)的完整的英語(yǔ)、阿拉伯語(yǔ)和漢語(yǔ)訓(xùn)練數(shù)據(jù)集。語(yǔ)料庫(kù)由語(yǔ)言數(shù)據(jù)聯(lián)盟(LDC)為實(shí)體、關(guān)系和事件注釋的各種類型的數(shù)據(jù)組成,該聯(lián)盟得到了ACE計(jì)劃的支持和LDC的額外幫助。
Rich ERE[7]
Rich ERE擴(kuò)展了實(shí)體、關(guān)系和事件本體,并擴(kuò)展了什么是taggable的概念。Rich ERE還引入了事件跳躍的概念,以解決普遍存在的事件共引用的挑戰(zhàn),特別是關(guān)于在文檔內(nèi)和文檔之間的事件提及和事件參數(shù)粒度變化,從而為創(chuàng)建(分層的或嵌套的)跨文檔的事件表示鋪平了道路。
TAC2015[8]
TAC KBP事件跟蹤的目標(biāo)是提取關(guān)于事件的信息,以便這些信息適合作為知識(shí)庫(kù)的輸入。軌跡包括用于檢測(cè)和鏈接事件的事件塊任務(wù),以及用于提取屬于同一事件的事件參數(shù)和鏈接參數(shù)的事件參數(shù)(EA)任務(wù)。2015年TAC KBP賽事軌跡分為5個(gè)子任務(wù)
KBP2017[9]
TAC知識(shí)庫(kù)填充(KBP)的目標(biāo)是開(kāi)發(fā)和評(píng)估從非結(jié)構(gòu)化文本中填充知識(shí)庫(kù)的技術(shù)。KBP包括為KBP開(kāi)發(fā)特定組件和功能的組件跟蹤,以及稱為“冷啟動(dòng)”的端到端KB構(gòu)建任務(wù),該任務(wù)通過(guò)在技術(shù)成熟時(shí)集成選定的組件從頭開(kāi)始構(gòu)建KB。與在冷啟動(dòng)KB任務(wù)中執(zhí)行的功能相比,組件跟蹤中所需的功能可以“更多”,也可以“更少”。組件軌道比冷啟動(dòng)“更多”,因?yàn)槊總€(gè)軌道可能探索未立即集成到冷啟動(dòng)任務(wù)中的試點(diǎn)任務(wù); 他們是“少”,將組件集成到一個(gè)KB需要額外協(xié)調(diào)與和解各個(gè)組件之間的不匹配,這樣KB符合知識(shí)庫(kù)模式(例如,知識(shí)庫(kù)不能斷言一個(gè)實(shí)體是一個(gè)事件的“地方”如果它還斷言,實(shí)體是一個(gè)“人”)。
其他的還有,Genia2011 dataset, Spainish ERE Corpus, Wikipedia article, BioNLP Cancer Genetics (CG) Shared Task 2013 等等
中文數(shù)據(jù)集
ACE2005 Chinese Corpus[10]
ACE 2005多語(yǔ)種訓(xùn)練語(yǔ)料庫(kù)包含了用于2005年自動(dòng)內(nèi)容抽取(ACE)技術(shù)評(píng)價(jià)的完整的英語(yǔ)、阿拉伯語(yǔ)和漢語(yǔ)訓(xùn)練數(shù)據(jù)集。語(yǔ)料庫(kù)由語(yǔ)言數(shù)據(jù)聯(lián)盟(LDC)為實(shí)體、關(guān)系和事件注釋的各種類型的數(shù)據(jù)組成,該聯(lián)盟得到了ACE計(jì)劃的支持和LDC的額外幫助。
未來(lái)展望與挑戰(zhàn)
數(shù)據(jù)層面
領(lǐng)域數(shù)據(jù)難構(gòu)造,標(biāo)注成本大
生成標(biāo)注數(shù)據(jù) or 無(wú)標(biāo)注式事件抽取論元
模型層面
pipeline方式存在錯(cuò)誤信息的傳遞,如何減小錯(cuò)誤信息傳遞
論元之間的關(guān)聯(lián)關(guān)系的有效利用
性能評(píng)估層面
無(wú)標(biāo)注數(shù)據(jù)的評(píng)價(jià)指標(biāo)設(shè)計(jì)
責(zé)任編輯:xj
原文標(biāo)題:超全必讀!事件抽取綜述(上)
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7257瀏覽量
91934 -
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
628瀏覽量
14168
原文標(biāo)題:超全必讀!事件抽取綜述(上)
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
如何優(yōu)化自然語(yǔ)言處理模型的性能
如何使用自然語(yǔ)言處理分析文本數(shù)據(jù)
自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語(yǔ)言處理的基本概念及步驟
語(yǔ)音識(shí)別與自然語(yǔ)言處理的關(guān)系
什么是LLM?LLM在自然語(yǔ)言處理中的應(yīng)用
ASR與自然語(yǔ)言處理的結(jié)合
卷積神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的應(yīng)用
循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的應(yīng)用
使用LSTM神經(jīng)網(wǎng)絡(luò)處理自然語(yǔ)言處理任務(wù)
自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的區(qū)別
自然語(yǔ)言處理的應(yīng)用實(shí)例
使用LLM進(jìn)行自然語(yǔ)言處理的優(yōu)缺點(diǎn)
Llama 3 在自然語(yǔ)言處理中的優(yōu)勢(shì)
AI大模型在自然語(yǔ)言處理中的應(yīng)用
AI智能化問(wèn)答:自然語(yǔ)言處理技術(shù)的重要應(yīng)用

評(píng)論