一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自然語(yǔ)言處理中的事件抽取綜述

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:lucy ? 2021-01-07 15:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本系列文章主要總結(jié)近年來(lái)事件抽取方法總結(jié),包括中文事件抽取、開(kāi)放域事件抽取、事件數(shù)據(jù)生成、跨語(yǔ)言事件抽取、小樣本事件抽取、零樣本事件抽取等。主要包括以下幾大部分:

定義(Define)

綜述(Survey)

模型(Models)

數(shù)據(jù)集(Datasets)

挑戰(zhàn)與展望(Future Research Challenges)

Github地址:https://github.com/xiaoqian19940510/Event-Extraction

任務(wù)定義

Closed-domain

Closed-domain事件抽取使用預(yù)定義的事件模式從文本中發(fā)現(xiàn)和提取所需的特定類型的事件。事件模式包含多個(gè)事件類型及其相應(yīng)的事件結(jié)構(gòu)。D.Ahn首先提出將ACE事件抽取任務(wù)分成四個(gè)子任務(wù):觸發(fā)詞檢測(cè)、事件/觸發(fā)詞類型識(shí)別、事件論元檢測(cè)和參數(shù)角色識(shí)別。我們使用ACE術(shù)語(yǔ)來(lái)介紹如下事件結(jié)構(gòu):

「事件提及」:描述事件的短語(yǔ)或句子,包括觸發(fā)詞和幾個(gè)參數(shù)。

「事件觸發(fā)詞」:最清楚地表達(dá)事件發(fā)生的主要詞,一般指動(dòng)詞或名詞。

「事件論元」:一個(gè)實(shí)體,時(shí)間表達(dá)式,作為參與者的值和在事件中具有特定角色的屬性。

「論元角色」:論元與它所參與的事件之間的關(guān)系

Open domain

在沒(méi)有預(yù)定義的事件模式的情況下,開(kāi)放域事件抽取的目的是從文本中檢測(cè)事件,在大多數(shù)情況下,還可以通過(guò)提取的事件關(guān)鍵詞聚類相似的事件。事件關(guān)鍵詞指的是那些主要描述事件的詞/短語(yǔ),有時(shí)關(guān)鍵詞還進(jìn)一步分為觸發(fā)器和參數(shù)。

「故事分割」:從新聞中檢測(cè)故事的邊界。

「第一個(gè)故事檢測(cè)」:檢測(cè)新聞流中討論新話題的故事。

「話題檢測(cè)」:根據(jù)討論的主題將故事分組。

「話題追蹤」:檢測(cè)討論先前已知話題的故事。

「故事鏈檢測(cè)」:決定兩個(gè)故事是否討論同一個(gè)主題。

前兩個(gè)任務(wù)主要關(guān)注事件檢測(cè);其余三個(gè)任務(wù)用于事件集群。雖然這五項(xiàng)任務(wù)之間的關(guān)系很明顯,但每一項(xiàng)任務(wù)都需要一個(gè)不同的評(píng)價(jià)過(guò)程,并鼓勵(lì)采用不同的方法來(lái)解決特定問(wèn)題。

綜述

元事件抽取研究綜述, 2019[1]

事件抽取是信息抽取領(lǐng)域的一個(gè)重要研究方向,在情報(bào)收集、知識(shí)提取、文檔摘要、知識(shí)問(wèn)答等領(lǐng)域有著廣泛應(yīng)用。寫(xiě)了一篇對(duì)當(dāng)前事件抽取領(lǐng)域研究得較多的元事件抽取任務(wù)的綜述。

首先,簡(jiǎn)要介紹了元事件和元事件抽取的基本概念,以及元事件抽取的主要實(shí)現(xiàn)方法。然后,重點(diǎn)闡述了元事件抽取的主要任務(wù),詳細(xì)介紹了元事件檢測(cè)過(guò)程,并對(duì)其他相關(guān)任務(wù)進(jìn)行了概述。最后,總結(jié)了元事件抽取面臨的問(wèn)題,在此基礎(chǔ)上展望了元事件抽取的發(fā)展趨勢(shì)。

An Overview of Event Extraction from Text, 2019[2]

文本挖掘的一個(gè)常見(jiàn)應(yīng)用是事件抽取,它包括推導(dǎo)出與事件相關(guān)的特定知識(shí),這些知識(shí)重新映射到文本中。事件抽取可處理各種類型的文本,如(在線)新聞消息、博客和手稿。本文獻(xiàn)回顧了用于各種事件抽取目的的文本挖掘技術(shù)。它提供了關(guān)于如何根據(jù)用戶、可用內(nèi)容和使用場(chǎng)景選擇特定事件抽取技術(shù)的一般指南。

A Survey of Event Extraction from Text, 2019[3]

事件抽取的任務(wù)定義、數(shù)據(jù)源和性能評(píng)估,還為其解決方案方法提供了分類。在每個(gè)解決方案組中,提供了最具代表性的方法的詳細(xì)分析,特別是它們的起源、基礎(chǔ)、優(yōu)勢(shì)和弱點(diǎn)。最后,對(duì)未來(lái)的研究方向進(jìn)行了展望。

A Survey of Textual Event Extraction from Social Networks, 2017[4]

過(guò)去的十年中,在社交網(wǎng)絡(luò)上挖掘文本內(nèi)容以抽取相關(guān)數(shù)據(jù)和有用的知識(shí)已成為無(wú)所不在的任務(wù)。文本挖掘的一種常見(jiàn)應(yīng)用是事件抽取,它被認(rèn)為是一個(gè)復(fù)雜的任務(wù),分為不同難度的多個(gè)子任務(wù)。

在本文中,對(duì)現(xiàn)有的主要文本挖掘技術(shù)進(jìn)行了概述,這些技術(shù)可用于許多不同的事件抽取目標(biāo)。首先,介紹基于統(tǒng)計(jì)模型將數(shù)據(jù)轉(zhuǎn)換為知識(shí)的主要數(shù)據(jù)驅(qū)動(dòng)方法。其次,介紹了基于專家知識(shí)的知識(shí)驅(qū)動(dòng)方法,通常通過(guò)基于模式的方法來(lái)抽取知識(shí)。然后,介紹結(jié)合了數(shù)據(jù)驅(qū)動(dòng)和知識(shí)驅(qū)動(dòng)方法的主要現(xiàn)有混合方法。最后,比較社交網(wǎng)絡(luò)事件抽取研究,概括了每種提出的方法的主要特征。

A Survey of event extraction methods from text for decision support systems, 2016[5]

事件抽取是一種可以追溯到20世紀(jì)80年代的專門(mén)的信息抽取流程,由于大數(shù)據(jù)的出現(xiàn)以及文本挖掘和自然語(yǔ)言處理等相關(guān)領(lǐng)域的發(fā)展,事件抽取技術(shù)得到了極大的普及。然而,到目前為止,對(duì)這一特殊領(lǐng)域的概述仍然是難以捉摸的。

因此,總結(jié)了文本數(shù)據(jù)的事件抽取技術(shù),劃分成數(shù)據(jù)驅(qū)動(dòng)、知識(shí)驅(qū)動(dòng)和混合方法三類,并對(duì)這些方法進(jìn)行了定性評(píng)價(jià)。此外,還討論了從文本語(yǔ)料庫(kù)中抽取事件的常見(jiàn)決策支持應(yīng)用。最后,對(duì)事件抽取系統(tǒng)的評(píng)價(jià)進(jìn)行了闡述,并指出了當(dāng)前的研究問(wèn)題。

數(shù)據(jù)集

英文數(shù)據(jù)集

ACE2005 English Corpus[6]

ACE 2005多語(yǔ)種訓(xùn)練語(yǔ)料庫(kù)包含了用于2005年自動(dòng)內(nèi)容抽取(ACE)技術(shù)評(píng)價(jià)的完整的英語(yǔ)、阿拉伯語(yǔ)和漢語(yǔ)訓(xùn)練數(shù)據(jù)集。語(yǔ)料庫(kù)由語(yǔ)言數(shù)據(jù)聯(lián)盟(LDC)為實(shí)體、關(guān)系和事件注釋的各種類型的數(shù)據(jù)組成,該聯(lián)盟得到了ACE計(jì)劃的支持和LDC的額外幫助。

Rich ERE[7]

Rich ERE擴(kuò)展了實(shí)體、關(guān)系和事件本體,并擴(kuò)展了什么是taggable的概念。Rich ERE還引入了事件跳躍的概念,以解決普遍存在的事件共引用的挑戰(zhàn),特別是關(guān)于在文檔內(nèi)和文檔之間的事件提及和事件參數(shù)粒度變化,從而為創(chuàng)建(分層的或嵌套的)跨文檔的事件表示鋪平了道路。

TAC2015[8]

TAC KBP事件跟蹤的目標(biāo)是提取關(guān)于事件的信息,以便這些信息適合作為知識(shí)庫(kù)的輸入。軌跡包括用于檢測(cè)和鏈接事件的事件塊任務(wù),以及用于提取屬于同一事件的事件參數(shù)和鏈接參數(shù)的事件參數(shù)(EA)任務(wù)。2015年TAC KBP賽事軌跡分為5個(gè)子任務(wù)

KBP2017[9]

TAC知識(shí)庫(kù)填充(KBP)的目標(biāo)是開(kāi)發(fā)和評(píng)估從非結(jié)構(gòu)化文本中填充知識(shí)庫(kù)的技術(shù)。KBP包括為KBP開(kāi)發(fā)特定組件和功能的組件跟蹤,以及稱為“冷啟動(dòng)”的端到端KB構(gòu)建任務(wù),該任務(wù)通過(guò)在技術(shù)成熟時(shí)集成選定的組件從頭開(kāi)始構(gòu)建KB。與在冷啟動(dòng)KB任務(wù)中執(zhí)行的功能相比,組件跟蹤中所需的功能可以“更多”,也可以“更少”。組件軌道比冷啟動(dòng)“更多”,因?yàn)槊總€(gè)軌道可能探索未立即集成到冷啟動(dòng)任務(wù)中的試點(diǎn)任務(wù); 他們是“少”,將組件集成到一個(gè)KB需要額外協(xié)調(diào)與和解各個(gè)組件之間的不匹配,這樣KB符合知識(shí)庫(kù)模式(例如,知識(shí)庫(kù)不能斷言一個(gè)實(shí)體是一個(gè)事件的“地方”如果它還斷言,實(shí)體是一個(gè)“人”)。

其他的還有,Genia2011 dataset, Spainish ERE Corpus, Wikipedia article, BioNLP Cancer Genetics (CG) Shared Task 2013 等等

中文數(shù)據(jù)集

ACE2005 Chinese Corpus[10]

ACE 2005多語(yǔ)種訓(xùn)練語(yǔ)料庫(kù)包含了用于2005年自動(dòng)內(nèi)容抽取(ACE)技術(shù)評(píng)價(jià)的完整的英語(yǔ)、阿拉伯語(yǔ)和漢語(yǔ)訓(xùn)練數(shù)據(jù)集。語(yǔ)料庫(kù)由語(yǔ)言數(shù)據(jù)聯(lián)盟(LDC)為實(shí)體、關(guān)系和事件注釋的各種類型的數(shù)據(jù)組成,該聯(lián)盟得到了ACE計(jì)劃的支持和LDC的額外幫助。

未來(lái)展望與挑戰(zhàn)

數(shù)據(jù)層面

領(lǐng)域數(shù)據(jù)難構(gòu)造,標(biāo)注成本大

生成標(biāo)注數(shù)據(jù) or 無(wú)標(biāo)注式事件抽取論元

模型層面

pipeline方式存在錯(cuò)誤信息的傳遞,如何減小錯(cuò)誤信息傳遞

論元之間的關(guān)聯(lián)關(guān)系的有效利用

性能評(píng)估層面

無(wú)標(biāo)注數(shù)據(jù)的評(píng)價(jià)指標(biāo)設(shè)計(jì)

責(zé)任編輯:xj

原文標(biāo)題:超全必讀!事件抽取綜述(上)

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7257

    瀏覽量

    91934
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    628

    瀏覽量

    14168

原文標(biāo)題:超全必讀!事件抽取綜述(上)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何優(yōu)化自然語(yǔ)言處理模型的性能

    優(yōu)化自然語(yǔ)言處理(NLP)模型的性能是一個(gè)多方面的任務(wù),涉及數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型調(diào)參、模型集成與融合等多個(gè)環(huán)節(jié)。以下是一些具體的優(yōu)化策略: 一、數(shù)據(jù)預(yù)處理優(yōu)化 文本清洗
    的頭像 發(fā)表于 12-05 15:30 ?1712次閱讀

    如何使用自然語(yǔ)言處理分析文本數(shù)據(jù)

    使用自然語(yǔ)言處理(NLP)分析文本數(shù)據(jù)是一個(gè)復(fù)雜但系統(tǒng)的過(guò)程,涉及多個(gè)步驟和技術(shù)。以下是一個(gè)基本的流程,幫助你理解如何使用NLP來(lái)分析文本數(shù)據(jù): 1. 數(shù)據(jù)收集 收集文本數(shù)據(jù) :從各種來(lái)源(如社交
    的頭像 發(fā)表于 12-05 15:27 ?1599次閱讀

    自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語(yǔ)言處理的基本概念及步驟

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的一個(gè)分支,它致力于研究如何讓計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言。機(jī)器學(xué)習(xí)(Ma
    的頭像 發(fā)表于 12-05 15:21 ?1991次閱讀

    語(yǔ)音識(shí)別與自然語(yǔ)言處理的關(guān)系

    在人工智能的快速發(fā)展,語(yǔ)音識(shí)別和自然語(yǔ)言處理(NLP)成為了兩個(gè)重要的技術(shù)支柱。語(yǔ)音識(shí)別技術(shù)使得機(jī)器能夠理解人類的語(yǔ)音,而自然語(yǔ)言處理則讓
    的頭像 發(fā)表于 11-26 09:21 ?1511次閱讀

    什么是LLM?LLM在自然語(yǔ)言處理的應(yīng)用

    所未有的精度和效率處理和生成自然語(yǔ)言。 LLM的基本原理 LLM基于深度學(xué)習(xí)技術(shù),尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機(jī)制而聞名,這種機(jī)制使得模型能夠捕捉文本的長(zhǎng)距
    的頭像 發(fā)表于 11-19 15:32 ?3671次閱讀

    ASR與自然語(yǔ)言處理的結(jié)合

    ASR(Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別)與自然語(yǔ)言處理(NLP)是人工智能領(lǐng)域的兩個(gè)重要分支,它們?cè)谠S多應(yīng)用緊密結(jié)合,共同構(gòu)成了自然語(yǔ)言理解和
    的頭像 發(fā)表于 11-18 15:19 ?1028次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理的應(yīng)用

    。 卷積神經(jīng)網(wǎng)絡(luò)的基本原理 卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),它通過(guò)卷積層來(lái)提取輸入數(shù)據(jù)的特征。在圖像處理,卷積層能夠捕捉局部特征,如邊緣和紋理。在自然語(yǔ)言處理
    的頭像 發(fā)表于 11-15 14:58 ?808次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理的應(yīng)用

    自然語(yǔ)言處理(NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)因其在處理序列數(shù)據(jù)方面的優(yōu)勢(shì)而在NLP
    的頭像 發(fā)表于 11-15 09:41 ?824次閱讀

    使用LSTM神經(jīng)網(wǎng)絡(luò)處理自然語(yǔ)言處理任務(wù)

    自然語(yǔ)言處理(NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它旨在使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,特別是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變體——長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)的出現(xiàn)
    的頭像 發(fā)表于 11-13 09:56 ?1176次閱讀

    自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的區(qū)別

    在人工智能的快速發(fā)展自然語(yǔ)言處理(NLP)和機(jī)器學(xué)習(xí)(ML)成為了兩個(gè)核心的研究領(lǐng)域。它們都致力于解決復(fù)雜的問(wèn)題,但側(cè)重點(diǎn)和應(yīng)用場(chǎng)景有所不同。 1. 自然語(yǔ)言
    的頭像 發(fā)表于 11-11 10:35 ?1559次閱讀

    自然語(yǔ)言處理的應(yīng)用實(shí)例

    在當(dāng)今數(shù)字化時(shí)代,自然語(yǔ)言處理(NLP)技術(shù)已經(jīng)成為我們?nèi)粘I畹囊徊糠?。從智能手機(jī)的語(yǔ)音助手到在線客服機(jī)器人,NLP技術(shù)的應(yīng)用無(wú)處不在。 1. 語(yǔ)音識(shí)別與虛擬助手 隨著Siri、Google
    的頭像 發(fā)表于 11-11 10:31 ?1623次閱讀

    使用LLM進(jìn)行自然語(yǔ)言處理的優(yōu)缺點(diǎn)

    自然語(yǔ)言處理(NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的一個(gè)分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言。大型語(yǔ)言模型(LLM)是NLP領(lǐng)域的一
    的頭像 發(fā)表于 11-08 09:27 ?2468次閱讀

    Llama 3 在自然語(yǔ)言處理的優(yōu)勢(shì)

    自然語(yǔ)言處理(NLP)的快速發(fā)展,我們見(jiàn)證了從基于規(guī)則的系統(tǒng)到基于機(jī)器學(xué)習(xí)的模型的轉(zhuǎn)變。隨著深度學(xué)習(xí)技術(shù)的興起,NLP領(lǐng)域迎來(lái)了新的突破。Llama 3,作為一個(gè)假設(shè)的先進(jìn)NLP模型,代表了這一
    的頭像 發(fā)表于 10-27 14:22 ?740次閱讀

    AI大模型在自然語(yǔ)言處理的應(yīng)用

    AI大模型在自然語(yǔ)言處理(NLP)的應(yīng)用廣泛且深入,其強(qiáng)大的語(yǔ)義理解和生成能力為NLP任務(wù)帶來(lái)了顯著的性能提升。以下是對(duì)AI大模型在NLP應(yīng)用的介紹: 一、核心應(yīng)用 文本生成 AI
    的頭像 發(fā)表于 10-23 14:38 ?1553次閱讀

    AI智能化問(wèn)答:自然語(yǔ)言處理技術(shù)的重要應(yīng)用

    自然語(yǔ)言處理(NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言。問(wèn)答系統(tǒng)作為NLP的一個(gè)重要應(yīng)用,能夠精確地解析用戶以自然語(yǔ)言提出的問(wèn)題,并從包含豐富
    的頭像 發(fā)表于 10-12 10:58 ?1105次閱讀
    AI智能化問(wèn)答:<b class='flag-5'>自然語(yǔ)言</b><b class='flag-5'>處理</b>技術(shù)的重要應(yīng)用