午夜成人在线毛片,97超碰人人操人人爽,九九热这里有精亚洲香蕉综合网

金融事件分析背景

在金融領(lǐng)域，事件是理解信息的有效載體，如何更好的理解和分析事件一直是金融領(lǐng)域研究的熱點(diǎn)。預(yù)訓(xùn)練模型技術(shù)在翻譯、搜索、生成等領(lǐng)域都體現(xiàn)了它強(qiáng)大的能力，應(yīng)用在金融事件分析中也取得非常顯著的進(jìn)步。

圖 1

金融事件分析的主要任務(wù)有三塊：

第一塊是非結(jié)構(gòu)化數(shù)據(jù)智能解析。金融領(lǐng)域的信息多數(shù)以非結(jié)構(gòu)化的數(shù)據(jù)形式存在，比如PDF。從非結(jié)構(gòu)數(shù)據(jù)中解析出重要的、準(zhǔn)確的、格式語義清楚的文本對后面的事件分析至關(guān)重要，它能有效減少噪音數(shù)據(jù)、臟數(shù)據(jù)對模型的干擾，提高結(jié)果的準(zhǔn)確度。

第二塊是事件語義理解。這里主要涉及事件類型的檢測、事件要素的抽取和事件之間的關(guān)系，在這些對事件的理解基礎(chǔ)之上。

第三塊就可以構(gòu)建事件圖譜并進(jìn)行事件圖譜的分析，包括事件鏈分析和事件預(yù)測。

為了完成這些任務(wù)，這里面涉及到的技術(shù)主要有兩個(gè)：金融事件體系和金融事件圖譜。

金融領(lǐng)域，有不同的主體，不同的主體也有不一樣的場景，為了能最好的支持這些主體和場景，需要建立相應(yīng)的事件體系，這里面既有領(lǐng)域知識的人工工作，也結(jié)合技術(shù)做無監(jiān)督的歸納學(xué)習(xí)，從而能夠提供場景化、完整性和可擴(kuò)展的事件體系。金融事件圖譜把事件分析技術(shù)集成在了一起，抽取事件和事件關(guān)系，學(xué)習(xí)事件的表示，然后結(jié)合圖的信息進(jìn)行預(yù)測。

有了這些技術(shù)和能力，我們對事件的分析，讓我們能夠回答諸如“這是一家什么公司的事？是一件什么事？人們對事情評價(jià)的情緒如何？為什么會發(fā)生？”等等。能夠回答這些問題對金融領(lǐng)域的很多場景都是非常有價(jià)值的。

金融事件體系

圖 2

圖 2 是一個(gè)金融事件體系的例子。我們將金融事件分為兩級：

第一級根據(jù)事件的主體分為5類，分別是企業(yè)、股票、行業(yè)和宏觀、債券和基金。這些都是金融領(lǐng)域非常重要和常見的對象。

第二級將每種類型主體事件的再進(jìn)行的細(xì)分，比如企業(yè)這個(gè)一級事件類型下面有股東減持事件。那么最后，一個(gè)二級事件類型將包含這個(gè)事件相關(guān)的主要元素。再拿股東減持為例，減持的時(shí)間，哪個(gè)股東減持，減持每股交易價(jià)格等等。

一個(gè)定義完整、對場景有針對性的事件體系，是事件分析最后能夠達(dá)成目標(biāo)的重要前提。比如股東減持事件沒有被減持的股票，你就沒有辦法了解當(dāng)前發(fā)生的事情影響了那家公司。

1. 事件圖譜

圖 3

事件圖譜首先是個(gè)「圖」，一個(gè)圖是由節(jié)點(diǎn)和邊組成。在事件圖譜中，節(jié)點(diǎn)可以是事件，也可以是事件的元素對應(yīng)的實(shí)體，比如公司。邊就是事件與事件間的關(guān)系，實(shí)體-事件間的關(guān)系，實(shí)體與實(shí)體間的關(guān)系。

我們來看一個(gè)例子，如圖 3 所示，這是一篇報(bào)道亞馬遜收購iRobot公司的新聞。這篇報(bào)道中，一共有四個(gè)事件，其中兩個(gè)收購事件，一個(gè)合作事件和一個(gè)創(chuàng)立公司事件，將這些事件連接起來的關(guān)系是時(shí)間順序關(guān)系。除了事件，這里面還有其他一些實(shí)體，比如公司和時(shí)間。這些實(shí)體和時(shí)間之間也由相應(yīng)的關(guān)系連接。這樣看來，一個(gè)非結(jié)構(gòu)化網(wǎng)頁信息，通過解析出正文文本和段落，抽取事件和關(guān)系，建立事件圖譜，最終就轉(zhuǎn)化成了一個(gè)結(jié)構(gòu)化的信息。

結(jié)構(gòu)化的信息，更容易進(jìn)行理解和處理，可以應(yīng)用在搜索、問答這樣的信息獲取場景，或者風(fēng)險(xiǎn)監(jiān)控、量化投資分析這樣的金融業(yè)務(wù)場景。

2. 事件鏈

圖 4

事件鏈?zhǔn)鞘录D譜的一種特殊的、簡化的形式，它主要關(guān)注一個(gè)參與者發(fā)生的一系列事件與事件之間的關(guān)系，是一個(gè)偏序事件集合。

圖 4 例子中，事件圖譜簡化為兩個(gè)事件鏈，每個(gè)事件鏈中只有事件節(jié)點(diǎn)，其他信息都是節(jié)點(diǎn)的屬性信息。這種簡化對于將事件圖譜應(yīng)用落地是有很大幫助的，它的關(guān)系和節(jié)點(diǎn)類型簡化后，對圖譜的學(xué)習(xí)和處理都是只針對事件一種節(jié)點(diǎn)和事件間的一種關(guān)系。

那么基于事件鏈，如何對事件進(jìn)行預(yù)測呢？

圖 5

基于事件鏈的時(shí)間預(yù)測模型主要有三部分，首先是對事件的表示，歷史事件和要預(yù)測的候選事件的表示是將事件觸發(fā)詞和事件元素拼接起來表示，為了更好的捕捉歷史事件信息，也將歷史事件的上下文表示和歷史事件的表示融合起來，這些表示被輸入第二部分，一個(gè)LSTM網(wǎng)絡(luò)，LSTM網(wǎng)絡(luò)可以將事件之間順序信息（哪些事件發(fā)生在哪些事件之前等）融入到事件的表示中。

最后將LSTM編碼后的每個(gè)事件信息傳入動態(tài)記憶網(wǎng)絡(luò)，這個(gè)網(wǎng)絡(luò)的設(shè)計(jì)是為了在事件鏈中對不同的事件，根據(jù)他他們與候選事件的關(guān)系，進(jìn)行加權(quán)。也就是說跟候選事件聯(lián)系重要的具有更高的權(quán)重，最后計(jì)算給定歷史事件的情況下，候選事件發(fā)生的概率。

3. 事件問答

基于事件鏈的事件預(yù)測能夠提供信息對還沒有發(fā)生的情況做判斷，事件分析也能夠幫助人們更好的了解已經(jīng)發(fā)生的情況，比如事件問答。

圖 6

事件問答支持用自然語言對事件進(jìn)行語義查詢。比如查詢阿里巴巴的高管變動。通過對語料進(jìn)行事件抽取，建立一個(gè)結(jié)構(gòu)化事件庫，不同的事件類型存放在不同的表中。利用NL2SQL技術(shù)對問題理解后轉(zhuǎn)化為數(shù)據(jù)庫查詢SQL語句，找到對應(yīng)的表和符合條件的事件返回。

事件分析框架

圖 7

綜合前面介紹的各種事件分析技術(shù)和應(yīng)用場景，一個(gè)完整的事件分析框架支持4大能力：搜索某個(gè)事，搜索某個(gè)主體的事件，結(jié)合產(chǎn)業(yè)鏈搜索等業(yè)務(wù)數(shù)據(jù)搜索相應(yīng)主體的公司，以及根據(jù)搜索到的一個(gè)主體的已經(jīng)發(fā)生的時(shí)間預(yù)測可能發(fā)生的事件。

瀾舟事件分析技術(shù)的最新進(jìn)展

接下來介紹我們在事件分析領(lǐng)域上的一些工作，時(shí)間所限，今天我將主要介紹兩個(gè)技術(shù)：事件檢測和事件抽取。

1. 事件檢測

圖 8

事件檢測是從文本中檢測是否有事件以及事件的類型。通常還會抽取對應(yīng)事件類型的觸發(fā)詞。例如，“公司副董事長、副總經(jīng)理黃世霖因個(gè)人事業(yè)考慮將辭去公司副董事長、董事、董事會戰(zhàn)略委員會委員和副總經(jīng)理職務(wù)”，事件檢測的結(jié)果是一個(gè)“企業(yè)-高管變動”事件，觸發(fā)詞是“辭去”。

事件檢測的挑戰(zhàn)一個(gè)來自事件觸發(fā)詞的標(biāo)注，通常的事件檢測任務(wù)要求訓(xùn)練數(shù)據(jù)有觸發(fā)詞的標(biāo)注，標(biāo)注工作量大。另外一個(gè)是事件類型的變化，有的時(shí)候是增加新的類型，有的時(shí)候是對原有類型進(jìn)行合并或者拆分，這些變化都涉及到標(biāo)注數(shù)據(jù)和模型的改變。

圖 9

針對上述挑戰(zhàn)，我們使用了基于提示（也就是prompt）的事件檢測模型。事件檢測的prompt模板中拼接了四種信息，一種是事件類型，另外一個(gè)是事件的觸發(fā)詞，觸發(fā)詞可以有多個(gè)，還有就是事件的描述信息和事件元素的角色，這兩個(gè)信息會融合在一個(gè)字段中。

根據(jù)某個(gè)事件類型的prompt，模型在輸入文本上進(jìn)行token的BIO標(biāo)簽分類，抽取相應(yīng)事件的觸發(fā)詞。如果針對當(dāng)前的prompt類型能夠抽出觸發(fā)詞，則對應(yīng)的事件類型和觸發(fā)詞就得到了。

對于zero-shot的情況，定義相應(yīng)事件類型的prompt模型則可以進(jìn)行事件檢測了。為了對比SOTA方法的方便，我們在英文數(shù)據(jù)集ACE05上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)顯示，對比另外兩個(gè)事件模型，我們的方法在全量訓(xùn)練數(shù)據(jù)和zero-shot和few-shot上都有明顯的優(yōu)勢（見圖 9 右側(cè)表格）。

2. 事件抽取

事件抽取任務(wù)是事件檢測任務(wù)的基礎(chǔ)上做了功能擴(kuò)展，它不僅檢測了事件類型、觸發(fā)詞，還將事件的詳細(xì)信息抽取出來作為事件元素。例如，“格力電器9月9日宣布回購?fù)瓿?，累?jì)成交金額為150億元，其中最高成交價(jià)為56.11元/股，最低成交價(jià)為40.21元/股”。除了事件類型和觸發(fā)詞外，抽取結(jié)果還包括像時(shí)間，交易金額等事件元素。

在一個(gè)完善的金融事件體系中，要完整的定義一個(gè)事件類型所涉及的元素，這樣在抽取中才能盡可能將一個(gè)文本中的事件的完整信息抽取出來，否則一個(gè)不完整的事件抽取結(jié)果意味著在結(jié)構(gòu)化過程中流失了。

圖 10

事件抽取的挑戰(zhàn)主要來自于訓(xùn)練數(shù)據(jù)的標(biāo)注，有些事件要素的標(biāo)注會和領(lǐng)域知識緊密相關(guān)，可能需要標(biāo)注人員有一定的專業(yè)知識。這種標(biāo)注成本高，難以擴(kuò)展到大量的數(shù)據(jù)和事件類型上。

針對上述挑戰(zhàn)，我們基于生成式抽取的方法，提出了一些改進(jìn)的技術(shù)，在ACE05上達(dá)到SOTA的效果，并且顯著提升了模型的zero-shot和few-shot能力。

圖 11

基于模板的生成式事件抽取將事件抽取轉(zhuǎn)換為一個(gè)生成任務(wù)，這種方法的一個(gè)好處就是可以將模板當(dāng)成是prompt，通過改寫模板支持新的事件類型，或者改變已有的事件類型，比如增加事件元素。提示信息為GTEE提供了語義指導(dǎo)，以便利用標(biāo)簽語義更好地捕獲事件要素，提示中編碼的事件描述使GTEE能夠使用附加的弱監(jiān)督信息。prompt和context輸入到encoder后，decoder段輸出填充之后的模板，根據(jù)模板得到事件的元素信息。GTEE做為這種方法的一個(gè)代表，證明了基于生成式的事件抽取方法也可以做到SOTA，超過傳統(tǒng)的基于序列標(biāo)注的方法。

圖 12

但是，現(xiàn)有的生成式事件抽取方法還存在幾個(gè)不足，第一，觸發(fā)詞和事件元素之間的聯(lián)系較弱，他們都定義在模板中，沒有顯示的對應(yīng)關(guān)系。第二，模型推理時(shí)，針對一個(gè)輸入文本，每個(gè)事件類型都要進(jìn)行一次推理，推理的計(jì)算量和事件類型成正比。事件檢測和事件抽取采用了pipeline的方式組織，導(dǎo)致錯誤傳播，不能聯(lián)合學(xué)習(xí)優(yōu)化。

為解決以上不足，我們提出基于觸發(fā)詞檢測增強(qiáng)的生成式事件抽取，如下圖所示：

圖 13

在TDE-GTEE中，事件檢測模塊提供觸發(fā)詞和事件類型信息，在輸入中標(biāo)注觸發(fā)詞得到新的輸入，并且根據(jù)事件類型信息選擇相應(yīng)的模板，新的輸入和事件模板輸入concat后的表示結(jié)合事件檢測模型中觸發(fā)詞的表示輸入bart模型，最終得到填充后的模板，進(jìn)而得到事件元素信息。

這里事件觸發(fā)詞在輸入中的標(biāo)注，以及觸發(fā)詞表示和prompt表示融合，都是在加強(qiáng)觸發(fā)詞與輸入和模板中信息的交互，同時(shí)，檢測模型過濾了無關(guān)的事件類型模板，推理效率更高。最后，檢測模型和事件抽取模型融入一個(gè)端到端的模型，并聯(lián)合訓(xùn)練。

圖 14

基于以上改進(jìn)，TDE-GTEE在ACE05和ERE上都達(dá)到了SOTA水平，如圖 14 表格所示。

圖 15

為支持zero-shot 和few-shot，在TDE-GTEE的基礎(chǔ)上，我們將前面介紹過的基于prompt的事件檢測模塊集成進(jìn)來。同樣在ACE05上對比GTEE等模型，TDE-GTEE的 zero-shot和few-shot 事件抽取效果也達(dá)到了SOTA水平。

總結(jié)

事件分析在金融領(lǐng)域廣泛，應(yīng)用場景眾多，一個(gè)完善的覆蓋金融事件體系和核心技術(shù)的金融事件分析框架，為金融領(lǐng)域的信息理解提供了強(qiáng)有力的支持。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

SQL

SQL

+關(guān)注

關(guān)注
1

文章
783

瀏覽量
45071
編碼

編碼

+關(guān)注

關(guān)注
6

文章
968

瀏覽量
55739
PDF

PDF

+關(guān)注

關(guān)注
1

文章
172

瀏覽量
34493

原文標(biāo)題：基于預(yù)訓(xùn)練模型的金融事件分析及應(yīng)用

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

預(yù)訓(xùn)練模型技術(shù)在金融事件分析中有何作用

評論