總體說(shuō)一下
NER任務(wù)大概分為三種:flat, overlapped, and discontinuousNER,如下圖所示:
aching in legs 為flat NER
aching in shoulders為discontinuous NER
aching in legs和achingin shoulders這兩個(gè)實(shí)體共同重復(fù)了aching in,為overlapped NER
最近的研究都在考慮如何通過(guò)一個(gè)大一統(tǒng)模型一次性解決這三種問(wèn)題。目前的最佳的方法基本都是基于span-based和seq2seq的,然而span-based方法主要傾向于通過(guò)枚舉所有span組合來(lái)解決邊界問(wèn)題,時(shí)間復(fù)雜度上是個(gè)問(wèn)題;而后者大家都知道,存在錯(cuò)誤傳播。 所以,本文提出了一種新穎的方式和框架來(lái)解決所有的NER問(wèn)題:通過(guò)預(yù)測(cè)word-word之間的關(guān)系(這里稱之為W2NER)。其中word與word之間的關(guān)系主要有三種:
NNW: Next-Neighboring-Word,預(yù)測(cè)與后面詞的關(guān)系
THW-*: Tail-Head-Word-* ,預(yù)測(cè)與前面詞的關(guān)系,其中*表示具體關(guān)系(ORG、PER等)
NONE:表示沒(méi)有關(guān)系
其中,本文采用一個(gè)多粒度2D圖來(lái)表示word之間的關(guān)系,如下圖,其中為了解決圖的稀疏性,而將這兩種關(guān)系放到一個(gè)圖里,一個(gè)在右上角,一個(gè)在左下角。
最終在14個(gè)公開(kāi)數(shù)據(jù)集(包含中文和英文)上做了大量實(shí)驗(yàn),并都取得了最佳值,也成為了最新的SoTA。
模型
一下子看,感覺(jué)模型想是一堆模塊堆積而成,其實(shí)細(xì)讀論文會(huì)發(fā)現(xiàn)這些模型都是由NER的前人經(jīng)驗(yàn)而來(lái),有理有據(jù)。 具體來(lái)看,大概分為三個(gè)模塊: Encoder Layer通過(guò)BERT獲取表示信息,然后通過(guò)LSTM獲取上下文信息。 Convolution Layer這里有一個(gè)CLN(Conditional Layer Normalization)層,主要用來(lái)獲得word j在word i前提下的表示:
然后是BERT-Style Grid Representation層,這里主要是模型BERT的3個(gè)embedding層而來(lái),這里的三個(gè)表示層為信息表示、關(guān)系位置信息表示和位置域表示組成,通過(guò)MLP融合到一起。 然后通過(guò)多粒度的空洞卷積(Multi-Granularity Dilated Convolution)采樣不同的信息。 Co-Predictor Layer這里用了一個(gè)普通的MLP和一個(gè)專門用于變長(zhǎng)標(biāo)簽預(yù)測(cè)的biaffine預(yù)測(cè):
? 最后過(guò)一個(gè)softmax層:
? 最后是一個(gè)Decoder層,這里主要就是通過(guò)NNW和HTW-*構(gòu)成一個(gè)環(huán)的部分就是一個(gè)實(shí)體,比如下面這個(gè)例子就解釋了所有情況: ?
損失的話,就簡(jiǎn)單了:
實(shí)驗(yàn)
英文flat數(shù)據(jù)集:
中文flat數(shù)據(jù)集:
英文overlapped數(shù)據(jù)集:
中文overlapped數(shù)據(jù)集,F(xiàn)1性能:
英文discontinuous數(shù)據(jù)集:
和前沿最佳論文作對(duì)比:
消融實(shí)驗(yàn),F(xiàn)1性能:
訓(xùn)練速度和推理速度都得到了極大提升:
這篇文章還是非常不錯(cuò)的,是一個(gè)簡(jiǎn)單有效的NER新框架,可以較為輕松的應(yīng)用于線下。
審核編輯 :李倩
-
word
+關(guān)注
關(guān)注
1文章
78瀏覽量
22346 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25445
原文標(biāo)題:一種全新易用的基于Word-Word關(guān)系的NER統(tǒng)一模型,刷新了14種數(shù)據(jù)集并達(dá)到新SoTA
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
復(fù)制Simulink中的仿真模型到word的方法小結(jié)
Microsoft Office Word、Excel 和
一種基于Word文檔的數(shù)字密寫(xiě)設(shè)計(jì)與實(shí)現(xiàn)
《微機(jī)原理及應(yīng)用》課程教程 (word文檔)
一種快速Word編程接口的設(shè)計(jì)與實(shí)現(xiàn)
Office Word、Excel和PowerPoint 文

一種快速Word編程接口的設(shè)計(jì)與實(shí)現(xiàn)
word如何去刪除水印
word/word2003上次啟動(dòng)失敗,以安全模式啟動(dòng)的解決

Word人工雙面打印
如何用Word調(diào)用Protel For DOS繪制的圖形
如何使用Python讀取寫(xiě)入Word文件
Spire.Cloud.Word云端Word文檔處理SDK介紹

評(píng)論