一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于邊界檢測(cè)增強(qiáng)的中文命名實(shí)體識(shí)別

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:復(fù)旦DISC ? 作者:石靄青 ? 2021-09-22 16:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言處理領(lǐng)域的一個(gè)基礎(chǔ)任務(wù),是信息抽取等許多任務(wù)的子任務(wù),旨在識(shí)別非結(jié)構(gòu)化文本中屬于預(yù)先定義的類(lèi)別的命名實(shí)體,例如人名、組織、地點(diǎn)等。命名實(shí)體識(shí)別通常被視為一個(gè)序列標(biāo)注任務(wù)。

ACL-IJCNLP 2021 收錄的論文中,共有30余篇論文與命名實(shí)體識(shí)別相關(guān),其中4篇論文關(guān)注中文命名實(shí)體識(shí)別。本次推送將分享 ACL-IJCNLP 2021 中與中文命名實(shí)體識(shí)別相關(guān)的3篇論文。

文章概覽

增強(qiáng)實(shí)體邊界檢測(cè)以提升中文命名實(shí)體識(shí)別

Enhancing Entity Boundary Detection for Better Chinese Named Entity Recognition

論文地址:https://aclanthology.org/2021.acl-short.4/

這篇文章研究了中文命名實(shí)體識(shí)別中的邊界檢測(cè)增強(qiáng)方法,探索從兩個(gè)方面來(lái)增強(qiáng)實(shí)體邊界信息:一是增加一個(gè)圖注意力網(wǎng)絡(luò)層來(lái)捕捉句子中詞之間的依賴關(guān)系;二是將實(shí)體首尾詞匯的預(yù)測(cè)看作是兩個(gè)獨(dú)立的二分類(lèi)問(wèn)題,作為輔助任務(wù)加入訓(xùn)練。實(shí)驗(yàn)證明,文章所提出的邊界增強(qiáng)模型對(duì)于實(shí)體邊界和實(shí)體類(lèi)型的識(shí)別有提升,并且在書(shū)面與非書(shū)面文本上都有效果,在OntoNotes4、OntoNotes5等數(shù)據(jù)集上達(dá)到了SOTA效果。

帶有語(yǔ)音線索的大規(guī)模中文多模態(tài)NER數(shù)據(jù)集

A Large-Scale Chinese Multimodal NER Dataset with Speech Clues

論文地址:https://aclanthology.org/2021.acl-long.218/

這篇文章對(duì)于融合文本和語(yǔ)音多模態(tài)的中文命名實(shí)體識(shí)別進(jìn)行了探索。文章首先構(gòu)建了一個(gè)大規(guī)模的中文多模態(tài)嵌套命名實(shí)體識(shí)別數(shù)據(jù)集CNERTA,并提出了一個(gè)多模態(tài)多任務(wù)的模型,通過(guò)引入一個(gè)speech-to-text對(duì)齊的輔助任務(wù)來(lái)利用語(yǔ)音模態(tài)中蘊(yùn)含的停頓信息進(jìn)而有助于分詞。實(shí)驗(yàn)顯示論文提出的模型在CNERTA上達(dá)到了SOTA效果。

提高模型泛化能力:中文命名實(shí)體識(shí)別案例研究

Improving Model Generalization: A Chinese Named Entity Recognition Case Study

論文地址:https://aclanthology.org/2021.acl-short.125/

這篇論文主要研究了數(shù)據(jù)集中的數(shù)據(jù)偏差對(duì)于模型泛化能力的影響。文章通過(guò)分析五個(gè)基準(zhǔn)中文NER數(shù)據(jù)集,確定了兩種可能影響模型泛化能力的數(shù)據(jù)偏差,并提出一種實(shí)體重新平衡法來(lái)改進(jìn)訓(xùn)練集,從而提升模型泛化能力。

論文細(xì)節(jié)

1

論文動(dòng)機(jī)

命名實(shí)體識(shí)別需要對(duì)實(shí)體在句子中的邊界和實(shí)體類(lèi)別進(jìn)行識(shí)別。與英文相比,中文沒(méi)有顯性的詞邊界、實(shí)體邊界以及時(shí)態(tài)信息,因此中文命名實(shí)體識(shí)別更具挑戰(zhàn)性。目前中文命名實(shí)體識(shí)別的SOTA性能與英文差了將近10%的F1值。

這篇文章試圖從增強(qiáng)實(shí)體邊界的識(shí)別的角度來(lái)更好地進(jìn)行中文命名實(shí)體識(shí)別。考慮到Star-Transformer獨(dú)特的星形拓?fù)浣Y(jié)構(gòu)能夠減少冗余連接,同時(shí)保留近似模擬長(zhǎng)程依賴關(guān)系的能力,因此使用Star-Transformer來(lái)構(gòu)建一個(gè)輕量級(jí)的命名實(shí)體識(shí)別基線系統(tǒng)。

在這個(gè)基線系統(tǒng)的基礎(chǔ)上,文章從兩個(gè)角度來(lái)增強(qiáng)實(shí)體的邊界信息:一是添加了一個(gè)圖注意力網(wǎng)絡(luò)層來(lái)捕捉句子、短語(yǔ)、實(shí)體內(nèi)部的依賴,從而隱式地區(qū)分邊界;二是將實(shí)體首尾的預(yù)測(cè)作為輔助任務(wù),從而顯式地區(qū)分邊界。

方法

這篇文章提出的模型將命名實(shí)體識(shí)別視作一個(gè)序列標(biāo)注任務(wù),模型整體架構(gòu)如下圖所示,包括Token embedding layer,Encoder和Decoder三個(gè)部分。模型Decoder為條件隨機(jī)場(chǎng)。

1. Token embedding layer

模型以中文詞匯作為token單位。考慮到缺少明確的詞邊界信息,為了防止分詞錯(cuò)誤的傳播,將詞的表示與字符表示相結(jié)合。從預(yù)訓(xùn)練詞向量中獲得詞匯和漢字的向量,然后將漢字向量的序列通過(guò)一個(gè)雙向GRU層,獲取雙向GRU的輸出作為漢字的表示。

最終token的表示由詞向量、字向量經(jīng)過(guò)雙向GRU的輸出以及詞性標(biāo)注拼接而成。

2. Encoder

模型的Encoder主要由三個(gè)部分構(gòu)成:作為基線的Star-Transformer、圖注意力網(wǎng)絡(luò)和基于兩個(gè)GRU的實(shí)體首尾表示層。

Star-Transformer

文章認(rèn)為對(duì)于命名實(shí)體識(shí)別任務(wù)而言,實(shí)體是稀疏的,因此沒(méi)必要總是關(guān)注所有token之間的關(guān)系。經(jīng)典的Transformer的token之間實(shí)際上是全連接的,Star-Transformer通過(guò)引入一個(gè)中繼節(jié)點(diǎn),減少潛在的冗余連接,同時(shí)保留了近似模擬長(zhǎng)程依賴關(guān)系的能力。

Star-Transformer的拓?fù)浣Y(jié)構(gòu)由一個(gè)中繼節(jié)點(diǎn)和多個(gè)衛(wèi)星節(jié)點(diǎn)構(gòu)成,第i個(gè)衛(wèi)星節(jié)點(diǎn)的狀態(tài)表示句子中第i個(gè)token,中繼節(jié)點(diǎn)充當(dāng)一個(gè)虛擬樞紐從所有的衛(wèi)星節(jié)點(diǎn)收集信息并分發(fā)信息。對(duì)于NER這種序列標(biāo)注任務(wù),取衛(wèi)星節(jié)點(diǎn)的狀態(tài)作為Star-Transformer的序列輸出。初始化時(shí),每個(gè)衛(wèi)星節(jié)點(diǎn)的狀態(tài)都由對(duì)應(yīng)token的表示初始化,中繼節(jié)點(diǎn)被初始化為所有token的均值。各節(jié)點(diǎn)更新過(guò)程如下式所示。

在更新的過(guò)程中,每個(gè)衛(wèi)星節(jié)點(diǎn)狀態(tài)的更新只與其有共邊的節(jié)點(diǎn)的上輪狀態(tài)以及該位置對(duì)應(yīng)token的表示有關(guān)。中繼節(jié)點(diǎn)的更新則取決于這一輪更新后的所有衛(wèi)星節(jié)點(diǎn)狀態(tài),以及上一輪自身的狀態(tài)。

文章在衛(wèi)星節(jié)點(diǎn)的更新過(guò)程中還加入了一個(gè)Highway Network,通過(guò)門(mén)控機(jī)制來(lái)緩解潛在的梯度問(wèn)題,從而減輕star-transformer的深度和復(fù)雜性。

此處 相當(dāng)于一個(gè)門(mén),對(duì)于衛(wèi)星節(jié)點(diǎn)的上輪狀態(tài)一部分進(jìn)行仿射變換,剩余部分直接通過(guò),再與star-transformer的多頭注意力結(jié)果相加,作為衛(wèi)星節(jié)點(diǎn)的最終更新結(jié)果。

圖注意力網(wǎng)絡(luò)

文章用于增強(qiáng)實(shí)體邊界的第一個(gè)做法是使用圖注意力網(wǎng)絡(luò)來(lái)建模詞之間的依賴關(guān)系,從而將句子、短語(yǔ)的結(jié)構(gòu)信息納入到表示中,也有助于捕捉實(shí)體內(nèi)部詞語(yǔ)之間的依賴關(guān)系,從而隱式地增強(qiáng)實(shí)體的邊界信息。圖注意力網(wǎng)絡(luò)利用注意力計(jì)算,來(lái)為與某個(gè)節(jié)點(diǎn)有關(guān)聯(lián)的所有節(jié)點(diǎn)分配不同的重要性。具體的多頭圖注意力網(wǎng)絡(luò)計(jì)算過(guò)程如下式。

基于GRU的實(shí)體首尾表示層

文章用于增強(qiáng)實(shí)體邊界的第二個(gè)做法是將實(shí)體邊界的檢測(cè)看作兩個(gè)二分類(lèi)任務(wù),亦即詞匯是否為實(shí)體之首、是否為實(shí)體之尾。使用兩個(gè)獨(dú)立的GRU層進(jìn)行這兩個(gè)輔助的二分類(lèi)任務(wù)的預(yù)測(cè),從而清晰、顯式地直接提供實(shí)體的邊界信息。

模型的Encoder輸出如下式。

而損失函數(shù)便是多任務(wù)的損失之和,包括實(shí)體標(biāo)簽序列分類(lèi)預(yù)測(cè)的交叉熵?fù)p失和兩個(gè)實(shí)體首尾分類(lèi)預(yù)測(cè)的交叉熵?fù)p失。

實(shí)驗(yàn)

實(shí)驗(yàn)語(yǔ)料庫(kù)包括三個(gè)常見(jiàn)的中文NER數(shù)據(jù)集:OntoNotes4、OntoNotes5和Weibo。對(duì)于兩個(gè)增強(qiáng)邊界信息的方法進(jìn)行了消融實(shí)驗(yàn),并將實(shí)體識(shí)別的錯(cuò)誤分成了類(lèi)型錯(cuò)誤、未識(shí)別錯(cuò)誤和邊界錯(cuò)誤這三類(lèi)。

對(duì)于配合了Highway Network的Star-Transformer,它在較小的社交媒體Weibo數(shù)據(jù)集上較為有效,優(yōu)于前面所有現(xiàn)有模型。

考慮到OntoNotes的結(jié)構(gòu)特性,它的實(shí)體都具有相似的組成,利用圖注意力網(wǎng)絡(luò)來(lái)建模實(shí)體內(nèi)部的依賴將OntoNotes的Precision分別提高了3.93%和1.62%。而引入實(shí)體首尾預(yù)測(cè)的二分類(lèi)輔助任務(wù)顯著減少了OntoNotes上的邊界錯(cuò)誤數(shù)量。同時(shí)考慮兩個(gè)增強(qiáng)方法的模型在OntoNotes的各種評(píng)價(jià)指標(biāo)上基本都達(dá)到了最好的效果,也進(jìn)一步減少了邊界錯(cuò)誤的數(shù)量。因此,所提出的邊界增強(qiáng)模型對(duì)于實(shí)體邊界和實(shí)體類(lèi)型的識(shí)別都有所提升。

對(duì)于Weibo的標(biāo)準(zhǔn)Named Entity數(shù)據(jù)集,也有與OnteNotes相似的表現(xiàn)。說(shuō)明這個(gè)邊界增強(qiáng)模型對(duì)于書(shū)面與非書(shū)面文本都有效果。

2

論文動(dòng)機(jī)

大多數(shù)關(guān)于命名實(shí)體識(shí)別的研究只依靠文本來(lái)推斷標(biāo)簽,當(dāng)文本噪聲多或是較短時(shí),僅憑文本信息不足以準(zhǔn)確定位和分類(lèi)命名實(shí)體,因此可以考慮引入其他模態(tài)作為文本模態(tài)的補(bǔ)充。而目前已有的多模態(tài)命名實(shí)體識(shí)別多是在融合文本模態(tài)與視覺(jué)模態(tài),且研究大多局限于英語(yǔ)。目前的中文命名實(shí)體識(shí)別研究都完全忽略了有價(jià)值的多模態(tài)信息。

文章認(rèn)為語(yǔ)音模態(tài)在中文命名實(shí)體識(shí)別中能夠起到獨(dú)特作用,特別是能提供精確的分詞信息。因?yàn)檎Z(yǔ)音模態(tài)所包含的線索有相鄰詞匯之間的停頓,從而可以幫助模型確定詞邊界。例如在“南京市長(zhǎng)江大橋”這個(gè)句子中,傳統(tǒng)中文NER模型可能打出地點(diǎn)“南京市”和地點(diǎn)“長(zhǎng)江大橋”的標(biāo)簽,也可能打出地點(diǎn)“南京”和人名“江大橋”的標(biāo)簽;

而這兩種標(biāo)簽所對(duì)應(yīng)的句子發(fā)音與停頓實(shí)際上是大有不同的,如果有對(duì)應(yīng)的語(yǔ)音信息的輔助,模型便能夠更好地確定分詞信息,繼而更好地確定實(shí)體邊界。文章試圖在訓(xùn)練過(guò)程中將文本和對(duì)應(yīng)的語(yǔ)音進(jìn)行對(duì)齊,找到每個(gè)漢字在語(yǔ)音中的位置,從而利用語(yǔ)音中的停頓等信息來(lái)輔助詞邊界的確定。

方法

中文多模態(tài)NER數(shù)據(jù)集構(gòu)建

由于以往沒(méi)有融合語(yǔ)音信息的NER研究,也沒(méi)有中文多模態(tài)NER研究,文章首先構(gòu)建了一個(gè)大規(guī)模的中文語(yǔ)音多模態(tài)NER數(shù)據(jù)集CNERTA。CNERTA包含文本及其命名實(shí)體標(biāo)注,以及文本對(duì)應(yīng)的語(yǔ)音。CNERTA中標(biāo)注了人名、地點(diǎn)和組織這三類(lèi)命名實(shí)體,也對(duì)所有嵌套實(shí)體進(jìn)行了標(biāo)注。

基線系統(tǒng)

文章選取了三類(lèi)基線系統(tǒng):

基于字符的模型:BiLSTM-CRF、BERT-CRF、MacBERT-CRF

詞匯增強(qiáng)模型:Lattice-LSTM、ZEN

多模態(tài)模型:Cross-Modal Attention Module (CMA)、Multimodal Interaction Module (MMI)

多模態(tài)多任務(wù)NER模型M3T

在語(yǔ)音嵌入方面,首先將語(yǔ)音信號(hào)進(jìn)行特定的處理,包括預(yù)加重、分幀加窗、短時(shí)傅立葉變換STFT等,并計(jì)算filter banks等特征。然后經(jīng)過(guò)兩個(gè)在時(shí)間和頻率上的卷積對(duì)語(yǔ)音特征進(jìn)行下采樣,并通過(guò)一個(gè)Transformer的Encoder來(lái)建模依賴,最后得到語(yǔ)音的特征序列。

M3T使用了一個(gè)CMA模塊(Cross-Modal Attention Module)來(lái)融合文本與語(yǔ)音的信息。將文本特征序列作為query,語(yǔ)音特征序列作為key和value計(jì)算多頭注意力,從而得到經(jīng)過(guò)語(yǔ)音特征增強(qiáng)的新的文本表示。具體計(jì)算如下式。

其中LN為層歸一化,F(xiàn)FN為全連接的前饋神經(jīng)網(wǎng)絡(luò),由兩個(gè)帶有ReLU激活的線性變換組成。CMA的輸出即可送入條件隨機(jī)場(chǎng)進(jìn)行解碼推斷NER標(biāo)簽。

CMA雖然能夠融合文本和語(yǔ)音模態(tài),但并沒(méi)有對(duì)文本和語(yǔ)音進(jìn)行對(duì)齊。因此論文還引入了一個(gè)CTC(Connectionist Temporal Classification)層作為輔助任務(wù),來(lái)幫助進(jìn)行文本和語(yǔ)音的對(duì)齊,找到每個(gè)漢字在語(yǔ)音中的位置。

在CTC層中,每一幀的語(yǔ)音先被映射到字典+空格的空間上,然后經(jīng)過(guò)一個(gè)logit函數(shù)得到一個(gè)(|V|+1)*t維的矩陣G,其中|V|是字典規(guī)模,t為語(yǔ)音幀數(shù),并將對(duì)應(yīng)文本中沒(méi)有出現(xiàn)過(guò)的字進(jìn)行mask。

CTC的解碼過(guò)程取每幀上概率最大的字作為該幀上預(yù)測(cè)的輸出,可能是漢字、標(biāo)點(diǎn)也可能是空格。然后CTC將沒(méi)有被空格隔開(kāi)的相同的字合并,最后將空格移除得到預(yù)測(cè)的漢字序列,最終實(shí)現(xiàn)從語(yǔ)音到文本的對(duì)齊,進(jìn)而納入語(yǔ)音中的停頓等信息。

這個(gè)masked G可以計(jì)算出CTC loss。整個(gè)模型使用的混合損失便由條件隨機(jī)場(chǎng)損失和CTC損失組成,如下式,其中為超參數(shù)。

實(shí)驗(yàn)

引入語(yǔ)音模態(tài)可以顯著提高基于字符的模型的性能,即使是使用簡(jiǎn)單的CMA也能在所有Flat NER和嵌套NER中帶來(lái)超過(guò)1.6%的F1提升,而使用M3T則能夠帶來(lái)超過(guò)3%的提升;

引入語(yǔ)音模態(tài)也可以提高詞匯增強(qiáng)模型的性能,例如對(duì)于ZEN。使用CMA能夠在Flat NER和嵌套NER中帶來(lái)1.38%和1.73%的F1提升,而M3T模型能讓它們的性能提升2.93%和3.19%。雖然提升沒(méi)有基于字符的模型那么顯著,但仍證明了語(yǔ)音模態(tài)可以提供一些大規(guī)模詞典中未包含的信息;

論文所提出的M3T模型能夠在CNERTA數(shù)據(jù)集中實(shí)現(xiàn)SOTA效果,論文推測(cè)這些改進(jìn)來(lái)源于CTC捕捉到的語(yǔ)音模態(tài)與文本模態(tài)之間的單調(diào)對(duì)齊關(guān)系,有了對(duì)齊信息,模型就可以利用語(yǔ)音中包含的顯性詞邊界信息。

文章也進(jìn)一步分析了命名實(shí)體識(shí)別的錯(cuò)誤來(lái)源,將錯(cuò)誤分為類(lèi)型錯(cuò)誤和邊界錯(cuò)誤,類(lèi)型錯(cuò)誤指邊界正確但預(yù)測(cè)類(lèi)型錯(cuò)誤,其余情況都被歸為邊界錯(cuò)誤。

可見(jiàn)通過(guò)論文的M3T模型來(lái)融合語(yǔ)音模態(tài)可以有效地減少邊界錯(cuò)誤的數(shù)量。

3

論文動(dòng)機(jī)

通過(guò)分析五個(gè)常用的中文NER數(shù)據(jù)集,文章提出在中文NER數(shù)據(jù)集中廣泛存在著兩類(lèi)數(shù)據(jù)偏差問(wèn)題:

中文NER驗(yàn)證集/測(cè)試集中50-70%的實(shí)體都在訓(xùn)練集中出現(xiàn)過(guò),因而驗(yàn)證集/測(cè)試集實(shí)際上難以評(píng)估模型的真實(shí)泛化能力。論文定義了一個(gè)稱為實(shí)體覆蓋率的度量來(lái)量化驗(yàn)證集/測(cè)試集中可見(jiàn)實(shí)體的程度,

其中是一個(gè)獲取實(shí)體列表的函數(shù)。五個(gè)中文NER數(shù)據(jù)集中實(shí)體覆蓋率情況如表所示,可見(jiàn)實(shí)體占了很大的比例。

大多數(shù)NER數(shù)據(jù)集都由少數(shù)fat-head實(shí)體主導(dǎo),即出現(xiàn)頻率異常高的實(shí)體。例如在Cluener的組織類(lèi)別中,曼聯(lián)出現(xiàn)了59次,而法蘭克福只出現(xiàn)了1次。這樣可能鼓勵(lì)模型單純記住這些出現(xiàn)頻率高的實(shí)體,而不是在訓(xùn)練過(guò)程中利用上下文學(xué)習(xí)該實(shí)體類(lèi)別的模式。

論文提到這是因?yàn)樵诮o定相同實(shí)體和不同上下文的情況下,模型收斂最簡(jiǎn)單的方式是記住實(shí)體,而非從不同的上下文中提取模式。論文使用實(shí)體出現(xiàn)頻率的峰度度量數(shù)據(jù)集的fat-head程度,如下表所示。數(shù)據(jù)集中絕大部分類(lèi)別的峰度超過(guò)3,部分類(lèi)別峰度極高乃至超過(guò)1000。總體來(lái)說(shuō),頻率最高的前1%的實(shí)體貢獻(xiàn)了21%的出現(xiàn)次數(shù)。fat-head實(shí)體的現(xiàn)象在中文NER數(shù)據(jù)集中很?chē)?yán)重。

方法

文章首先通過(guò)從驗(yàn)證集和測(cè)試集中排除所有可見(jiàn)實(shí)體來(lái)改進(jìn)驗(yàn)證集與測(cè)試集。然后提出了一種實(shí)體重新平衡方法,使同一類(lèi)別內(nèi)的實(shí)體均勻分布,從而避免該類(lèi)別的實(shí)體模式被fat-head實(shí)體主導(dǎo)。

論文提出實(shí)體重新平衡法主要是出于認(rèn)為多數(shù)情況下同一類(lèi)別內(nèi)的不同實(shí)體在語(yǔ)義上可互換,使得實(shí)體均勻分布后將鼓勵(lì)模型利用上下文信息,因?yàn)椴辉儆衼?lái)自分布不均勻的簡(jiǎn)單規(guī)律可利用。

在實(shí)體重新平衡法中,首先對(duì)需要平衡的類(lèi)別構(gòu)建一個(gè)實(shí)體counter,然后將其轉(zhuǎn)化為一個(gè)balanced counter,使得出現(xiàn)次數(shù)最多和最少的實(shí)體次數(shù)之間最大差值僅為1。隨機(jī)替換fat-head實(shí)體,將該類(lèi)別的原始實(shí)體分布轉(zhuǎn)化為balanced counter中的均勻分布。具體步驟見(jiàn)下方偽代碼。

實(shí)驗(yàn)

實(shí)驗(yàn)使用的統(tǒng)一模型架構(gòu)為BERT+CRF。實(shí)驗(yàn)結(jié)果見(jiàn)下表,其中Baseline列使用原始訓(xùn)練數(shù)據(jù),Proposed列使用實(shí)體重新平衡后的訓(xùn)練數(shù)據(jù),它們都在排除所有可見(jiàn)實(shí)體的驗(yàn)證集和測(cè)試集上進(jìn)行調(diào)參與測(cè)試。

在五個(gè)數(shù)據(jù)集的大部分類(lèi)別中,文章提出的實(shí)體平衡算法都能夠提高模型識(shí)別不可見(jiàn)實(shí)體的能力。但也有例外,例如Cluener中的address,論文給出的解釋是address類(lèi)別可能包含特定的地緣政治實(shí)體,它們?cè)谡Z(yǔ)義上不可互換,因此算法會(huì)失效;在Resume數(shù)據(jù)集上效果也不佳,論文給出的解釋是簡(jiǎn)歷的結(jié)構(gòu)串聯(lián)性不強(qiáng),可利用的上下文知識(shí)很少。

因此,論文也總結(jié)了提出的實(shí)體平衡算法有效的條件:首先,同一類(lèi)別的實(shí)體需要在語(yǔ)義上可以互換;其次,實(shí)體應(yīng)當(dāng)依賴上下文信息。

來(lái)自:復(fù)旦DISC

作者:石靄青

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)音
    +關(guān)注

    關(guān)注

    3

    文章

    399

    瀏覽量

    38713
  • Gru
    Gru
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    7649
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25453

原文標(biāo)題:【ACL2021】基于邊界檢測(cè)增強(qiáng)的中文命名實(shí)體識(shí)別

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Arm產(chǎn)品命名體系的演變

    繼 Arm 首席執(zhí)行官 Rene Haas 宣布 Arm 推出新的產(chǎn)品命名體系后,本文將為你詳解新的計(jì)算平臺(tái)名稱,以及新命名體系內(nèi)的新 IP 名稱標(biāo)識(shí)。
    的頭像 發(fā)表于 06-19 10:38 ?419次閱讀
    Arm產(chǎn)品<b class='flag-5'>命名</b>體系的演變

    基于LockAI視覺(jué)識(shí)別模塊:C++目標(biāo)檢測(cè)

    檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)關(guān)鍵任務(wù),它不僅需要識(shí)別圖像中存在哪些對(duì)象,還需要定位這些對(duì)象的位置。具體來(lái)說(shuō),目標(biāo)檢測(cè)算法會(huì)輸出每個(gè)檢測(cè)到的對(duì)象的邊界
    發(fā)表于 06-06 14:43

    基于LockAI視覺(jué)識(shí)別模塊:C++輪廓檢測(cè)

    中的邊界信息。 直線檢測(cè)識(shí)別圖像中的直線結(jié)構(gòu)。 圓檢測(cè)識(shí)別圖像中的圓形結(jié)構(gòu)。 多邊形擬合:將輪廓擬合成多邊形以簡(jiǎn)化形狀描述。 1.2
    發(fā)表于 05-22 10:05

    從安防到元宇宙:RK3588如何重塑視覺(jué)感知邊界?

    定義圖像處理的精度與效率。 應(yīng)用場(chǎng)景深度解析: 智能安防:在智慧園區(qū)部署中,單板可同時(shí)接入32路1080P攝像頭,通過(guò)AI算法實(shí)現(xiàn)人臉識(shí)別、異常行為檢測(cè),并實(shí)時(shí)壓縮傳輸至云端,帶寬占用降低40%。 AR
    發(fā)表于 04-07 16:11

    CLRC663如何增強(qiáng)對(duì)RFID標(biāo)簽ic的識(shí)別距離?

    我現(xiàn)在在使用clrc663通過(guò)ISO15693協(xié)議識(shí)別rifd標(biāo)簽 ic無(wú)線圈(尺寸5*5mm),我現(xiàn)在的方案識(shí)別距離很短接近0時(shí)才能識(shí)別,我這邊需要將識(shí)別距離提升至10mm,想知道通
    發(fā)表于 03-17 07:50

    請(qǐng)問(wèn)關(guān)于ADS5407內(nèi)部寄存器有沒(méi)有相關(guān)的中文介紹的?

    請(qǐng)問(wèn)關(guān)于ADS5407內(nèi)部寄存器有沒(méi)有相關(guān)的中文介紹的?其中有幾個(gè)寄存器的功能不是特別明白,麻煩啦
    發(fā)表于 01-17 07:36

    貼片共模電感的命名規(guī)格、特征及應(yīng)用

    命名規(guī)格、主要特征及其應(yīng)用領(lǐng)域。 一、命名規(guī)格 貼片共模電感的命名規(guī)格通常遵循一定的行業(yè)規(guī)范,以便工程師能夠快速識(shí)別并理解產(chǎn)品的基本參數(shù)。以TDK品牌的某型號(hào)共模電感為例,其
    的頭像 發(fā)表于 11-27 15:31 ?1242次閱讀

    臺(tái)灣華科貼片電容的命名及封裝

    臺(tái)灣華科(YAGEO)貼片電容的命名規(guī)則及封裝方式相對(duì)復(fù)雜但富有邏輯性,以下是對(duì)其命名規(guī)則及封裝方式的詳細(xì)歸納: 命名規(guī)則 臺(tái)灣華科貼片電容的命名通常包含多個(gè)部分,每個(gè)部分代表不同的信
    的頭像 發(fā)表于 11-13 14:59 ?896次閱讀
    臺(tái)灣華科貼片電容的<b class='flag-5'>命名</b>及封裝

    如何使用ar增強(qiáng)現(xiàn)實(shí)體驗(yàn)

    增強(qiáng)現(xiàn)實(shí)(AR)技術(shù)近年來(lái)得到了迅速發(fā)展,它通過(guò)在用戶的現(xiàn)實(shí)世界視野中疊加計(jì)算機(jī)生成的圖像、視頻或信息,為用戶提供了一種全新的交互方式。這種技術(shù)已經(jīng)被廣泛應(yīng)用于游戲、教育、零售、醫(yī)療等多個(gè)領(lǐng)域
    的頭像 發(fā)表于 11-11 10:03 ?1633次閱讀

    LMX2594如何降低整數(shù)邊界雜散?

    我的參考頻率為80MHz,鑒相頻率為160MHz,現(xiàn)在雜散為80 的整數(shù)倍,是否為整數(shù)邊界雜散?如何降低整數(shù)邊界雜散?如何計(jì)算哪些點(diǎn)的整數(shù)邊界雜散高?哪些點(diǎn)的整數(shù)邊界雜散低?
    發(fā)表于 11-11 08:02

    風(fēng)華貼片瓷介電容型號(hào)識(shí)別命名方法

    風(fēng)華貼片瓷介電容的型號(hào)識(shí)別命名方法主要包括以下幾個(gè)關(guān)鍵部分,以下將按照清晰的結(jié)構(gòu)進(jìn)行分點(diǎn)表示和歸納: 1、封裝尺寸 : 常見(jiàn)的封裝尺寸包括0201、0402、0603、0805、1206等,這些
    的頭像 發(fā)表于 11-05 16:16 ?1161次閱讀
    風(fēng)華貼片瓷介電容型號(hào)<b class='flag-5'>識(shí)別</b>及<b class='flag-5'>命名</b>方法

    電池的檢測(cè)標(biāo)準(zhǔn)是哪些?關(guān)于電池檢測(cè)標(biāo)準(zhǔn)全目錄!

    關(guān)于重金屬的檢測(cè)1電池中鉛、鎘檢測(cè)標(biāo)準(zhǔn)2006/66/EC歐盟關(guān)于電池和蓄電池中有害物質(zhì)的限令EPA3052:1996硅土和有機(jī)質(zhì)的微波輔助酸消解EPA200.8ICP-MS法
    的頭像 發(fā)表于 10-18 14:19 ?1734次閱讀
    電池的<b class='flag-5'>檢測(cè)</b>標(biāo)準(zhǔn)是哪些?<b class='flag-5'>關(guān)于</b>電池<b class='flag-5'>檢測(cè)</b>標(biāo)準(zhǔn)全目錄!

    級(jí)聯(lián)4個(gè)AIC10,但是在硬件識(shí)別檢測(cè)時(shí),每次檢測(cè)到的AIC10Num不是4,這是為什么?

    關(guān)于AIC10級(jí)聯(lián)模式如下所示:本次需求是級(jí)聯(lián)4個(gè)AIC10,但是在硬件識(shí)別檢測(cè)時(shí),每次檢測(cè)到的AIC10Num不是4,這是為什么?硬件識(shí)別
    發(fā)表于 10-17 08:28

    人流量檢測(cè)識(shí)別攝像頭

    人流量檢測(cè)識(shí)別攝像頭是一種結(jié)合了監(jiān)控?cái)z像技術(shù)和智能分析技術(shù)的先進(jìn)設(shè)備,旨在通過(guò)實(shí)時(shí)監(jiān)測(cè)和分析監(jiān)控畫(huà)面中人員的數(shù)量、密度、流動(dòng)方向等信息,識(shí)別不同人群特征并進(jìn)行統(tǒng)計(jì)分析。這種攝像頭在商業(yè)零售、公共安全
    的頭像 發(fā)表于 09-25 10:58 ?823次閱讀
    人流量<b class='flag-5'>檢測(cè)</b><b class='flag-5'>識(shí)別</b>攝像頭

    越界智能監(jiān)測(cè)攝像機(jī)

    圖像,并通過(guò)人工智能技術(shù)進(jìn)行快速準(zhǔn)確的邊界檢測(cè),為安防管理提供重要支持。首先,越界智能監(jiān)測(cè)攝像機(jī)具有高效的圖像識(shí)別功能。通過(guò)先進(jìn)的圖像處理算法,可以快速準(zhǔn)確地識(shí)別
    的頭像 發(fā)表于 09-05 11:06 ?526次閱讀
    越界智能監(jiān)測(cè)攝像機(jī)