閱讀綜述性論文是一種能夠快速了解某一領域的方法,接下來通過今年的一篇綜述性論文來了解一下近五年來中文電子病歷的命名實體識別研究進展。
基本的,我們應該先來了解一下兩個概念:電子病歷和命名實體識別。
電子病歷(Electronic Medical Record,EMR)是指醫(yī)務人員在醫(yī)療活動過程中,使用醫(yī)療機構信息系統(tǒng)生成的數(shù)字化信息, 并能實現(xiàn)存儲、管理、傳輸和重現(xiàn)的醫(yī)療記錄。電子病歷中的文本內(nèi)容是醫(yī)務人員按照《病歷書寫基本規(guī)范》和《電子病歷基本規(guī)范(試行)》中相關書寫規(guī)定,圍繞患者醫(yī)療需求與服務活動而記錄的描述性文本內(nèi)容。
命名實體識別(Named Entity Recognition,NER)是指識別自由文本中具有特定意義的實體,如人名、地名、專有名詞等。與通用領域的命名實體不同,電子病歷中的命名實體通常有疾病、癥狀、治療等實體。
有了上述兩個概念的了解后,接下來我們就可以來了解中文電子病歷命名實體識別的任務,它包括:
①電子病歷數(shù)據(jù)的獲取與匿名化處理;
②明確命名實體種類,進行語料標注;
③構建模型進行實體識別;
④結果評價及優(yōu)化。
以電子病歷中現(xiàn)病史章節(jié)為例,中文電子病歷命名實體識別研究任務流程如圖1所示:
從上述四個任務出發(fā),我們繼續(xù)進行探討。
1
電子病歷數(shù)據(jù)集的獲取
中文電子病歷數(shù)據(jù)的獲取途徑通常包括:
①與醫(yī)院建立合作關系,如曲春燕等通過與某醫(yī)科大學附屬醫(yī)院建立合作關系獲取到該院35個大科室、87個小科室的992份電子病歷。同時,相關醫(yī)務人員也全程參與數(shù)據(jù)標注,為數(shù)據(jù)集的質(zhì)量提供了保障。
②開放獲取的學術評測語料,如CCKS2020學術評測任務三開放了用于命名實體識別評測任務的已標注匿名化電子病歷1500份和未標注的電子病歷1000份,在電子病歷語料資源匱乏的現(xiàn)狀下,全國知識圖譜與語義計算大 會無疑為行業(yè)發(fā)展作出了巨大貢獻。 ③網(wǎng)絡發(fā)布的電子病歷資源。 當前,大多數(shù)研究采用第1種方式獲取電子病歷的研究數(shù)據(jù),并邀請醫(yī)務人員參與語料數(shù)據(jù)的標注工作;而第2、3種獲取方式具有很大的不確定性,并且電子病歷的數(shù)據(jù)標注工作過程控制和質(zhì)量控制均存在不確定性。
2
數(shù)據(jù)標注的相關工作
曲春燕等參照i2b2 2010的標注規(guī)范制定了中文電子病歷的標注規(guī)范,進而在兩名臨床醫(yī)生的全程參與下,對病歷文本分為前后共計4輪標注,并進行了一致性檢驗。楊錦鋒等在曲春燕等人的工作基礎上,對相同的病歷文本資源,進行了命名實體和實體關系的標注語料構建工作。He等在曲春燕、楊錦鋒等人的工作基礎上,新增了電子病歷文本的分詞、詞性標注、斷言、關系抽取等自然語言處理常見任務的語料標注工作,并對標注結果進行了一致性檢驗。 上述學者的延續(xù)性標注工作,對今后研究的語料標注工作具有一定的指導意義。然而,與臨床醫(yī)生長期從事語料建設和維護的難以實現(xiàn)。一方面,臨床醫(yī)生用于語料標注的時間有限;另一方面,邀請臨床醫(yī)生標注語料成本更高。因此,醫(yī)學數(shù)據(jù)標注團隊建設和專業(yè)人員培養(yǎng)的可行性值得探討。
3
主要的命名實體識別算法模型
中文命名實體識別的主要研究算法為條件隨機場(CRF)和雙向長短期記憶網(wǎng)絡模型條件隨機場(Bi-LSTM-CRF)。 Liu等設計不同特征模板和上下文窗口進行條件隨機場的學習訓練,進行模型實體識別效率的比對分析,以尋找最佳的電子病歷特征模板和上下文窗口。Liu等在i2b2 2010,2012和2014語料上實驗對比了Bi-LSTM-CRF與傳統(tǒng)的CRF實體識別算法的性能,結果表明Bi-LSTM-CRF性能較好。CCKS 2017學術評測任務二:面向電子病歷的命名實體識別,共收錄了7篇論文,研究內(nèi)容和測評結果等見表1。總體上看,7篇論文均有對Bi-LSTM-CRF(或Bi-LSTM)算法模型的實現(xiàn);均采用“字粒度”模型使用word2vec工具將輸入文本特征向量化表示。Zhang等利用CCKS 2017開放的電子病歷語料,分別采用CRFs和Bi-LSTM-CRF兩種統(tǒng)計機器學習算法從電子病歷數(shù)據(jù)集中識別疾病、身體部位和治療等信息,并對兩種方法進行了對比分析,發(fā)現(xiàn)后者性能較好。Qiu等為提高循環(huán)神經(jīng)網(wǎng)絡模型的訓練速度,提出了殘差卷積神經(jīng)網(wǎng)絡條件隨機場模型(RD-CNN-CRF)在CCKS 2017開放測試語料上獲得了較Bi-LSTM-CRF更高的訓練速度和F1值。CCKS 2018學術評測任務一:面向中文電子病歷的命名實體識別,共收錄論文2篇,分別是Yang等將詞嵌套、詞性、偏旁部首、拼音、詞典和規(guī)則特征作為條件隨機場(CRFs)的學習特征,實驗F1值為89.26%;Luo等基于多特征(如標點符號、分詞和詞典等特征)融合,整合CNN-CRF, Bi-LSTM-CRF, Bi-LSTM-CNN-CRF, Bi-LSTM+CNN-CRF和Lattice LSTM五種神經(jīng)網(wǎng)絡模型,實驗F1值最高達到了88.63%(表1)。
4
結果評價及優(yōu)化
隨著中文電子病歷命名實體識別的研究逐步深入以及相關算法框架的逐漸成熟,基于中文電子病歷的命名實體識別算法構成了臨床電子病歷系統(tǒng)、專病科研數(shù)據(jù)提取、臨床輔助決策系統(tǒng)的重要組成部分。 電子病歷命名實體識別結果評價指標說明如下圖:
袁冬生為解決出院小結文檔中普遍存在的信息不準確、無效信息、信息缺失等問題,設計開發(fā)了一套基于命名實體識別的出院小結錯誤檢測系統(tǒng)。李山為提高住院病歷錄入的交互性和可操作性,降低書寫的繁雜度,減輕醫(yī)生負荷,提高工作效率,使用條件隨機場算法,進行電子病歷命名實體識別,提取病歷中重要的診療信息,并將其應用在住院病歷錄入輔助中,以優(yōu)化和改善病歷錄入方式。Su等則基于中文電子病歷命名實體標注規(guī)范構建了一個可用于識別心血管疾病危險因素的語料庫。
展望
.....
針對電子病歷的語義特征的量化分析與研究,對于提升算法特征工程質(zhì)量有積極意義;近兩年來,針對電子病歷語料標注的成本問題,很多研究聚焦于半監(jiān)督和無監(jiān)督的算法來實現(xiàn)基于少量標注語料或完全基于非標注原始語料進行實體識別,是一個重要的研究方向。
-
電子病歷
+關注
關注
1文章
61瀏覽量
20366 -
數(shù)字化
+關注
關注
8文章
9518瀏覽量
63570 -
識別
+關注
關注
3文章
173瀏覽量
32255
原文標題:【NER綜述】近五年中文電子病歷命名實體識別研究進展
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
微雙重驅動的新型直線電機研究
氧化鎵射頻器件研究進展

多光譜圖像技術在苗期作物與雜草識別中的研究進展
汽車焊接機器人的智能控制系統(tǒng)研究進展
香港科技大學陳敬課題組揭示GaN與SiC材料的最新研究進展

二極管泵浦高能激光的研究進展(1)

電磁屏蔽高分子材料的最新研究動態(tài)與進展

石墨烯鉛蓄電池研究進展、優(yōu)勢、挑戰(zhàn)及未來方向
中山大學:在柔性觸覺傳感電子皮膚研究進展

iPhone 17設計圖曝光,或迎五年來最大變革
語音識別技術在醫(yī)療領域的應用
高能點焊電源技術在現(xiàn)代工業(yè)制造中的應用與研究進展

上海光機所在多路超短脈沖時空同步測量方面取得研究進展

評論