一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

近五年來中文電子病歷的命名實體識別研究進展

深度學習自然語言處理 ? 來源:python遇見NLP ? 2020-08-27 17:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

閱讀綜述性論文是一種能夠快速了解某一領域的方法,接下來通過今年的一篇綜述性論文來了解一下近五年來中文電子病歷的命名實體識別研究進展。

基本的,我們應該先來了解一下兩個概念:電子病歷和命名實體識別。

電子病歷(Electronic Medical Record,EMR)是指醫(yī)務人員在醫(yī)療活動過程中,使用醫(yī)療機構信息系統(tǒng)生成的數(shù)字化信息, 并能實現(xiàn)存儲、管理、傳輸和重現(xiàn)的醫(yī)療記錄。電子病歷中的文本內(nèi)容是醫(yī)務人員按照《病歷書寫基本規(guī)范》和《電子病歷基本規(guī)范(試行)》中相關書寫規(guī)定,圍繞患者醫(yī)療需求與服務活動而記錄的描述性文本內(nèi)容。

命名實體識別(Named Entity Recognition,NER)是指識別自由文本中具有特定意義的實體,如人名、地名、專有名詞等。與通用領域的命名實體不同,電子病歷中的命名實體通常有疾病、癥狀、治療等實體。

有了上述兩個概念的了解后,接下來我們就可以來了解中文電子病歷命名實體識別的任務,它包括:

①電子病歷數(shù)據(jù)的獲取與匿名化處理;

②明確命名實體種類,進行語料標注;

③構建模型進行實體識別;

④結果評價及優(yōu)化。

以電子病歷中現(xiàn)病史章節(jié)為例,中文電子病歷命名實體識別研究任務流程如圖1所示:

從上述四個任務出發(fā),我們繼續(xù)進行探討。

1

電子病歷數(shù)據(jù)集的獲取

中文電子病歷數(shù)據(jù)的獲取途徑通常包括:

①與醫(yī)院建立合作關系,如曲春燕等通過與某醫(yī)科大學附屬醫(yī)院建立合作關系獲取到該院35個大科室、87個小科室的992份電子病歷。同時,相關醫(yī)務人員也全程參與數(shù)據(jù)標注,為數(shù)據(jù)集的質(zhì)量提供了保障。

②開放獲取的學術評測語料,如CCKS2020學術評測任務三開放了用于命名實體識別評測任務的已標注匿名化電子病歷1500份和未標注的電子病歷1000份,在電子病歷語料資源匱乏的現(xiàn)狀下,全國知識圖譜與語義計算大 會無疑為行業(yè)發(fā)展作出了巨大貢獻。 ③網(wǎng)絡發(fā)布的電子病歷資源。 當前,大多數(shù)研究采用第1種方式獲取電子病歷的研究數(shù)據(jù),并邀請醫(yī)務人員參與語料數(shù)據(jù)的標注工作;而第2、3種獲取方式具有很大的不確定性,并且電子病歷的數(shù)據(jù)標注工作過程控制和質(zhì)量控制均存在不確定性。

2

數(shù)據(jù)標注的相關工作

曲春燕等參照i2b2 2010的標注規(guī)范制定了中文電子病歷的標注規(guī)范,進而在兩名臨床醫(yī)生的全程參與下,對病歷文本分為前后共計4輪標注,并進行了一致性檢驗。楊錦鋒等在曲春燕等人的工作基礎上,對相同的病歷文本資源,進行了命名實體和實體關系的標注語料構建工作。He等在曲春燕、楊錦鋒等人的工作基礎上,新增了電子病歷文本的分詞、詞性標注、斷言、關系抽取等自然語言處理常見任務的語料標注工作,并對標注結果進行了一致性檢驗。 上述學者的延續(xù)性標注工作,對今后研究的語料標注工作具有一定的指導意義。然而,與臨床醫(yī)生長期從事語料建設和維護的難以實現(xiàn)。一方面,臨床醫(yī)生用于語料標注的時間有限;另一方面,邀請臨床醫(yī)生標注語料成本更高。因此,醫(yī)學數(shù)據(jù)標注團隊建設和專業(yè)人員培養(yǎng)的可行性值得探討。

3

主要的命名實體識別算法模型

中文命名實體識別的主要研究算法為條件隨機場(CRF)和雙向長短期記憶網(wǎng)絡模型條件隨機場(Bi-LSTM-CRF)。 Liu等設計不同特征模板和上下文窗口進行條件隨機場的學習訓練,進行模型實體識別效率的比對分析,以尋找最佳的電子病歷特征模板和上下文窗口。Liu等在i2b2 2010,2012和2014語料上實驗對比了Bi-LSTM-CRF與傳統(tǒng)的CRF實體識別算法的性能,結果表明Bi-LSTM-CRF性能較好。CCKS 2017學術評測任務二:面向電子病歷的命名實體識別,共收錄了7篇論文,研究內(nèi)容和測評結果等見表1。總體上看,7篇論文均有對Bi-LSTM-CRF(或Bi-LSTM)算法模型的實現(xiàn);均采用“字粒度”模型使用word2vec工具將輸入文本特征向量化表示。Zhang等利用CCKS 2017開放的電子病歷語料,分別采用CRFs和Bi-LSTM-CRF兩種統(tǒng)計機器學習算法從電子病歷數(shù)據(jù)集中識別疾病、身體部位和治療等信息,并對兩種方法進行了對比分析,發(fā)現(xiàn)后者性能較好。Qiu等為提高循環(huán)神經(jīng)網(wǎng)絡模型的訓練速度,提出了殘差卷積神經(jīng)網(wǎng)絡條件隨機場模型(RD-CNN-CRF)在CCKS 2017開放測試語料上獲得了較Bi-LSTM-CRF更高的訓練速度和F1值。CCKS 2018學術評測任務一:面向中文電子病歷的命名實體識別,共收錄論文2篇,分別是Yang等將詞嵌套、詞性、偏旁部首、拼音、詞典和規(guī)則特征作為條件隨機場(CRFs)的學習特征,實驗F1值為89.26%;Luo等基于多特征(如標點符號、分詞和詞典等特征)融合,整合CNN-CRF, Bi-LSTM-CRF, Bi-LSTM-CNN-CRF, Bi-LSTM+CNN-CRF和Lattice LSTM五種神經(jīng)網(wǎng)絡模型,實驗F1值最高達到了88.63%(表1)。

4

結果評價及優(yōu)化

隨著中文電子病歷命名實體識別的研究逐步深入以及相關算法框架的逐漸成熟,基于中文電子病歷的命名實體識別算法構成了臨床電子病歷系統(tǒng)、專病科研數(shù)據(jù)提取、臨床輔助決策系統(tǒng)的重要組成部分。 電子病歷命名實體識別結果評價指標說明如下圖:

袁冬生為解決出院小結文檔中普遍存在的信息不準確、無效信息、信息缺失等問題,設計開發(fā)了一套基于命名實體識別的出院小結錯誤檢測系統(tǒng)。李山為提高住院病歷錄入的交互性和可操作性,降低書寫的繁雜度,減輕醫(yī)生負荷,提高工作效率,使用條件隨機場算法,進行電子病歷命名實體識別,提取病歷中重要的診療信息,并將其應用在住院病歷錄入輔助中,以優(yōu)化和改善病歷錄入方式。Su等則基于中文電子病歷命名實體標注規(guī)范構建了一個可用于識別心血管疾病危險因素的語料庫。

展望

.....

針對電子病歷的語義特征的量化分析與研究,對于提升算法特征工程質(zhì)量有積極意義;近兩年來,針對電子病歷語料標注的成本問題,很多研究聚焦于半監(jiān)督和無監(jiān)督的算法來實現(xiàn)基于少量標注語料或完全基于非標注原始語料進行實體識別,是一個重要的研究方向。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 電子病歷
    +關注

    關注

    1

    文章

    61

    瀏覽量

    20366
  • 數(shù)字化
    +關注

    關注

    8

    文章

    9518

    瀏覽量

    63570
  • 識別
    +關注

    關注

    3

    文章

    173

    瀏覽量

    32255

原文標題:【NER綜述】近五年中文電子病歷命名實體識別研究進展

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    微雙重驅動的新型直線電機研究

    摘罷:大行程、高精度,同時易于小型化的移動機構是先進制造業(yè)等領域要解決的關鍵問題之一,綜述了現(xiàn)有宏/微雙重驅動機構和直線超聲電機的研究進展和存在問題,提出了一種宏微雙重驅動新型直線壓電電機,使其既能
    發(fā)表于 06-24 14:17

    氧化鎵射頻器件研究進展

    ,首先介紹了 Ga2O3在射頻器件領域的優(yōu)勢和面臨的挑戰(zhàn),然后綜述了近年來 Ga2O3射頻器件在體摻雜溝道、AlGaO/Ga2O3調(diào)制 摻雜異質(zhì)結以及與高導熱襯底異質(zhì)集成方面取得的進展,并對研究結果進行了討論,最后展望了未來 G
    的頭像 發(fā)表于 06-11 14:30 ?750次閱讀
    氧化鎵射頻器件<b class='flag-5'>研究進展</b>

    多光譜圖像技術在苗期作物與雜草識別中的研究進展

    目前,田間雜草的識別方法主要有3種:人工識別法、遙感識別法和基于機器視覺的識別法,其中,人工識別法是世界上大多數(shù)國家和地區(qū)普遍沿用的方法,是
    的頭像 發(fā)表于 06-10 18:13 ?101次閱讀

    汽車焊接機器人的智能控制系統(tǒng)研究進展

    效率、保證焊接質(zhì)量具有重要意義。近年來,隨著人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術的發(fā)展,汽車焊接機器人的智能控制系統(tǒng)的研究取得了顯著進展,為汽車制造業(yè)帶來了新的變革。
    的頭像 發(fā)表于 02-26 14:09 ?364次閱讀

    香港科技大學陳敬課題組揭示GaN與SiC材料的最新研究進展

    基于寬禁帶半導體氮化鎵,碳化硅的最新研究進展。研究成果覆蓋功率器件技術和新型器件技術: 高速且具備優(yōu)越開關速度控制能力的3D堆疊式GaN/SiC cascode 功率器件 多年來,商業(yè)SiC
    的頭像 發(fā)表于 02-19 11:23 ?712次閱讀
    香港科技大學陳敬課題組揭示GaN與SiC材料的最新<b class='flag-5'>研究進展</b>

    二極管泵浦高能激光的研究進展(1)

    質(zhì)量這一總目標發(fā)展迅速。詳細綜述了國內(nèi)外高平均功率塊狀固體激光、高功率可見光波段激光、高峰值功率激光、高功率光纖激光、堿金屬蒸氣激光等二極管泵浦高能激光的研究進展,并對其發(fā)展趨勢進行了展望。
    的頭像 發(fā)表于 02-18 15:46 ?516次閱讀
    二極管泵浦高能激光的<b class='flag-5'>研究進展</b>(1)

    電磁屏蔽高分子材料的最新研究動態(tài)與進展

    ? ? ? ? ? ? ? ? ? ? ? ? ? 電磁屏蔽高分子材料 研究進展 ? 高分子物理 目前,國家對太空環(huán)境的研究高度重視。其中木星探測面臨極端輻射環(huán)境,傳統(tǒng)屏蔽材料難以滿足要求,需研發(fā)
    的頭像 發(fā)表于 02-18 14:13 ?908次閱讀
    電磁屏蔽高分子材料的最新<b class='flag-5'>研究</b>動態(tài)與<b class='flag-5'>進展</b>

    石墨烯鉛蓄電池研究進展、優(yōu)勢、挑戰(zhàn)及未來方向

    石墨烯鉛蓄電池是將石墨烯材料與傳統(tǒng)鉛酸電池技術相結合的研究方向,旨在提升鉛酸電池的性能(如能量密度、循環(huán)壽命、快充能力等)。以下是該領域的研究進展、優(yōu)勢、挑戰(zhàn)及未來方向: 一、石墨烯在鉛蓄電池
    的頭像 發(fā)表于 02-13 09:36 ?1157次閱讀

    中山大學:在柔性觸覺傳感電子皮膚研究進展

    研究內(nèi)容】 ? ? 中山大學衣芳教授團隊在" 科學通報"期刊上發(fā)表了題為“ 柔性觸覺傳感電子皮膚研究進展”的最新論文。本文主要綜述了近年來柔性觸覺傳感
    的頭像 發(fā)表于 02-12 17:03 ?1043次閱讀
    中山大學:在柔性觸覺傳感<b class='flag-5'>電子</b>皮膚<b class='flag-5'>研究進展</b>

    iPhone 17設計圖曝光,或迎年來最大變革

    近期,社交平臺X上流傳的一組疑似iPhone 17的工業(yè)設計圖,瞬間引發(fā)了廣泛關注和熱烈討論。這組設計圖不僅吸引了眾多科技愛好者的目光,更揭示了蘋果可能正在醞釀一場年來最具顛覆性的設計調(diào)整
    的頭像 發(fā)表于 02-10 09:30 ?781次閱讀

    語音識別技術在醫(yī)療領域的應用

    語音識別技術在醫(yī)療領域的應用已經(jīng)越來越廣泛,為醫(yī)療服務帶來了諸多便利和效率提升。以下是對語音識別技術在醫(yī)療領域應用的介紹: 一、語音病歷 語音識別技術可以將醫(yī)生或患者的語音信息轉換成文
    的頭像 發(fā)表于 11-26 09:35 ?1207次閱讀

    高能點焊電源技術在現(xiàn)代工業(yè)制造中的應用與研究進展

    制造中的最新研究進展。 一、高能點焊電源技術的基本原理及特點 高能點焊電源技術是一種利用高壓脈沖電流實現(xiàn)金屬材料瞬間熔化并完成焊接的先進工藝。其工作原理主要基于
    的頭像 發(fā)表于 11-23 08:58 ?542次閱讀
    高能點焊電源技術在現(xiàn)代工業(yè)制造中的應用與<b class='flag-5'>研究進展</b>

    上海光機所在多路超短脈沖時空同步測量方面取得研究進展

    圖1.超短脈沖時空同步實驗的光路圖 近日,中科院上海光機所高功率激光物理聯(lián)合實驗室在多路超短脈沖時間同步與空間疊合度測量方面取得研究進展,相關研究成果以“High-precision
    的頭像 發(fā)表于 11-11 06:25 ?514次閱讀
    上海光機所在多路超短脈沖時空同步測量方面取得<b class='flag-5'>研究進展</b>

    AI大模型的最新研究進展

    AI大模型的最新研究進展體現(xiàn)在多個方面,以下是對其最新進展的介紹: 一、技術創(chuàng)新與突破 生成式AI技術的爆發(fā) : 生成式AI技術正在迅速發(fā)展,其強大的生成能力使得AI大模型在多個領域得到廣泛應用
    的頭像 發(fā)表于 10-23 15:19 ?1512次閱讀

    開爾文電阻測試方法有哪些

    (William Thomson, Lord Kelvin)在1861發(fā)明,主要用于測量低阻值電阻,以消除接觸電阻和引線電阻對測量結果的影響。以下是對開爾文電阻測試方法的介紹: 一、基本原理 開爾文電阻測試方法的基本原理是在未
    的頭像 發(fā)表于 08-27 11:35 ?2395次閱讀