一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何計(jì)算模型對(duì)預(yù)測結(jié)果的信心

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2022-09-28 11:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在很多問題中,獲取標(biāo)注準(zhǔn)確的大量數(shù)據(jù)需要很高的成本,這也往往限制了深度學(xué)習(xí)的應(yīng)用。主動(dòng)學(xué)習(xí)通過對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行篩選,可以利用少量的標(biāo)注數(shù)據(jù)取得較高的學(xué)習(xí)準(zhǔn)確度。本文將提供代碼實(shí)現(xiàn),展示實(shí)驗(yàn)效果及一些思考。

1. 原理

通過命名實(shí)體識(shí)別模型對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行預(yù)測,根據(jù)不同的評(píng)價(jià)標(biāo)準(zhǔn)計(jì)算模型對(duì)該數(shù)據(jù)預(yù)測結(jié)果的信心(概率)。對(duì)于信心較低的樣本,往往包含模型更多未知的信息,挑選出這些信心較低的樣本進(jìn)行優(yōu)先標(biāo)注。更詳細(xì)的原理可以閱讀參考文章:基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別[1](這篇小喵很早之前已經(jīng)拜讀過了,非常推薦大家閱讀,相信大家一定會(huì)有所收獲)。

2. 模型設(shè)計(jì)

模型的上游采用Bert,采用最普通的序列標(biāo)注的方式,即在 token-level 進(jìn)行多標(biāo)簽分類。

另一方面,為了解決實(shí)體重疊的問題,使用 Sigmoid 代替 SoftMax。

此外,我們沒有使用 crf 層,在原論文中也沒有使用 crf 層。這樣做的原因主要是因?yàn)?strong>主動(dòng)學(xué)習(xí)是為了挑選出最有標(biāo)注價(jià)值的數(shù)據(jù),而不是為了追求模型的準(zhǔn)確率。crf 層會(huì)增加模型預(yù)測的時(shí)間,所以沒有選擇使用。

3. 如何計(jì)算模型對(duì)預(yù)測結(jié)果的信心

這里介紹論文中提及的兩種計(jì)算方式 Least Confidence(簡稱 LC)和 Maximum Normalized Log-Probality(簡稱 MNLP):

LC:是計(jì)算預(yù)測中最大概率序列的對(duì)應(yīng)概率值。

MNLP:基于 LC 并且考慮到生成中的序列長度對(duì)于不確定性的影響,我們做一個(gè) normalization(即除以每個(gè)句子的長度),概率則是用每一個(gè)點(diǎn)概率輸出的 log 值求和來代替。

在論文中作者表示 MNLP 是非常理想的方法。在實(shí)際實(shí)驗(yàn)中 MNLPLC 更為”公平“。原因是:句子越長,對(duì)于 LC 這種評(píng)價(jià)標(biāo)準(zhǔn)來說,分?jǐn)?shù)會(huì)更高;而 MNLP 不會(huì)。

但是在研究 MNLP 給出評(píng)分較高和較低的case后,會(huì)發(fā)現(xiàn) MNLP 對(duì)于句子中預(yù)測出的實(shí)體數(shù)量很敏感,如果預(yù)測出的實(shí)體很少,分?jǐn)?shù)往往很高,相對(duì)的,實(shí)體數(shù)量很多,分?jǐn)?shù)會(huì)很低。

所以本文的實(shí)現(xiàn)中提供了一種補(bǔ)償方案,在 MNLP 的基礎(chǔ)上根據(jù)實(shí)體數(shù)量進(jìn)行補(bǔ)償,讓其對(duì)實(shí)體數(shù)量不那么敏感。具體的做法是除以一個(gè)補(bǔ)償參數(shù) ,這個(gè)參數(shù)主要由句子中預(yù)測出的實(shí)體數(shù)決定。

代碼

lc_confidence=0
MNLP_confidence=0

forlableinlabels:
lc_con=1
mnlp_con=1
forlinlable:
ifl<=?0.5:
????????????????l?=?1?-?l
????????????lc_con?*=?l
????????????mnlp_con?+=?math.log(l)
????????lc_confidence?+=?lc_con???
????????MNLP_confidence?+=?mnlp_con

????MNLP_confidence?=?MNLP_confidence/(len(labels))
????entry_MNLP_confidence?=?1?-?(1?-?MNLP_confidence)/((len(res)?+?2)**0.5)?*?(2)

其中 labels 是模型對(duì)句子序列預(yù)測的結(jié)果 可以參考下圖示例。其中,單元格中的數(shù)字代表:對(duì)應(yīng)標(biāo)簽類別對(duì)當(dāng)前位置是否屬于自己類別的預(yù)測概率。

3dbdf588-398b-11ed-9e49-dac502259ad0.png

舉個(gè)例子,0.9 代表模型預(yù)測 ‘北’ 字是 ‘B-地名’ 標(biāo)簽的概率為0.9。對(duì)于B-地名標(biāo)簽來說,就有

4. 結(jié)果與思考

結(jié)果示例

"'公告編號(hào):2021-067中南紅文化集團(tuán)股份有限公司關(guān)于公司職工代表監(jiān)事辭職暨補(bǔ)選職工代表監(jiān)事的公告本公司及監(jiān)事會(huì)全體成員保證信息披露內(nèi)容真實(shí)、準(zhǔn)確和完整,沒有虛假記載、誤導(dǎo)性陳述或者重大遺漏。中南紅文化集團(tuán)股份有限公司(以下簡稱“公司”)監(jiān)事會(huì)于2021年6月11日收到公司職工代表監(jiān)事王哲女士提交的書面辭職報(bào)告。王哲女士因個(gè)人原因申請(qǐng)辭去公司第五屆監(jiān)事會(huì)職工代表監(jiān)事職務(wù)。王哲女士辭職后,不再擔(dān)任公司任何職務(wù)。截至本公告發(fā)布之日,王哲女士未持有公司股份。":{
"res":[
[
"中南紅文化集團(tuán)股份有限公司",
"職位變動(dòng)_辭職_公司"
],
[
"職工代表監(jiān)事",
"職位變動(dòng)_辭職_職位"
],
[
"王哲",
"職位變動(dòng)_辭職_人物"
]
],
"LC":217.5803241119802,
"MNLP_confidence":0.9695068267227575,
"entry_MNLP_confidence":0.9863630383404811
},
"3月31日,金剛玻璃再次發(fā)布公告,董事會(huì)于3月29日收到汕頭市公安局送達(dá)的《拘留通知書》,董事莊毓新因涉嫌違規(guī)披露、不披露重要信息罪被刑事拘留。圖片來源:深交所面對(duì)董秘辭職、董事被刑拘,金剛玻璃4月7日發(fā)布公告,公司董事會(huì)將提前換屆選舉。此前,金剛玻璃還曾因信披違規(guī)等被證監(jiān)會(huì)處罰。2020年4月,廣東證監(jiān)局對(duì)金剛玻璃下發(fā)《行政處罰決定書》和《市場禁入決定書》。經(jīng)查,2015年-2018年間,金剛玻璃存在虛增營收、利潤、貨幣資金以及未按規(guī)定披露關(guān)聯(lián)交易等違法行為。":{
"res":[
[
"金剛玻璃",
"職位變動(dòng)_辭職_公司"
]
],
"LC":219.0427916272391,
"MNLP_confidence":0.9781149683847055,
"entry_MNLP_confidence":0.9873646711056863
},

思考

通過主動(dòng)學(xué)習(xí)的結(jié)果,我們可以得到信心最少的樣本進(jìn)行標(biāo)注。同時(shí)信心最大的樣本也需要我們關(guān)注,如果這些樣本中存在明顯的錯(cuò)誤,是否我們可以認(rèn)為模型學(xué)到了一些錯(cuò)誤信息,并且特別的自信呢。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7255

    瀏覽量

    91817
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3517

    瀏覽量

    50403
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4900

    瀏覽量

    70690
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22619

原文標(biāo)題:寫在前面

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    經(jīng)濟(jì)預(yù)測模型

    該資料是由幾篇論文和一個(gè)講義組成,具體講解了回歸分析預(yù)測、時(shí)間序列預(yù)測、宏觀計(jì)量經(jīng)濟(jì)模型
    發(fā)表于 08-15 10:47

    關(guān)于BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型的確定!!

    請(qǐng)問用matlab編程進(jìn)行BP神經(jīng)網(wǎng)絡(luò)預(yù)測時(shí),訓(xùn)練結(jié)果很多都是合適的,但如何確定最合適的?且如何用最合適的BP模型進(jìn)行外推預(yù)測
    發(fā)表于 02-08 14:23

    PaddlePaddle使用預(yù)測模型預(yù)測圖片報(bào)錯(cuò)及解決方法

    PaddlePaddle使用預(yù)測模型預(yù)測圖片時(shí)出現(xiàn)輸出數(shù)據(jù)維度錯(cuò)誤
    發(fā)表于 05-31 09:39

    模型預(yù)測控制+邏輯控制

    模型預(yù)測控制(MPC)+邏輯控制(相平面分區(qū)控制)–matlab例程介紹MATLAB-模型模糊神經(jīng)網(wǎng)絡(luò)預(yù)測控制demo(訓(xùn)練數(shù)據(jù)用):鏈接:目錄構(gòu)建思想matlab simulink框
    發(fā)表于 08-17 07:09

    模型預(yù)測控制介紹

    這篇主要講一下模型預(yù)測控制,如果對(duì)PID控制了解的同學(xué),那效果更好。如果不了解PID控制,還是熟悉下比較好。模型預(yù)測控制,顧名思義,基于模型
    發(fā)表于 08-18 06:21

    什么是有限集模型預(yù)測控制

    應(yīng)用于電壓型逆變器饋電的永磁同步電機(jī)驅(qū)動(dòng)系統(tǒng)中。有限集模型預(yù)測控制在當(dāng)前控制周期內(nèi)對(duì)每個(gè)開關(guān)狀態(tài)所產(chǎn)生的電機(jī)輸出結(jié)果進(jìn)行預(yù)測,將預(yù)測
    發(fā)表于 08-27 06:05

    什么是MPC模型預(yù)測控制?

    什么是MPC模型預(yù)測控制?
    發(fā)表于 11-22 06:10

    LabVIEW進(jìn)行癌癥預(yù)測模型研究

    LabVIEW進(jìn)行癌癥預(yù)測模型研究 癌癥是一種細(xì)胞異常增生的疾病。隨著年齡的增長,細(xì)胞分裂速度放緩,但癌細(xì)胞會(huì)失去控制地不斷分裂,形成可能良性或惡性的腫瘤。 2012年的國際癌癥數(shù)據(jù)顯示,新發(fā)癌癥
    發(fā)表于 12-13 19:04

    基于短波的天波傳播衰減預(yù)測模型

    摘要! 建立短波天波傳播衰減預(yù)測計(jì)算模型! 為保障短波通信電路的可靠性提供參考依據(jù)! 首先進(jìn)行傳播路徑的判別!進(jìn)而進(jìn)行頻率預(yù)測! 最后建立傳播衰減
    發(fā)表于 02-11 14:23 ?30次下載

    SVM的導(dǎo)彈命中預(yù)測模型

    戰(zhàn)數(shù)據(jù)進(jìn)行特征提取,構(gòu)建模型訓(xùn)練所需樣本庫;然后,采用改進(jìn)的AMCPSO算法對(duì)SVM中的懲罰因子C和核函數(shù)參數(shù)g進(jìn)行尋優(yōu),并用優(yōu)化后的模型對(duì)樣本進(jìn)行預(yù)測;最后,與經(jīng)典PSO算法、BP神經(jīng)網(wǎng)絡(luò)法、網(wǎng)格法構(gòu)建的
    發(fā)表于 11-27 09:36 ?1次下載

    計(jì)算優(yōu)化支持向量機(jī)的風(fēng)速預(yù)測

    經(jīng)驗(yàn)?zāi)J椒纸猓–EEMD)將原始風(fēng)電功率時(shí)間序列分解成幾個(gè)固有模態(tài)函數(shù)(IMFs);對(duì)每個(gè)IMF分量單獨(dú)建立膜計(jì)算優(yōu)化算法優(yōu)化支持向量機(jī)(MCO-SVR)的模型進(jìn)行預(yù)測;疊加全部IMF分量的預(yù)
    發(fā)表于 03-13 11:13 ?0次下載

    如何使用改進(jìn)GM模型進(jìn)行房價(jià)預(yù)測模型資料說明

    灰色GM (1, 1)模型適合對(duì)數(shù)據(jù)量較少、波動(dòng)不大的短期數(shù)據(jù)進(jìn)行預(yù)測,而馬爾可夫模型適用于數(shù)據(jù)波動(dòng)較大的預(yù)測過程的特點(diǎn),通過結(jié)合改進(jìn)的GM (1, 1)
    發(fā)表于 12-19 11:44 ?7次下載
    如何使用改進(jìn)GM<b class='flag-5'>模型</b>進(jìn)行房價(jià)<b class='flag-5'>預(yù)測</b><b class='flag-5'>模型</b>資料說明

    工作流故障并了解如何預(yù)測它們

      獲得信心:當(dāng)您開始看到有希望的結(jié)果時(shí),請(qǐng)使用團(tuán)隊(duì)內(nèi)的領(lǐng)域知識(shí)根據(jù)成本和嚴(yán)重程度預(yù)測不同的結(jié)果。在現(xiàn)有維護(hù)程序的背景下運(yùn)行預(yù)測性維護(hù)
    的頭像 發(fā)表于 06-08 09:14 ?895次閱讀
    工作流故障并了解如何<b class='flag-5'>預(yù)測</b>它們

    工作流故障并了解如何預(yù)測它們

      獲得信心:當(dāng)您開始看到有希望的結(jié)果時(shí),請(qǐng)使用團(tuán)隊(duì)內(nèi)的領(lǐng)域知識(shí)根據(jù)成本和嚴(yán)重程度預(yù)測不同的結(jié)果。在現(xiàn)有維護(hù)程序的背景下運(yùn)行預(yù)測性維護(hù)
    的頭像 發(fā)表于 07-06 15:12 ?702次閱讀
    工作流故障并了解如何<b class='flag-5'>預(yù)測</b>它們

    matlab預(yù)測模型有哪些

    環(huán)境,使其成為預(yù)測模型開發(fā)和實(shí)現(xiàn)的理想平臺(tái)。本文將詳細(xì)介紹MATLAB中常用的預(yù)測模型及其應(yīng)用。 線性回歸模型 線性回歸是一種簡單的
    的頭像 發(fā)表于 07-11 14:27 ?1356次閱讀