一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

模型任務(wù)的評價指標(biāo)體系

深度學(xué)習(xí)自然語言處理 ? 來源:AI算法小喵 ? 2023-01-11 10:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 寫在前面

模型“好”與“壞”的評價指標(biāo)直接由業(yè)務(wù)目標(biāo)/任務(wù)需求決定。我們需要做的是:根據(jù)具體的業(yè)務(wù)目標(biāo)/任務(wù)需求去選擇相應(yīng)的評價指標(biāo),繼而選出符合業(yè)務(wù)目標(biāo)/任務(wù)需求的好模型。在此之前,我們需要全面了解一個任務(wù)的評價指標(biāo)體系。

在二分類任務(wù)評價指標(biāo)(上)中,我們已經(jīng)學(xué)習(xí)了如何利用混淆矩陣來計算二分類的精度、錯誤率指標(biāo)。今天,我們繼續(xù)來學(xué)習(xí)二分類任務(wù)的其他評價指標(biāo)。

2. 查準率、查全率

2.1 精度、錯誤率指標(biāo)的局限

acc(精度、準確率)、error_rate(錯誤率)是分類任務(wù)中最常用的性能評價指標(biāo),多數(shù)情況下使用精度、錯誤率是合適的選擇。比如,在「好瓜壞瓜」的西瓜問題中,如果我們關(guān)心的僅是“有多少西瓜被判別正確或錯誤”,那么精度和錯誤率就很適合。

但是,如果我們關(guān)心的是“被我們判別為好瓜的西瓜中有多少比例是真正的好瓜”或“所有真正的好瓜中有多少比例的西瓜被我們判斷為好瓜”時,精度和錯誤率就不適合了。

再比如,在工業(yè)生產(chǎn)的「機器故障」預(yù)測應(yīng)用中,業(yè)務(wù)目標(biāo)是希望模型能將機器所有發(fā)生故障的時間預(yù)測出來,顯然精度指標(biāo)并不適合這樣的場景。為什么呢?

首先,我們知道精度衡量的是分類正確的樣本數(shù)占總樣本數(shù)的比例,然而通常來說機器發(fā)生故障的次數(shù)是比較少的(比如只有2%的時間發(fā)生故障)。那么,即便每次機器發(fā)生故障時模型都預(yù)測錯誤,它的精度也可高達到98%。這樣一個模型完全就是一個擺設(shè),在實際生產(chǎn)中毫無用處。

2.2 查準率、查全率

在上面精度、錯誤率不適用的場景中,查準率(精確率,Precision,P)和查全率(召回率,recall,R)是更適合的模型評價指標(biāo)。

2.2.1 查準率、查全率指標(biāo)定義

我們還是利用混淆矩陣來計算二分類任務(wù)的查準率和查全率。

真實類別 預(yù)測類別
正例 負例
正例 TP(真正例) FN(假負例)
負例 FP(假正例) TN(真負例)

假設(shè)我們有如上混淆矩陣,那么查準率的定義如下:

即查準率是預(yù)測正確的正例(TP)占所有預(yù)測為正例的樣本(TP+FP)的比例。

查全率定義如下:

即查全率是預(yù)測正確的正例(TP)占總正例(TP+FN)的比例。

2.2.2 查準率、查全率含義

在「好瓜壞瓜」西瓜問題中:

查準率:衡量了“被判別為好瓜的西瓜中有多少比例是真正的好瓜” ;

查全率:衡量了“所有真正的好瓜中有多少比例被判斷為好瓜” ;

在「機器故障預(yù)測」問題中:

查準率:衡量了“被預(yù)測發(fā)生故障的時間中有多少比例確實發(fā)生了故障” ;

查全率:衡量了“機器發(fā)生故障的所有時間中有多少比例被預(yù)測出來了” ;

類似的,在「信息檢索/web搜索」中:

查準率:衡量了“檢索出的信息中有多少比例是用戶真正感興趣的”

查全率:衡量了“用戶感興趣的信息中有多少比例被檢索出來了”

在「垃圾郵件檢測」中:

查準率:衡量了“被預(yù)測為垃圾郵件的所有郵件中有多少比例的確是垃圾郵件”

查全率:衡量了“所有垃圾郵件中有多少比例被檢測出來了”

在「詐騙電話檢測」中:

查準率:衡量了“被預(yù)測為詐騙電話的來電中有多少比例是詐騙電話”

查全率:衡量了“所有詐騙電話中有多少比例被檢測出來了”

2.2.3 查準率、查全率的矛盾

我們當(dāng)然希望模型不僅有高查準率,也有高查全率。但事實上,查準率與查全率通常情況下是相互矛盾的,或者說查準率、查全率是一對相互矛盾的指標(biāo)。

知乎上有個例子可以幫助我們直觀地理解這個“矛盾性”。假設(shè)我們的模型是找到人群中隱藏的壞人,那么:

看重查全率: “寧可錯殺一千,不可漏過一個”。

看重查準率: “寧可漏過壞人,不可錯殺無辜的好人”。

更具體地,比如在「好瓜壞瓜」西瓜問題中,假設(shè)“好瓜”和“壞瓜”并沒有那么容易區(qū)分(復(fù)雜問題),這時要想獲得高查全率,就需要降低篩選標(biāo)準,極端一點我們將所有西瓜都預(yù)測為好瓜,那么查全率就是100%,但是查準率就很低;而要想獲得高查準率,就需要提高篩選標(biāo)準,極端一點我們只將一個最有把握的西瓜預(yù)測為好瓜,并且預(yù)測準確了,那么查準率就是100%,但是查全率就很低。

3.

既然查準率、查全率是一對相互矛盾的指標(biāo),我們就需要明確在不同的業(yè)務(wù)目標(biāo)/任務(wù)需求中到底是希望查準率比較高還是查全率比較高。

3.1

當(dāng)然,在二分類任務(wù)中,我們也有綜合考慮了查準率和查全率的評價指標(biāo) F-Mesure(F-Score, ),它的定義如下:

其中 ()可視為權(quán)重參數(shù),它度量了查準率和查全率的相對重要性。換句話說是查準率和查全率的加權(quán)調(diào)和平均。

由上式 的倒數(shù)的定義可知,當(dāng) 時,相當(dāng)于查全率被放大了,所以查全率有更大的影響;當(dāng) 時,相當(dāng)于查全率被縮小了,所以準率有更大的影響。

也就是說:

:更看重查全率指標(biāo)。

:更看重查準率指標(biāo)。

3.2 F1

在 中,當(dāng) 時,也退化成了我們常見的 指標(biāo):

顯然,根據(jù)下面的等價形式,可以知道在F1指標(biāo)中,查準率和查全率同樣重要:

編輯:何安

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 矩陣
    +關(guān)注

    關(guān)注

    1

    文章

    434

    瀏覽量

    35126
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3504

    瀏覽量

    50193

原文標(biāo)題:、

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    什么是數(shù)據(jù)指標(biāo)體系?如何設(shè)計指標(biāo)體系?

    什么是數(shù)據(jù)指標(biāo)體系?為什么需要指標(biāo)體系?如何設(shè)計指標(biāo)體系?什么是數(shù)據(jù)分析?
    發(fā)表于 07-02 06:51

    什么是數(shù)據(jù)指標(biāo)體系?如何設(shè)計指標(biāo)體系

    什么是數(shù)據(jù)指標(biāo)體系?為什么需要指標(biāo)體系?如何去設(shè)計指標(biāo)體系?
    發(fā)表于 09-10 07:27

    AHP法在城市政府管理評估指標(biāo)體系中的應(yīng)用

    城市政府管理評估指標(biāo)體系對城市的定位、發(fā)展水平和發(fā)展方向至關(guān)重要,但是,目前國際上還沒有一套現(xiàn)成的評估指標(biāo)體系。該文引入AHP法,在眾多的城市政府管理評估指標(biāo)
    發(fā)表于 12-13 02:08 ?6次下載

    信息系統(tǒng)可生存性定量評估的指標(biāo)體系

    從內(nèi)容、攻擊階段、測定標(biāo)準等不同角度綜合分析可生存性指標(biāo),提出一種能系統(tǒng)地反映可生存性的指標(biāo)體系,給出其形式化描述和數(shù)學(xué)模型。分析與驗證結(jié)果表明,該指標(biāo)體系
    發(fā)表于 03-28 09:18 ?13次下載

    供需鏈仿真系統(tǒng)功能評價體系分析

    針對供需鏈仿真系統(tǒng)的需求分析與設(shè)計問題,在綜述國內(nèi)外供需鏈仿真系統(tǒng)功能現(xiàn)狀的基礎(chǔ)上,給出評價系統(tǒng)性能的指標(biāo)體系,基于該套評價方法對現(xiàn)有主流供需鏈仿真系統(tǒng)的功能
    發(fā)表于 04-09 09:03 ?13次下載

    預(yù)警指標(biāo)體系的本體建模及其應(yīng)用

    借鑒多目標(biāo)決策樹中規(guī)范化的思想,提出將一般指標(biāo)體系結(jié)構(gòu)規(guī)范化為由一個根節(jié)點和若干葉子節(jié)點構(gòu)成的2層多叉樹。根據(jù)領(lǐng)域本體的建模方法論,建立基于描述邏輯的指標(biāo)體系
    發(fā)表于 04-11 09:59 ?16次下載

    知識型員工任務(wù)評價信息系統(tǒng)的指標(biāo)模型

    為解決企業(yè)人才評價和成長問題,以B/S模式構(gòu)建企業(yè)任務(wù)分派、評價及分析網(wǎng)絡(luò)信息系統(tǒng)。針對企業(yè)知識型員工的任務(wù)和創(chuàng)新業(yè)績管理構(gòu)建較為實用的評價
    發(fā)表于 04-11 10:05 ?24次下載

    公共部門績效評價軟件的指標(biāo)適應(yīng)性技術(shù)

    構(gòu)建績效評價指標(biāo)體系是公共部門績效評價的基礎(chǔ)工程之一,進行績效評價前需要確立能適應(yīng)政府公共部門所處歷史時期和外部環(huán)境的績效評價
    發(fā)表于 04-14 09:14 ?7次下載

    基于標(biāo)準的系統(tǒng)安全測試指標(biāo)體系的研究

    本文從操作系統(tǒng)的安全功能出發(fā),結(jié)合CC 標(biāo)準的測評原理,按照威脅、安全目的、系統(tǒng)安全功能組件和具體指標(biāo)的順序,提出一套系統(tǒng)安全測試的全面的指標(biāo)體系,該指標(biāo)可根據(jù)需
    發(fā)表于 08-07 14:55 ?13次下載

    模糊理論與層次分析法的網(wǎng)絡(luò)學(xué)習(xí)評價

    為了更有效地評價網(wǎng)絡(luò)學(xué)習(xí)的效果,設(shè)計了一種基于層次結(jié)構(gòu)的網(wǎng)絡(luò)學(xué)習(xí)評價模型,根據(jù)模型建立了網(wǎng)絡(luò)學(xué)習(xí)評價指標(biāo)
    發(fā)表于 03-07 15:03 ?0次下載
    模糊理論與層次分析法的網(wǎng)絡(luò)學(xué)習(xí)<b class='flag-5'>評價</b>

    機械行業(yè)清潔生產(chǎn)評價指標(biāo)體系

    為了貫徹落實《中華人民共和國清潔生產(chǎn)促進法》,指導(dǎo)和推動機械行業(yè)企業(yè)依法實施清潔生產(chǎn),提高資源利用率,減少或避免污染物的產(chǎn)生,保護和改善環(huán)境,制定機械行業(yè)清潔生產(chǎn)評價指標(biāo)體系(試行)(以下簡稱指標(biāo)體系)。 本
    發(fā)表于 03-16 15:19 ?36次下載

    網(wǎng)絡(luò)安全態(tài)勢要素指標(biāo)體系研究

    針對網(wǎng)絡(luò)安全態(tài)勢評估指標(biāo)體系的不完善和難以選取及構(gòu)建等問題,以相關(guān)標(biāo)準和規(guī)范為基礎(chǔ),從系統(tǒng)安全機制出發(fā),按照既定原則,提出一種網(wǎng)絡(luò)安全態(tài)勢要素指標(biāo)體系構(gòu)建方法,并
    發(fā)表于 07-06 16:55 ?33次下載

    指標(biāo)評價系統(tǒng)設(shè)計與實現(xiàn)

    針對具有不確定性的混合多指標(biāo)評價問題,介紹了定性指標(biāo)和定量指標(biāo)的數(shù)據(jù)提取方法,結(jié)合證據(jù)推理法的基本理論,采用混合編程技術(shù),開發(fā)了證據(jù)推理評價
    發(fā)表于 11-29 11:29 ?2次下載
    多<b class='flag-5'>指標(biāo)</b><b class='flag-5'>評價</b>系統(tǒng)設(shè)計與實現(xiàn)

    基于數(shù)據(jù)挖掘的油藏經(jīng)營指標(biāo)分析

    本文針對高效經(jīng)營未開發(fā)低品位油藏是我國石油行業(yè)即將面臨的迫切任務(wù)情況,綜合使用油藏經(jīng)營思想、經(jīng)濟評價的分析方法和多種數(shù)據(jù)挖掘方法,提出了建立未開發(fā)低品位不同油藏經(jīng)營效益評價指標(biāo)體系
    發(fā)表于 01-03 16:45 ?0次下載

    指標(biāo)、建聯(lián)系、建用法,指標(biāo)體系就這樣做!

    進而,體系的缺位會導(dǎo)致組織的“數(shù)據(jù)指南針”失效。越是在大型組織當(dāng)中,指標(biāo)體系越為重要,因為決策者離一線業(yè)務(wù)較遠;公司的業(yè)務(wù)虛擬屬性越強,指標(biāo)體系越為重要,因為公司與客戶的距離較遠。
    的頭像 發(fā)表于 02-06 16:45 ?920次閱讀