1. 寫在前面
模型“好”與“壞”的評價指標(biāo)直接由業(yè)務(wù)目標(biāo)/任務(wù)需求決定。我們需要做的是:根據(jù)具體的業(yè)務(wù)目標(biāo)/任務(wù)需求去選擇相應(yīng)的評價指標(biāo),繼而選出符合業(yè)務(wù)目標(biāo)/任務(wù)需求的好模型。在此之前,我們需要全面了解一個任務(wù)的評價指標(biāo)體系。
在二分類任務(wù)評價指標(biāo)(上)中,我們已經(jīng)學(xué)習(xí)了如何利用混淆矩陣來計算二分類的精度、錯誤率指標(biāo)。今天,我們繼續(xù)來學(xué)習(xí)二分類任務(wù)的其他評價指標(biāo)。
2. 查準率、查全率
2.1 精度、錯誤率指標(biāo)的局限
acc(精度、準確率)、error_rate(錯誤率)是分類任務(wù)中最常用的性能評價指標(biāo),多數(shù)情況下使用精度、錯誤率是合適的選擇。比如,在「好瓜壞瓜」的西瓜問題中,如果我們關(guān)心的僅是“有多少西瓜被判別正確或錯誤”,那么精度和錯誤率就很適合。
但是,如果我們關(guān)心的是“被我們判別為好瓜的西瓜中有多少比例是真正的好瓜”或“所有真正的好瓜中有多少比例的西瓜被我們判斷為好瓜”時,精度和錯誤率就不適合了。
再比如,在工業(yè)生產(chǎn)的「機器故障」預(yù)測應(yīng)用中,業(yè)務(wù)目標(biāo)是希望模型能將機器所有發(fā)生故障的時間預(yù)測出來,顯然精度指標(biāo)并不適合這樣的場景。為什么呢?
首先,我們知道精度衡量的是分類正確的樣本數(shù)占總樣本數(shù)的比例,然而通常來說機器發(fā)生故障的次數(shù)是比較少的(比如只有2%的時間發(fā)生故障)。那么,即便每次機器發(fā)生故障時模型都預(yù)測錯誤,它的精度也可高達到98%。這樣一個模型完全就是一個擺設(shè),在實際生產(chǎn)中毫無用處。
2.2 查準率、查全率
在上面精度、錯誤率不適用的場景中,查準率(精確率,Precision,P)和查全率(召回率,recall,R)是更適合的模型評價指標(biāo)。
2.2.1 查準率、查全率指標(biāo)定義
我們還是利用混淆矩陣來計算二分類任務(wù)的查準率和查全率。
真實類別 | 預(yù)測類別 | |
正例 | 負例 | |
正例 | TP(真正例) | FN(假負例) |
負例 | FP(假正例) | TN(真負例) |
假設(shè)我們有如上混淆矩陣,那么查準率的定義如下:
即查準率是預(yù)測正確的正例(TP)占所有預(yù)測為正例的樣本(TP+FP)的比例。
查全率定義如下:
即查全率是預(yù)測正確的正例(TP)占總正例(TP+FN)的比例。
2.2.2 查準率、查全率含義
在「好瓜壞瓜」西瓜問題中:
查準率:衡量了“被判別為好瓜的西瓜中有多少比例是真正的好瓜” ;
查全率:衡量了“所有真正的好瓜中有多少比例被判斷為好瓜” ;
在「機器故障預(yù)測」問題中:
查準率:衡量了“被預(yù)測發(fā)生故障的時間中有多少比例確實發(fā)生了故障” ;
查全率:衡量了“機器發(fā)生故障的所有時間中有多少比例被預(yù)測出來了” ;
類似的,在「信息檢索/web搜索」中:
查準率:衡量了“檢索出的信息中有多少比例是用戶真正感興趣的”
查全率:衡量了“用戶感興趣的信息中有多少比例被檢索出來了”
在「垃圾郵件檢測」中:
查準率:衡量了“被預(yù)測為垃圾郵件的所有郵件中有多少比例的確是垃圾郵件”
查全率:衡量了“所有垃圾郵件中有多少比例被檢測出來了”
在「詐騙電話檢測」中:
查準率:衡量了“被預(yù)測為詐騙電話的來電中有多少比例是詐騙電話”
查全率:衡量了“所有詐騙電話中有多少比例被檢測出來了”
2.2.3 查準率、查全率的矛盾
我們當(dāng)然希望模型不僅有高查準率,也有高查全率。但事實上,查準率與查全率通常情況下是相互矛盾的,或者說查準率、查全率是一對相互矛盾的指標(biāo)。
知乎上有個例子可以幫助我們直觀地理解這個“矛盾性”。假設(shè)我們的模型是找到人群中隱藏的壞人,那么:
看重查全率: “寧可錯殺一千,不可漏過一個”。
看重查準率: “寧可漏過壞人,不可錯殺無辜的好人”。
更具體地,比如在「好瓜壞瓜」西瓜問題中,假設(shè)“好瓜”和“壞瓜”并沒有那么容易區(qū)分(復(fù)雜問題),這時要想獲得高查全率,就需要降低篩選標(biāo)準,極端一點我們將所有西瓜都預(yù)測為好瓜,那么查全率就是100%,但是查準率就很低;而要想獲得高查準率,就需要提高篩選標(biāo)準,極端一點我們只將一個最有把握的西瓜預(yù)測為好瓜,并且預(yù)測準確了,那么查準率就是100%,但是查全率就很低。
3.
既然查準率、查全率是一對相互矛盾的指標(biāo),我們就需要明確在不同的業(yè)務(wù)目標(biāo)/任務(wù)需求中到底是希望查準率比較高還是查全率比較高。
3.1
當(dāng)然,在二分類任務(wù)中,我們也有綜合考慮了查準率和查全率的評價指標(biāo) F-Mesure(F-Score, ),它的定義如下:
其中 ()可視為權(quán)重參數(shù),它度量了查準率和查全率的相對重要性。換句話說是查準率和查全率的加權(quán)調(diào)和平均。
由上式 的倒數(shù)的定義可知,當(dāng) 時,相當(dāng)于查全率被放大了,所以查全率有更大的影響;當(dāng) 時,相當(dāng)于查全率被縮小了,所以準率有更大的影響。
也就是說:
:更看重查全率指標(biāo)。
:更看重查準率指標(biāo)。
3.2 F1
在 中,當(dāng) 時,也退化成了我們常見的 指標(biāo):
顯然,根據(jù)下面的等價形式,可以知道在F1指標(biāo)中,查準率和查全率同樣重要:
編輯:何安
-
矩陣
+關(guān)注
關(guān)注
1文章
434瀏覽量
35126 -
模型
+關(guān)注
關(guān)注
1文章
3504瀏覽量
50193
原文標(biāo)題:、
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
什么是數(shù)據(jù)指標(biāo)體系?如何設(shè)計指標(biāo)體系?
什么是數(shù)據(jù)指標(biāo)體系?如何設(shè)計指標(biāo)體系
AHP法在城市政府管理評估指標(biāo)體系中的應(yīng)用
信息系統(tǒng)可生存性定量評估的指標(biāo)體系
供需鏈仿真系統(tǒng)功能評價體系分析
預(yù)警指標(biāo)體系的本體建模及其應(yīng)用
知識型員工任務(wù)評價信息系統(tǒng)的指標(biāo)模型
公共部門績效評價軟件的指標(biāo)適應(yīng)性技術(shù)
基于標(biāo)準的系統(tǒng)安全測試指標(biāo)體系的研究
模糊理論與層次分析法的網(wǎng)絡(luò)學(xué)習(xí)評價

機械行業(yè)清潔生產(chǎn)評價指標(biāo)體系
網(wǎng)絡(luò)安全態(tài)勢要素指標(biāo)體系研究
多指標(biāo)評價系統(tǒng)設(shè)計與實現(xiàn)

評論