亚洲天堂2020av在线,亚洲欧美日韩国产一区二区三区四区,天天影视淫色人妻一区

1. 寫在前面

模型“好”與“壞”的評價指標(biāo)直接由業(yè)務(wù)目標(biāo)/任務(wù)需求決定。我們需要做的是：根據(jù)具體的業(yè)務(wù)目標(biāo)/任務(wù)需求去選擇相應(yīng)的評價指標(biāo)，繼而選出符合業(yè)務(wù)目標(biāo)/任務(wù)需求的好模型。在此之前，我們需要全面了解一個任務(wù)的評價指標(biāo)體系。

在二分類任務(wù)評價指標(biāo)（上）中，我們已經(jīng)學(xué)習(xí)了如何利用混淆矩陣來計算二分類的精度、錯誤率指標(biāo)。今天，我們繼續(xù)來學(xué)習(xí)二分類任務(wù)的其他評價指標(biāo)。

2. 查準率、查全率

2.1 精度、錯誤率指標(biāo)的局限

acc（精度、準確率）、error_rate（錯誤率）是分類任務(wù)中最常用的性能評價指標(biāo)，多數(shù)情況下使用精度、錯誤率是合適的選擇。比如，在「好瓜壞瓜」的西瓜問題中，如果我們關(guān)心的僅是“有多少西瓜被判別正確或錯誤”，那么精度和錯誤率就很適合。

但是，如果我們關(guān)心的是“被我們判別為好瓜的西瓜中有多少比例是真正的好瓜”或“所有真正的好瓜中有多少比例的西瓜被我們判斷為好瓜”時，精度和錯誤率就不適合了。

再比如，在工業(yè)生產(chǎn)的「機器故障」預(yù)測應(yīng)用中，業(yè)務(wù)目標(biāo)是希望模型能將機器所有發(fā)生故障的時間預(yù)測出來，顯然精度指標(biāo)并不適合這樣的場景。為什么呢？

首先，我們知道精度衡量的是分類正確的樣本數(shù)占總樣本數(shù)的比例，然而通常來說機器發(fā)生故障的次數(shù)是比較少的（比如只有2%的時間發(fā)生故障）。那么，即便每次機器發(fā)生故障時模型都預(yù)測錯誤，它的精度也可高達到98%。這樣一個模型完全就是一個擺設(shè)，在實際生產(chǎn)中毫無用處。

2.2 查準率、查全率

在上面精度、錯誤率不適用的場景中，查準率（精確率，Precision,P）和查全率（召回率，recall，R）是更適合的模型評價指標(biāo)。

2.2.1 查準率、查全率指標(biāo)定義

我們還是利用混淆矩陣來計算二分類任務(wù)的查準率和查全率。

真實類別	預(yù)測類別
正例	負例
正例	TP(真正例)	FN(假負例)
負例	FP(假正例)	TN(真負例)

假設(shè)我們有如上混淆矩陣，那么查準率的定義如下：

即查準率是預(yù)測正確的正例（TP）占所有預(yù)測為正例的樣本（TP+FP）的比例。

查全率定義如下：

即查全率是預(yù)測正確的正例（TP）占總正例（TP+FN）的比例。

2.2.2 查準率、查全率含義

在「好瓜壞瓜」西瓜問題中：

查準率：衡量了“被判別為好瓜的西瓜中有多少比例是真正的好瓜” ；

查全率：衡量了“所有真正的好瓜中有多少比例被判斷為好瓜” ；

在「機器故障預(yù)測」問題中：

查準率：衡量了“被預(yù)測發(fā)生故障的時間中有多少比例確實發(fā)生了故障” ；

查全率：衡量了“機器發(fā)生故障的所有時間中有多少比例被預(yù)測出來了” ；

類似的，在「信息檢索/web搜索」中：

查準率：衡量了“檢索出的信息中有多少比例是用戶真正感興趣的”

查全率：衡量了“用戶感興趣的信息中有多少比例被檢索出來了”

在「垃圾郵件檢測」中：

查準率：衡量了“被預(yù)測為垃圾郵件的所有郵件中有多少比例的確是垃圾郵件”

查全率：衡量了“所有垃圾郵件中有多少比例被檢測出來了”

在「詐騙電話檢測」中：

查準率：衡量了“被預(yù)測為詐騙電話的來電中有多少比例是詐騙電話”

查全率：衡量了“所有詐騙電話中有多少比例被檢測出來了”

2.2.3 查準率、查全率的矛盾

我們當(dāng)然希望模型不僅有高查準率，也有高查全率。但事實上，查準率與查全率通常情況下是相互矛盾的，或者說查準率、查全率是一對相互矛盾的指標(biāo)。

知乎上有個例子可以幫助我們直觀地理解這個“矛盾性”。假設(shè)我們的模型是找到人群中隱藏的壞人，那么：

看重查全率: “寧可錯殺一千，不可漏過一個”。

看重查準率: “寧可漏過壞人，不可錯殺無辜的好人”。

更具體地，比如在「好瓜壞瓜」西瓜問題中，假設(shè)“好瓜”和“壞瓜”并沒有那么容易區(qū)分（復(fù)雜問題），這時要想獲得高查全率，就需要降低篩選標(biāo)準，極端一點我們將所有西瓜都預(yù)測為好瓜，那么查全率就是100%，但是查準率就很低；而要想獲得高查準率，就需要提高篩選標(biāo)準，極端一點我們只將一個最有把握的西瓜預(yù)測為好瓜，并且預(yù)測準確了，那么查準率就是100%，但是查全率就很低。

既然查準率、查全率是一對相互矛盾的指標(biāo)，我們就需要明確在不同的業(yè)務(wù)目標(biāo)/任務(wù)需求中到底是希望查準率比較高還是查全率比較高。

3.1

當(dāng)然，在二分類任務(wù)中，我們也有綜合考慮了查準率和查全率的評價指標(biāo) F-Mesure(F-Score, )，它的定義如下：

其中（）可視為權(quán)重參數(shù)，它度量了查準率和查全率的相對重要性。換句話說是查準率和查全率的加權(quán)調(diào)和平均。

由上式的倒數(shù)的定義可知，當(dāng) 時，相當(dāng)于查全率被放大了，所以查全率有更大的影響；當(dāng) 時，相當(dāng)于查全率被縮小了，所以準率有更大的影響。

也就是說：

：更看重查全率指標(biāo)。

：更看重查準率指標(biāo)。

3.2 F1

在中，當(dāng) 時，也退化成了我們常見的指標(biāo)：

顯然，根據(jù)下面的等價形式，可以知道在F1指標(biāo)中，查準率和查全率同樣重要：

編輯：何安

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

矩陣

矩陣

+關(guān)注

關(guān)注
1

文章
434

瀏覽量
35126
模型

模型

+關(guān)注

關(guān)注
1

文章
3504

瀏覽量
50193

原文標(biāo)題：、

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

模型任務(wù)的評價指標(biāo)體系

評論