成人av在线电影观看不卡,黑人精品秘一区二区三天美

前言

實(shí)際應(yīng)用中的分類問題往往不像教科書上人造的例子那樣齊整，類別往往存在某種程度上的失衡。Towards Data Science博主Devin Soni簡要介紹了應(yīng)對失衡分類的常用方法。

介紹

大多數(shù)真實(shí)世界的分類問題都呈現(xiàn)出某種程度的類別失衡，即每個(gè)類別在數(shù)據(jù)集中的比例不同。恰當(dāng)?shù)卣{(diào)整指標(biāo)和方法以適應(yīng)目標(biāo)非常重要。否則，你可能最終會(huì)為一個(gè)對你的用例無意義的度量指標(biāo)進(jìn)行優(yōu)化。

例如，假設(shè)你有兩個(gè)類——A和B。A類占數(shù)據(jù)集的90％，B類占10％，但你最感興趣的是識(shí)別B類的實(shí)例。你可以每次都預(yù)測分類為A，這樣輕易就能達(dá)到90%的精確度，但對你的預(yù)期用例而言，這是一個(gè)無用的分類器。相反，經(jīng)過恰當(dāng)?shù)匦?zhǔn)的方法可能精確度較低，但會(huì)有較高的真陽率（或召回），這才是你應(yīng)該優(yōu)化的指標(biāo)。在進(jìn)行檢測時(shí)，這是常常發(fā)生的場景，例如檢測在線惡意內(nèi)容或醫(yī)療數(shù)據(jù)中的疾病標(biāo)記。

現(xiàn)在我將討論幾種可以用來緩解類別失衡的技術(shù)。一些技術(shù)適用于大多數(shù)分類問題，而其他技術(shù)可能更適合具備特定的失衡水平的問題。本文將從二元分類的角度來討論這些問題，但大多數(shù)情況下，這些技術(shù)同樣適用于多類分類問題。本文同時(shí)假設(shè)目標(biāo)是識(shí)別少數(shù)類別，否則，這些技術(shù)并不是真的很有必要。

指標(biāo)

一般來說，這個(gè)問題涉及召回率（recall，真陽性實(shí)例被分類為陽性實(shí)例的百分比）和準(zhǔn)確率（precision，被分類為真陽性的實(shí)例中確實(shí)是陽性的百分比）之間的折衷。當(dāng)我們想要檢測少數(shù)類別實(shí)例時(shí)，我們通常更關(guān)心召回率而不是準(zhǔn)確率，因?yàn)樵跈z測的情境中，錯(cuò)過正面實(shí)例的成本通常高于錯(cuò)誤地標(biāo)記負(fù)面實(shí)例為正面實(shí)例。例如，如果我們試圖檢測惡意內(nèi)容，那么手動(dòng)審核糾正被誤認(rèn)為惡意內(nèi)容的正常內(nèi)容是微不足道的，但要識(shí)別甚至從未被標(biāo)記為惡意內(nèi)容的內(nèi)容就要困難很多了。因此，比較適用于失衡分類問題的方法時(shí)，請考慮使用精確度之外的指標(biāo)，例如召回率，準(zhǔn)確率和AUROC。在選擇參數(shù)和模型時(shí)，切換優(yōu)化指標(biāo)可能就足以提供偵測少數(shù)類別所需的表現(xiàn)。

成本敏感學(xué)習(xí)

在通常的學(xué)習(xí)中，我們平等對待所有錯(cuò)誤分類，這在失衡分類問題中會(huì)導(dǎo)致問題，因?yàn)橄啾茸R(shí)別出主要類別，識(shí)別出少數(shù)類別并不會(huì)有額外的獎(jiǎng)勵(lì)。成本敏感學(xué)習(xí)改變了這一點(diǎn)，使用函數(shù)C(p, t)（通常表示為矩陣）指定將t類實(shí)例錯(cuò)誤分類為p類實(shí)例的成本。這讓我們可以給錯(cuò)誤分類少數(shù)類別更多的懲罰，以便增加真陽率。一個(gè)常用的方案是讓成本等于類別在數(shù)據(jù)集中所占比例的倒數(shù)。這樣，當(dāng)類別尺寸縮小時(shí)，懲罰會(huì)增加。

采樣

解決失衡數(shù)據(jù)集的一個(gè)簡單方法就是平滑它們，過采樣少數(shù)類別，或者欠采樣主要類別。這讓我們創(chuàng)建一個(gè)平衡的數(shù)據(jù)集，理論上能使分類器不偏向其中一個(gè)類。然而，這些簡單的采樣方法實(shí)際上存在缺陷。過采樣少數(shù)類別會(huì)導(dǎo)致模型過擬合，因?yàn)樗鼤?huì)引入從已經(jīng)很小的實(shí)例池中抽取的重復(fù)實(shí)例。同樣，欠采樣主要類別可能最終導(dǎo)致遺漏體現(xiàn)了兩個(gè)類別之間的重要差別的重要實(shí)例。

還存在比簡單的過采樣或欠采樣更強(qiáng)大的采樣方法。最著名的例子是SMOTE，SMOTE通過構(gòu)建相鄰實(shí)例的凸組合來創(chuàng)建少數(shù)類別的新實(shí)例。如下圖所示，它有效地繪制了特征空間中少數(shù)點(diǎn)之間的線條，并沿著這些線條采樣。這使我們能夠平衡我們的數(shù)據(jù)集，而不會(huì)過多地過擬合，因?yàn)槲覀儎?chuàng)建了新的合成示例，而沒有使用重復(fù)樣本。不過這并不能防止所有過擬合，因?yàn)檫@些合成數(shù)據(jù)點(diǎn)仍然是基于現(xiàn)有數(shù)據(jù)點(diǎn)創(chuàng)建的。

可視化SMOTE。陰影方塊：主要類別樣本；黑點(diǎn)：少數(shù)類別樣本；紅點(diǎn)：生成樣本

異常偵測

在更極端的情況下，將分類問題考慮成異常檢測（anomaly detection）問題可能會(huì)更好。在異常檢測問題中，我們假設(shè)有一個(gè)或一組“正?！钡臄?shù)據(jù)點(diǎn)分布，而任何與該分布足夠偏離的東西都是異常值。將分類問題置于異常檢測的框架下以后，我們將主要類別視為點(diǎn)的“正?！狈植迹瑢⑸贁?shù)類別視為異常。有許多用于異常檢測的算法，例如聚類（clustering）方法，單類SVM（One-class SVM）和孤立森林（Isolation Forests）。

可視化用于異常檢測的聚類方法

結(jié)論

希望這些方法的某些組合可以讓你創(chuàng)建一個(gè)更好的分類器。像我之前說的那樣，這些技術(shù)中的某些技術(shù)更適合不同程度的失衡。例如，簡單的采樣技術(shù)可以讓你克服輕微失衡，而極端失衡可能需要異常檢測方法?；旧?，對于這個(gè)問題，沒有包治百病的靈丹妙藥，你需要嘗試每種方法，看看它們應(yīng)用到你的特定用例和指標(biāo)的效果如何。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴