一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)如何應(yīng)對失衡類別

zhKF_jqr_AI ? 來源:未知 ? 作者:鄧佳佳 ? 2018-03-05 11:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前言

實(shí)際應(yīng)用中的分類問題往往不像教科書上人造的例子那樣齊整,類別往往存在某種程度上的失衡。Towards Data Science博主Devin Soni簡要介紹了應(yīng)對失衡分類的常用方法。

介紹

大多數(shù)真實(shí)世界的分類問題都呈現(xiàn)出某種程度的類別失衡,即每個(gè)類別在數(shù)據(jù)集中的比例不同。恰當(dāng)?shù)卣{(diào)整指標(biāo)和方法以適應(yīng)目標(biāo)非常重要。否則,你可能最終會(huì)為一個(gè)對你的用例無意義的度量指標(biāo)進(jìn)行優(yōu)化。

例如,假設(shè)你有兩個(gè)類——A和B。A類占數(shù)據(jù)集的90%,B類占10%,但你最感興趣的是識(shí)別B類的實(shí)例。你可以每次都預(yù)測分類為A,這樣輕易就能達(dá)到90%的精確度,但對你的預(yù)期用例而言,這是一個(gè)無用的分類器。相反,經(jīng)過恰當(dāng)?shù)匦?zhǔn)的方法可能精確度較低,但會(huì)有較高的真陽率(或召回),這才是你應(yīng)該優(yōu)化的指標(biāo)。在進(jìn)行檢測時(shí),這是常常發(fā)生的場景,例如檢測在線惡意內(nèi)容或醫(yī)療數(shù)據(jù)中的疾病標(biāo)記。

現(xiàn)在我將討論幾種可以用來緩解類別失衡的技術(shù)。一些技術(shù)適用于大多數(shù)分類問題,而其他技術(shù)可能更適合具備特定的失衡水平的問題。本文將從二元分類的角度來討論這些問題,但大多數(shù)情況下,這些技術(shù)同樣適用于多類分類問題。本文同時(shí)假設(shè)目標(biāo)是識(shí)別少數(shù)類別,否則,這些技術(shù)并不是真的很有必要。

指標(biāo)

一般來說,這個(gè)問題涉及召回率(recall,真陽性實(shí)例被分類為陽性實(shí)例的百分比)和準(zhǔn)確率(precision,被分類為真陽性的實(shí)例中確實(shí)是陽性的百分比)之間的折衷。當(dāng)我們想要檢測少數(shù)類別實(shí)例時(shí),我們通常更關(guān)心召回率而不是準(zhǔn)確率,因?yàn)樵跈z測的情境中,錯(cuò)過正面實(shí)例的成本通常高于錯(cuò)誤地標(biāo)記負(fù)面實(shí)例為正面實(shí)例。例如,如果我們試圖檢測惡意內(nèi)容,那么手動(dòng)審核糾正被誤認(rèn)為惡意內(nèi)容的正常內(nèi)容是微不足道的,但要識(shí)別甚至從未被標(biāo)記為惡意內(nèi)容的內(nèi)容就要困難很多了。因此,比較適用于失衡分類問題的方法時(shí),請考慮使用精確度之外的指標(biāo),例如召回率,準(zhǔn)確率和AUROC。在選擇參數(shù)和模型時(shí),切換優(yōu)化指標(biāo)可能就足以提供偵測少數(shù)類別所需的表現(xiàn)。

成本敏感學(xué)習(xí)

在通常的學(xué)習(xí)中,我們平等對待所有錯(cuò)誤分類,這在失衡分類問題中會(huì)導(dǎo)致問題,因?yàn)橄啾茸R(shí)別出主要類別,識(shí)別出少數(shù)類別并不會(huì)有額外的獎(jiǎng)勵(lì)。成本敏感學(xué)習(xí)改變了這一點(diǎn),使用函數(shù)C(p, t)(通常表示為矩陣)指定將t類實(shí)例錯(cuò)誤分類為p類實(shí)例的成本。這讓我們可以給錯(cuò)誤分類少數(shù)類別更多的懲罰,以便增加真陽率。一個(gè)常用的方案是讓成本等于類別在數(shù)據(jù)集中所占比例的倒數(shù)。這樣,當(dāng)類別尺寸縮小時(shí),懲罰會(huì)增加。

采樣

解決失衡數(shù)據(jù)集的一個(gè)簡單方法就是平滑它們,過采樣少數(shù)類別,或者欠采樣主要類別。這讓我們創(chuàng)建一個(gè)平衡的數(shù)據(jù)集,理論上能使分類器不偏向其中一個(gè)類。然而,這些簡單的采樣方法實(shí)際上存在缺陷。過采樣少數(shù)類別會(huì)導(dǎo)致模型過擬合,因?yàn)樗鼤?huì)引入從已經(jīng)很小的實(shí)例池中抽取的重復(fù)實(shí)例。同樣,欠采樣主要類別可能最終導(dǎo)致遺漏體現(xiàn)了兩個(gè)類別之間的重要差別的重要實(shí)例。

還存在比簡單的過采樣或欠采樣更強(qiáng)大的采樣方法。最著名的例子是SMOTE,SMOTE通過構(gòu)建相鄰實(shí)例的凸組合來創(chuàng)建少數(shù)類別的新實(shí)例。如下圖所示,它有效地繪制了特征空間中少數(shù)點(diǎn)之間的線條,并沿著這些線條采樣。這使我們能夠平衡我們的數(shù)據(jù)集,而不會(huì)過多地過擬合,因?yàn)槲覀儎?chuàng)建了新的合成示例,而沒有使用重復(fù)樣本。不過這并不能防止所有過擬合,因?yàn)檫@些合成數(shù)據(jù)點(diǎn)仍然是基于現(xiàn)有數(shù)據(jù)點(diǎn)創(chuàng)建的。


可視化SMOTE。陰影方塊:主要類別樣本;黑點(diǎn):少數(shù)類別樣本;紅點(diǎn):生成樣本

異常偵測

在更極端的情況下,將分類問題考慮成異常檢測(anomaly detection)問題可能會(huì)更好。在異常檢測問題中,我們假設(shè)有一個(gè)或一組“正?!钡臄?shù)據(jù)點(diǎn)分布,而任何與該分布足夠偏離的東西都是異常值。將分類問題置于異常檢測的框架下以后,我們將主要類別視為點(diǎn)的“正?!狈植迹瑢⑸贁?shù)類別視為異常。有許多用于異常檢測的算法,例如聚類(clustering)方法,單類SVM(One-class SVM)和孤立森林(Isolation Forests)。


可視化用于異常檢測的聚類方法

結(jié)論

希望這些方法的某些組合可以讓你創(chuàng)建一個(gè)更好的分類器。像我之前說的那樣,這些技術(shù)中的某些技術(shù)更適合不同程度的失衡。例如,簡單的采樣技術(shù)可以讓你克服輕微失衡,而極端失衡可能需要異常檢測方法?;旧?,對于這個(gè)問題,沒有包治百病的靈丹妙藥,你需要嘗試每種方法,看看它們應(yīng)用到你的特定用例和指標(biāo)的效果如何。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:機(jī)器學(xué)習(xí)如何應(yīng)對失衡類別

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用

    隨著機(jī)器學(xué)習(xí)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復(fù)雜模型的需求。FPGA(現(xiàn)場可編程門陣列)作為一種靈活且高效的硬件加速平臺(tái)
    的頭像 發(fā)表于 07-16 15:34 ?621次閱讀

    機(jī)器學(xué)習(xí)模型市場前景如何

    當(dāng)今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計(jì)算能力的飛速提升,機(jī)器學(xué)習(xí)模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機(jī)器學(xué)習(xí)模型市場的未來發(fā)展。
    的頭像 發(fā)表于 02-13 09:39 ?368次閱讀

    嵌入式機(jī)器學(xué)習(xí)的應(yīng)用特性與軟件開發(fā)環(huán)境

    作者:DigiKey Editor 在許多嵌入式系統(tǒng)中,必須采用嵌入式機(jī)器學(xué)習(xí)(Embedded Machine Learning)技術(shù),這是指將機(jī)器學(xué)習(xí)模型部署在資源受限的設(shè)備(如微
    的頭像 發(fā)表于 01-25 17:05 ?672次閱讀
    嵌入式<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的應(yīng)用特性與軟件開發(fā)環(huán)境

    人工智能之機(jī)器學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用

    機(jī)器學(xué)習(xí)在推薦系統(tǒng)中發(fā)揮著關(guān)鍵作用,提升用戶體驗(yàn)和業(yè)務(wù)價(jià)值。 協(xié)同過濾算法是常用方法?;谟脩粜袨閿?shù)據(jù),如購買記錄、瀏覽歷史,計(jì)算用戶或物品間相似度。比如,用戶 A 和用戶 B 購買過很多相同商品
    的頭像 發(fā)表于 01-21 16:19 ?513次閱讀

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹了機(jī)器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會(huì)介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)和多種算法特征,供各位老師選擇。 01 傳統(tǒng)機(jī)器
    的頭像 發(fā)表于 12-30 09:16 ?1198次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    如何選擇云原生機(jī)器學(xué)習(xí)平臺(tái)

    當(dāng)今,云原生機(jī)器學(xué)習(xí)平臺(tái)因其彈性擴(kuò)展、高效部署、低成本運(yùn)營等優(yōu)勢,逐漸成為企業(yè)構(gòu)建和部署機(jī)器學(xué)習(xí)應(yīng)用的首選。然而,市場上的云原生機(jī)器
    的頭像 發(fā)表于 12-25 11:54 ?461次閱讀

    zeta在機(jī)器學(xué)習(xí)中的應(yīng)用 zeta的優(yōu)缺點(diǎn)分析

    在探討ZETA在機(jī)器學(xué)習(xí)中的應(yīng)用以及ZETA的優(yōu)缺點(diǎn)時(shí),需要明確的是,ZETA一詞在不同領(lǐng)域可能有不同的含義和應(yīng)用。以下是根據(jù)不同領(lǐng)域的ZETA進(jìn)行的分析: 一、ZETA在機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 12-20 09:11 ?1132次閱讀

    什么是機(jī)器學(xué)習(xí)?通過機(jī)器學(xué)習(xí)方法能解決哪些問題?

    來源:Master編程樹“機(jī)器學(xué)習(xí)”最初的研究動(dòng)機(jī)是讓計(jì)算機(jī)系統(tǒng)具有人的學(xué)習(xí)能力以便實(shí)現(xiàn)人工智能。因?yàn)闆]有學(xué)習(xí)能力的系統(tǒng)很難被認(rèn)為是具有智能的。目前被廣泛采用的
    的頭像 發(fā)表于 11-16 01:07 ?970次閱讀
    什么是<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>?通過<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問題?

    NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)算法是實(shí)現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計(jì)算資源的需求也在不斷增長。NPU作為一種專門為深度學(xué)習(xí)機(jī)器
    的頭像 發(fā)表于 11-15 09:19 ?1240次閱讀

    eda在機(jī)器學(xué)習(xí)中的應(yīng)用

    機(jī)器學(xué)習(xí)項(xiàng)目中,數(shù)據(jù)預(yù)處理和理解是成功構(gòu)建模型的關(guān)鍵。探索性數(shù)據(jù)分析(EDA)是這一過程中不可或缺的一部分。 1. 數(shù)據(jù)清洗 數(shù)據(jù)清洗 是機(jī)器學(xué)習(xí)中的首要任務(wù)之一。EDA可以幫助識(shí)別
    的頭像 發(fā)表于 11-13 10:42 ?916次閱讀

    具身智能與機(jī)器學(xué)習(xí)的關(guān)系

    具身智能(Embodied Intelligence)和機(jī)器學(xué)習(xí)(Machine Learning)是人工智能領(lǐng)域的兩個(gè)重要概念,它們之間存在著密切的關(guān)系。 1. 具身智能的定義 具身智能是指智能體
    的頭像 發(fā)表于 10-27 10:33 ?1060次閱讀

    人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類似人類智能的設(shè)備。AI有很多技術(shù),但其中一個(gè)很大的子集是機(jī)器學(xué)習(xí)——讓算法從數(shù)據(jù)中學(xué)習(xí)。
    發(fā)表于 10-24 17:22 ?2999次閱讀
    人工智能、<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>存在什么區(qū)別

    RISC-V如何支持不同的AI和機(jī)器學(xué)習(xí)框架和庫?

    RISC-V如何支持不同的AI和機(jī)器學(xué)習(xí)框架和庫?還請壇友們多多指教一下。
    發(fā)表于 10-10 22:24

    【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 時(shí)間序列的信息提取

    之前對《時(shí)間序列與機(jī)器學(xué)習(xí)》一書進(jìn)行了整體瀏覽,并且非常輕松愉快的完成了第一章的學(xué)習(xí),今天開始學(xué)習(xí)第二章“時(shí)間序列的信息提取”。 先粗略的翻閱第二章,內(nèi)容復(fù)雜,充斥了大量的定義、推導(dǎo)計(jì)
    發(fā)表于 08-14 18:00

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時(shí)間序列分析與機(jī)器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實(shí)地構(gòu)建了時(shí)間序列分析的基礎(chǔ)知識(shí),更巧妙地展示了機(jī)器學(xué)習(xí)如何在這一領(lǐng)域發(fā)揮巨
    發(fā)表于 08-12 11:21