一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

模型評估、模型選擇和算法選擇技術的正確使用

深度學習自然語言處理 ? 來源:機器之心 ? 作者:機器之心 ? 2022-09-22 14:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要:模型評估、模型選擇和算法選擇技術的正確使用在學術性機器學習研究和諸多產(chǎn)業(yè)環(huán)境中異常關鍵。本文回顧了用于解決以上三項任務中任何一個的不同技術,并參考理論和實證研究討論了每一項技術的主要優(yōu)勢和劣勢。進而,給出建議以促進機器學習研究與應用方面的最佳實踐。本文涵蓋了用于模型評估和選擇的常見方法,比如留出方法,但是不推薦用于小數(shù)據(jù)集。不同風格的 bootstrap 技術也被介紹,以評估性能的不確定性,以作為通過正態(tài)空間的置信區(qū)間的替代,如果 bootstrapping 在計算上是可行的。在討論偏差-方差權衡時,把 leave-one-out 交叉驗證和 k 折交叉驗證進行對比,并基于實證證據(jù)給出 k 的最優(yōu)選擇的實際提示。論文展示了用于算法對比的不同統(tǒng)計測試,以及處理多種對比的策略(比如綜合測試、多對比糾正)。最后,當數(shù)據(jù)集很小時,本文推薦替代方法(比如 5×2cv 交叉驗證和嵌套交叉驗證)以對比機器學習算法。

1 簡介:基本的模型評估項和技術

機器學習已經(jīng)成為我們生活的中心,無論是作為消費者、客戶、研究者還是從業(yè)人員。無論將預測建模技術應用到研究還是商業(yè)問題,我認為其共同點是:做出足夠好的預測。用模型擬合訓練數(shù)據(jù)是一回事,但我們如何了解模型的泛化能力?我們如何確定模型是否只是簡單地記憶訓練數(shù)據(jù),無法對未見過的樣本做出好的預測?還有,我們如何選擇好的模型呢?也許還有更好的算法可以處理眼前的問題呢?

模型評估當然不是機器學習工作流程的終點。在處理數(shù)據(jù)之前,我們希望事先計劃并使用合適的技術。本文將概述這類技術和選擇方法,并介紹如何將其應用到更大的工程中,即典型的機器學習工作流。

1.1 性能評估:泛化性能 vs. 模型選擇

讓我們考慮這個問題:「如何評估機器學習模型的性能?」典型的回答可能是:「首先,將訓練數(shù)據(jù)饋送給學習算法以學習一個模型。第二,預測測試集的標簽。第三,計算模型對測試集的預測準確率?!谷欢u估模型性能并非那么簡單。也許我們應該從不同的角度解決之前的問題:「為什么我們要關心性能評估呢?」理論上,模型的性能評估能給出模型的泛化能力,在未見過的數(shù)據(jù)上執(zhí)行預測是應用機器學習或開發(fā)新算法的主要問題。通常,機器學習包含大量實驗,例如超參數(shù)調整。在訓練數(shù)據(jù)集上用不同的超參數(shù)設置運行學習算法最終會得到不同的模型。由于我們感興趣的是從該超參數(shù)設置中選擇最優(yōu)性能的模型,因此我們需要找到評估每個模型性能的方法,以將它們進行排序。

我們需要在微調算法之外更進一步,即不僅僅是在給定的環(huán)境下實驗單個算法,而是對比不同的算法,通常從預測性能和計算性能方面進行比較。我們總結一下評估模型的預測性能的主要作用:

評估模型的泛化性能,即模型泛化到未見過數(shù)據(jù)的能力;

通過調整學習算法和在給定的假設空間中選擇性能最優(yōu)的模型,以提升預測性能;

確定最適用于待解決問題的機器學習算法。因此,我們可以比較不同的算法,選擇其中性能最優(yōu)的模型;或者選擇算法的假設空間中的性能最優(yōu)模型。

雖然上面列出的三個子任務都是為了評估模型的性能,但是它們需要使用的方法是不同的。本文將概述解決這些子任務需要的不同方法。

我們當然希望盡可能精確地預測模型的泛化性能。然而,本文的一個要點就是,如果偏差對所有模型的影響是等價的,那么偏差性能評估基本可以完美地進行模型選擇和算法選擇。如果要用排序選擇最優(yōu)的模型或算法,我們只需要知道它們的相對性能就可以了。例如,如果所有的性能評估都是有偏差的,并且低估了它們的性能(10%),這不會影響最終的排序。更具體地說,如果我們得到如下三個模型,這些模型的預測準確率如下:

M2: 75% > M1: 70% > M3: 65%,

如果我們添加了 10% 的性能偏差(低估),則三種模型的排序沒有發(fā)生改變:

M2: 65% > M1: 60% > M3: 55%.

但是,注意如果最佳模型(M2)的泛化準確率是 65%,很明顯這個精度是非常低的。評估模型的絕對性能可能是機器學習中最難的任務之一。

21b5d478-3a35-11ed-9e49-dac502259ad0.jpg

圖 2:留出驗證方法的圖示。

2 Bootstrapping 和不確定性

本章介紹一些用于模型評估的高級技術。我們首先討論用來評估模型性能不確定性和模型方差、穩(wěn)定性的技術。之后我們將介紹交叉驗證方法用于模型選擇。如第一章所述,關于我們?yōu)槭裁匆P心模型評估,存在三個相關但不同的任務或原因。

我們想評估泛化準確度,即模型在未見數(shù)據(jù)上的預測性能。

我們想通過調整學習算法、從給定假設空間中選擇性能最好的模型,來改善預測性能。

我們想確定手頭最適合待解決問題的機器學習算法。因此,我們想對比不同的算法,選出性能最好的一個;或從算法的假設空間中選出性能最好的模型。

21c717ce-3a35-11ed-9e49-dac502259ad0.jpg

圖 3:偏差和方差的不同組合的圖示。

21d76494-3a35-11ed-9e49-dac502259ad0.png

圖 4:在 MNIST 數(shù)據(jù)集上 softmax 分類器的學習曲線。

220610d2-3a35-11ed-9e49-dac502259ad0.jpg

圖 5:二維高斯分布中的重復子采樣。

3 交叉驗證和超參數(shù)優(yōu)化

幾乎所有機器學習算法都需要我們機器學習研究者和從業(yè)者指定大量設置。這些超參數(shù)幫助我們控制機器學習算法在優(yōu)化性能、找出偏差方差最佳平衡時的行為。用于性能優(yōu)化的超參數(shù)調整本身就是一門藝術,沒有固定規(guī)則可以保證在給定數(shù)據(jù)集上的性能最優(yōu)。前面的章節(jié)提到了用于評估模型泛化性能的留出技術和 bootstrap 技術。偏差-方差權衡和計算性能估計的不穩(wěn)定性方法都得到了介紹。本章主要介紹用于模型評估和選擇的不同交叉驗證方法,包括對不同超參數(shù)配置的模型進行排序和評估其泛化至獨立數(shù)據(jù)集的性能。

本章生成圖像的代碼詳見:https://github.com/rasbt/model-eval-article-supplementary/blob/master/code/resampling-and-kfold.ipynb。

2216aa46-3a35-11ed-9e49-dac502259ad0.jpg

圖 11:logistic 回歸的概念圖示。

我們可以把超參數(shù)調整(又稱超參數(shù)優(yōu)化)和模型選擇的過程看作元優(yōu)化任務。當學習算法在訓練集上優(yōu)化目標函數(shù)時(懶惰學習器是例外),超參數(shù)優(yōu)化是基于它的另一項任務。這里,我們通常想優(yōu)化性能指標,如分類準確度或接受者操作特征曲線(ROC 曲線)下面積。超參數(shù)調整階段之后,基于測試集性能選擇模型似乎是一種合理的方法。但是,多次重復使用測試集可能會帶來偏差和最終性能估計,且可能導致對泛化性能的預期過分樂觀,可以說是「測試集泄露信息」。為了避免這個問題,我們可以使用三次分割(three-way split),將數(shù)據(jù)集分割成訓練集、驗證集和測試集。對超參數(shù)調整和模型選擇進行訓練-驗證可以保證測試集「獨立」于模型選擇。這里,我們再回顧一下性能估計的「3 個目標」:

我們想評估泛化準確度,即模型在未見數(shù)據(jù)上的預測性能。

我們想通過調整學習算法、從給定假設空間中選擇性能最好的模型,來改善預測性能。

我們想確定最適合待解決問題的機器學習算法。因此,我們想對比不同的算法,選出性能最好的一個,從算法的假設空間中選出性能最好的模型。

222647e4-3a35-11ed-9e49-dac502259ad0.jpg

圖 12:超參數(shù)調整中三路留出方法(three-way holdout method)圖示。

2234c71a-3a35-11ed-9e49-dac502259ad0.jpg

圖 13:k 折交叉驗證步驟圖示。

223bb37c-3a35-11ed-9e49-dac502259ad0.png

224a8d2a-3a35-11ed-9e49-dac502259ad0.png

227753b4-3a35-11ed-9e49-dac502259ad0.png

圖 16:模型選擇中 k 折交叉驗證的圖示。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7256

    瀏覽量

    91887
  • 機器學習
    +關注

    關注

    66

    文章

    8503

    瀏覽量

    134630
  • 計算模型
    +關注

    關注

    0

    文章

    29

    瀏覽量

    9950

原文標題:綜述 | 機器學習中的模型評價、模型選擇與算法選擇!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

    內為企業(yè)帶來效益。在選擇模型時,需要評估其性能表現(xiàn)。這包括模型的準確性、響應速度、對話流暢性、情感理解能力等方面??梢酝ㄟ^對比不同模型的測試
    發(fā)表于 12-17 16:53

    【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調技術解讀

    重復項或使用編輯距離算法比較文本相似度。數(shù)據(jù)標注:高質量的數(shù)據(jù)標注直接影響模型的性能。標注過程應遵循明確標注規(guī)則、選擇合適的標注工具、進行多輪審核和質量控制等原則。數(shù)據(jù)增強:提高模型
    發(fā)表于 01-14 16:51

    基于多傳感器的多模型機動目標跟蹤算法設計

    環(huán)境的多模型機動目標跟蹤算法。仿真結果驗證了該算法跟蹤性能的有效性?! ? 引言  隨著信息技術的快速發(fā)展和現(xiàn)代軍事及民用需求的不斷提高,對目標跟蹤的精度也相應地提出了更高的要求。在真
    發(fā)表于 12-05 15:16

    Ch2模型評估選擇

    【Machine Learining】Ch2 模型評估選擇
    發(fā)表于 05-28 06:55

    基于Agent技術的決策模型協(xié)作問題研究

    本文通過對模型進行Agent封裝,以及模型之間的協(xié)作,將決策算法選擇算法中系數(shù)的確定問題通過評價模型
    發(fā)表于 09-01 10:54 ?12次下載

    模型電池的選擇和維護

    模型電池的選擇和維護 模型用電池有一次性的錳鋅電池、堿性電池、鎳氫電池和密封鉛蓄電池等,性能各異。模型用的電池要根據(jù)模型對動力的要求,除
    發(fā)表于 11-06 10:32 ?687次閱讀

    量子遺傳算法原理與云服務選擇模型的介紹

    選擇模型,并將量子遺傳算法引入云服務選擇問題中,利用量子編碼和量子操作的特性,實現(xiàn)優(yōu)化服務選擇的計算。通過實驗仿真,該
    發(fā)表于 11-14 14:40 ?3次下載
    量子遺傳<b class='flag-5'>算法</b>原理與云服務<b class='flag-5'>選擇</b><b class='flag-5'>模型</b>的介紹

    基于LDA主題模型進行數(shù)據(jù)源選擇方法

    聯(lián)邦搜索是從大規(guī)模深層網(wǎng)上獲取信息的一種重要技術。給定一個用戶查詢,聯(lián)邦搜索系統(tǒng)需要解決的一個主要問題是數(shù)據(jù)源選擇問題,即從海量數(shù)據(jù)源中選出一組最有可能返回相關結果的數(shù)據(jù)源?,F(xiàn)有的數(shù)據(jù)源選擇
    發(fā)表于 01-04 15:00 ?0次下載
    基于LDA主題<b class='flag-5'>模型</b>進行數(shù)據(jù)源<b class='flag-5'>選擇</b>方法

    在電磁兼容分析系統(tǒng)中應如何選擇傳播模型?

    在無線電網(wǎng)絡規(guī)劃和干擾評估過程中,對于某項特定的任務,選擇一個非常適當?shù)膫鞑?b class='flag-5'>模型往往是十分困難的,有時還會產(chǎn)生混亂。本文并非從區(qū)別不同傳播模型的差異出發(fā),即建議用戶在何種環(huán)境下使用何種
    發(fā)表于 08-15 17:49 ?2118次閱讀

    機器學習的模型評估選擇詳細資料說明

    本文檔的主要內容詳細介紹的是機器學習的模型評估選擇詳細資料說明。
    發(fā)表于 03-24 08:00 ?0次下載
    機器學習的<b class='flag-5'>模型</b><b class='flag-5'>評估</b>與<b class='flag-5'>選擇</b>詳細資料說明

    電磁兼容分析系統(tǒng)中傳播模型應該如何選擇

    在無線電網(wǎng)絡規(guī)劃和干擾評估過程中,對于某項特定的任務,選擇一個非常適當?shù)膫鞑?b class='flag-5'>模型往往是十分困難的,有時還會產(chǎn)生混亂。本文并非從區(qū)別不同傳播模型的差異出發(fā),即建議用戶在何種環(huán)境下使用何種
    發(fā)表于 01-11 10:28 ?1次下載

    分類模型評估指標匯總

    模型進行評估時,可以選擇很多種指標,但不同的指標可能得到不同的結果,如何選擇合適的指標,需要取決于任務需求。
    的頭像 發(fā)表于 12-10 21:38 ?938次閱讀

    如何評估機器學習模型的性能?機器學習的算法選擇

    如何評估機器學習模型的性能?典型的回答可能是:首先,將訓練數(shù)據(jù)饋送給學習算法以學習一個模型。第二,預測測試集的標簽。第三,計算模型對測試集的
    發(fā)表于 04-04 14:15 ?1365次閱讀

    NVIDIA助力提供多樣、靈活的模型選擇

    在本案例中,Dify 以模型中立以及開源生態(tài)的優(yōu)勢,為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服務器產(chǎn)品,為
    的頭像 發(fā)表于 09-09 09:19 ?935次閱讀

    常見AI大模型的比較與選擇指南

    選擇AI大模型時,明確具體需求、了解模型的訓練數(shù)據(jù)、計算資源要求和成本,并考慮模型的可解釋性和社區(qū)支持情況等因素至關重要。以下是對常見AI大模型
    的頭像 發(fā)表于 10-23 15:36 ?2671次閱讀