一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)中的正則化的相關(guān)知識點(diǎn)

中科院長春光機(jī)所 ? 來源:極市平臺 ? 作者:極市平臺 ? 2021-01-20 15:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

正則化是一種為了減小測試誤差的行為(有時候會增加訓(xùn)練誤差)。當(dāng)我們用較為復(fù)雜的模型擬合數(shù)據(jù)時,容易出現(xiàn)過擬合現(xiàn)象,導(dǎo)致模型的泛化能力下降,這時我們就需要使用正則化,降低模型的復(fù)雜度。本文總結(jié)闡釋了正則化的相關(guān)知識點(diǎn),幫助大家更好的理解正則化這一概念。

目錄

LP范數(shù)

L1范數(shù)

L2范數(shù)

L1范數(shù)和L2范數(shù)的區(qū)別

Dropout

Batch Normalization

歸一化、標(biāo)準(zhǔn)化 & 正則化

Reference

在總結(jié)正則化(Regularization)之前,我們先談一談?wù)齽t化是什么,為什么要正則化。

個人認(rèn)為正則化這個字眼有點(diǎn)太過抽象和寬泛,其實(shí)正則化的本質(zhì)很簡單,就是對某一問題加以先驗(yàn)的限制或約束以達(dá)到某種特定目的的一種手段或操作。在算法中使用正則化的目的是防止模型出現(xiàn)過擬合。一提到正則化,很多同學(xué)可能馬上會想到常用的L1范數(shù)和L2范數(shù),在匯總之前,我們先看下LP范數(shù)是什么鬼。

LP范數(shù)

范數(shù)簡單可以理解為用來表征向量空間中的距離,而距離的定義很抽象,只要滿足非負(fù)、自反、三角不等式就可以稱之為距離。

LP范數(shù)不是一個范數(shù),而是一組范數(shù),其定義如下:

48d22580-57b9-11eb-8b86-12bb97331649.png

pp的范圍是[1,∞)[1,∞)。pp在(0,1)(0,1)范圍內(nèi)定義的并不是范數(shù),因?yàn)檫`反了三角不等式。

根據(jù)pp的變化,范數(shù)也有著不同的變化,借用一個經(jīng)典的有關(guān)P范數(shù)的變化圖如下:

490ab706-57b9-11eb-8b86-12bb97331649.jpg

上圖表示了pp從0到正無窮變化時,單位球(unit ball)的變化情況。在P范數(shù)下定義的單位球都是凸集,但是當(dāng)0

那問題來了,L0范數(shù)是啥玩意?

L0范數(shù)表示向量中非零元素的個數(shù),用公式表示如下:

493d18cc-57b9-11eb-8b86-12bb97331649.png

我們可以通過最小化L0范數(shù),來尋找最少最優(yōu)的稀疏特征項(xiàng)。但不幸的是,L0范數(shù)的最優(yōu)化問題是一個NP hard問題(L0范數(shù)同樣是非凸的)。因此,在實(shí)際應(yīng)用中我們經(jīng)常對L0進(jìn)行凸松弛,理論上有證明,L1范數(shù)是L0范數(shù)的最優(yōu)凸近似,因此通常使用L1范數(shù)來代替直接優(yōu)化L0范數(shù)。

L1范數(shù)

根據(jù)LP范數(shù)的定義我們可以很輕松的得到L1范數(shù)的數(shù)學(xué)形式:

497ed852-57b9-11eb-8b86-12bb97331649.png

通過上式可以看到,L1范數(shù)就是向量各元素的絕對值之和,也被稱為是"稀疏規(guī)則算子"(Lasso regularization)。那么問題來了,為什么我們希望稀疏化?稀疏化有很多好處,最直接的兩個:

特征選擇

可解釋性

L2范數(shù)

L2范數(shù)是最熟悉的,它就是歐幾里得距離,公式如下:

49a0c0d4-57b9-11eb-8b86-12bb97331649.png

L2范數(shù)有很多名稱,有人把它的回歸叫“嶺回歸”(Ridge Regression),也有人叫它“權(quán)值衰減”(Weight Decay)。以L2范數(shù)作為正則項(xiàng)可以得到稠密解,即每個特征對應(yīng)的參數(shù)ww都很小,接近于0但是不為0;此外,L2范數(shù)作為正則化項(xiàng),可以防止模型為了迎合訓(xùn)練集而過于復(fù)雜造成過擬合的情況,從而提高模型的泛化能力。

L1范數(shù)和L2范數(shù)的區(qū)別

引入PRML一個經(jīng)典的圖來說明下L1和L2范數(shù)的區(qū)別,如下圖所示:

49f52886-57b9-11eb-8b86-12bb97331649.jpg

如上圖所示,藍(lán)色的圓圈表示問題可能的解范圍,橘色的表示正則項(xiàng)可能的解范圍。而整個目標(biāo)函數(shù)(原問題+正則項(xiàng))有解當(dāng)且僅當(dāng)兩個解范圍相切。從上圖可以很容易地看出,由于L2范數(shù)解范圍是圓,所以相切的點(diǎn)有很大可能不在坐標(biāo)軸上,而由于L1范數(shù)是菱形(頂點(diǎn)是凸出來的),其相切的點(diǎn)更可能在坐標(biāo)軸上,而坐標(biāo)軸上的點(diǎn)有一個特點(diǎn),其只有一個坐標(biāo)分量不為零,其他坐標(biāo)分量為零,即是稀疏的。所以有如下結(jié)論,L1范數(shù)可以導(dǎo)致稀疏解,L2范數(shù)導(dǎo)致稠密解。

從貝葉斯先驗(yàn)的角度看,當(dāng)訓(xùn)練一個模型時,僅依靠當(dāng)前的訓(xùn)練數(shù)據(jù)集是不夠的,為了實(shí)現(xiàn)更好的泛化能力,往往需要加入先驗(yàn)項(xiàng),而加入正則項(xiàng)相當(dāng)于加入了一種先驗(yàn)。

L1范數(shù)相當(dāng)于加入了一個Laplacean先驗(yàn);

L2范數(shù)相當(dāng)于加入了一個Gaussian先驗(yàn)。

如下圖所示:

4a7f64ba-57b9-11eb-8b86-12bb97331649.jpg

Dropout

Dropout是深度學(xué)習(xí)中經(jīng)常采用的一種正則化方法。它的做法可以簡單的理解為在DNNs訓(xùn)練的過程中以概率pp丟棄部分神經(jīng)元,即使得被丟棄的神經(jīng)元輸出為0。Dropout可以實(shí)例化的表示為下圖:

4ad6f932-57b9-11eb-8b86-12bb97331649.jpg

我們可以從兩個方面去直觀地理解Dropout的正則化效果:

在Dropout每一輪訓(xùn)練過程中隨機(jī)丟失神經(jīng)元的操作相當(dāng)于多個DNNs進(jìn)行取平均,因此用于預(yù)測時具有vote的效果。

減少神經(jīng)元之間復(fù)雜的共適應(yīng)性。當(dāng)隱藏層神經(jīng)元被隨機(jī)刪除之后,使得全連接網(wǎng)絡(luò)具有了一定的稀疏化,從而有效地減輕了不同特征的協(xié)同效應(yīng)。也就是說,有些特征可能會依賴于固定關(guān)系的隱含節(jié)點(diǎn)的共同作用,而通過Dropout的話,就有效地組織了某些特征在其他特征存在下才有效果的情況,增加了神經(jīng)網(wǎng)絡(luò)的魯棒性。

Batch Normalization

批規(guī)范化(Batch Normalization)嚴(yán)格意義上講屬于歸一化手段,主要用于加速網(wǎng)絡(luò)的收斂,但也具有一定程度的正則化效果。

這里借鑒下魏秀參博士的知乎回答中對covariate shift的解釋(https://www.zhihu.com/question/38102762)。

注:以下內(nèi)容引自魏秀參博士的知乎回答

大家都知道在統(tǒng)計機(jī)器學(xué)習(xí)中的一個經(jīng)典假設(shè)是“源空間(source domain)和目標(biāo)空間(target domain)的數(shù)據(jù)分布(distribution)是一致的”。如果不一致,那么就出現(xiàn)了新的機(jī)器學(xué)習(xí)問題,如transfer learning/domain adaptation等。而covariate shift就是分布不一致假設(shè)之下的一個分支問題,它是指源空間和目標(biāo)空間的條件概率是一致的,但是其邊緣概率不同。大家細(xì)想便會發(fā)現(xiàn),的確,對于神經(jīng)網(wǎng)絡(luò)的各層輸出,由于它們經(jīng)過了層內(nèi)操作作用,其分布顯然與各層對應(yīng)的輸入信號分布不同,而且差異會隨著網(wǎng)絡(luò)深度增大而增大,可是它們所能“指示”的樣本標(biāo)記(label)仍然是不變的,這便符合了covariate shift的定義。

BN的基本思想其實(shí)相當(dāng)直觀,因?yàn)樯窠?jīng)網(wǎng)絡(luò)在做非線性變換前的激活輸入值(X=WU+BX=WU+B,UU是輸入)隨著網(wǎng)絡(luò)深度加深,其分布逐漸發(fā)生偏移或者變動(即上述的covariate shift)。之所以訓(xùn)練收斂慢,一般是整體分布逐漸往非線性函數(shù)的取值區(qū)間的上下限兩端靠近(對于Sigmoid函數(shù)來說,意味著激活輸入值X=WU+BX=WU+B是大的負(fù)值或正值),所以這導(dǎo)致后向傳播時低層神經(jīng)網(wǎng)絡(luò)的梯度消失,這是訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)收斂越來越慢的本質(zhì)原因。而BN就是通過一定的規(guī)范化手段,把每層神經(jīng)網(wǎng)絡(luò)任意神經(jīng)元這個輸入值的分布強(qiáng)行拉回到均值為0方差為1的標(biāo)準(zhǔn)正態(tài)分布,避免因?yàn)榧せ詈瘮?shù)導(dǎo)致的梯度彌散問題。所以與其說BN的作用是緩解covariate shift,倒不如說BN可緩解梯度彌散問題。

歸一化、標(biāo)準(zhǔn)化 & 正則化

正則化我們以及提到過了,這里簡單提一下歸一化和標(biāo)準(zhǔn)化。

歸一化(Normalization):歸一化的目標(biāo)是找到某種映射關(guān)系,將原數(shù)據(jù)映射到[a,b]區(qū)間上。一般a,b會取[?1,1],[0,1]這些組合。

一般有兩種應(yīng)用場景:

把數(shù)變?yōu)?0, 1)之間的小數(shù)

把有量綱的數(shù)轉(zhuǎn)化為無量綱的數(shù)

常用min-max normalization:

4b354f32-57b9-11eb-8b86-12bb97331649.png

標(biāo)準(zhǔn)化(Standardization):用大數(shù)定理將數(shù)據(jù)轉(zhuǎn)化為一個標(biāo)準(zhǔn)正態(tài)分布,標(biāo)準(zhǔn)化公式為:

4b5dd308-57b9-11eb-8b86-12bb97331649.png

歸一化和標(biāo)準(zhǔn)化的區(qū)別:

我們可以這樣簡單地解釋:

歸一化的縮放是“拍扁”統(tǒng)一到區(qū)間(僅由極值決定),而標(biāo)準(zhǔn)化的縮放是更加“彈性”和“動態(tài)”的,和整體樣本的分布有很大的關(guān)系。

值得注意:

歸一化:縮放僅僅跟最大、最小值的差別有關(guān)。

標(biāo)準(zhǔn)化:縮放和每個點(diǎn)都有關(guān)系,通過方差(variance)體現(xiàn)出來。與歸一化對比,標(biāo)準(zhǔn)化中所有數(shù)據(jù)點(diǎn)都有貢獻(xiàn)(通過均值和標(biāo)準(zhǔn)差造成影響)。

為什么要標(biāo)準(zhǔn)化和歸一化?

提升模型精度:歸一化后,不同維度之間的特征在數(shù)值上有一定比較性,可以大大提高分類器的準(zhǔn)確性。

加速模型收斂:標(biāo)準(zhǔn)化后,最優(yōu)解的尋優(yōu)過程明顯會變得平緩,更容易正確的收斂到最優(yōu)解。如下圖所示:

4b958a3c-57b9-11eb-8b86-12bb97331649.png

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4381

    瀏覽量

    64891
  • 神經(jīng)元
    +關(guān)注

    關(guān)注

    1

    文章

    368

    瀏覽量

    18842
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134625

原文標(biāo)題:一文讀懂機(jī)器學(xué)習(xí)中的正則化

文章出處:【微信號:cas-ciomp,微信公眾號:中科院長春光機(jī)所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    最新人工智能硬件培訓(xùn)AI基礎(chǔ)入門學(xué)習(xí)課程參考2025版(離線AI語音視覺識別篇)

    視覺開發(fā)板開箱即用的離線AI能力,分類列出學(xué)習(xí)課程知識點(diǎn)和實(shí)操參考,希望能夠幫助大家快速掌握離線 AI 智能硬件的基礎(chǔ)知識與實(shí)戰(zhàn)技能,同時了解相關(guān)AI技術(shù)在實(shí)際場景的應(yīng)用情況。正文按入
    發(fā)表于 07-04 11:14

    【「Yocto項(xiàng)目實(shí)戰(zhàn)教程:高效定制嵌入式Linux系統(tǒng)」閱讀體驗(yàn)】01初讀體驗(yàn)

    書的心得體會,獲取閱讀重點(diǎn)等信息。 推薦序知識點(diǎn) 從推薦序,可以獲得以下知識點(diǎn): 這本書的學(xué)習(xí)過程可以實(shí)操,沒有硬件條件的可以使用qem
    發(fā)表于 06-30 21:49

    電機(jī)選型計算公式與知識點(diǎn)匯總

    純分享帖,需要者可點(diǎn)擊附件獲取完整資料~~~*附件:電機(jī)選型計算公式與知識點(diǎn)匯總.pdf 【免責(zé)聲明】內(nèi)容轉(zhuǎn)自今日電機(jī),因轉(zhuǎn)載眾多,無法確認(rèn)真正原始作者,故僅標(biāo)明轉(zhuǎn)載來源。版權(quán)歸原出處所有,純分享帖,侵權(quán)請聯(lián)系刪除內(nèi)容以保證您的權(quán)益。
    發(fā)表于 04-29 16:10

    嵌入式硬件雜談:推挽、開漏、高阻態(tài)、上拉電阻

    對于嵌入式硬件這個龐大的知識體系而言,太多離散的知識點(diǎn)很容易疏漏,因此對于這些容易忘記甚至不明白的知識點(diǎn)做成一個梳理,供大家參考以及學(xué)習(xí),本文主要針對推挽、開漏、高阻態(tài)、上拉電阻這些
    的頭像 發(fā)表于 04-17 19:31 ?1048次閱讀
    嵌入式硬件雜談:推挽、開漏、高阻態(tài)、上拉電阻

    電氣工程師必知必會的100個電?知識點(diǎn)分享

    電??程師也都是從電?學(xué)徒??步?步積累成長起來的。積跬步?千?,匯細(xì)流成江海!朋友們,現(xiàn)在讓我們??個捷徑,花半個?時的時間來積累100個必知必會的電?知識點(diǎn)吧!
    的頭像 發(fā)表于 03-14 11:05 ?978次閱讀

    華邦電子安全閃存關(guān)鍵知識點(diǎn)

    黑客攻擊?高溫考驗(yàn)?駕駛安全?通通沒在怕的!1月15日,華邦電子舉辦了“安全閃存強(qiáng)化車用電子安全性”為主題的線上研討會。為了讓沒能參加這場線上研討會的邦友們也可以清晰 Get 安全閃存關(guān)鍵知識點(diǎn),邦
    的頭像 發(fā)表于 02-12 18:15 ?754次閱讀

    Kaggle知識點(diǎn):7種超參數(shù)搜索方法

    數(shù)據(jù)科學(xué)超參數(shù)搜索確實(shí)是機(jī)器學(xué)習(xí)生命周期中不可或缺的一步,特別是在模型性能方面。正確的超參數(shù)選擇可以顯著提高模型的準(zhǔn)確性、對未見數(shù)據(jù)的泛能力以及收斂速度。不當(dāng)?shù)某瑓?shù)選擇可能導(dǎo)致過擬合或欠擬合等
    的頭像 發(fā)表于 02-08 14:28 ?963次閱讀
    Kaggle<b class='flag-5'>知識點(diǎn)</b>:7種超參數(shù)搜索方法

    Aigtek功率放大器應(yīng)用:電感線圈的知識點(diǎn)分享

    電磁驅(qū)動是功率放大器的一大基礎(chǔ)應(yīng)用領(lǐng)域,其中我們最常見的就是用功放來驅(qū)動電感線圈,那么關(guān)于電感線圈的這10大知識點(diǎn)你都知道嗎?今天Aigtek安泰電子來給大家介紹一下電感線圈的基礎(chǔ)知識。
    的頭像 發(fā)表于 01-07 15:43 ?579次閱讀
    Aigtek功率放大器應(yīng)用:電感線圈的<b class='flag-5'>知識點(diǎn)</b>分享

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章,我們介紹了機(jī)器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識和多
    的頭像 發(fā)表于 12-30 09:16 ?1191次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.全書概覽與第一章學(xué)習(xí)

    了解具身智能機(jī)器相關(guān)知識,我感到十分榮幸和幸運(yùn)。 全書簡介 本書以循序漸進(jìn)的方式展開,通過對具身智能機(jī)器人技術(shù)的全方位解析,幫助讀者系統(tǒng)
    發(fā)表于 12-27 14:50

    后悔沒有早點(diǎn)看到:天線設(shè)計知識點(diǎn)!

    Cat.1 bis R13架構(gòu),天線架構(gòu)精簡為單天線架構(gòu),去掉了分集接收天線,因此只需要一根天線。 ? 知識點(diǎn): Cat.1 bis相對于Cat.1的區(qū)別是,后者為兩根天線(一根主天線,一根分集天線
    的頭像 發(fā)表于 12-24 17:11 ?1117次閱讀
    后悔沒有早點(diǎn)看到:天線設(shè)計<b class='flag-5'>中</b>的<b class='flag-5'>知識點(diǎn)</b>!

    接口測試?yán)碚?、疑問收錄與擴(kuò)展相關(guān)知識點(diǎn)

    本文章使用王者榮耀游戲接口、企業(yè)微信接口的展示結(jié)合理論知識,講解什么是接口測試、接口測試?yán)碚摗⒁蓡柺珍浥c擴(kuò)展相關(guān)知識點(diǎn)知識學(xué)院,快來一起看看吧~
    的頭像 發(fā)表于 11-15 09:12 ?744次閱讀
    接口測試?yán)碚?、疑問收錄與擴(kuò)展<b class='flag-5'>相關(guān)</b><b class='flag-5'>知識點(diǎn)</b>

    【「時間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析與機(jī)器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實(shí)地構(gòu)建了時間序列分析的基礎(chǔ)知識,更巧妙地展示了機(jī)器
    發(fā)表于 08-12 11:21

    MySQL知識點(diǎn)匯總

    大家好,這部分被稱為DQL部分,是每個學(xué)習(xí)MySQL必須要學(xué)會的部分,下面就讓我來介紹MySQL的其他部分。
    的頭像 發(fā)表于 08-05 15:27 ?657次閱讀
    MySQL<b class='flag-5'>知識點(diǎn)</b>匯總

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    今天開始學(xué)習(xí)《大語言模型應(yīng)用指南》第一篇——基礎(chǔ)篇,對于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀,但對于我還是有許多的知識點(diǎn)、專業(yè)術(shù)語比較陌生,需要網(wǎng)上搜索學(xué)習(xí)更多的資
    發(fā)表于 07-25 14:33