一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

【連載】深度學(xué)習(xí)筆記5:正則化與dropout

人工智能實(shí)訓(xùn)營 ? 2018-08-20 12:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在筆記 4 中,詳細(xì)闡述了機(jī)器學(xué)習(xí)中利用正則化防止過擬合的基本方法,對 L1 和 L2 范數(shù)進(jìn)行了通俗的解釋。為了防止深度神經(jīng)網(wǎng)絡(luò)出現(xiàn)過擬合,除了給損失函數(shù)加上 L2 正則化項(xiàng)之外,還有一個(gè)很著名的方法——dropout.

廢話少說,咱們單刀直入正題。究竟啥是 dropout ? dropout 是指在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程中,對所有神經(jīng)元按照一定的概率進(jìn)行消除的處理方式。在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí),dropout 能夠在很大程度上簡化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),防止神經(jīng)網(wǎng)絡(luò)過擬合。所以,從本質(zhì)上而言,dropout 也是一種神經(jīng)網(wǎng)絡(luò)的正則化方法。

假設(shè)我們要訓(xùn)練了一個(gè) 4 層(3個(gè)隱層)的神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)存在著過擬合。于是我們決定使用 dropout 方法來處理,dropout 為該網(wǎng)絡(luò)每一層的神經(jīng)元設(shè)定一個(gè)失活(drop)概率,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,我們會(huì)丟棄一些神經(jīng)元節(jié)點(diǎn),在網(wǎng)絡(luò)圖上則表示為該神經(jīng)元節(jié)點(diǎn)的進(jìn)出連線被刪除。最后我們會(huì)得到一個(gè)神經(jīng)元更少、模型相對簡單的神經(jīng)網(wǎng)絡(luò),這樣一來原先的過擬合情況就會(huì)大大的得到緩解。這樣說似乎并沒有將 dropout 正則化原理解釋清楚,我們繼續(xù)深究一下:為什么 dropout 可以可以通過正則化發(fā)揮防止過擬合的功能?

因?yàn)?dropout 可以隨時(shí)隨機(jī)的丟棄任何一個(gè)神經(jīng)元,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果不會(huì)依賴于任何一個(gè)輸入特征,每一個(gè)神經(jīng)元都以這種方式進(jìn)行傳播,并為神經(jīng)元的所有輸入增加一點(diǎn)權(quán)重,dropout 通過傳播所有權(quán)重產(chǎn)生類似于 L2 正則化收縮權(quán)重的平方范數(shù)的效果,這樣的權(quán)重壓縮類似于 L2 正則化的權(quán)值衰減,這種外層的正則化起到了防止過擬合的作用。

所以說,總體而言,dropout 的功能類似于 L2 正則化,但又有所區(qū)別。另外需要注意的一點(diǎn)是,對于一個(gè)多層的神經(jīng)網(wǎng)絡(luò),我們的 dropout 某層神經(jīng)元的概率并不是一刀切的。對于不同神經(jīng)元個(gè)數(shù)的神經(jīng)網(wǎng)絡(luò)層,我們可以設(shè)置不同的失活或者保留概率,對于含有較多權(quán)值的層,我們可以選擇設(shè)置較大的失活概率(即較小的保留概率)。所以,總結(jié)來說就是如果你擔(dān)心某些層所含神經(jīng)元較多或者比其他層更容易發(fā)生過擬合,我們可以將該層的失活概率設(shè)置的更高一些。

說了這么多,總算大致把 dropout 說明白了。那 dropout 這種操作在實(shí)際的 python 編程中該如何實(shí)現(xiàn)呢?以一個(gè)三層的神經(jīng)網(wǎng)絡(luò)為例,首先我們需要定義一個(gè) 3 層的 dropout 向量,然后將其與保留概率 keep-prob 進(jìn)行比較生成一個(gè)布爾值向量,再將其與該層的神經(jīng)元激活輸出值進(jìn)行乘積運(yùn)算,最后擴(kuò)展上一步的計(jì)算結(jié)果,將其除以 keep-prob 即可。但在實(shí)際編程中就沒說的這么容易了,我們需要對整個(gè)神經(jīng)網(wǎng)絡(luò)的計(jì)算過程進(jìn)行重新定義,包括前向傳播和反向傳播的計(jì)算定義。

含 dropout 的前向計(jì)算定義如下:

def forward_propagation_with_dropout(X, parameters, keep_prob = 0.5):
  np.random.seed(1)  # retrieve parameters
  W1 = parameters["W1"]
  b1 = parameters["b1"]
  W2 = parameters["W2"]
  b2 = parameters["b2"]
  W3 = parameters["W3"]
  b3 = parameters["b3"]  # LINEAR -> RELU -> LINEAR -> RELU -> LINEAR -> SIGMOID
  Z1 = np.dot(W1, X) + b1
  A1 = relu(Z1)

  D1 = np.random.rand(A1.shape[0], A1.shape[1])  
  D1 = D1 < keep_prob ? ? ? ? ? ? ? ? ? ? ? ? ? ? 
 ? ?A1 = np.multiply(D1, A1) ? ? ? ? ? ? ? ? ? ? ? ? 
 ? ?A1 = A1 / keep_prob ? ? ? ? ? ? ? ? ? ? ? ? ? ? 

 ? ?Z2 = np.dot(W2, A1) + b2
 ? ?A2 = relu(Z2)

 ? ?D2 = np.random.rand(A2.shape[0], A2.shape[1])   
  D2 = D2 < keep_prob ? ? ? ? ? ? ? ? ? ? ? ? ? ? 
 ? ?A2 = np.multiply(D2, A2) ? ? ? ? ? ? ? ? ? ? ? 
 ? ?A2 = A2 / keep_prob ? ? ? ? ? ? ? ? ? ? ? ? ? 
 ? ?Z3 = np.dot(W3, A2) + b3
 ? ?A3 = sigmoid(Z3)

 ? ?cache = (Z1, D1, A1, W1, b1, Z2, D2, A2, W2, b2, Z3, A3, W3, b3) ? ?
return A3, cache

以上代碼基本體現(xiàn)了 dropout 的實(shí)現(xiàn)的四步流程。

含 dropout 的反向傳播計(jì)算定義如下:

def backward_propagation_with_dropout(X, Y, cache, keep_prob):

  m = X.shape[1]
  (Z1, D1, A1, W1, b1, Z2, D2, A2, W2, b2, Z3, A3, W3, b3) = cache

  dZ3 = A3 - Y
  dW3 = 1./m * np.dot(dZ3, A2.T)
  db3 = 1./m * np.sum(dZ3, axis=1, keepdims = True)
  dA2 = np.dot(W3.T, dZ3)

  dA2 = np.multiply(dA2, D2)  
  dA2 = dA2 / keep_prob    

  dZ2 = np.multiply(dA2, np.int64(A2 > 0))
  dW2 = 1./m * np.dot(dZ2, A1.T)
  db2 = 1./m * np.sum(dZ2, axis=1, keepdims = True)

  dA1 = np.dot(W2.T, dZ2)

  dA1 = np.multiply(dA1, D1)  
  dA1 = dA1 / keep_prob      

  dZ1 = np.multiply(dA1, np.int64(A1 > 0))
  dW1 = 1./m * np.dot(dZ1, X.T)
  db1 = 1./m * np.sum(dZ1, axis=1, keepdims = True)

  gradients = {"dZ3": dZ3, "dW3": dW3, "db3": db3,"dA2": dA2,         "dZ2": dZ2, "dW2": dW2, "db2": db2, "dA1": dA1, 
         "dZ1": dZ1, "dW1": dW1, "db1": db1}  
return gradients

在定義反向傳播計(jì)算函數(shù)時(shí),我們必須丟棄和執(zhí)行前向傳播時(shí)一樣的神經(jīng)元。
最后帶有 dropout 的分類效果如下所示:


所以,總結(jié)而言,dropout 就是在正常的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上給每一層的每一個(gè)神經(jīng)元加了一道概率流程來隨機(jī)丟棄某些神經(jīng)元以達(dá)到防止過擬合的目的。

本文來自《自興動(dòng)腦人工智能》項(xiàng)目部:凱文。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    48983

    瀏覽量

    248852
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8500

    瀏覽量

    134502
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5560

    瀏覽量

    122747
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    IPC2221簡略學(xué)習(xí)筆記

    關(guān)于IPC2221的學(xué)習(xí)筆記。
    發(fā)表于 03-14 18:07 ?5次下載

    軍事應(yīng)用中深度學(xué)習(xí)的挑戰(zhàn)與機(jī)遇

    人工智能尤其是深度學(xué)習(xí)技術(shù)的最新進(jìn)展,加速了不同應(yīng)用領(lǐng)域的創(chuàng)新與發(fā)展。深度學(xué)習(xí)技術(shù)的發(fā)展深刻影響了軍事發(fā)展趨勢,導(dǎo)致戰(zhàn)爭形式和模式發(fā)生重大變化。本文將概述
    的頭像 發(fā)表于 02-14 11:15 ?516次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系

    ),是一種多層前饋神經(jīng)網(wǎng)絡(luò),它通過反向傳播算法進(jìn)行訓(xùn)練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、一個(gè)或多個(gè)隱藏層和輸出層組成,通過逐層遞減的方式調(diào)整網(wǎng)絡(luò)權(quán)重,目的是最小網(wǎng)絡(luò)的輸出誤差。 二、深度學(xué)習(xí)的定義與發(fā)展
    的頭像 發(fā)表于 02-12 15:15 ?840次閱讀

    NPU在深度學(xué)習(xí)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心驅(qū)動(dòng)力之一,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價(jià)值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)是專門為深度學(xué)習(xí)
    的頭像 發(fā)表于 11-14 15:17 ?1875次閱讀

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。
    的頭像 發(fā)表于 10-28 14:05 ?642次閱讀
    Pytorch<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練的方法

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識(shí)別 圖像識(shí)別是深度學(xué)習(xí)
    的頭像 發(fā)表于 10-27 11:13 ?1320次閱讀

    激光雷達(dá)技術(shù)的基于深度學(xué)習(xí)的進(jìn)步

    信息。這使得激光雷達(dá)在自動(dòng)駕駛、無人機(jī)、機(jī)器人等領(lǐng)域具有廣泛的應(yīng)用前景。 二、深度學(xué)習(xí)技術(shù)的發(fā)展 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,它通過模擬人
    的頭像 發(fā)表于 10-27 10:57 ?1046次閱讀

    FPGA加速深度學(xué)習(xí)模型的案例

    :DE5Net_Conv_Accelerator 應(yīng)用場景 :面向深度學(xué)習(xí)的開源項(xiàng)目,實(shí)現(xiàn)了AlexNet的第一層卷積運(yùn)算加速。 技術(shù)特點(diǎn) : 采用了Verilog語言進(jìn)行編程,與PCIe接口相集成,可以直接插入到
    的頭像 發(fā)表于 10-25 09:22 ?1186次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    人類的學(xué)習(xí)過程,實(shí)現(xiàn)對復(fù)雜數(shù)據(jù)的學(xué)習(xí)和識(shí)別。AI大模型則是指模型的參數(shù)數(shù)量巨大,需要龐大的計(jì)算資源來進(jìn)行訓(xùn)練和推理。深度學(xué)習(xí)算法為AI大模型提供了核心的技術(shù)支撐,使得大模型能夠更好地?cái)M
    的頭像 發(fā)表于 10-23 15:25 ?2854次閱讀

    FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?

    的發(fā)展前景較為廣闊,但也面臨一些挑戰(zhàn)。以下是一些關(guān)于 FPGA 在深度學(xué)習(xí)中應(yīng)用前景的觀點(diǎn),僅供參考: ? 優(yōu)勢方面: ? 高度定制的計(jì)算架構(gòu):FPGA 可以根據(jù)深度
    發(fā)表于 09-27 20:53

    PyTorch深度學(xué)習(xí)開發(fā)環(huán)境搭建指南

    PyTorch作為一種流行的深度學(xué)習(xí)框架,其開發(fā)環(huán)境的搭建對于深度學(xué)習(xí)研究者和開發(fā)者來說至關(guān)重要。在Windows操作系統(tǒng)上搭建PyTorch環(huán)境,需要綜合考慮多個(gè)方面,包括軟件安裝、
    的頭像 發(fā)表于 07-16 18:29 ?2459次閱讀

    深度學(xué)習(xí)算法在嵌入式平臺(tái)上的部署

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)算法在各個(gè)領(lǐng)域的應(yīng)用日益廣泛。然而,將深度學(xué)習(xí)算法部署到資源受限的嵌入式平臺(tái)上,仍然是一個(gè)具有挑戰(zhàn)性的任務(wù)。本文將從嵌入式平臺(tái)的特點(diǎn)、
    的頭像 發(fā)表于 07-15 10:03 ?3122次閱讀

    利用Matlab函數(shù)實(shí)現(xiàn)深度學(xué)習(xí)算法

    在Matlab中實(shí)現(xiàn)深度學(xué)習(xí)算法是一個(gè)復(fù)雜但強(qiáng)大的過程,可以應(yīng)用于各種領(lǐng)域,如圖像識(shí)別、自然語言處理、時(shí)間序列預(yù)測等。這里,我將概述一個(gè)基本的流程,包括環(huán)境設(shè)置、數(shù)據(jù)準(zhǔn)備、模型設(shè)計(jì)、訓(xùn)練過程、以及測試和評(píng)估,并提供一個(gè)基于Matlab的
    的頭像 發(fā)表于 07-14 14:21 ?3609次閱讀

    基于Python的深度學(xué)習(xí)人臉識(shí)別方法

    基于Python的深度學(xué)習(xí)人臉識(shí)別方法是一個(gè)涉及多個(gè)技術(shù)領(lǐng)域的復(fù)雜話題,包括計(jì)算機(jī)視覺、深度學(xué)習(xí)、以及圖像處理等。在這里,我將概述一個(gè)基本的流程,包括數(shù)據(jù)準(zhǔn)備、模型選擇、訓(xùn)練過程、以及
    的頭像 發(fā)表于 07-14 11:52 ?1681次閱讀

    cnn常用的幾個(gè)模型有哪些

    CNN(卷積神經(jīng)網(wǎng)絡(luò))是一種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像識(shí)別、自然語言處理等領(lǐng)域。以下是一些常用的CNN模型: LeNet-5:LeNet-5是最早的卷積神經(jīng)網(wǎng)絡(luò)之一,由Yann Le
    的頭像 發(fā)表于 07-11 14:58 ?1898次閱讀