一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淺析深度神經(jīng)網(wǎng)絡(luò)(DNN)反向傳播算法(BP)

電子工程師 ? 來源:博客園 ? 作者:劉建平Pinard ? 2021-03-22 16:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在深度神經(jīng)網(wǎng)絡(luò)(DNN)模型與前向傳播算法中,我們對DNN的模型和前向傳播算法做了總結(jié),這里我們更進(jìn)一步,對DNN的反向傳播算法(Back Propagation,BP)做一個總結(jié)。

1. DNN反向傳播算法要解決的問題

在了解DNN的反向傳播算法前,我們先要知道DNN反向傳播算法要解決的問題,也就是說,什么時候我們需要這個反向傳播算法?

回到我們監(jiān)督學(xué)習(xí)的一般問題,假設(shè)我們有m個訓(xùn)練樣本:{ ( x1 , y1 ) , ( x2 , y2 ) , ... , ( xm , ym ) },其中 x 為輸入向量,特征維度為 n_in ,而 y 為輸出向量,特征維度為 n_out 。我們需要利用這 m 個樣本訓(xùn)練出一個模型,當(dāng)有一個新的測試樣本 ( xtest , ? ) 來到時, 我們可以預(yù)測 ytest 向量的輸出。

如果我們采用DNN的模型,即我們使輸入層有 n_in 個神經(jīng)元,而輸出層有 n_out 個神經(jīng)元。再加上一些含有若干神經(jīng)元的隱藏層。此時我們需要找到合適的所有隱藏層和輸出層對應(yīng)的線性系數(shù)矩陣 W ,偏倚向量 b ,讓所有的訓(xùn)練樣本輸入計算出的輸出盡可能的等于或很接近樣本輸出。怎么找到合適的參數(shù)呢?

如果大家對傳統(tǒng)的機(jī)器學(xué)習(xí)的算法優(yōu)化過程熟悉的話,這里就很容易聯(lián)想到我們可以用一個合適的損失函數(shù)來度量訓(xùn)練樣本的輸出損失,接著對這個損失函數(shù)進(jìn)行優(yōu)化求最小化的極值,對應(yīng)的一系列線性系數(shù)矩陣W,偏倚向量b即為我們的最終結(jié)果。在DNN中,損失函數(shù)優(yōu)化極值求解的過程最常見的一般是通過梯度下降法來一步步迭代完成的,當(dāng)然也可以是其他的迭代方法比如牛頓法與擬牛頓法。如果大家對梯度下降法不熟悉,建議先閱讀我之前寫的梯度下降(Gradient Descent)小結(jié)。

對DNN的損失函數(shù)用梯度下降法進(jìn)行迭代優(yōu)化求極小值的過程即為我們的反向傳播算法。

2. DNN反向傳播算法的基本思路

在進(jìn)行DNN反向傳播算法前,我們需要選擇一個損失函數(shù),來度量訓(xùn)練樣本計算出的輸出和真實的訓(xùn)練樣本輸出之間的損失。你也許會問:訓(xùn)練樣本計算出的輸出是怎么得來的?這 個輸出是隨機(jī)選擇一系列 W ,b,用我們上一節(jié)的前向傳播算法計算出來的。即通過一系列的計算:

100042150-65815-2.jpg

計算到輸出層第L層對應(yīng)的 aL 即為前向傳播算法計算出來的輸出。

回到損失函數(shù),DNN可選擇的損失函數(shù)有不少,為了專注算法,這里我們使用最常見的均方差來度量損失。即對于每個樣本,我們期望最小化下式:

100042150-65814-1.jpg

其中,aL 和 y 為特征維度為 n_out 的向量,而 ||S||2 為 S 的L2范數(shù)。

損失函數(shù)有了,現(xiàn)在我們開始用梯度下降法迭代求解每一層的 W,b。

首先是輸出層第L層。注意到輸出層的 W,b 滿足下式:

100042150-65815-2.jpg

這樣對于輸出層的參數(shù),我們的損失函數(shù)變?yōu)椋?/p>

100042150-65816-3.jpg

這樣求解 W,b 的梯度就簡單了:

100042150-65817-4.jpg

注意上式中有一個符號 ⊙,它代表Hadamard積,對于兩個維度相同的向量 A ( a1 , a2 , ... an ) T 和 B ( b1 , b2 , ... bn ) T,則 A⊙B = ( a1b1,a2b2,... anbn ) T。

我們注意到在求解輸出層的 W,b 的時候,有公共的部分

100042150-65818-5.jpg

因此我們可以把公共的部分即對 zL 先算出來,記為:

100042150-65819-6.jpg

現(xiàn)在我們終于把輸出層的梯度算出來了,那么如何計算上一層 L ? 1 層的梯度,上上層 L ? 2 層的梯度呢?這里我們需要一步步的遞推,注意到對于第l層的未激活輸出 zL ,它的梯度可以表示為:

100042150-65820-7.jpg

如果我們可以依次計算出第 l 層的 δl ,則該層的 Wl,bl 很容易計算?為什么呢?注意到根據(jù)前向傳播算法,我們有:

100042150-65821-8.jpg

所以根據(jù)上式我們可以很方便的計算出第 l 層的 Wl,bl 的梯度如下:

100042150-65822-9.jpg

那么現(xiàn)在問題的關(guān)鍵就是要求出 δl 了。這里我們用數(shù)學(xué)歸納法,第 L 層的 δL上面我們已經(jīng)求出, 假設(shè)第 l + 1 層的 δl+1 已經(jīng)求出來了,那么我們?nèi)绾吻蟪龅?l 層的 δl 呢?我們注意到:

100042150-65823-10.jpg

可見,用歸納法遞推 δl+1 和 δl 的關(guān)鍵在于求解

而 zl+1 和 zl 的關(guān)系其實很容易找出:

100042150-65824-11.jpg

這樣很容易求出:

將上式帶入上面 δl+1 和 δl 關(guān)系式我們得到:

現(xiàn)在我們得到了δl的遞推關(guān)系式,只要求出了某一層的 δl ,求解 Wl,bl 的對應(yīng)梯度就很簡單的。

(注意,上面的矩陣求導(dǎo)推導(dǎo)部分不太嚴(yán)謹(jǐn),定性理解即可。)

3. DNN反向傳播算法過程

現(xiàn)在我們總結(jié)下DNN反向傳播算法的過程。由于梯度下降法有批量(Batch),小批量(mini-Batch),隨機(jī)三個變種,為了簡化描述,這里我們以最基本的批量梯度下降法為例來描述反向傳播算法。實際上在業(yè)界使用最多的是mini-Batch的梯度下降法。不過區(qū)別僅僅在于迭代時訓(xùn)練樣本的選擇而已。

輸入: 總層數(shù) L ,以及各隱藏層與輸出層的神經(jīng)元個數(shù),激活函數(shù),損失函數(shù),迭代步長 α,最大迭代次數(shù)MAX與停止迭代閾值 ?,輸入的 m 個訓(xùn)練樣本{ ( x1 , y1 ) , ( x2 , y2 ) , ... , ( xm , ym ) }

輸出:各隱藏層與輸出層的線性關(guān)系系數(shù)矩陣 W 和偏倚向量 b

1) 初始化各隱藏層與輸出層的線性關(guān)系系數(shù)矩陣 W 和偏倚向量 b 的值為一個隨機(jī)值。

2)for iter to 1 to MAX:

2-1) for i = 1 to m:

a) 將DNN輸入 a1 設(shè)置為 xi
b) for l = 2 to L,進(jìn)行前向傳播算法計算

c) 通過損失函數(shù)計算輸出層的 δi,L
d) for l= L-1 to 2, 進(jìn)行反向傳播算法計算

2-2) for l = 2 to L,更新第 l 層的 Wl,Wl,bl:

2-3) 如果所有 W,b 的變化值都小于停止迭代閾值 ?,則跳出迭代循環(huán)到步驟3。

3) 輸出各隱藏層與輸出層的線性關(guān)系系數(shù)矩陣 W 和偏倚向量 b 。

4. DNN反向傳播算法小結(jié)

有了DNN反向傳播算法,我們就可以很方便的用DNN的模型去解決第一節(jié)里面提到了各種監(jiān)督學(xué)習(xí)的分類回歸問題。當(dāng)然DNN的參數(shù)眾多,矩陣運算量也很大,直接使用會有各種各樣的問題。有哪些問題以及如何嘗試解決這些問題并優(yōu)化DNN模型與算法,我們在下一篇講。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • BP
    BP
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    15434
  • dnn
    dnn
    +關(guān)注

    關(guān)注

    0

    文章

    61

    瀏覽量

    9283
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計原則

    BP(back propagation)神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),其網(wǎng)絡(luò)
    的頭像 發(fā)表于 02-12 16:41 ?747次閱讀

    BP神經(jīng)網(wǎng)絡(luò)的調(diào)參技巧與建議

    BP神經(jīng)網(wǎng)絡(luò)的調(diào)參是一個復(fù)雜且關(guān)鍵的過程,涉及多個超參數(shù)的優(yōu)化和調(diào)整。以下是一些主要的調(diào)參技巧與建議: 一、學(xué)習(xí)率(Learning Rate) 重要性 :學(xué)習(xí)率是BP神經(jīng)網(wǎng)絡(luò)中最重要
    的頭像 發(fā)表于 02-12 16:38 ?820次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較

    多層。 每一層都由若干個神經(jīng)元構(gòu)成,神經(jīng)元之間通過權(quán)重連接。信號在神經(jīng)網(wǎng)絡(luò)中是前向傳播的,而誤差是反向
    的頭像 發(fā)表于 02-12 15:53 ?676次閱讀

    如何優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率

    優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率是提高模型訓(xùn)練效率和性能的關(guān)鍵步驟。以下是一些優(yōu)化BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率的方法: 一、理解學(xué)習(xí)率的重要性 學(xué)習(xí)率決定了模型參數(shù)在每次迭代時更新的幅度。過大的學(xué)習(xí)率可
    的頭像 發(fā)表于 02-12 15:51 ?943次閱讀

    BP神經(jīng)網(wǎng)絡(luò)的實現(xiàn)步驟詳解

    BP神經(jīng)網(wǎng)絡(luò)的實現(xiàn)步驟主要包括以下幾個階段:網(wǎng)絡(luò)初始化、前向傳播、誤差計算、反向傳播和權(quán)重更新。
    的頭像 發(fā)表于 02-12 15:50 ?649次閱讀

    BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點分析

    BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)作為一種常用的機(jī)器學(xué)習(xí)模型,具有顯著的優(yōu)點,同時也存在一些不容忽視的缺點。以下是對BP神經(jīng)網(wǎng)絡(luò)優(yōu)缺點的分析
    的頭像 發(fā)表于 02-12 15:36 ?930次閱讀

    什么是BP神經(jīng)網(wǎng)絡(luò)反向傳播算法

    BP神經(jīng)網(wǎng)絡(luò)反向傳播算法(Backpropagation Algorithm)是一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 02-12 15:18 ?778次閱讀

    BP神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的關(guān)系

    ),是一種多層前饋神經(jīng)網(wǎng)絡(luò),它通過反向傳播算法進(jìn)行訓(xùn)練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、一個或多個隱藏層和
    的頭像 發(fā)表于 02-12 15:15 ?868次閱讀

    BP神經(jīng)網(wǎng)絡(luò)的基本原理

    BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)的基本原理涉及前向傳播反向傳播兩個核心過程。以下是關(guān)于
    的頭像 發(fā)表于 02-12 15:13 ?870次閱讀

    BP神經(jīng)網(wǎng)絡(luò)在圖像識別中的應(yīng)用

    傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network),是一種多層前饋神經(jīng)網(wǎng)絡(luò),主要通過反向傳播
    的頭像 發(fā)表于 02-12 15:12 ?684次閱讀

    如何訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型

    BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是一種經(jīng)典的人工神經(jīng)網(wǎng)絡(luò)模型,其訓(xùn)練過程主要分為兩個階段:前向傳播反向
    的頭像 發(fā)表于 02-12 15:10 ?931次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的基本原理與算法

    ),是深度學(xué)習(xí)的代表算法之一。 一、基本原理 卷積運算 卷積運算是卷積神經(jīng)網(wǎng)絡(luò)的核心,用于提取圖像中的局部特征。 定義卷積核:卷積核是一個小的矩陣,用于在輸入圖像上滑動,提取局部特征。 滑動窗口:將卷積核在輸入圖像上滑動,每次滑
    的頭像 發(fā)表于 11-15 14:47 ?1789次閱讀

    【每天學(xué)點AI】前向傳播、損失函數(shù)、反向傳播

    深度學(xué)習(xí)的領(lǐng)域中,前向傳播、反向傳播和損失函數(shù)是構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的三個核心概念。今天,小編將通過一個簡單的實例,解釋這三個概念,并展
    的頭像 發(fā)表于 11-15 10:32 ?1226次閱讀
    【每天學(xué)點AI】前向<b class='flag-5'>傳播</b>、損失函數(shù)、<b class='flag-5'>反向</b><b class='flag-5'>傳播</b>

    【飛凌嵌入式OK3576-C開發(fā)板體驗】RKNN神經(jīng)網(wǎng)絡(luò)算法開發(fā)環(huán)境搭建

    download_model.sh 腳本,該腳本 將下載一個可用的 YOLOv5 ONNX 模型,并存放在當(dāng)前 model 目錄下,參考命令如下: 安裝COCO數(shù)據(jù)集,在深度神經(jīng)網(wǎng)絡(luò)算法中,模型的訓(xùn)練離不開大量的數(shù)據(jù)集,數(shù)據(jù)
    發(fā)表于 10-10 09:28

    FPGA在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)作為其核心算法之一,在圖像識別、語音識別、自然語言處理等領(lǐng)域取得了顯著成果。然而,傳統(tǒng)的
    的頭像 發(fā)表于 07-24 10:42 ?1221次閱讀