前言

本文參考PyTorch官網(wǎng)的教程，分為五個(gè)基本模塊來介紹PyTorch。為了避免文章過長(zhǎng)，這五個(gè)模塊分別在五篇博文中介紹。

Part1：PyTorch簡(jiǎn)單知識(shí)

Part2：PyTorch的自動(dòng)梯度計(jì)算

Part3：使用PyTorch構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)

Part4：訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)分類器

Part5：數(shù)據(jù)并行化

本文是關(guān)于Part3的內(nèi)容。

Part3：使用PyTorch構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)可以使用touch.nn來構(gòu)建。nn依賴于autograd來定義模型，并且對(duì)其求導(dǎo)。一個(gè)nn.Module包含網(wǎng)絡(luò)的層（layers），同時(shí)forward（input）可以返回output。

例如，下面的網(wǎng)絡(luò)（卷積網(wǎng)絡(luò)）是用來對(duì)數(shù)字圖像進(jìn)行分類的。

convnet

這是一個(gè)簡(jiǎn)單的前饋網(wǎng)絡(luò)。它接受輸入，然后一層一層向前傳播，最后輸出一個(gè)結(jié)果。

訓(xùn)練神經(jīng)網(wǎng)絡(luò)的典型步驟如下：

（1）定義神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)包含一些可以學(xué)習(xí)的參數(shù)（如權(quán)重）

（2）在輸入數(shù)據(jù)集上進(jìn)行迭代

（3）使用網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)進(jìn)行處理

（4）計(jì)算loss（輸出值距離正確值有多遠(yuǎn)）

（5）將梯度反向傳播到網(wǎng)絡(luò)參數(shù)中

（6）更新網(wǎng)絡(luò)的權(quán)重，使用簡(jiǎn)單的更新法則：weight = weight - learning_rate* gradient，即：新的權(quán)重=舊的權(quán)重-學(xué)習(xí)率*梯度值。

1 定義網(wǎng)絡(luò)

我們先定義一個(gè)網(wǎng)絡(luò)：

import torch
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F


class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()
        # 1 input image channel, 6 output channels, 5x5 square convolution
        # kernel
        self.conv1 = nn.Conv2d(1, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        # an affine operation: y = Wx + b
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        # Max pooling over a (2, 2) window
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        # If the size is a square you can only specify a single number
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = x.view(-1, self.num_flat_features(x))
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

    def num_flat_features(self, x):
        size = x.size()[1:]  # all dimensions except the batch dimension
        num_features = 1
        for s in size:
            num_features *= s
        return num_features


net = Net()
print(net)

預(yù)期輸出：

Net(

(conv1):Conv2d(1,6,kernel_size=(5,5),stride=(1,1))

(conv2):Conv2d(6,16,kernel_size=(5,5),stride=(1,1))

(fc1):Linear(400->120)

(fc2):Linear(120->84)

(fc3):Linear(84->10)

)

你只需要定義forward函數(shù)，那么backward函數(shù)（梯度在此函數(shù)中計(jì)算）就會(huì)利用autograd來自動(dòng)定義。你可以在forward函數(shù)中使用Tensor的任何運(yùn)算。

學(xué)習(xí)到的參數(shù)可以被net.parameters（）返回。

params = list(net.parameters())
print(len(params))
print(params[0].size())  # conv1's .weight

預(yù)期輸出：

torch.Size([6,1,5,5])

前向計(jì)算的輸入和輸出都是autograd.Variable，注意，這個(gè)網(wǎng)絡(luò)（LeNet）的輸入尺寸是32*32。為了在MNIST數(shù)據(jù)集上使用這個(gè)網(wǎng)絡(luò)，請(qǐng)把圖像大小轉(zhuǎn)變?yōu)?2*32。

input = Variable(torch.randn(1, 1, 32, 32))
out = net(input)
print(out)

預(yù)期輸出：

Variable containing:
-0.0796  0.0330  0.0103  0.0250  0.1153 -0.0136  0.0234  0.0881  0.0374 -0.0359
[torch.FloatTensor of size 1x10]

將梯度緩沖區(qū)歸零，然后使用隨機(jī)梯度值進(jìn)行反向傳播。

net.zero_grad()
out.backward(torch.randn(1, 10))

注意：torch.nn只支持mini-batches. 完整的torch.nn package只支持mini-batch形式的樣本作為輸入，并且不能只包含一個(gè)樣本。例如，nn.Conv2d會(huì)采用一個(gè)4D的Tensor（nSamples* nChannels * Height * Width）。如果你有一個(gè)單樣本，可以使用input.unsqueeze（0）來添加一個(gè)虛假的批量維度。

在繼續(xù)之前，讓我們回顧一下迄今為止所見過的所有類。

概述：

（1） torch.Tensor——多維數(shù)組

（2） autograd.Variable——包裝了一個(gè)Tensor，并且記錄了應(yīng)用于其上的運(yùn)算。與Tensor具有相同的API，同時(shí)增加了一些新東西例如backward（）。并且有相對(duì)于該tensor的梯度值。

（3） nn.Module——神經(jīng)網(wǎng)絡(luò)模塊。封裝參數(shù)的簡(jiǎn)便方式，對(duì)于參數(shù)向GPU移動(dòng)，以及導(dǎo)出、加載等有幫助。

（4） nn.Parameter——這是一種變量（Variable），當(dāng)作為一個(gè)屬性（attribute）分配到一個(gè)模塊（Module）時(shí)，可以自動(dòng)注冊(cè)為一個(gè)參數(shù)（parameter）。

（5） autograd.Function——執(zhí)行自動(dòng)求導(dǎo)運(yùn)算的前向和反向定義。每一個(gè)Variable運(yùn)算，創(chuàng)建至少一個(gè)單獨(dú)的Function節(jié)點(diǎn)，該節(jié)點(diǎn)連接到創(chuàng)建了Variable并且編碼了它的歷史的函數(shù)身上。

2 損失函數(shù)（Loss Function）

損失函數(shù)采用輸出值和目標(biāo)值作為輸入?yún)?shù)，來計(jì)算輸出值距離目標(biāo)值還有多大差距。在nn package中有很多種不同的損失函數(shù)，最簡(jiǎn)單的一個(gè)loss就是nn.MSELoss，它計(jì)算輸出值和目標(biāo)值之間的均方差。

例如：

output = net(input)
target = Variable(torch.arange(1, 11))  # a dummy target, for example
criterion = nn.MSELoss()

loss = criterion(output, target)
print(loss)

現(xiàn)在，從反向看loss，使用.grad_fn屬性，你會(huì)看到一個(gè)計(jì)算graph如下：

input -> conv2d -> relu -> maxpool2d -> conv2d -> relu -> maxpool2d
      -> view -> linear -> relu -> linear -> relu -> linear
      -> MSELoss
      -> loss

當(dāng)我們調(diào)用loss.backward（），整個(gè)的graph關(guān)于loss求導(dǎo)，graph中的所有Variables都會(huì)有他們自己的.grad變量。

為了理解，我們進(jìn)行幾個(gè)反向步驟。

print(loss.grad_fn)  # MSELoss
print(loss.grad_fn.next_functions[0][0])  # Linear
print(loss.grad_fn.next_functions[0][0].next_functions[0][0])  # ReLU

預(yù)期輸出：

<torch.autograd.function.MSELossBackwardobjectat0x7fb3c0dcf4f8>

<torch.autograd.function.AddmmBackwardobjectat0x7fb3c0dcf408>

3 反向傳播（Backprop）

可以使用loss.backward（）進(jìn)行誤差反向傳播。你需要清除已經(jīng)存在的梯度值，否則梯度將會(huì)積累到現(xiàn)有的梯度上。

現(xiàn)在，我們調(diào)用loss.backward（），看一看conv1的bias 梯度在backward之前和之后的值。

net.zero_grad()     # zeroes the gradient buffers of all parameters

print('conv1.bias.grad before backward')
print(net.conv1.bias.grad)

loss.backward()

print('conv1.bias.grad after backward')
print(net.conv1.bias.grad)

4 更新權(quán)重

實(shí)踐當(dāng)中最簡(jiǎn)單的更新法則就是隨機(jī)梯度下降法（ StochasticGradient Descent （SGD））

weight = weight - learning_rate * gradient

執(zhí)行這個(gè)操作的python代碼如下：

learning_rate = 0.01
for f in net.parameters():
    f.data.sub_(f.grad.data * learning_rate)

但是當(dāng)你使用神經(jīng)網(wǎng)絡(luò)的時(shí)候，你可能會(huì)想要嘗試多種不同的更新法則，例如SGD，Nesterov-SGD， Adam， RMSProp等。為了實(shí)現(xiàn)此功能，有一個(gè)package叫做torch.optim已經(jīng)實(shí)現(xiàn)了這些。使用它也很方便：

import torch.optim as optim

# create your optimizer
optimizer = optim.SGD(net.parameters(), lr=0.01)

# in your training loop:
optimizer.zero_grad()   # zero the gradient buffers
output = net(input)
loss = criterion(output, target)
loss.backward()
optimizer.step()    # Does the update

責(zé)任編輯：xj

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103525
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5561

瀏覽量
122770
pytorch

pytorch

+關(guān)注

關(guān)注
2

文章
809

瀏覽量
13940

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

基于PyTorch的深度學(xué)習(xí)入門教程之使用PyTorch構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)

前言

評(píng)論