一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PyTorch教程-14.8?;趨^(qū)域的 CNN (R-CNN)

jf_pJlTbmA9 ? 來源:PyTorch ? 作者:PyTorch ? 2023-06-05 15:44 ? 次閱讀

除了第 14.7 節(jié)中描述的單次多框檢測(cè)之外,基于區(qū)域的 CNN 或具有 CNN 特征的區(qū)域 (R-CNN) 也是將深度學(xué)習(xí)應(yīng)用于對(duì)象檢測(cè)的許多開創(chuàng)性方法之一 (Girshick等人,2014 年)。在本節(jié)中,我們將介紹 R-CNN 及其一系列改進(jìn):fast R-CNN ( Girshick, 2015 )、faster R-CNN ( Ren et al. , 2015 )和掩模 R-CNN ( He等,2017)。由于篇幅有限,我們將只關(guān)注這些模型的設(shè)計(jì)。

14.8.1。R-CNN

R -CNN首先從輸入圖像中提取許多(例如,2000 個(gè))region proposals (例如,anchor boxes 也可以被認(rèn)為是 region proposals),標(biāo)記它們的類別和邊界框(例如,offsets)。

(Girshick等人,2014 年)

然后使用 CNN 對(duì)每個(gè)候選區(qū)域執(zhí)行前向傳播以提取其特征。接下來,每個(gè)區(qū)域提案的特征用于預(yù)測(cè)該區(qū)域提案的類別和邊界框。

poYBAGR9O8KAMP_vAAQHJgcCVic113.svg

圖 14.8.1 R-CNN 模型。

圖 14.8.1顯示了 R-CNN 模型。更具體地說,R-CNN包括以下四個(gè)步驟:

執(zhí)行選擇性搜索以在輸入圖像上提取多個(gè)高質(zhì)量區(qū)域建議 (Uijlings等人,2013 年)。這些提議的區(qū)域通常是在具有不同形狀和大小的多個(gè)尺度上選擇的。每個(gè)區(qū)域提案都將標(biāo)有一個(gè)類別和一個(gè)真實(shí)邊界框。

選擇一個(gè)預(yù)訓(xùn)練的 CNN 并在輸出層之前截?cái)嗨?。resize每個(gè)region proposal到網(wǎng)絡(luò)需要的輸入大小,通過前向傳播輸出為region proposal提取的特征。

以每個(gè)region proposal的提取特征和標(biāo)注類別為例。訓(xùn)練多個(gè)支持向量機(jī)對(duì)對(duì)象進(jìn)行分類,其中每個(gè)支持向量機(jī)單獨(dú)確定示例是否包含特定類。

以每個(gè)region proposal的提取特征和標(biāo)注bounding box為例。訓(xùn)練線性回歸模型來預(yù)測(cè)地面實(shí)況邊界框。

盡管 R-CNN 模型使用預(yù)訓(xùn)練的 CNNs 來有效地提取圖像特征,但速度很慢。想象一下,我們從單個(gè)輸入圖像中選擇了數(shù)千個(gè)區(qū)域建議:這需要數(shù)千個(gè) CNN 前向傳播來執(zhí)行對(duì)象檢測(cè)。這種龐大的計(jì)算負(fù)載使得在實(shí)際應(yīng)用中廣泛使用 R-CNN 變得不可行。

14.8.2??焖?R-CNN

R-CNN 的主要性能瓶頸在于每個(gè) region proposal 的獨(dú)立 CNN 前向傳播,沒有共享計(jì)算。由于這些區(qū)域通常有重疊,獨(dú)立的特征提取會(huì)導(dǎo)致大量重復(fù)計(jì)算。Fast R-CNN相比 R-CNN的主要改進(jìn)之一是 CNN 前向傳播僅在整個(gè)圖像上進(jìn)行 ( Girshick, 2015 )。

pYYBAGR9O8WATfePAAfvq7owwD4432.svg

圖 14.8.2快速 R-CNN 模型。

圖 14.8.2描述了快速 R-CNN 模型。其主要計(jì)算如下:

與 R-CNN 相比,在快速 R-CNN 中,CNN 用于特征提取的輸入是整個(gè)圖像,而不是單個(gè)區(qū)域建議。此外,這個(gè) CNN 是可訓(xùn)練的。給定輸入圖像,讓 CNN 輸出的形狀為 1×c×h1×w1.

假設(shè)選擇性搜索生成n區(qū)域提案。這些區(qū)域提議(不同形狀)在 CNN 輸出上標(biāo)記感興趣區(qū)域(不同形狀)。然后這些感興趣的區(qū)域進(jìn)一步提取相同形狀的特征(比如高度 h2和寬度w2指定)以便于連接。為了實(shí)現(xiàn)這一點(diǎn),快速 R-CNN 引入了 感興趣區(qū)域 (RoI) 池化層:CNN 輸出和區(qū)域提議被輸入到該層,輸出形狀的級(jí)聯(lián)特征n×c×h2×w2為所有區(qū)域提案進(jìn)一步提取。

使用全連接層,將連接的特征轉(zhuǎn)換為形狀的輸出n×d, 在哪里d取決于模型設(shè)計(jì)。

預(yù)測(cè)每個(gè)類別和邊界框n區(qū)域提案。更具體地說,在類和邊界框預(yù)測(cè)中,將全連接層輸出轉(zhuǎn)換為形狀的輸出 n×q(q是類的數(shù)量)和形狀的輸出n×4, 分別。類別預(yù)測(cè)使用 softmax 回歸。

fast R-CNN 中提出的感興趣區(qū)域池化層與7.5 節(jié)中介紹的池化層不同。在池化層中,我們通過指定池化窗口、填充和步幅的大小來間接控制輸出形狀。相反,我們可以直接在感興趣區(qū)域池化層中指定輸出形狀。

例如,讓我們將每個(gè)區(qū)域的輸出高度和寬度指定為h2和w2, 分別。對(duì)于形狀的任何感興趣區(qū)域窗口h×w, 這個(gè)窗口被分為 h2×w2子窗口的網(wǎng)格,其中每個(gè)子窗口的形狀大約是(h/h2)×(w/w2). 在實(shí)際應(yīng)用中,任何一個(gè)子窗口的高和寬都要向上取整,最大的元素作為子窗口的輸出。因此,即使感興趣區(qū)域具有不同的形狀,感興趣區(qū)域池化層也可以提取相同形狀的特征。

作為說明性示例,在圖 14.8.3中,左上角 3×3感興趣的區(qū)域被選擇在4×4 輸入。對(duì)于這個(gè)感興趣的區(qū)域,我們使用2×2感興趣區(qū)域池化層以獲得2×2輸出。請(qǐng)注意,四個(gè)劃分的子窗口中的每一個(gè)都包含元素 0、1、4 和 5(5 是最大值);2 和 6(6 是最大值);8 和 9(9 是最大值);和 10。

pYYBAGR9O8iAF6hzAAC-ikVsQiI293.svg

圖 14.8.3 A2×2感興趣區(qū)域池化層。

下面我們演示感興趣區(qū)域池化層的計(jì)算。假設(shè)CNN提取的特征的高和寬 X都是4,并且只有一個(gè)通道。

import torch import torchvision X = torch.arange(16.).reshape(1, 1, 4, 4) X

tensor([[[[ 0., 1., 2., 3.], [ 4., 5., 6., 7.], [ 8., 9., 10., 11.], [12., 13., 14., 15.]]]])

from mxnet import np, npx npx.set_np() X = np.arange(16).reshape(1, 1, 4, 4) X

array([[[[ 0., 1., 2., 3.], [ 4., 5., 6., 7.], [ 8., 9., 10., 11.], [12., 13., 14., 15.]]]])

讓我們進(jìn)一步假設(shè)輸入圖像的高度和寬度均為 40 像素,并且選擇性搜索在該圖像上生成兩個(gè)區(qū)域建議。每個(gè)區(qū)域建議由五個(gè)元素表示:其對(duì)象類,后跟(x,y)- 其左上角和右下角的坐標(biāo)。

rois = torch.Tensor([[0, 0, 0, 20, 20], [0, 0, 10, 30, 30]])

rois = np.array([[0, 0, 0, 20, 20], [0, 0, 10, 30, 30]])

因?yàn)榈母叨群蛯挾萖是1/10輸入圖像的高度和寬度,根據(jù)指定參數(shù)將兩個(gè)區(qū)域提議的坐標(biāo)乘以0.1 spatial_scale 。然后將兩個(gè)感興趣區(qū)域分別標(biāo)記X為 和。終于在X[:, :, 0:3, 0:3]X[:, :, 1:4, 0:4]2×2region of interest pooling,將每個(gè)感興趣區(qū)域劃分為子窗口的網(wǎng)格,進(jìn)一步提取相同形狀的特征2×2.

torchvision.ops.roi_pool(X, rois, output_size=(2, 2), spatial_scale=0.1)

tensor([[[[ 5., 6.], [ 9., 10.]]], [[[ 9., 11.], [13., 15.]]]])

npx.roi_pooling(X, rois, pooled_size=(2, 2), spatial_scale=0.1)

array([[[[ 5., 6.], [ 9., 10.]]], [[[ 9., 11.], [13., 15.]]]])

14.8.3。更快的 R-CNN

為了在目標(biāo)檢測(cè)中更加準(zhǔn)確,快速 R-CNN 模型通常必須在選擇性搜索中生成大量區(qū)域建議。為了在不損失準(zhǔn)確性的情況下減少區(qū)域建議,更快的 R-CNN提出用區(qū)域建議網(wǎng)絡(luò) 代替選擇性搜索(Ren等人,2015 年)。

pYYBAGR9O8yAEp5OAAkQcA2GsKs954.svg

圖 14.8.4更快的 R-CNN 模型。

圖 14.8.4顯示了更快的 R-CNN 模型。與fast R-CNN相比,faster R-CNN只是將region proposal方法從selective search改為region proposal network。模型的其余部分保持不變。區(qū)域建議網(wǎng)絡(luò)的工作步驟如下:

用一個(gè)3×3填充為 1 的卷積層將 CNN 輸出轉(zhuǎn)換為新的輸出c渠道。這樣,CNN提取的特征圖的空間維度上的每個(gè)單元都會(huì)得到一個(gè)新的長(zhǎng)度為c.

以特征圖的每個(gè)像素為中心,生成多個(gè)不同尺度和縱橫比的anchor boxes并進(jìn)行標(biāo)注。

使用長(zhǎng)度-c每個(gè)錨框中心的特征向量,預(yù)測(cè)該錨框的二元類(背景或?qū)ο螅┖瓦吔缈颉?/p>

考慮那些預(yù)測(cè)的邊界框,其預(yù)測(cè)的類是對(duì)象。使用非最大抑制去除重疊的結(jié)果。其余預(yù)測(cè)的對(duì)象邊界框是感興趣區(qū)域池化層所需的區(qū)域建議。

值得注意的是,作為更快的 R-CNN 模型的一部分,區(qū)域建議網(wǎng)絡(luò)與模型的其余部分聯(lián)合訓(xùn)練。換句話說,F(xiàn)aster R-CNN的目標(biāo)函數(shù)不僅包括目標(biāo)檢測(cè)中的類和邊界框預(yù)測(cè),還包括區(qū)域提議網(wǎng)絡(luò)中anchor boxes的二值類和邊界框預(yù)測(cè)。作為端到端訓(xùn)練的結(jié)果,區(qū)域建議網(wǎng)絡(luò)學(xué)習(xí)如何生成高質(zhì)量的區(qū)域建議,從而在減少從數(shù)據(jù)中學(xué)習(xí)的區(qū)域建議數(shù)量的情況下保持目標(biāo)檢測(cè)的準(zhǔn)確性。

14.8.4。Mask R-CNN

在訓(xùn)練數(shù)據(jù)集中,如果對(duì)象的像素級(jí)位置也被標(biāo)記在圖像上,mask R-CNN可以有效地利用這些詳細(xì)的標(biāo)記來進(jìn)一步提高對(duì)象檢測(cè)的準(zhǔn)確性 ( He et al. , 2017 )。

pYYBAGR9O8-AXzZ1AAiSQsM4RMk798.svg

圖 14.8.5 mask R-CNN 模型。

如圖14.8.5所示,mask R-CNN在faster R-CNN的基礎(chǔ)上進(jìn)行了修改。具體來說,mask R-CNN 將感興趣區(qū)域池化層替換為感興趣區(qū)域 (RoI) 對(duì)齊 層。該感興趣區(qū)域?qū)R層使用雙線性插值來保留特征圖上的空間信息,更適合像素級(jí)預(yù)測(cè)。該層的輸出包含所有感興趣區(qū)域的相同形狀的特征圖。它們不僅用于預(yù)測(cè)每個(gè)感興趣區(qū)域的類和邊界框,還用于通過額外的全卷積網(wǎng)絡(luò)預(yù)測(cè)對(duì)象的像素級(jí)位置。本章后續(xù)部分將提供有關(guān)使用全卷積網(wǎng)絡(luò)預(yù)測(cè)圖像像素級(jí)語義的更多詳細(xì)信息。

14.8.5。概括

R-CNN從輸入圖像中提取出多個(gè)region proposals,使用一個(gè)CNN對(duì)每個(gè)region proposals進(jìn)行前向傳播來提取其特征,然后使用這些特征來預(yù)測(cè)這個(gè)region proposals的類別和bounding box。

Fast R-CNN 相比 R-CNN 的一大改進(jìn)是 CNN 前向傳播只對(duì)整幅圖像進(jìn)行。它還引入了感興趣區(qū)域池化層,使得具有不同形狀的感興趣區(qū)域可以進(jìn)一步提取相同形狀的特征。

Faster R-CNN 用聯(lián)合訓(xùn)練的區(qū)域建議網(wǎng)絡(luò)代替了 Fast R-CNN 中使用的選擇性搜索,因此前者可以在減少區(qū)域建議數(shù)量的情況下保持目標(biāo)檢測(cè)的準(zhǔn)確性。

在Faster R-CNN的基礎(chǔ)上,mask R-CNN額外引入全卷積網(wǎng)絡(luò),利用像素級(jí)標(biāo)簽進(jìn)一步提高目標(biāo)檢測(cè)的準(zhǔn)確率。

14.8.6。練習(xí)

我們能否將目標(biāo)檢測(cè)框定為單個(gè)回歸問題,例如預(yù)測(cè)邊界框和類別概率?你可以參考YOLO模型的設(shè)計(jì) (Redmon et al. , 2016)。

將單次射擊多框檢測(cè)與本節(jié)介紹的方法進(jìn)行比較。它們的主要區(qū)別是什么?您可以參考Zhao等人的圖 2。(2019)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    354

    瀏覽量

    22582
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    808

    瀏覽量

    13686
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    手把手教你使用LabVIEW實(shí)現(xiàn)Mask R-CNN圖像實(shí)例分割(含源碼)

    使用LabVIEW實(shí)現(xiàn)Mask R-CNN圖像實(shí)例分割
    的頭像 發(fā)表于 03-21 13:39 ?2922次閱讀
    手把手教你使用LabVIEW實(shí)現(xiàn)Mask <b class='flag-5'>R-CNN</b>圖像實(shí)例分割(含源碼)

    TF之CNNCNN實(shí)現(xiàn)mnist數(shù)據(jù)集預(yù)測(cè)

    TF之CNNCNN實(shí)現(xiàn)mnist數(shù)據(jù)集預(yù)測(cè) 96%采用placeholder用法+2層C及其max_pool法+隱藏層dropout法+輸出層softmax法+目標(biāo)函數(shù)cross_entropy法+
    發(fā)表于 12-19 17:02

    大家是怎么壓榨CNN模型的

    【技術(shù)綜述】為了壓榨CNN模型,這幾年大家都干了什么
    發(fā)表于 05-29 14:49

    如何利用PyTorch API構(gòu)建CNN?

      很多人對(duì)于卷積神經(jīng)網(wǎng)絡(luò)(CNN)并不了解,卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),它包括卷積計(jì)算并具有很深的結(jié)構(gòu),卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的代表性算法之一。那么如何利用PyTorch API構(gòu)建CNN
    發(fā)表于 07-16 18:13

    如何將DS_CNN_S.pb轉(zhuǎn)換為ds_cnn_s.tflite?

    MIMRTX1064(SDK2.13.0)的KWS demo中放置了ds_cnn_s.tflite文件,提供demo中使用的模型示例。在 read.me 中,聲明我可以找到腳本,但是,該文檔中的腳本
    發(fā)表于 04-19 06:11

    如何將PyTorch模型與OpenVINO trade結(jié)合使用?

    無法確定如何轉(zhuǎn)換 PyTorch 掩碼 R-CNN 模型以配合OpenVINO?使用。
    發(fā)表于 08-15 07:04

    介紹目標(biāo)檢測(cè)工具Faster R-CNN,包括它的構(gòu)造及實(shí)現(xiàn)原理

    在本篇文章中,公司的研究人員介紹了他們?cè)谘芯窟^程中所使用的先進(jìn)目標(biāo)檢測(cè)工具Faster R-CNN,包括它的構(gòu)造及實(shí)現(xiàn)原理。
    的頭像 發(fā)表于 01-27 11:49 ?1.9w次閱讀
    介紹目標(biāo)檢測(cè)工具Faster <b class='flag-5'>R-CNN</b>,包括它的構(gòu)造及實(shí)現(xiàn)原理

    Mask R-CNN:自動(dòng)從視頻中制作目標(biāo)物體的GIF動(dòng)圖

    用深度學(xué)習(xí)模型——Mask R-CNN,自動(dòng)從視頻中制作目標(biāo)物體的GIF動(dòng)圖。
    的頭像 發(fā)表于 02-03 14:19 ?1.2w次閱讀

    什么是Mask R-CNN?Mask R-CNN的工作原理

    它的概念很簡(jiǎn)單:對(duì)于每個(gè)目標(biāo)對(duì)象,F(xiàn)aster R-CNN都有兩個(gè)輸出,一是分類標(biāo)簽,二是候選窗口;為了分割目標(biāo)像素,我們可以在前兩個(gè)輸出的基礎(chǔ)上增加第三個(gè)輸出——指示對(duì)象在窗口中像素位置的二進(jìn)制
    的頭像 發(fā)表于 07-20 08:53 ?6.8w次閱讀

    引入Mask R-CNN思想通過語義分割進(jìn)行任意形狀文本檢測(cè)與識(shí)別

    網(wǎng)絡(luò)架構(gòu)由四部分組成,骨干網(wǎng)feature pyramid network (FPN) ,文本候選區(qū)域生成網(wǎng)絡(luò)region proposal network (RPN) ,文本包圍盒回歸網(wǎng)絡(luò)Fast R-CNN ,文本實(shí)例分割與字符分割網(wǎng)絡(luò)mask branch。
    的頭像 發(fā)表于 08-07 14:24 ?1.4w次閱讀

    手把手教你操作Faster R-CNN和Mask R-CNN

    Mask R-CNN是承繼于Faster R-CNN,Mask R-CNN只是在Faster R-CNN上面增加了一個(gè)Mask Prediction Branch(Mask預(yù)測(cè)分支),
    的頭像 發(fā)表于 04-04 16:32 ?1.3w次閱讀

    基于改進(jìn)Faster R-CNN的目標(biāo)檢測(cè)方法

    為提高小尺度行人檢測(cè)的準(zhǔn)確性,提出一種基于改進(jìn) Faster r-CNN的目標(biāo)檢測(cè)方法。通過引入基于雙線性插值的對(duì)齊池化層,避免感興趣區(qū)域池化過程中兩次量化操作導(dǎo)致的位置偏差,同時(shí)設(shè)計(jì)基于級(jí)聯(lián)的多層
    發(fā)表于 03-23 14:52 ?3次下載
    基于改進(jìn)Faster <b class='flag-5'>R-CNN</b>的目標(biāo)檢測(cè)方法

    基于Mask R-CNN的遙感圖像處理技術(shù)綜述

    較為密集,且容易與港口混合。當(dāng)前對(duì)艦船檢測(cè)的輸岀結(jié)果主要是檢測(cè)框,缺少對(duì)艦船掩碼的輸岀,使得無法全面分析岀模型存在的不足;冋時(shí),由于遙感圖像中的艦船停靠密集,容易產(chǎn)生漏檢問題。為解決上述問題,利用 Mask r-cnn對(duì)艦
    發(fā)表于 05-08 16:39 ?3次下載

    用于實(shí)例分割的Mask R-CNN框架

    我們的方法稱為 Mask R-CNN,擴(kuò)展了 Faster RCNN ,方法是在每個(gè)感興趣區(qū)域 (RoI) 上添加一個(gè)用于預(yù)測(cè)分割掩碼的分支,與用于分類和邊界框回歸的現(xiàn)有分支并行(圖 1)。掩碼分支
    的頭像 發(fā)表于 04-13 10:40 ?2887次閱讀

    PyTorch教程14.8之基于區(qū)域CNN(R-CNN)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程14.8之基于區(qū)域CNN(R-CNN).pdf》資料免費(fèi)下載
    發(fā)表于 06-05 11:09 ?0次下載
    <b class='flag-5'>PyTorch</b>教程<b class='flag-5'>14.8</b>之基于<b class='flag-5'>區(qū)域</b>的<b class='flag-5'>CNN</b>(<b class='flag-5'>R-CNN</b>)