丝袜支配秘书模拟视频二区,亚洲一区二区高清无码免费

除了第 14.7 節(jié)中描述的單次多框檢測之外，基于區(qū)域的 CNN 或具有 CNN 特征的區(qū)域 (R-CNN) 也是將深度學(xué)習(xí)應(yīng)用于對象檢測的許多開創(chuàng)性方法之一（Girshick等人，2014 年）。在本節(jié)中，我們將介紹 R-CNN 及其一系列改進(jìn)：fast R-CNN ( Girshick, 2015 )、faster R-CNN ( Ren et al. , 2015 )和掩模 R-CNN ( He等，2017）。由于篇幅有限，我們將只關(guān)注這些模型的設(shè)計(jì)。

14.8.1。R-CNN

R -CNN首先從輸入圖像中提取許多（例如，2000 個）region proposals （例如，anchor boxes 也可以被認(rèn)為是 region proposals），標(biāo)記它們的類別和邊界框（例如，offsets）。

（Girshick等人，2014 年）

然后使用 CNN 對每個候選區(qū)域執(zhí)行前向傳播以提取其特征。接下來，每個區(qū)域提案的特征用于預(yù)測該區(qū)域提案的類別和邊界框。

圖 14.8.1 R-CNN 模型。

圖 14.8.1顯示了 R-CNN 模型。更具體地說，R-CNN包括以下四個步驟：

執(zhí)行選擇性搜索以在輸入圖像上提取多個高質(zhì)量區(qū)域建議（Uijlings等人，2013 年）。這些提議的區(qū)域通常是在具有不同形狀和大小的多個尺度上選擇的。每個區(qū)域提案都將標(biāo)有一個類別和一個真實(shí)邊界框。

選擇一個預(yù)訓(xùn)練的 CNN 并在輸出層之前截?cái)嗨esize每個region proposal到網(wǎng)絡(luò)需要的輸入大小，通過前向傳播輸出為region proposal提取的特征。

以每個region proposal的提取特征和標(biāo)注類別為例。訓(xùn)練多個支持向量機(jī)對對象進(jìn)行分類，其中每個支持向量機(jī)單獨(dú)確定示例是否包含特定類。

以每個region proposal的提取特征和標(biāo)注bounding box為例。訓(xùn)練線性回歸模型來預(yù)測地面實(shí)況邊界框。

盡管 R-CNN 模型使用預(yù)訓(xùn)練的 CNNs 來有效地提取圖像特征，但速度很慢。想象一下，我們從單個輸入圖像中選擇了數(shù)千個區(qū)域建議：這需要數(shù)千個 CNN 前向傳播來執(zhí)行對象檢測。這種龐大的計(jì)算負(fù)載使得在實(shí)際應(yīng)用中廣泛使用 R-CNN 變得不可行。

14.8.2?？焖?R-CNN

R-CNN 的主要性能瓶頸在于每個 region proposal 的獨(dú)立 CNN 前向傳播，沒有共享計(jì)算。由于這些區(qū)域通常有重疊，獨(dú)立的特征提取會導(dǎo)致大量重復(fù)計(jì)算。Fast R-CNN相比 R-CNN的主要改進(jìn)之一是 CNN 前向傳播僅在整個圖像上進(jìn)行 ( Girshick, 2015 )。

圖 14.8.2快速 R-CNN 模型。

圖 14.8.2描述了快速 R-CNN 模型。其主要計(jì)算如下：

與 R-CNN 相比，在快速 R-CNN 中，CNN 用于特征提取的輸入是整個圖像，而不是單個區(qū)域建議。此外，這個 CNN 是可訓(xùn)練的。給定輸入圖像，讓 CNN 輸出的形狀為 1×c×h1×w1.

假設(shè)選擇性搜索生成n區(qū)域提案。這些區(qū)域提議（不同形狀）在 CNN 輸出上標(biāo)記感興趣區(qū)域（不同形狀）。然后這些感興趣的區(qū)域進(jìn)一步提取相同形狀的特征（比如高度 h2和寬度w2指定）以便于連接。為了實(shí)現(xiàn)這一點(diǎn)，快速 R-CNN 引入了感興趣區(qū)域 (RoI) 池化層：CNN 輸出和區(qū)域提議被輸入到該層，輸出形狀的級聯(lián)特征n×c×h2×w2為所有區(qū)域提案進(jìn)一步提取。

使用全連接層，將連接的特征轉(zhuǎn)換為形狀的輸出n×d，在哪里d取決于模型設(shè)計(jì)。

預(yù)測每個類別和邊界框n區(qū)域提案。更具體地說，在類和邊界框預(yù)測中，將全連接層輸出轉(zhuǎn)換為形狀的輸出 n×q(q是類的數(shù)量）和形狀的輸出n×4，分別。類別預(yù)測使用 softmax 回歸。

fast R-CNN 中提出的感興趣區(qū)域池化層與7.5 節(jié)中介紹的池化層不同。在池化層中，我們通過指定池化窗口、填充和步幅的大小來間接控制輸出形狀。相反，我們可以直接在感興趣區(qū)域池化層中指定輸出形狀。

例如，讓我們將每個區(qū)域的輸出高度和寬度指定為h2和w2，分別。對于形狀的任何感興趣區(qū)域窗口h×w, 這個窗口被分為 h2×w2子窗口的網(wǎng)格，其中每個子窗口的形狀大約是(h/h2)×(w/w2). 在實(shí)際應(yīng)用中，任何一個子窗口的高和寬都要向上取整，最大的元素作為子窗口的輸出。因此，即使感興趣區(qū)域具有不同的形狀，感興趣區(qū)域池化層也可以提取相同形狀的特征。

作為說明性示例，在圖 14.8.3中，左上角 3×3感興趣的區(qū)域被選擇在4×4 輸入。對于這個感興趣的區(qū)域，我們使用2×2感興趣區(qū)域池化層以獲得2×2輸出。請注意，四個劃分的子窗口中的每一個都包含元素 0、1、4 和 5（5 是最大值）；2 和 6（6 是最大值）；8 和 9（9 是最大值）；和 10。

圖 14.8.3 A2×2感興趣區(qū)域池化層。

下面我們演示感興趣區(qū)域池化層的計(jì)算。假設(shè)CNN提取的特征的高和寬 X都是4，并且只有一個通道。

import torch import torchvision X = torch.arange(16.).reshape(1, 1, 4, 4) X

tensor([[[[ 0., 1., 2., 3.], [ 4., 5., 6., 7.], [ 8., 9., 10., 11.], [12., 13., 14., 15.]]]])

from mxnet import np, npx npx.set_np() X = np.arange(16).reshape(1, 1, 4, 4) X

array([[[[ 0., 1., 2., 3.], [ 4., 5., 6., 7.], [ 8., 9., 10., 11.], [12., 13., 14., 15.]]]])

讓我們進(jìn)一步假設(shè)輸入圖像的高度和寬度均為 40 像素，并且選擇性搜索在該圖像上生成兩個區(qū)域建議。每個區(qū)域建議由五個元素表示：其對象類，后跟(x,y)- 其左上角和右下角的坐標(biāo)。

rois = torch.Tensor([[0, 0, 0, 20, 20], [0, 0, 10, 30, 30]])

rois = np.array([[0, 0, 0, 20, 20], [0, 0, 10, 30, 30]])

因?yàn)榈母叨群蛯挾萖是1/10輸入圖像的高度和寬度，根據(jù)指定參數(shù)將兩個區(qū)域提議的坐標(biāo)乘以0.1 spatial_scale 。然后將兩個感興趣區(qū)域分別標(biāo)記X為和。終于在X[:, :, 0:3, 0:3]X[:, :, 1:4, 0:4]2×2region of interest pooling，將每個感興趣區(qū)域劃分為子窗口的網(wǎng)格，進(jìn)一步提取相同形狀的特征2×2.

torchvision.ops.roi_pool(X, rois, output_size=(2, 2), spatial_scale=0.1)

tensor([[[[ 5., 6.], [ 9., 10.]]], [[[ 9., 11.], [13., 15.]]]])

npx.roi_pooling(X, rois, pooled_size=(2, 2), spatial_scale=0.1)

array([[[[ 5., 6.], [ 9., 10.]]], [[[ 9., 11.], [13., 15.]]]])

14.8.3。更快的 R-CNN

為了在目標(biāo)檢測中更加準(zhǔn)確，快速 R-CNN 模型通常必須在選擇性搜索中生成大量區(qū)域建議。為了在不損失準(zhǔn)確性的情況下減少區(qū)域建議，更快的 R-CNN提出用區(qū)域建議網(wǎng)絡(luò) 代替選擇性搜索（Ren等人，2015 年）。

圖 14.8.4更快的 R-CNN 模型。

圖 14.8.4顯示了更快的 R-CNN 模型。與fast R-CNN相比，faster R-CNN只是將region proposal方法從selective search改為region proposal network。模型的其余部分保持不變。區(qū)域建議網(wǎng)絡(luò)的工作步驟如下：

用一個3×3填充為 1 的卷積層將 CNN 輸出轉(zhuǎn)換為新的輸出c渠道。這樣，CNN提取的特征圖的空間維度上的每個單元都會得到一個新的長度為c.

以特征圖的每個像素為中心，生成多個不同尺度和縱橫比的anchor boxes并進(jìn)行標(biāo)注。

使用長度-c每個錨框中心的特征向量，預(yù)測該錨框的二元類（背景或?qū)ο螅┖瓦吔缈颉?/p>

考慮那些預(yù)測的邊界框，其預(yù)測的類是對象。使用非最大抑制去除重疊的結(jié)果。其余預(yù)測的對象邊界框是感興趣區(qū)域池化層所需的區(qū)域建議。

值得注意的是，作為更快的 R-CNN 模型的一部分，區(qū)域建議網(wǎng)絡(luò)與模型的其余部分聯(lián)合訓(xùn)練。換句話說，F(xiàn)aster R-CNN的目標(biāo)函數(shù)不僅包括目標(biāo)檢測中的類和邊界框預(yù)測，還包括區(qū)域提議網(wǎng)絡(luò)中anchor boxes的二值類和邊界框預(yù)測。作為端到端訓(xùn)練的結(jié)果，區(qū)域建議網(wǎng)絡(luò)學(xué)習(xí)如何生成高質(zhì)量的區(qū)域建議，從而在減少從數(shù)據(jù)中學(xué)習(xí)的區(qū)域建議數(shù)量的情況下保持目標(biāo)檢測的準(zhǔn)確性。

14.8.4。Mask R-CNN

在訓(xùn)練數(shù)據(jù)集中，如果對象的像素級位置也被標(biāo)記在圖像上，mask R-CNN可以有效地利用這些詳細(xì)的標(biāo)記來進(jìn)一步提高對象檢測的準(zhǔn)確性 ( He et al. , 2017 )。

圖 14.8.5 mask R-CNN 模型。

如圖14.8.5所示，mask R-CNN在faster R-CNN的基礎(chǔ)上進(jìn)行了修改。具體來說，mask R-CNN 將感興趣區(qū)域池化層替換為感興趣區(qū)域 (RoI) 對齊層。該感興趣區(qū)域?qū)R層使用雙線性插值來保留特征圖上的空間信息，更適合像素級預(yù)測。該層的輸出包含所有感興趣區(qū)域的相同形狀的特征圖。它們不僅用于預(yù)測每個感興趣區(qū)域的類和邊界框，還用于通過額外的全卷積網(wǎng)絡(luò)預(yù)測對象的像素級位置。本章后續(xù)部分將提供有關(guān)使用全卷積網(wǎng)絡(luò)預(yù)測圖像像素級語義的更多詳細(xì)信息。

14.8.5。概括

R-CNN從輸入圖像中提取出多個region proposals，使用一個CNN對每個region proposals進(jìn)行前向傳播來提取其特征，然后使用這些特征來預(yù)測這個region proposals的類別和bounding box。

Fast R-CNN 相比 R-CNN 的一大改進(jìn)是 CNN 前向傳播只對整幅圖像進(jìn)行。它還引入了感興趣區(qū)域池化層，使得具有不同形狀的感興趣區(qū)域可以進(jìn)一步提取相同形狀的特征。

Faster R-CNN 用聯(lián)合訓(xùn)練的區(qū)域建議網(wǎng)絡(luò)代替了 Fast R-CNN 中使用的選擇性搜索，因此前者可以在減少區(qū)域建議數(shù)量的情況下保持目標(biāo)檢測的準(zhǔn)確性。

在Faster R-CNN的基礎(chǔ)上，mask R-CNN額外引入全卷積網(wǎng)絡(luò)，利用像素級標(biāo)簽進(jìn)一步提高目標(biāo)檢測的準(zhǔn)確率。

14.8.6。練習(xí)

我們能否將目標(biāo)檢測框定為單個回歸問題，例如預(yù)測邊界框和類別概率？你可以參考YOLO模型的設(shè)計(jì) （Redmon et al. , 2016）。

將單次射擊多框檢測與本節(jié)介紹的方法進(jìn)行比較。它們的主要區(qū)別是什么？您可以參考Zhao等人的圖 2。（2019）。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴