亚洲中文制服字幕,加勒比一区二区三区视频无码,亚洲精品一区二区成人欧美

圖像語(yǔ)義分割是圖像處理和是機(jī)器視覺技術(shù)中關(guān)于圖像理解的重要任務(wù)。語(yǔ)義分割即是對(duì)圖像中每一個(gè)像素點(diǎn)進(jìn)行分類，確定每個(gè)點(diǎn)的類別，從而進(jìn)行區(qū)域劃分，為了能夠幫助大家更好的了解語(yǔ)義分割領(lǐng)域，我們精選知乎文章。作者Xavier CHEN針對(duì)語(yǔ)義分割進(jìn)行系統(tǒng)的介紹，從原理解析到算法發(fā)展總結(jié)，文章思路清晰，總結(jié)全面，推薦大家閱讀。

本文作者為Xavier CHEN，畢業(yè)于浙江大學(xué)，在知乎持續(xù)分享前沿文章。

前言

之前做了一個(gè)語(yǔ)義分割的綜述報(bào)告，現(xiàn)在把報(bào)告總結(jié)成文章。這篇文章將分為三個(gè)部分：

1.語(yǔ)義分割基本介紹：明確語(yǔ)義分割解決的是什么問(wèn)題。

2.從FCN到Deeplab v3+：解讀語(yǔ)義分割模型的發(fā)展，常用方法與技巧

3.代碼實(shí)戰(zhàn)中需要注意的問(wèn)題。

語(yǔ)義分割基本介紹

2.1 概念

語(yǔ)義分割（semantic segmentation） : 就是按照“語(yǔ)義”給圖像上目標(biāo)類別中的每一點(diǎn)打一個(gè)標(biāo)簽，使得不同種類的東西在圖像上被區(qū)分開來(lái)?？梢岳斫獬上袼丶?jí)別的分類任務(wù)。

輸入：（H*W*3）就是正常的圖片

輸出：( H*W*class )可以看為圖片上每個(gè)點(diǎn)的one-hot表示，每一個(gè)channel對(duì)應(yīng)一個(gè)class,對(duì)每一個(gè)pixel位置，都有class數(shù)目個(gè)channel,每個(gè)channel的值對(duì)應(yīng)那個(gè)像素屬于該class的預(yù)測(cè)概率。

figure1

2.2評(píng)價(jià)準(zhǔn)則

1.像素精度（pixel accuracy ）：每一類像素正確分類的個(gè)數(shù)/ 每一類像素的實(shí)際個(gè)數(shù)。

2.均像素精度（mean pixel accuracy ）：每一類像素的精度的平均值。

3.平均交并比（Mean Intersection over Union）：求出每一類的IOU取平均值。IOU指的是兩塊區(qū)域相交的部分/兩個(gè)部分的并集，如figure2中綠色部分/總面積。

4.權(quán)頻交并比（Frequency Weight Intersection over Union）：每一類出現(xiàn)的頻率作為權(quán)重

figure2

從FCN 到Deeplab V3+

語(yǔ)義分割的原理和常用技巧

3.1 FCN

FCN是語(yǔ)義分割的開山之作，主要特色有兩點(diǎn)：

1.全連接層換成卷積層

2.不同尺度的信息融合FCN-8S,16s,32s

看詳細(xì)講解推薦：

https://zhuanlan.zhihu.com/p/30195134

3.1.1 全連接層換成卷積層

figure3

以Alexnet的拓?fù)浣Y(jié)構(gòu)為例

原本的結(jié)構(gòu)：224大小的圖片經(jīng)過(guò)一系列卷積，得到大小為1/32 = 7的feature map，經(jīng)過(guò)三層全連接層，得到基于FC的分布式表示。

我們把三層全連接層全都換成卷積層，卷積核的大小和個(gè)數(shù)如下圖中間行所示，我們?nèi)サ袅巳B接層，但是得到了另外一種基于不同channel的分布式表示：Heatmap

舉一個(gè)例子，我們有一個(gè)大小為384的圖片，經(jīng)過(guò)替換了FC的Alexnet,得到的是6*6*1000的Heatmap,相當(dāng)于原來(lái)的Alexnet 以stride = 32在輸入圖片上滑動(dòng)，經(jīng)過(guò)上采樣之后，就可以得到粗略的分割結(jié)果。

figure4

3.1.2 不同尺度的信息融合

就像剛剛舉的Alexnet的例子，對(duì)于任何的分類神經(jīng)網(wǎng)絡(luò)我們都可以用卷積層替換FC層，只是換了一種信息的分布式表示。如果我們直接把Heatmap上采樣，就得到FCN-32s。如下圖

figure5

但是我們知道，隨著一次次的池化，雖然感受野不斷增大，語(yǔ)義信息不斷增強(qiáng)。但是池化造成了像素位置信息的丟失：直觀舉例，1/32大小的Heatmap上采樣到原圖之后，在Heatmap上如果偏移一個(gè)像素，在原圖就偏移32個(gè)像素，這是不能容忍的。

見figure6,前面的層雖然語(yǔ)義信息較少，但是位置信息較多，作者就把1/8 1/16 1/32的三個(gè)層的輸出融合起來(lái)了。先把1/32的輸出上采樣到1/16,和Pool4的輸出做elementwose addition , 結(jié)果再上采樣到1/8,和Pool3的輸出各個(gè)元素相加。得到1/8的結(jié)果，上采樣8倍，求Loss。

figure6

3.2 U-net

figure7

U-net用于解決小樣本的簡(jiǎn)單問(wèn)題分割，比如醫(yī)療影片的分割。它遵循的基本原理與FCN一樣：

1.Encoder-Decoder結(jié)構(gòu)：前半部分為多層卷積池化，不斷擴(kuò)大感受野，用于提取特征。后半部分上采樣回復(fù)圖片尺寸。

2.更豐富的信息融合：如灰色剪頭，更多的前后層之間的信息融合。這里是把前面層的輸出和后面層concat(串聯(lián))到一起，區(qū)別于FCN的逐元素加和。不同F(xiàn)eature map串聯(lián)到一起后，后面接卷積層，可以讓卷積核在channel上自己做出選擇。注意的是，在串聯(lián)之前，需要把前層的feature map crop到和后層一樣的大小。

3.3 SegNet

figure 8

在結(jié)構(gòu)上看，SegNet和U-net其實(shí)大同小異，都是編碼-解碼結(jié)果。區(qū)別在意，SegNet沒(méi)有直接融合不同尺度的層的信息，為了解決為止信息丟失的問(wèn)題，SegNet使用了帶有坐標(biāo)（index）的池化。如下圖所示，在Max pooling時(shí)，選擇最大像素的同時(shí)，記錄下該像素在Feature map的位置（左圖）。在反池化的時(shí)候，根據(jù)記錄的坐標(biāo)，把最大值復(fù)原到原來(lái)對(duì)應(yīng)的位置，其他的位置補(bǔ)零（右圖）。后面的卷積可以把0的元素給填上。這樣一來(lái)，就解決了由于多次池化造成的位置信息的丟失。

figure 9

3.4 Deeplab V1

figure10

這篇論文不同于之前的思路，他的特色有兩點(diǎn)：

1.由于Pooling-Upsample會(huì)丟失位置信息而且多層上下采樣開銷較大，把控制感受野大小的方法化成：帶孔卷積（Atrous conv）

2.加入CRF(條件隨機(jī)場(chǎng))，利用像素之間的關(guān)連信息：相鄰的像素，或者顏色相近的像素有更大的可能屬于同一個(gè)class。

3.4.1 Atrous Conv

如右下圖片所示，一個(gè)擴(kuò)張率為2的帶孔卷積接在一個(gè)擴(kuò)張率為1的正常卷積后面，可以達(dá)到大小為7的感受野，但是輸出的大小并沒(méi)有減小，參數(shù)量也沒(méi)有增大。

figure 11

3.4.2 條件隨機(jī)場(chǎng)CRF

figure 12

3.5 PSPnet

figure13

原理都大同小異，前面的不同level的信息融合都是融合淺層和后層的Feature Map,因?yàn)楹髮拥母惺芤按?，語(yǔ)義特征強(qiáng)，淺層的感受野小，局部特征明顯且位置信息豐富。

PSPnet則使用了空間金字塔池化，得到一組感受野大小不同的feature map,將這些感受野不同的map concat到一起，完成多層次的語(yǔ)義特征融合。

3.6 Deeplab V2

figure 14

Deeplab v2在v1的基礎(chǔ)上做出了改進(jìn)，引入了ASPP(Atrous Spatial Pyramid Pooling)的結(jié)構(gòu)，如上圖所示。我們注意到，Deeplab v1使用帶孔卷積擴(kuò)大感受野之后，沒(méi)有融合不同層之間的信息。

ASPP層就是為了融合不同級(jí)別的語(yǔ)義信息：選擇不同擴(kuò)張率的帶孔卷積去處理Feature Map，由于感受野不同，得到的信息的Level也就不同，ASPP層把這些不同層級(jí)的feature map concat到一起，進(jìn)行信息融合。

3.7 Deeplab v3

Deeplab v3在原有基礎(chǔ)上的改動(dòng)是：

1.改進(jìn)了ASPP模塊

2.引入Resnet Block

3.丟棄CRF

figure15

新的ASPP模塊：

1.加入了Batch Norm

2.加入特征的全局平均池化（在擴(kuò)張率很大的情況下，有效權(quán)重會(huì)變小）。如圖14中的（b）Image Pooling就是全局平均池化，它的加入是對(duì)全局特征的強(qiáng)調(diào)、加強(qiáng)。

在舊的ASPP模塊中：我們以為在擴(kuò)張率足夠大的時(shí)候，感受野足夠大，所以獲得的特征傾向于全局特征。但實(shí)際上，擴(kuò)張率過(guò)大的情況下，Atrous conv出現(xiàn)了“權(quán)值退化”的問(wèn)題，感受野過(guò)大，都已近擴(kuò)展到了圖像外面，大多數(shù)的權(quán)重都和圖像外圍的zero padding進(jìn)行了點(diǎn)乘，這樣并沒(méi)有獲取圖像中的信息。有效的權(quán)值個(gè)數(shù)很少，往往就是1。于是我們加了全局平均池化，強(qiáng)行利用全局信息。

3.8 Deeplab v3+

figure16

可以看成是把Deeplab v3作為編碼器（上半部分）。后面再進(jìn)行解碼，并且在解碼的過(guò)程中在此運(yùn)用了不同層級(jí)特征的融合。

此外，在encoder部分加入了Xception的結(jié)構(gòu)減少了參數(shù)量，提高運(yùn)行速遞。關(guān)于Xception如何減少參數(shù)量，提高速度。建議閱讀論文 : Mobilenet

https://arxiv.org/pdf/1704.04861.pdf

3.9 套路總結(jié)

看完這么多論文，會(huì)發(fā)現(xiàn)他們的方法都差不多，總結(jié)為一下幾點(diǎn)。在自己設(shè)計(jì)語(yǔ)義分割模型的時(shí)候，遵循一下規(guī)則，都是可以漲點(diǎn)的。但是要結(jié)合自己的項(xiàng)目要求，選擇合適的方法。

1.全卷積網(wǎng)絡(luò)，滑窗的形式

2.感受野的控制：Pooling+Upsample => Atrous convolution

3.不同Level的特征融合：統(tǒng)一尺寸之后Add / Concat+Conv, SPP, ASPP…

4.考慮相鄰像素之間的關(guān)系：CRF

5.在條件允許的情況下，圖像越大越好。

6.分割某一個(gè)特定的類別，可以考慮使用先驗(yàn)知識(shí)+ 對(duì)結(jié)果進(jìn)行圖像形態(tài)學(xué)處理

7.此外還有一些其他的研究思路：實(shí)時(shí)語(yǔ)義分割，視頻語(yǔ)義分割

責(zé)任編輯：xj

原文標(biāo)題：一文速覽！語(yǔ)義分割算法盤點(diǎn)

文章出處：【微信公眾號(hào)：新機(jī)器視覺】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴