一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語(yǔ)義分割算法系統(tǒng)介紹

新機(jī)器視覺 ? 來(lái)源:新機(jī)器視覺 ? 作者:Xavier CHEN ? 2020-11-05 10:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

圖像語(yǔ)義分割是圖像處理和是機(jī)器視覺技術(shù)中關(guān)于圖像理解的重要任務(wù)。語(yǔ)義分割即是對(duì)圖像中每一個(gè)像素點(diǎn)進(jìn)行分類,確定每個(gè)點(diǎn)的類別,從而進(jìn)行區(qū)域劃分,為了能夠幫助大家更好的了解語(yǔ)義分割領(lǐng)域,我們精選知乎文章。作者Xavier CHEN針對(duì)語(yǔ)義分割進(jìn)行系統(tǒng)的介紹,從原理解析到算法發(fā)展總結(jié),文章思路清晰,總結(jié)全面,推薦大家閱讀。

本文作者為Xavier CHEN,畢業(yè)于浙江大學(xué),在知乎持續(xù)分享前沿文章。

01

前言

之前做了一個(gè)語(yǔ)義分割的綜述報(bào)告,現(xiàn)在把報(bào)告總結(jié)成文章。這篇文章將分為三個(gè)部分:


1.語(yǔ)義分割基本介紹:明確語(yǔ)義分割解決的是什么問(wèn)題。


2.從FCN到Deeplab v3+:解讀語(yǔ)義分割模型的發(fā)展,常用方法與技巧


3.代碼實(shí)戰(zhàn)中需要注意的問(wèn)題。

02

語(yǔ)義分割基本介紹

2.1 概念

語(yǔ)義分割(semantic segmentation) : 就是按照“語(yǔ)義”給圖像上目標(biāo)類別中的每一點(diǎn)打一個(gè)標(biāo)簽,使得不同種類的東西在圖像上被區(qū)分開來(lái)??梢岳斫獬上袼丶?jí)別的分類任務(wù)。

輸入:(H*W*3)就是正常的圖片

輸出:( H*W*class )可以看為圖片上每個(gè)點(diǎn)的one-hot表示,每一個(gè)channel對(duì)應(yīng)一個(gè)class,對(duì)每一個(gè)pixel位置,都有class數(shù)目 個(gè)channel,每個(gè)channel的值對(duì)應(yīng)那個(gè)像素屬于該class的預(yù)測(cè)概率。

figure1

2.2評(píng)價(jià)準(zhǔn)則

1.像素精度(pixel accuracy ):每一類像素正確分類的個(gè)數(shù)/ 每一類像素的實(shí)際個(gè)數(shù)。

2.均像素精度(mean pixel accuracy ):每一類像素的精度的平均值。

3.平均交并比(Mean Intersection over Union):求出每一類的IOU取平均值。IOU指的是兩塊區(qū)域相交的部分/兩個(gè)部分的并集,如figure2中 綠色部分/總面積。

4.權(quán)頻交并比(Frequency Weight Intersection over Union):每一類出現(xiàn)的頻率作為權(quán)重

figure2

03

從FCN 到Deeplab V3+

語(yǔ)義分割的原理和常用技巧

3.1 FCN

FCN是語(yǔ)義分割的開山之作,主要特色有兩點(diǎn):

1.全連接層換成卷積層

2.不同尺度的信息融合FCN-8S,16s,32s

看詳細(xì)講解 推薦:

https://zhuanlan.zhihu.com/p/30195134

3.1.1 全連接層換成卷積層

figure3

以Alexnet的拓?fù)浣Y(jié)構(gòu)為例

原本的結(jié)構(gòu):224大小的圖片經(jīng)過(guò)一系列卷積,得到大小為1/32 = 7的feature map,經(jīng)過(guò)三層全連接層,得到基于FC的分布式表示。

我們把三層全連接層全都換成卷積層,卷積核的大小和個(gè)數(shù)如下圖中間行所示,我們?nèi)サ袅巳B接層,但是得到了另外一種基于不同channel的分布式表示:Heatmap

舉一個(gè)例子,我們有一個(gè)大小為384的圖片,經(jīng)過(guò)替換了FC的Alexnet,得到的是6*6*1000的Heatmap,相當(dāng)于原來(lái)的Alexnet 以stride = 32在輸入圖片上滑動(dòng),經(jīng)過(guò)上采樣之后,就可以得到粗略的分割結(jié)果。

figure4

3.1.2 不同尺度的信息融合

就像剛剛舉的Alexnet的例子,對(duì)于任何的分類神經(jīng)網(wǎng)絡(luò)我們都可以用卷積層替換FC層,只是換了一種信息的分布式表示。如果我們直接把Heatmap上采樣,就得到FCN-32s。如下圖

figure5

但是我們知道,隨著一次次的池化,雖然感受野不斷增大,語(yǔ)義信息不斷增強(qiáng)。但是池化造成了像素位置信息的丟失:直觀舉例,1/32大小的Heatmap上采樣到原圖之后,在Heatmap上如果偏移一個(gè)像素,在原圖就偏移32個(gè)像素,這是不能容忍的。

見figure6,前面的層雖然語(yǔ)義信息較少,但是位置信息較多,作者就把1/8 1/16 1/32的三個(gè)層的輸出融合起來(lái)了。先把1/32的輸出上采樣到1/16,和Pool4的輸出做elementwose addition , 結(jié)果再上采樣到1/8,和Pool3的輸出各個(gè)元素相加。得到1/8的結(jié)果,上采樣8倍,求Loss。

figure6

3.2 U-net

figure7

U-net用于解決小樣本的簡(jiǎn)單問(wèn)題分割,比如醫(yī)療影片的分割。它遵循的基本原理與FCN一樣:

1.Encoder-Decoder結(jié)構(gòu):前半部分為多層卷積池化,不斷擴(kuò)大感受野,用于提取特征。后半部分上采樣回復(fù)圖片尺寸。

2.更豐富的信息融合:如灰色剪頭,更多的前后層之間的信息融合。這里是把前面層的輸出和后面層concat(串聯(lián))到一起,區(qū)別于FCN的逐元素加和。不同F(xiàn)eature map串聯(lián)到一起后,后面接卷積層,可以讓卷積核在channel上自己做出選擇。注意的是,在串聯(lián)之前,需要把前層的feature map crop到和后層一樣的大小。

3.3 SegNet

figure 8

在結(jié)構(gòu)上看,SegNet和U-net其實(shí)大同小異,都是編碼-解碼結(jié)果。區(qū)別在意,SegNet沒(méi)有直接融合不同尺度的層的信息,為了解決為止信息丟失的問(wèn)題,SegNet使用了帶有坐標(biāo)(index)的池化。如下圖所示,在Max pooling時(shí),選擇最大像素的同時(shí),記錄下該像素在Feature map的位置(左圖)。在反池化的時(shí)候,根據(jù)記錄的坐標(biāo),把最大值復(fù)原到原來(lái)對(duì)應(yīng)的位置,其他的位置補(bǔ)零(右圖)。后面的卷積可以把0的元素給填上。這樣一來(lái),就解決了由于多次池化造成的位置信息的丟失。

figure 9

3.4 Deeplab V1

figure10

這篇論文不同于之前的思路,他的特色有兩點(diǎn):

1.由于Pooling-Upsample會(huì)丟失位置信息而且多層上下采樣開銷較大,把控制感受野大小的方法化成:帶孔卷積(Atrous conv)

2.加入CRF(條件隨機(jī)場(chǎng)),利用像素之間的關(guān)連信息:相鄰的像素,或者顏色相近的像素有更大的可能屬于同一個(gè)class。

3.4.1 Atrous Conv

如右下圖片所示,一個(gè)擴(kuò)張率為2的帶孔卷積接在一個(gè)擴(kuò)張率為1的正常卷積后面,可以達(dá)到大小為7的感受野,但是輸出的大小并沒(méi)有減小,參數(shù)量也沒(méi)有增大。

figure 11

3.4.2 條件隨機(jī)場(chǎng)CRF

figure 12

3.5 PSPnet

figure13

原理都大同小異,前面的不同level的信息融合都是融合淺層和后層的Feature Map,因?yàn)楹髮拥母惺芤按?,語(yǔ)義特征強(qiáng),淺層的感受野小,局部特征明顯且位置信息豐富。

PSPnet則使用了空間金字塔池化,得到一組感受野大小不同的feature map,將這些感受野不同的map concat到一起,完成多層次的語(yǔ)義特征融合。

3.6 Deeplab V2

figure 14

Deeplab v2在v1的基礎(chǔ)上做出了改進(jìn),引入了ASPP(Atrous Spatial Pyramid Pooling)的結(jié)構(gòu),如上圖所示。我們注意到,Deeplab v1使用帶孔卷積擴(kuò)大感受野之后,沒(méi)有融合不同層之間的信息。

ASPP層就是為了融合不同級(jí)別的語(yǔ)義信息:選擇不同擴(kuò)張率的帶孔卷積去處理Feature Map,由于感受野不同,得到的信息的Level也就不同,ASPP層把這些不同層級(jí)的feature map concat到一起,進(jìn)行信息融合。

3.7 Deeplab v3

Deeplab v3在原有基礎(chǔ)上的改動(dòng)是:

1.改進(jìn)了ASPP模塊

2.引入Resnet Block

3.丟棄CRF

figure15

新的ASPP模塊:

1.加入了Batch Norm

2.加入特征的全局平均池化(在擴(kuò)張率很大的情況下,有效權(quán)重會(huì)變小)。如圖14中的(b)Image Pooling就是全局平均池化,它的加入是對(duì)全局特征的強(qiáng)調(diào)、加強(qiáng)。

在舊的ASPP模塊中:我們以為在擴(kuò)張率足夠大的時(shí)候,感受野足夠大,所以獲得的特征傾向于全局特征。但實(shí)際上,擴(kuò)張率過(guò)大的情況下,Atrous conv出現(xiàn)了“權(quán)值退化”的問(wèn)題,感受野過(guò)大,都已近擴(kuò)展到了圖像外面,大多數(shù)的權(quán)重都和圖像外圍的zero padding進(jìn)行了點(diǎn)乘,這樣并沒(méi)有獲取圖像中的信息。有效的權(quán)值個(gè)數(shù)很少,往往就是1。于是我們加了全局平均池化,強(qiáng)行利用全局信息。

3.8 Deeplab v3+

figure16

可以看成是把Deeplab v3作為編碼器(上半部分)。后面再進(jìn)行解碼,并且在解碼的過(guò)程中在此運(yùn)用了不同層級(jí)特征的融合。

此外,在encoder部分加入了Xception的結(jié)構(gòu)減少了參數(shù)量,提高運(yùn)行速遞。關(guān)于Xception如何減少參數(shù)量,提高速度。建議閱讀論文 : Mobilenet

https://arxiv.org/pdf/1704.04861.pdf

3.9 套路總結(jié)

看完這么多論文,會(huì)發(fā)現(xiàn)他們的方法都差不多,總結(jié)為一下幾點(diǎn)。在自己設(shè)計(jì)語(yǔ)義分割模型的時(shí)候,遵循一下規(guī)則,都是可以漲點(diǎn)的。但是要結(jié)合自己的項(xiàng)目要求,選擇合適的方法。

1.全卷積網(wǎng)絡(luò),滑窗的形式

2.感受野的控制:Pooling+Upsample => Atrous convolution

3.不同Level的特征融合:統(tǒng)一尺寸之后Add / Concat+Conv, SPP, ASPP…

4.考慮相鄰像素之間的關(guān)系:CRF

5.在條件允許的情況下,圖像越大越好。

6.分割某一個(gè)特定的類別,可以考慮使用先驗(yàn)知識(shí)+ 對(duì)結(jié)果進(jìn)行圖像形態(tài)學(xué)處理

7.此外還有一些其他的研究思路:實(shí)時(shí)語(yǔ)義分割,視頻語(yǔ)義分割

責(zé)任編輯:xj

原文標(biāo)題:一文速覽!語(yǔ)義分割算法盤點(diǎn)

文章出處:【微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4711

    瀏覽量

    95432
  • FC
    FC
    +關(guān)注

    關(guān)注

    1

    文章

    81

    瀏覽量

    42386
  • 卷積
    +關(guān)注

    關(guān)注

    0

    文章

    95

    瀏覽量

    18762

原文標(biāo)題:一文速覽!語(yǔ)義分割算法盤點(diǎn)

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【正點(diǎn)原子STM32MP257開發(fā)板試用】基于 DeepLab 模型的圖像分割

    【正點(diǎn)原子STM32MP257開發(fā)板試用】圖像分割 本文介紹了正點(diǎn)原子 STM32MP257 開發(fā)板基于 DeepLab 模型實(shí)現(xiàn)圖像分割的項(xiàng)目設(shè)計(jì)。 DeepLab 模型 DeepLab-v3
    發(fā)表于 06-21 21:11

    SparseViT:以非語(yǔ)義為中心、參數(shù)高效的稀疏化視覺Transformer

    (IML)都遵循“語(yǔ)義分割主干網(wǎng)絡(luò)”與“精心制作的手工制作非語(yǔ)義特征提取”相結(jié)合的設(shè)計(jì),這種方法嚴(yán)重限制了模型在未知場(chǎng)景的偽影提取能力。 論文標(biāo)題: Can We Get Rid
    的頭像 發(fā)表于 01-15 09:30 ?470次閱讀
    SparseViT:以非<b class='flag-5'>語(yǔ)義</b>為中心、參數(shù)高效的稀疏化視覺Transformer

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人的基礎(chǔ)模塊

    目前高速發(fā)展的大模型能給具身智能帶來(lái)一些突破性的進(jìn)展。 對(duì)于感知系統(tǒng),要做的主要任務(wù)是物體檢測(cè),語(yǔ)義分割,立體視覺,鳥瞰視角感知。 有很多算法都可以實(shí)現(xiàn)物體檢測(cè),比如文章提到的HOG
    發(fā)表于 01-04 19:22

    利用VLM和MLLMs實(shí)現(xiàn)SLAM語(yǔ)義增強(qiáng)

    語(yǔ)義同步定位與建圖(SLAM)系統(tǒng)在對(duì)鄰近的語(yǔ)義相似物體進(jìn)行建圖時(shí)面臨困境,特別是在復(fù)雜的室內(nèi)環(huán)境中。本文提出了一種面向?qū)ο骃LAM的語(yǔ)義增強(qiáng)(SEO-SLAM)的新型SLAM
    的頭像 發(fā)表于 12-05 10:00 ?1405次閱讀
    利用VLM和MLLMs實(shí)現(xiàn)SLAM<b class='flag-5'>語(yǔ)義</b>增強(qiáng)

    ?ISP算法及架構(gòu)分析介紹

    一、ISP算法及架構(gòu)分析介紹 ISP即Image Signal Processor,是一種圖像處理架構(gòu),不是我們用的下載器。 ISP其實(shí)算是圖像處理的一個(gè)特例,一般應(yīng)用于前端設(shè)備(相對(duì)于SENSOR
    的頭像 發(fā)表于 11-26 10:05 ?1915次閱讀
    ?ISP<b class='flag-5'>算法</b>及架構(gòu)分析<b class='flag-5'>介紹</b>

    【「從算法到電路—數(shù)字芯片算法的電路實(shí)現(xiàn)」閱讀體驗(yàn)】+介紹基礎(chǔ)硬件算法模塊

    作為嵌入式開發(fā)者往往比較關(guān)注硬件和軟件的協(xié)調(diào)。本書介紹了除法器,信號(hào)發(fā)生器,濾波器,分頻器等基本算法的電路實(shí)現(xiàn),雖然都是基礎(chǔ)內(nèi)容,但是也是最常用到的基本模塊。 隨著逆全球化趨勢(shì)的出現(xiàn),過(guò)去的研發(fā)
    發(fā)表于 11-21 17:05

    【「從算法到電路—數(shù)字芯片算法的電路實(shí)現(xiàn)」閱讀體驗(yàn)】+一本介紹基礎(chǔ)硬件算法模塊實(shí)現(xiàn)的好書

    作為嵌入式開發(fā)者往往比較關(guān)注硬件和軟件的協(xié)調(diào)。本書介紹了除法器,信號(hào)發(fā)生器,濾波器,分頻器等基本算法的電路實(shí)現(xiàn),雖然都是基礎(chǔ)內(nèi)容,但是也是最常用到的基本模塊,本書的內(nèi)容比較對(duì)本人胃口。 我們先來(lái)
    發(fā)表于 11-20 13:42

    常見人體姿態(tài)評(píng)估顯示方式的兩種方式

    人體姿態(tài)評(píng)估中有兩種常見的顯示方式,分別是火柴人效果與BodyPix效果。其中火柴人效果本質(zhì)就是基于關(guān)鍵點(diǎn)的深度學(xué)習(xí)模型推理以后的顯示效果;Bodypix本質(zhì)就就是語(yǔ)義分割模型
    的頭像 發(fā)表于 11-11 11:21 ?669次閱讀
    常見人體姿態(tài)評(píng)估顯示方式的兩種方式

    手冊(cè)上新 |迅為RK3568開發(fā)板NPU例程測(cè)試

    測(cè)試 6.1 deeplabv3語(yǔ)義分割 6.2 lite_transformer 6.3 LPRNet車牌識(shí)別 6.4 mobilenet圖像分類 6.5 PPOCR-Rec文字識(shí)別 6.6
    發(fā)表于 10-23 14:06

    語(yǔ)義分割25種損失函數(shù)綜述和展望

    語(yǔ)義圖像分割,即將圖像中的每個(gè)像素分類到特定的類別中,是許多視覺理解系統(tǒng)中的重要組成部分。作為評(píng)估統(tǒng)計(jì)模型性能的主要標(biāo)準(zhǔn),損失函數(shù)對(duì)于塑造基于深度學(xué)習(xí)的分割
    的頭像 發(fā)表于 10-22 08:04 ?1625次閱讀
    <b class='flag-5'>語(yǔ)義</b><b class='flag-5'>分割</b>25種損失函數(shù)綜述和展望

    畫面分割器怎么調(diào)試

    畫面分割器,通常指的是視頻畫面分割器,它是一種可以將一個(gè)視頻信號(hào)分割成多個(gè)小畫面的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會(huì)議、多畫面顯示等場(chǎng)景。調(diào)試畫面
    的頭像 發(fā)表于 10-17 09:32 ?1092次閱讀

    畫面分割器怎么連接

    畫面分割器,也稱為視頻分割器或多畫面處理器,是一種可以將多個(gè)視頻信號(hào)源分割成單個(gè)畫面或多個(gè)畫面顯示在單個(gè)監(jiān)視器上的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會(huì)議、多媒體展示等領(lǐng)域。 一、畫
    的頭像 發(fā)表于 10-17 09:29 ?1002次閱讀

    畫面分割器有幾路主輸出

    畫面分割器,也稱為視頻分割器或多畫面處理器,是一種可以將一個(gè)視頻信號(hào)分割成多個(gè)獨(dú)立視頻畫面的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會(huì)議、多媒體展示等領(lǐng)域,能夠?qū)⒍鄠€(gè)攝像頭的信號(hào)整合到一
    的頭像 發(fā)表于 10-17 09:24 ?868次閱讀

    畫面分割器的主要功能

    器的主要功能 畫面分割器是一種視頻處理設(shè)備,它能夠?qū)⒍鄠€(gè)視頻信號(hào)分割成多個(gè)小畫面,并在一個(gè)顯示器上同時(shí)顯示。這種設(shè)備的出現(xiàn),極大地提高了視頻監(jiān)控系統(tǒng)的效率和靈活性。本文將詳細(xì)介紹畫面
    的頭像 發(fā)表于 10-17 09:22 ?1932次閱讀

    手冊(cè)上新 |迅為RK3568開發(fā)板NPU例程測(cè)試

    測(cè)試 6.1 deeplabv3語(yǔ)義分割 6.2 lite_transformer 6.3 LPRNet車牌識(shí)別 6.4 mobilenet圖像分類 6.5 PPOCR-Rec文字識(shí)別 6.6
    發(fā)表于 08-12 11:03