圖像分割是計(jì)算機(jī)視覺研究中的一個(gè)經(jīng)典難題,已經(jīng)成為圖像理解領(lǐng)域關(guān)注的一個(gè)熱點(diǎn),圖像分割是圖像分析的第一步,是計(jì)算機(jī)視覺的基礎(chǔ),是圖像理解的重要組成部分,同時(shí)也是圖像處理中最困難的問(wèn)題之一。所謂圖像分割是指根據(jù)灰度、彩色、空間紋理、幾何形狀等特征把圖像劃分成若干個(gè)互不相交的區(qū)域,使得這些特征在同一區(qū)域內(nèi)表現(xiàn)出一致性或相似性,而在不同區(qū)域間表現(xiàn)出明顯的不同。簡(jiǎn)單的說(shuō)就是在一副圖像中,把目標(biāo)從背景中分離出來(lái)。對(duì)于灰度圖像來(lái)說(shuō),區(qū)域內(nèi)部的像素一般具有灰度相似性,而在區(qū)域的邊界上一般具有灰度不連續(xù)性。關(guān)于圖像分割技術(shù),由于問(wèn)題本身的重要性和困難性,從20世紀(jì)70年代起圖像分割問(wèn)題就吸引了很多研究人員為之付出了巨大的努力。雖然到目前為止,還不存在一個(gè)通用的完美的圖像分割的方法,但是對(duì)于圖像分割的一般性規(guī)律則基本上已經(jīng)達(dá)成的共識(shí),已經(jīng)產(chǎn)生了相當(dāng)多的研究成果和方法。
本文對(duì)于目前正在使用的各種圖像分割方法進(jìn)行了一定的歸納總結(jié),由于筆者對(duì)于圖像分割的了解也是初窺門徑,所以難免會(huì)有一些錯(cuò)誤,還望各位讀者多多指正,共同學(xué)習(xí)進(jìn)步。
傳統(tǒng)分割方法
這一大部分我們將要介紹的是深度學(xué)習(xí)大火之前人們利用數(shù)字圖像處理、拓?fù)鋵W(xué)、數(shù)學(xué)等方面的只是來(lái)進(jìn)行圖像分割的方法。當(dāng)然現(xiàn)在隨著算力的增加以及深度學(xué)習(xí)的不斷發(fā)展,一些傳統(tǒng)的分割方法在效果上已經(jīng)不能與基于深度學(xué)習(xí)的分割方法相比較了,但是有些天才的思想還是非常值得我們?nèi)W(xué)習(xí)的。
1.基于閾值的分割方法
閾值法的基本思想是基于圖像的灰度特征來(lái)計(jì)算一個(gè)或多個(gè)灰度閾值,并將圖像中每個(gè)像素的灰度值與閾值作比較,最后將像素根據(jù)比較結(jié)果分到合適的類別中。因此,該方法最為關(guān)鍵的一步就是按照某個(gè)準(zhǔn)則函數(shù)來(lái)求解最佳灰度閾值。
閾值法特別適用于目標(biāo)和背景占據(jù)不同灰度級(jí)范圍的圖。
圖像若只有目標(biāo)和背景兩大類,那么只需要選取一個(gè)閾值進(jìn)行分割,此方法成為單閾值分割;但是如果圖像中有多個(gè)目標(biāo)需要提取,單一閾值的分割就會(huì)出現(xiàn)作物,在這種情況下就需要選取多個(gè)閾值將每個(gè)目標(biāo)分隔開,這種分割方法相應(yīng)的成為多閾值分割。
如圖所示即為對(duì)數(shù)字的一種閾值分割方法。
閥值分割方法的優(yōu)缺點(diǎn):
計(jì)算簡(jiǎn)單,效率較高;
只考慮像素點(diǎn)灰度值本身的特征,一般不考慮空間特征,因此對(duì)噪聲比較敏感,魯棒性不高。
從前面的介紹里我們可以看出,閾值分割方法的最關(guān)鍵就在于閾值的選擇。若將智能遺傳算法應(yīng)用在閥值篩選上,選取能最優(yōu)分割圖像的閥值,這可能是基于閥值分割的圖像分割法的發(fā)展趨勢(shì)。
2.基于區(qū)域的圖像分割方法
基于區(qū)域的分割方法是以直接尋找區(qū)域?yàn)榛A(chǔ)的分割技術(shù),基于區(qū)域提取方法有兩種基本形式:一種是區(qū)域生長(zhǎng),從單個(gè)像素出發(fā),逐步合并以形成所需要的分割區(qū)域;另一種是從全局出發(fā),逐步切割至所需的分割區(qū)域。
區(qū)域生長(zhǎng)
區(qū)域生長(zhǎng)是從一組代表不同生長(zhǎng)區(qū)域的種子像素開始,接下來(lái)將種子像素鄰域里符合條件的像素合并到種子像素所代表的生長(zhǎng)區(qū)域中,并將新添加的像素作為新的種子像素繼續(xù)合并過(guò)程,知道找不到符合條件的新像素為止(小編研一第一學(xué)期的機(jī)器學(xué)習(xí)期末考試就是手寫該算法 T.T),該方法的關(guān)鍵是選擇合適的初始種子像素以及合理的生長(zhǎng)準(zhǔn)則。
區(qū)域生長(zhǎng)算法需要解決的三個(gè)問(wèn)題:
(1)選擇或確定一組能正確代表所需區(qū)域的種子像素;
(2)確定在生長(zhǎng)過(guò)程中能將相鄰像素包括進(jìn)來(lái)的準(zhǔn)則;
(3)指定讓生長(zhǎng)過(guò)程停止的條件或規(guī)則。
區(qū)域分裂合并
區(qū)域生長(zhǎng)是從某個(gè)或者某些像素點(diǎn)出發(fā),最終得到整個(gè)區(qū)域,進(jìn)而實(shí)現(xiàn)目標(biāo)的提取。而分裂合并可以說(shuō)是區(qū)域生長(zhǎng)的逆過(guò)程,從整幅圖像出發(fā),不斷的分裂得到各個(gè)子區(qū)域,然后再把前景區(qū)域合并,得到需要分割的前景目標(biāo),進(jìn)而實(shí)現(xiàn)目標(biāo)的提取。其實(shí)如果理解了上面的區(qū)域生長(zhǎng)算法這個(gè)區(qū)域分裂合并算法就比較好理解啦。
四叉樹分解法就是一種典型的區(qū)域分裂合并法,基本算法如下:
(1)對(duì)于任一區(qū)域,如果H(Ri)=FALSE就將其分裂成不重疊的四等分;
(2)對(duì)相鄰的兩個(gè)區(qū)域Ri和Rj,它們也可以大小不同(即不在同一層),如果條件H(RiURj)=TURE滿足,就將它們合并起來(lái);
(3)如果進(jìn)一步的分裂或合并都不可能,則結(jié)束。
其中R代表整個(gè)正方形圖像區(qū)域,P代表邏輯詞。
區(qū)域分裂合并算法優(yōu)缺點(diǎn):
(1)對(duì)復(fù)雜圖像分割效果好;
(2)算法復(fù)雜,計(jì)算量大;
(3)分裂有可能破怪區(qū)域的邊界。
在實(shí)際應(yīng)用當(dāng)中通常將區(qū)域生長(zhǎng)算法和區(qū)域分裂合并算法結(jié)合使用,該類算法對(duì)某些復(fù)雜物體定義的復(fù)雜場(chǎng)景的分割或者對(duì)某些自然景物的分割等類似先驗(yàn)知識(shí)不足的圖像分割效果較為理想。
分水嶺算法
分水嶺算法是一個(gè)非常好理解的算法,它根據(jù)分水嶺的構(gòu)成來(lái)考慮圖像的分割,現(xiàn)實(shí)中我們可以想象成有山和湖的景象,那么一定是如下圖的,水繞山山圍水的景象。
分水嶺分割方法,是一種基于拓?fù)淅碚摰臄?shù)學(xué)形態(tài)學(xué)的分割方法,其基本思想是把圖像看作是測(cè)地學(xué)上的拓?fù)涞孛?,圖像中每一點(diǎn)像素的灰度值表示該點(diǎn)的海拔高度,每一個(gè)局部極小值及其影響區(qū)域稱為集水盆,而集水盆的邊界則形成分水嶺。分水嶺的概念和形成可以通過(guò)模擬浸入過(guò)程來(lái)說(shuō)明。在每一個(gè)局部極小值表面,刺穿一個(gè)小孔,然后把整個(gè)模型慢慢浸入水中,隨著浸入的加深,每一個(gè)局部極小值的影響域慢慢向外擴(kuò)展,在兩個(gè)集水盆匯合處構(gòu)筑大壩,即形成分水嶺。
分水嶺對(duì)微弱邊緣具有良好的響應(yīng),圖像中的噪聲、物體表面細(xì)微的灰度變化都有可能產(chǎn)生過(guò)度分割的現(xiàn)象,但是這也同時(shí)能夠保證得到封閉連續(xù)邊緣。同時(shí),分水嶺算法得到的封閉的集水盆也為分析圖像的區(qū)域特征提供了可能。
3.基于邊緣檢測(cè)的分割方法
基于邊緣檢測(cè)的圖像分割算法試圖通過(guò)檢測(cè)包含不同區(qū)域的邊緣來(lái)解決分割問(wèn)題。它可以說(shuō)是人們最先想到也是研究最多的方法之一。通常不同區(qū)域的邊界上像素的灰度值變化比較劇烈,如果將圖片從空間域通過(guò)傅里葉變換到頻率域,邊緣就對(duì)應(yīng)著高頻部分,這是一種非常簡(jiǎn)單的邊緣檢測(cè)算法。
邊緣檢測(cè)技術(shù)通??梢园凑仗幚淼募夹g(shù)分為串行邊緣檢測(cè)和并行邊緣檢測(cè)。串行邊緣檢測(cè)是要想確定當(dāng)前像素點(diǎn)是否屬于檢測(cè)邊緣上的一點(diǎn),取決于先前像素的驗(yàn)證結(jié)果。并行邊緣檢測(cè)是一個(gè)像素點(diǎn)是否屬于檢測(cè)邊緣高尚的一點(diǎn)取決于當(dāng)前正在檢測(cè)的像素點(diǎn)以及與該像素點(diǎn)的一些臨近像素點(diǎn)。
最簡(jiǎn)單的邊緣檢測(cè)方法是并行微分算子法,它利用相鄰區(qū)域的像素值不連續(xù)的性質(zhì),采用一階或者二階導(dǎo)數(shù)來(lái)檢測(cè)邊緣點(diǎn)。近年來(lái)還提出了基于曲面擬合的方法、基于邊界曲線擬合的方法、基于反應(yīng)-擴(kuò)散方程的方法、串行邊界查找、基于變形模型的方法。
邊緣檢測(cè)的優(yōu)缺點(diǎn):
(1)邊緣定位準(zhǔn)確;
(2)速度快;
(3)不能保證邊緣的連續(xù)性和封閉性;
(4)在高細(xì)節(jié)區(qū)域存在大量的碎邊緣,難以形成一個(gè)大區(qū)域,但是又不宜將高細(xì)節(jié)區(qū)域分成小碎片;
由于上述的(3)(4)兩個(gè)難點(diǎn),邊緣檢測(cè)只能產(chǎn)生邊緣點(diǎn),而非完整意義上的圖像分割過(guò)程。這也就是說(shuō),在邊緣點(diǎn)信息獲取到之后還需要后續(xù)的處理或者其他相關(guān)算法相結(jié)合才能完成分割任務(wù)。
在以后的研究當(dāng)中,用于提取初始邊緣點(diǎn)的自適應(yīng)閾值選取、用于圖像的層次分割的更大區(qū)域的選取以及如何確認(rèn)重要邊緣以去除假邊緣將變得非常重要。
結(jié)合特定工具的圖像分割算法
基于小波分析和小波變換的圖像分割方法
小波變換是近年來(lái)得到的廣泛應(yīng)用的數(shù)學(xué)工具,也是現(xiàn)在數(shù)字圖像處理必學(xué)部分,它在時(shí)間域和頻率域上都有量高的局部化性質(zhì),能將時(shí)域和頻域統(tǒng)一于一體來(lái)研究信號(hào)。而且小波變換具有多尺度特性,能夠在不同尺度上對(duì)信號(hào)進(jìn)行分析,因此在圖像分割方面的得到了應(yīng)用,
二進(jìn)小波變換具有檢測(cè)二元函數(shù)的局部突變能力,因此可作為圖像邊緣檢測(cè)工具。圖像的邊緣出現(xiàn)在圖像局部灰度不連續(xù)處,對(duì)應(yīng)于二進(jìn)小波變換的模極大值點(diǎn)。通過(guò)檢測(cè)小波變換模極大值點(diǎn)可以確定圖像的邊緣小波變換位于各個(gè)尺度上,而每個(gè)尺度上的小波變換都能提供一定的邊緣信息,因此可進(jìn)行多尺度邊緣檢測(cè)來(lái)得到比較理想的圖像邊緣。
上圖左圖是傳統(tǒng)的閾值分割方法,右邊的圖像就是利用小波變換的圖像分割??梢钥闯鲇覉D分割得到的邊緣更加準(zhǔn)確和清晰
另外,將小波和其他方法結(jié)合起來(lái)處理圖像分割的問(wèn)題也得到了廣泛研究,比如一種局部自適應(yīng)閾值法就是將Hilbert圖像掃描和小波相結(jié)合,從而獲得了連續(xù)光滑的閾值曲線。
基于遺傳算法的圖像分割
遺傳算法(Genetic Algorithms,簡(jiǎn)稱GA)是1973年由美國(guó)教授Holland提出的,是一種借鑒生物界自然選擇和自然遺傳機(jī)制的隨機(jī)化搜索算法。是仿生學(xué)在數(shù)學(xué)領(lǐng)域的應(yīng)用。其基本思想是,模擬由一些基因串控制的生物群體的進(jìn)化過(guò)程,把該過(guò)程的原理應(yīng)用到搜索算法中,以提高尋優(yōu)的速度和質(zhì)量。此算法的搜索過(guò)程不直接作用在變量上,而是在參數(shù)集進(jìn)行了編碼的個(gè)體,這使得遺傳算法可直接對(duì)結(jié)構(gòu)對(duì)象(圖像)進(jìn)行操作。整個(gè)搜索過(guò)程是從一組解迭代到另一組解,采用同時(shí)處理群體中多個(gè)個(gè)體的方法,降低了陷入局部最優(yōu)解的可能性,并易于并行化。搜索過(guò)程采用概率的變遷規(guī)則來(lái)指導(dǎo)搜索方向,而不采用確定性搜索規(guī)則,而且對(duì)搜索空間沒(méi)有任何特殊要求(如連通性、凸性等),只利用適應(yīng)性信息,不需要導(dǎo)數(shù)等其他輔助信息,適應(yīng)范圍廣。
遺傳算法擅長(zhǎng)于全局搜索,但局部搜索能力不足,所以常把遺傳算法和其他算法結(jié)合起來(lái)應(yīng)用。將遺傳算法運(yùn)用到圖像處理主要是考慮到遺傳算法具有與問(wèn)題領(lǐng)域無(wú)關(guān)且快速隨機(jī)的搜索能力。其搜索從群體出發(fā),具有潛在的并行性,可以進(jìn)行多個(gè)個(gè)體的同時(shí)比較,能有效的加快圖像處理的速度。但是遺傳算法也有其缺點(diǎn):搜索所使用的評(píng)價(jià)函數(shù)的設(shè)計(jì)、初始種群的選擇有一定的依賴性等。要是能夠結(jié)合一些啟發(fā)算法進(jìn)行改進(jìn)且遺傳算法的并行機(jī)制的潛力得到充分的利用,這是當(dāng)前遺傳算法在圖像處理中的一個(gè)研究熱點(diǎn)。
基于主動(dòng)輪廓模型的分割方法
主動(dòng)輪廓模型(active contours)是圖像分割的一種重要方法,具有統(tǒng)一的開放式的描述形式,為圖像分割技術(shù)的研究和創(chuàng)新提供了理想的框架。在實(shí)現(xiàn)主動(dòng)輪廓模型時(shí),可以靈活的選擇約束力、初始輪廓和作用域等,以得到更佳的分割效果,所以主動(dòng)輪廓模型方法受到越來(lái)越多的關(guān)注。
該方法是在給定圖像中利用曲線演化來(lái)檢測(cè)目標(biāo)的一類方法,基于此可以得到精確的邊緣信息。其基本思想是,先定義初始曲線C,然后根據(jù)圖像數(shù)據(jù)得到能量函數(shù),通過(guò)最小化能量函數(shù)來(lái)引發(fā)曲線變化,使其向目標(biāo)邊緣逐漸逼近,最終找到目標(biāo)邊緣。這種動(dòng)態(tài)逼近方法所求得的邊緣曲線具有封閉、光滑等優(yōu)點(diǎn)。
傳統(tǒng)的主動(dòng)輪廓模型大致分為參數(shù)主動(dòng)輪廓模型和幾何主動(dòng)輪廓模型。參數(shù)主動(dòng)輪廓模型將曲線或曲面的形變以參數(shù)化形式表達(dá),Kass等人提出了經(jīng)典的參數(shù)活動(dòng)輪廓模型即“Snake”模型,其中Snake定義為能量極小化的樣條曲線,它在來(lái)自曲線自身的內(nèi)力和來(lái)自圖像數(shù)據(jù)的外力的共同作用下移動(dòng)到感興趣的邊緣,內(nèi)力用于約束曲線形狀,而外力則引導(dǎo)曲線到特征此邊緣。參數(shù)主動(dòng)輪廓模型的特點(diǎn)是將初始曲線置于目標(biāo)區(qū)域附近,無(wú)需人為設(shè)定曲線的的演化是收縮或膨脹,其優(yōu)點(diǎn)是能夠與模型直接進(jìn)行交互,且模型表達(dá)緊湊,實(shí)現(xiàn)速度快;其缺點(diǎn)是難以處理模型拓?fù)浣Y(jié)構(gòu)的變化。比如曲線的合并或分裂等。而使用水平集(level set)的幾何活動(dòng)輪廓方法恰好解決了這一問(wèn)題。
基于深度學(xué)習(xí)的分割
1.基于特征編碼(feature encoder based)
在特征提取領(lǐng)域中VGGnet和ResNet是兩個(gè)非常有統(tǒng)治力的方法,接下來(lái)的一些篇幅會(huì)對(duì)這兩個(gè)方法進(jìn)行簡(jiǎn)短的介紹
a.VGGNet
由牛津大學(xué)計(jì)算機(jī)視覺組合和Google DeepMind公司研究員一起研發(fā)的深度卷積神經(jīng)網(wǎng)絡(luò)。它探索了卷積神經(jīng)網(wǎng)絡(luò)的深度和其性能之間的關(guān)系,通過(guò)反復(fù)的堆疊33的小型卷積核和22的最大池化層,成功的構(gòu)建了16~19層深的卷積神經(jīng)網(wǎng)絡(luò)。VGGNet獲得了ILSVRC 2014年比賽的亞軍和定位項(xiàng)目的冠軍,在top5上的錯(cuò)誤率為7.5%。目前為止,VGGNet依然被用來(lái)提取圖像的特征。
VGGNet的優(yōu)缺點(diǎn)
由于參數(shù)量主要集中在最后的三個(gè)FC當(dāng)中,所以網(wǎng)絡(luò)加深并不會(huì)帶來(lái)參數(shù)爆炸的問(wèn)題;
多個(gè)小核卷積層的感受野等同于一個(gè)大核卷積層(三個(gè)3x3等同于一個(gè)7x7)但是參數(shù)量遠(yuǎn)少于大核卷積層而且非線性操作也多于后者,使得其學(xué)習(xí)能力較強(qiáng)
VGG由于層數(shù)多而且最后的三個(gè)全連接層參數(shù)眾多,導(dǎo)致其占用了更多的內(nèi)存(140M)
b.ResNet
隨著深度學(xué)習(xí)的應(yīng)用,各種深度學(xué)習(xí)模型隨之出現(xiàn),雖然在每年都會(huì)出現(xiàn)性能更好的新模型,但是對(duì)于前人工作的提升卻不是那么明顯,其中有重要問(wèn)題就是深度學(xué)習(xí)網(wǎng)絡(luò)在堆疊到一定深度的時(shí)候會(huì)出現(xiàn)梯度消失的現(xiàn)象,導(dǎo)致誤差升高效果變差,后向傳播時(shí)無(wú)法將梯度反饋到前面的網(wǎng)絡(luò)層,使得前方的網(wǎng)絡(luò)層的參數(shù)難以更新,訓(xùn)練效果變差。這個(gè)時(shí)候ResNet恰好站出來(lái),成為深度學(xué)習(xí)發(fā)展歷程中一個(gè)重要的轉(zhuǎn)折點(diǎn)。
ResNet是由微軟研究院的Kaiming He等四名華人提出,他們通過(guò)自己提出的ResNet Unit成功訓(xùn)練出來(lái)152層的神經(jīng)網(wǎng)絡(luò)并在ILSVRC2015比賽中斬獲冠軍。ResNet語(yǔ)義分割領(lǐng)域最受歡迎且最廣泛運(yùn)用的神經(jīng)網(wǎng)絡(luò).ResNet的核心思想就是在網(wǎng)絡(luò)中引入恒等映射,允許原始輸入信息直接傳到后面的層中,在學(xué)習(xí)過(guò)程中可以只學(xué)習(xí)上一個(gè)網(wǎng)絡(luò)輸出的殘差(F(x)),因此ResNet又叫做殘差網(wǎng)絡(luò)。、
使用到ResNet的分割模型:
Efficient Neural Network(ENet):該網(wǎng)絡(luò)類似于ResNet的bottleNeck方法;
ResNet-38:該網(wǎng)絡(luò)在訓(xùn)練or測(cè)試階段增加并移除了一些層,是一種淺層網(wǎng)絡(luò),它的結(jié)構(gòu)是ResNet+FCN;
full-resolution residual network(FRRN):FRRN網(wǎng)絡(luò)具有和ResNet相同優(yōu)越的訓(xùn)練特性,它由殘差流和池化流兩個(gè)處理流組成;
AdapNey:根據(jù)ResNet-50的網(wǎng)絡(luò)進(jìn)行改進(jìn),讓原本的ResNet網(wǎng)絡(luò)能夠在更短的時(shí)間內(nèi)學(xué)習(xí)到更多高分辨率的特征;
……
ResNet的優(yōu)缺點(diǎn):
1)引入了全新的網(wǎng)絡(luò)結(jié)構(gòu)(殘差學(xué)習(xí)模塊),形成了新的網(wǎng)絡(luò)結(jié)構(gòu),可以使網(wǎng)絡(luò)盡可能地加深;
2)使得前饋/反饋傳播算法能夠順利進(jìn)行,結(jié)構(gòu)更加簡(jiǎn)單;
3)恒等映射地增加基本上不會(huì)降低網(wǎng)絡(luò)的性能;
4)建設(shè)性地解決了網(wǎng)絡(luò)訓(xùn)練的越深,誤差升高,梯度消失越明顯的問(wèn)題;
5)由于ResNet搭建的層數(shù)眾多,所以需要的訓(xùn)練時(shí)間也比平常網(wǎng)絡(luò)要長(zhǎng)。
2.基于區(qū)域選擇(regional proposal based)
Regional proposal 在計(jì)算機(jī)視覺領(lǐng)域是一個(gè)非常常用的算法,尤其是在目標(biāo)檢測(cè)領(lǐng)域。其核心思想就是檢測(cè)顏色空間和相似矩陣,根據(jù)這些來(lái)檢測(cè)待檢測(cè)的區(qū)域。然后根據(jù)檢測(cè)結(jié)果可以進(jìn)行分類預(yù)測(cè)。
在語(yǔ)義分割領(lǐng)域,基于區(qū)域選擇的幾個(gè)算法主要是由前人的有關(guān)于目標(biāo)檢測(cè)的工作漸漸延伸到語(yǔ)義分割的領(lǐng)域的,接下來(lái)小編將逐步介紹其個(gè)中關(guān)系。
Stage Ⅰ:R-CNN
伯克利大學(xué)的Girshick教授等人共同提出了首個(gè)在目標(biāo)檢測(cè)方向應(yīng)用的深度學(xué)習(xí)模型:Region-based Convolutional Neural Network(R-CNN)。該網(wǎng)絡(luò)模型如下圖所示,其主要流程為:先使用selective search算法提取2000個(gè)候選框,然后通過(guò)卷積網(wǎng)絡(luò)對(duì)候選框進(jìn)行串行的特征提取,再根據(jù)提取的特征使用SVM對(duì)候選框進(jìn)行分類預(yù)測(cè),最后使用回歸方法對(duì)區(qū)域框進(jìn)行修正。
R-CNN的優(yōu)缺點(diǎn):
是首個(gè)開創(chuàng)性地將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到目標(biāo)檢測(cè)的算法;
使用Bounding Box Regression對(duì)目標(biāo)檢測(cè)的框進(jìn)行調(diào)整;
由于進(jìn)行特征提取時(shí)是串行,處理耗時(shí)過(guò)長(zhǎng);
Selective search算法在提取每一個(gè)region時(shí)需要2s的時(shí)間,浪費(fèi)大量時(shí)間
Stage Ⅱ:Fast R-CNN
由于R-CNN的效率太低,2015年由Ross等學(xué)者提出了它的改進(jìn)版本:Fast R-CNN。其網(wǎng)絡(luò)結(jié)構(gòu)圖如下圖所示(從提取特征開始,略掉了region的選擇)Fast R-CNN在傳統(tǒng)的R-CNN模型上有所改進(jìn)的地方是它是直接使用一個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)整個(gè)圖像進(jìn)行特征提取,就省去了串行提取特征的時(shí)間;接著使用一個(gè)RoI Pooling Layer在全圖的特征圖上摘取每一個(gè)RoI對(duì)應(yīng)的特征,再通過(guò)FC進(jìn)行分類和包圍框的修正。
Fast R-CNN的優(yōu)缺點(diǎn)
節(jié)省了串行提取特征的時(shí)間;
除了selective search以外的其它所有模塊都可以合在一起訓(xùn)練;
最耗時(shí)間的selective search算法依然存在。
Stage Ⅲ:Faster R-CNN
2016年提出的Faster R-CNN可以說(shuō)有了突破性的進(jìn)展(雖然還是目標(biāo)檢測(cè)哈哈哈),因?yàn)樗淖兞怂那拜厒冏詈臅r(shí)最致命的部位:selective search算法。它將selective search算法替換成為RPN,使用RPN網(wǎng)絡(luò)進(jìn)行region的選取,將2s的時(shí)間降低到10ms,其網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:
Faster R-CNN優(yōu)缺點(diǎn):
使用RPN替換了耗時(shí)的selective search算法,對(duì)整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)有了突破性的優(yōu)化;
Faster R-CNN中使用的RPN和selective search比起來(lái)雖然速度更快,但是精度和selective search相比稍有不及,如果更注重速度而不是精度的話完全可以只使用RPN;
Stage Ⅳ:Mask R-CNN
Mask R-CNN(終于到分割了?。┦呛螑鹈鞔笊駡F(tuán)隊(duì)提出的一個(gè)基于Faster R-CNN模型的一種新型的分割模型,此論文斬獲ICCV 2017的最佳論文,在Mask R-CNN的工作中,它主要完成了三件事情:目標(biāo)檢測(cè),目標(biāo)分類,像素級(jí)分割。
愷明大神是在Faster R-CNN的結(jié)構(gòu)基礎(chǔ)上加上了Mask預(yù)測(cè)分支,并且改良了ROI Pooling,提出了ROI Align。其網(wǎng)絡(luò)結(jié)構(gòu)真容就如下圖所示啦:
Mask R-CNN的優(yōu)缺點(diǎn):
引入了預(yù)測(cè)用的Mask-Head,以像素到像素的方式來(lái)預(yù)測(cè)分割掩膜,并且效果很好;
用ROI Align替代了ROI Pooling,去除了RoI Pooling的粗量化,使得提取的特征與輸入良好對(duì)齊;
分類框與預(yù)測(cè)掩膜共享評(píng)價(jià)函數(shù),雖然大多數(shù)時(shí)間影響不大,但是有的時(shí)候會(huì)對(duì)分割結(jié)果有所干擾。
Stage Ⅴ:Mask Scoring R-CNN
最后要提出的是2019年CVPR的oral,來(lái)自華中科技大學(xué)的研究生黃釗金同學(xué)提出的
MS R-CNN,這篇文章的提出主要是對(duì)上文所說(shuō)的Mask R-CNN的一點(diǎn)點(diǎn)缺點(diǎn)進(jìn)行了修正。他的網(wǎng)絡(luò)結(jié)構(gòu)也是在Mask R-CNN的網(wǎng)絡(luò)基礎(chǔ)上做了一點(diǎn)小小的改進(jìn),添加了Mask-IoU。
黃同學(xué)在文章中提到:愷明大神的Mask R-CNN已經(jīng)很好啦!但是有個(gè)小毛病,就是評(píng)價(jià)函數(shù)只對(duì)目標(biāo)檢測(cè)的候選框進(jìn)行打分,而不是分割模板(就是上文提到的優(yōu)缺點(diǎn)中最后一點(diǎn)),所以會(huì)出現(xiàn)分割模板效果很差但是打分很高的情況。所以黃同學(xué)增加了對(duì)模板進(jìn)行打分的MaskIoU Head,并且最終的分割結(jié)果在COCO數(shù)據(jù)集上超越了愷明大神,下面就是MS R-CNN的網(wǎng)絡(luò)結(jié)構(gòu)啦~
MS R-CNN的優(yōu)缺點(diǎn):
優(yōu)化了Mask R-CNN中的信息傳播,提高了生成預(yù)測(cè)模板的質(zhì)量;
未經(jīng)大批量訓(xùn)練的情況下,就拿下了COCO 2017挑戰(zhàn)賽實(shí)例分割任務(wù)冠軍;
要說(shuō)缺點(diǎn)的話。。應(yīng)該就是整個(gè)網(wǎng)絡(luò)有些龐大,一方面需要ResNet當(dāng)作主干網(wǎng)絡(luò),另一方面需要其它各種Head共同承擔(dān)各種任務(wù)。
3.基于RNN的圖像分割
Recurrent neural networks(RNNs)除了在手寫和語(yǔ)音識(shí)別上表現(xiàn)出色外,在解決計(jì)算機(jī)視覺的任務(wù)上也表現(xiàn)不俗,在本篇文章中我們就將要介紹RNN在2D圖像處理上的一些應(yīng)用,其中也包括介紹使用到它的結(jié)構(gòu)或者思想的一些模型。
RNN是由Long-Short-Term Memory(LSTM)塊組成的網(wǎng)絡(luò),RNN來(lái)自序列數(shù)據(jù)的長(zhǎng)期學(xué)習(xí)的能力以及隨著序列保存記憶的能力使其在許多計(jì)算機(jī)視覺的任務(wù)中游刃有余,其中也包括語(yǔ)義分割以及數(shù)據(jù)標(biāo)注的任務(wù)。接下來(lái)的部分我們將介紹幾個(gè)使用到RNN結(jié)構(gòu)的用于分割的網(wǎng)絡(luò)結(jié)構(gòu)模型:
1.ReSeg模型
ReSeg可能不被許多人所熟知,在百度上搜索出的相關(guān)說(shuō)明與解析也不多,但是這是一個(gè)很有效的語(yǔ)義分割方法。眾所周知,F(xiàn)CN可謂是圖像分割領(lǐng)域的開山作,而RegNet的作者則在自己的文章中大膽的提出了FCN的不足:沒(méi)有考慮到局部或者全局的上下文依賴關(guān)系,而在語(yǔ)義分割中這種依賴關(guān)系是非常有用的。所以在ReSeg中作者使用RNN去檢索上下文信息,以此作為分割的一部分依據(jù)。
該結(jié)構(gòu)的核心就是Recurrent Layer,它由多個(gè)RNN組合在一起,捕獲輸入數(shù)據(jù)的局部和全局空間結(jié)構(gòu)。
優(yōu)缺點(diǎn):
充分考慮了上下文信息關(guān)系;
使用了中值頻率平衡,它通過(guò)類的中位數(shù)(在訓(xùn)練集上計(jì)算)和每個(gè)類的頻率之間的比值來(lái)重新加權(quán)類的預(yù)測(cè)。這就增加了低頻率類的分?jǐn)?shù),這是一個(gè)更有噪聲的分割掩碼的代價(jià),因?yàn)楸坏凸赖念惖母怕时桓吖懒?,并且可能?dǎo)致在輸出分割掩碼中錯(cuò)誤分類的像素增加。
2.MDRNNs(Multi-Dimensional Recurrent Neural Networks)模型
傳統(tǒng)的RNN在一維序列學(xué)習(xí)問(wèn)題上有著很好的表現(xiàn),比如演講(speech)和在線手寫識(shí)別。但是 在多為問(wèn)題中應(yīng)用卻并不到位。MDRNNs在一定程度上將RNN拓展到多維空間領(lǐng)域,使之在圖像處理、視頻處理等領(lǐng)域上也能有所表現(xiàn)。
該論文的基本思想是:將單個(gè)遞歸連接替換為多個(gè)遞歸連接,相應(yīng)可以在一定程度上解決時(shí)間隨數(shù)據(jù)樣本的增加呈指數(shù)增長(zhǎng)的問(wèn)題。以下就是該論文提出的兩個(gè)前向反饋和反向反饋的算法。
4.基于上采樣/反卷積的分割方法
卷積神經(jīng)網(wǎng)絡(luò)在進(jìn)行采樣的時(shí)候會(huì)丟失部分細(xì)節(jié)信息,這樣的目的是得到更具特征的價(jià)值。但是這個(gè)過(guò)程是不可逆的,有的時(shí)候會(huì)導(dǎo)致后面進(jìn)行操作的時(shí)候圖像的分辨率太低,出現(xiàn)細(xì)節(jié)丟失等問(wèn)題。因此我們通過(guò)上采樣在一定程度上可以不全一些丟失的信息,從而得到更加準(zhǔn)確的分割邊界。
接下來(lái)介紹幾個(gè)非常著名的分割模型:
a.FCN(Fully Convolutional Network)
是的!講來(lái)講去終于講到這位大佬了,F(xiàn)CN!在圖像分割領(lǐng)域已然成為一個(gè)業(yè)界標(biāo)桿,大多數(shù)的分割方法多多少少都會(huì)利用到FCN或者其中的一部分,比如前面我們講過(guò)的Mask R-CNN。
在FCN當(dāng)中的反卷積-升采樣結(jié)構(gòu)中,圖片會(huì)先進(jìn)性上采樣(擴(kuò)大像素);再進(jìn)行卷積——通過(guò)學(xué)習(xí)獲得權(quán)值。FCN的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:
當(dāng)然最后我們還是需要分析一下FCN,不能無(wú)腦吹啦~
優(yōu)缺點(diǎn):
FCN對(duì)圖像進(jìn)行了像素級(jí)的分類,從而解決了語(yǔ)義級(jí)別的圖像分割問(wèn)題;
FCN可以接受任意尺寸的輸入圖像,可以保留下原始輸入圖像中的空間信息;
得到的結(jié)果由于上采樣的原因比較模糊和平滑,對(duì)圖像中的細(xì)節(jié)不敏感;
對(duì)各個(gè)像素分別進(jìn)行分類,沒(méi)有充分考慮像素與像素的關(guān)系,缺乏空間一致性。
2.SetNet
SegNet是劍橋提出的旨在解決自動(dòng)駕駛或者智能機(jī)器人的圖像語(yǔ)義分割深度網(wǎng)絡(luò),SegNet基于FCN,與FCN的思路十分相似,只是其編碼-解碼器和FCN的稍有不同,其解碼器中使用去池化對(duì)特征圖進(jìn)行上采樣,并在分各種保持高頻細(xì)節(jié)的完整性;而編碼器不使用全連接層,因此是擁有較少參數(shù)的輕量級(jí)網(wǎng)絡(luò):
SetNet的優(yōu)缺點(diǎn):
保存了高頻部分的完整性;
網(wǎng)絡(luò)不笨重,參數(shù)少,較為輕便;
對(duì)于分類的邊界位置置信度較低;
對(duì)于難以分辨的類別,例如人與自行車,兩者如果有相互重疊,不確定性會(huì)增加。
以上兩種網(wǎng)絡(luò)結(jié)構(gòu)就是基于反卷積/上采樣的分割方法,當(dāng)然其中最最最重要的就是FCN了,哪怕是后面大名鼎鼎的SegNet也是基于FCN架構(gòu)的,而且FCN可謂是語(yǔ)義分割領(lǐng)域中開創(chuàng)級(jí)別的網(wǎng)絡(luò)結(jié)構(gòu),所以雖然這個(gè)部分雖然只有兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu),但是這兩位可都是重量級(jí)嘉賓,希望各位能夠深刻理解~
5.基于提高特征分辨率的分割方法
在這一個(gè)模塊中我們主要給大家介紹一下基于提升特征分辨率的圖像分割的方法。換一種說(shuō)法其實(shí)可以說(shuō)是恢復(fù)在深度卷積神經(jīng)網(wǎng)絡(luò)中下降的分辨率,從而獲取更多的上下文信息。這一系列我將給大家介紹的是Google提出的DeepLab 。
DeepLab是結(jié)合了深度卷積神經(jīng)網(wǎng)絡(luò)和概率圖模型的方法,應(yīng)用在語(yǔ)義分割的任務(wù)上,目的是做逐像素分類,其先進(jìn)性體現(xiàn)在DenseCRFs(概率圖模型)和DCNN的結(jié)合。是將每個(gè)像素視為CRF節(jié)點(diǎn),利用遠(yuǎn)程依賴關(guān)系并使用CRF推理直接優(yōu)化DCNN的損失函數(shù)。
在圖像分割領(lǐng)域,F(xiàn)CN的一個(gè)眾所周知的操作就是平滑以后再填充,就是先進(jìn)行卷積再進(jìn)行pooling,這樣在降低圖像尺寸的同時(shí)增大感受野,但是在先減小圖片尺寸(卷積)再增大尺寸(上采樣)的過(guò)程中一定有一些信息損失掉了,所以這里就有可以提高的空間。
接下來(lái)我要介紹的是DeepLab網(wǎng)絡(luò)的一大亮點(diǎn):Dilated/Atrous Convolution,它使用的采樣方式是帶有空洞的采樣。在VGG16中使用不同采樣率的空洞卷積,可以明確控制網(wǎng)絡(luò)的感受野。
圖a對(duì)應(yīng)3x3的1-dilated conv,它和普通的卷積操作是相同的;圖b對(duì)應(yīng)3x3的2-dilated conv,事跡卷積核的尺寸還是3x3(紅點(diǎn)),但是空洞為1,其感受野能夠達(dá)到7x7;圖c對(duì)應(yīng)3x3的4-dilated conv,其感受野已經(jīng)達(dá)到了15x15.寫到這里相信大家已經(jīng)明白,在使用空洞卷積的情況下,加大了感受野,使每個(gè)卷積輸出都包含了較大范圍的信息。
這樣就解決了DCNN的幾個(gè)關(guān)于分辨率的問(wèn)題:
1)內(nèi)部數(shù)據(jù)結(jié)構(gòu)丟失;空間曾計(jì)劃信息丟失;
2)小物體信息無(wú)法重建;
當(dāng)然空洞卷積也存在一定的問(wèn)題,它的問(wèn)題主要體現(xiàn)在以下兩方面:1)網(wǎng)格效應(yīng)
加入我們僅僅多次疊加dilation rate 2的 3x3 的卷積核則會(huì)出現(xiàn)以下問(wèn)題
我們發(fā)現(xiàn)卷積核并不連續(xù),也就是說(shuō)并不是所有的像素都用來(lái)計(jì)算了,這樣會(huì)喪失信息的連續(xù)性;
2)小物體信息處理不當(dāng)
我們從空洞卷積的設(shè)計(jì)背景來(lái)看可以推測(cè)出它是設(shè)計(jì)來(lái)獲取long-ranged information。然而空洞步頻選取得大獲取只有利于大物體得分割,而對(duì)于小物體的分割可能并沒(méi)有好處。所以如何處理好不同大小物體之間的關(guān)系也是設(shè)計(jì)好空洞卷積網(wǎng)絡(luò)的關(guān)鍵。
6.基于特征增強(qiáng)的分割方法
基于特征增強(qiáng)的分割方法包括:提取多尺度特征或者從一系列嵌套的區(qū)域中提取特征。在圖像分割的深度網(wǎng)絡(luò)中,CNN經(jīng)常應(yīng)用在圖像的小方塊上,通常稱為以每個(gè)像素為中心的固定大小的卷積核,通過(guò)觀察其周圍的小區(qū)域來(lái)標(biāo)記每個(gè)像素的分類。在圖像分割領(lǐng)域,能夠覆蓋到更大部分的上下文信息的深度網(wǎng)絡(luò)通常在分割的結(jié)果上更加出色,當(dāng)然這也伴隨著更高的計(jì)算代價(jià)。多尺度特征提取的方法就由此引進(jìn)。
在這一模塊中我先給大家介紹一個(gè)叫做SLIC,全稱為simple linear iterative cluster的生成超像素的算法。
首先我們要明確一個(gè)概念:啥是超像素?其實(shí)這個(gè)比較容易理解,就像上面說(shuō)的“小方塊”一樣,我們平常處理圖像的最小單位就是像素了,這就是像素級(jí)(pixel-level);而把像素級(jí)的圖像劃分成為區(qū)域級(jí)(district-level)的圖像,把區(qū)域當(dāng)成是最基本的處理單元,這就是超像素啦。
算法大致思想是這樣的,將圖像從RGB顏色空間轉(zhuǎn)換到CIE-Lab顏色空間,對(duì)應(yīng)每個(gè)像素的(L,a,b)顏色值和(x,y)坐標(biāo)組成一個(gè)5維向量V[l, a, b, x, y],兩個(gè)像素的相似性即可由它們的向量距離來(lái)度量,距離越大,相似性越小。
算法首先生成K個(gè)種子點(diǎn),然后在每個(gè)種子點(diǎn)的周圍空間里搜索距離該種子點(diǎn)最近的若干像素,將他們歸為與該種子點(diǎn)一類,直到所有像素點(diǎn)都?xì)w類完畢。然后計(jì)算這K個(gè)超像素里所有像素點(diǎn)的平均向量值,重新得到K個(gè)聚類中心,然后再以這K個(gè)中心去搜索其周圍與其最為相似的若干像素,所有像素都?xì)w類完后重新得到K個(gè)超像素,更新聚類中心,再次迭代,如此反復(fù)直到收斂。
有點(diǎn)像聚類的K-Means算法,最終會(huì)得到K個(gè)超像素。
Mostahabi等人提出的一種前向傳播的分類方法叫做Zoom-Out就使用了SLIC的算法,它從多個(gè)不同的級(jí)別提取特征:局部級(jí)別:超像素本身;遠(yuǎn)距離級(jí)別:能夠包好整個(gè)目標(biāo)的區(qū)域;全局級(jí)別:整個(gè)場(chǎng)景。這樣綜合考慮多尺度的特征對(duì)于像素或者超像素的分類以及分割來(lái)說(shuō)都是很有意義的。
接下來(lái)的部分我將給大家介紹另一種完整的分割網(wǎng)絡(luò):PSPNet:Pyramid Scene Parsing Network
論文提出在場(chǎng)景分割是,大多數(shù)的模型會(huì)使用FCN的架構(gòu),但是FCN在場(chǎng)景之間的關(guān)系和全局信息的處理能力存在問(wèn)題,其典型問(wèn)題有:1.上下文推斷能力不強(qiáng);2.標(biāo)簽之間的關(guān)系處理不好;3.模型可能會(huì)忽略小的東西。
本文提出了一個(gè)具有層次全局優(yōu)先級(jí),包含不同子區(qū)域時(shí)間的不同尺度的信息,稱之為金字塔池化模塊。
該模塊融合了4種不同金字塔尺度的特征,第一行紅色是最粗糙的特征–全局池化生成單個(gè)bin輸出,后面三行是不同尺度的池化特征。為了保證全局特征的權(quán)重,如果金字塔共有N個(gè)級(jí)別,則在每個(gè)級(jí)別后使用1×1 1×11×1的卷積將對(duì)于級(jí)別通道降為原本的1/N。再通過(guò)雙線性插值獲得未池化前的大小,最終concat到一起。其結(jié)構(gòu)如下圖:
最終結(jié)果就是,在融合不同尺度的feature后,達(dá)到了語(yǔ)義和細(xì)節(jié)的融合,模型的性能表現(xiàn)提升很大,作者在很多數(shù)據(jù)集上都做過(guò)訓(xùn)練,最終結(jié)果是在MS-COCO數(shù)據(jù)集上預(yù)訓(xùn)練過(guò)的效果最好。
為了捕捉多尺度特征,高層特征包含了更多的語(yǔ)義和更少的位置信息。結(jié)合多分辨率圖像和多尺度特征描述符的優(yōu)點(diǎn),在不丟失分辨率的情況下提取圖像中的全局和局部信息,這樣就能在一定程度上提升網(wǎng)絡(luò)的性能。
7.使用CRF/MRF的方法
首先讓我們熟悉熟悉到底啥是MRF的CRF的。
MRF全稱是Marcov Random Field,馬爾可夫隨機(jī)場(chǎng),其實(shí)說(shuō)起來(lái)筆者在剛讀碩士的時(shí)候有一次就有同學(xué)在匯報(bào)中提到了隱馬爾可夫、馬爾可夫鏈啥的,當(dāng)時(shí)還啥都不懂,小白一枚(現(xiàn)在是準(zhǔn)小白hiahia),覺得馬爾可夫這個(gè)名字賊帥,后來(lái)才慢慢了解什么馬爾科夫鏈呀,馬爾可夫隨機(jī)場(chǎng),并且在接觸到圖像分割了以后就對(duì)馬爾科夫隨機(jī)場(chǎng)有了更多的了解。
MRF其實(shí)是一種基于統(tǒng)計(jì)的圖像分割算法,馬爾可夫模型是指一組事件的集合,在這個(gè)集合中,事件逐個(gè)發(fā)生,并且下一刻事件的發(fā)生只由當(dāng)前發(fā)生的事件決定,而與再之前的狀態(tài)沒(méi)有關(guān)系。而馬爾可夫隨機(jī)場(chǎng),就是具有馬爾可夫模型特性的隨機(jī)場(chǎng),就是場(chǎng)中任何區(qū)域都只與其臨近區(qū)域相關(guān),與其他地方的區(qū)域無(wú)關(guān),那么這些區(qū)域里元素(圖像中可以是像素)的集合就是一個(gè)馬爾可夫隨機(jī)場(chǎng)。
CRF的全稱是Conditional Random Field,條件隨機(jī)場(chǎng)其實(shí)是一種特殊的馬爾可夫隨機(jī)場(chǎng),只不過(guò)是它是一種給定了一組輸入隨機(jī)變量X的條件下另一組輸出隨機(jī)變量Y的馬爾可夫隨機(jī)場(chǎng),它的特點(diǎn)是埃及設(shè)輸出隨機(jī)變量構(gòu)成馬爾可夫隨機(jī)場(chǎng),可以看作是最大熵馬爾可夫模型在標(biāo)注問(wèn)題上的推廣。
在圖像分割領(lǐng)域,運(yùn)用CRF比較出名的一個(gè)模型就是全連接條件隨機(jī)場(chǎng)(DenseCRF),接下來(lái)我們將花費(fèi)一些篇幅來(lái)簡(jiǎn)單介紹一下。
CRF在運(yùn)行中會(huì)有一個(gè)問(wèn)題就是它只對(duì)相鄰節(jié)點(diǎn)進(jìn)行操作,這樣會(huì)損失一些上下文信息,而全連接條件隨機(jī)場(chǎng)是對(duì)所有節(jié)點(diǎn)進(jìn)行操作,這樣就能獲取盡可能多的臨近點(diǎn)信息,從而獲得更加精準(zhǔn)的分割結(jié)果。
在Fully connected CRF中,吉布斯能量可以寫作:
我們重點(diǎn)關(guān)注二元部分:
其中k(m)為高斯核,寫作:
該模型的一元?jiǎng)菽馨藞D像的形狀,紋理,顏色和位置,二元?jiǎng)菽苁褂昧藢?duì)比度敏感的的雙核勢(shì)能,CRF的二元?jiǎng)莺瘮?shù)一般是描述像素點(diǎn)與像素點(diǎn)之間的關(guān)系,鼓勵(lì)相似像素分配相同的標(biāo)簽,而相差較大的像素分配不同標(biāo)簽,而這個(gè)“距離”的定義與顏色值和實(shí)際相對(duì)距離有關(guān),這樣CRF能夠使圖像盡量在邊界處分割。全連接CRF模型的不同就在于其二元?jiǎng)莺瘮?shù)描述的是每一個(gè)像素與其他所有像素的關(guān)系,使用該模型在圖像中的所有像素對(duì)上建立點(diǎn)對(duì)勢(shì)能從而實(shí)現(xiàn)極大地細(xì)化和分割。
在分割結(jié)果上我們可以看看如下的結(jié)果圖:
可以看到它在精細(xì)邊緣的分割比平常的分割方法要出色得多,而且文章中使用了另一種優(yōu)化算法,使得本來(lái)需要及其大量運(yùn)算的全連接條件隨機(jī)場(chǎng)也能在很短的時(shí)間里給出不錯(cuò)的分割結(jié)果。
至于其優(yōu)缺點(diǎn),我覺得可以總結(jié)為以下幾方面:
在精細(xì)部位的分割非常優(yōu)秀;
充分考慮了像素點(diǎn)或者圖片區(qū)域之間的上下文關(guān)系;
在粗略的分割中可能會(huì)消耗不必要的算力;
可以用來(lái)恢復(fù)細(xì)致的局部結(jié)構(gòu),但是相應(yīng)的需要較高的代價(jià)。
OK,那么本次的推送就到這里結(jié)束啦,本文的主要內(nèi)容是對(duì)圖像分割的算法進(jìn)行一個(gè)簡(jiǎn)單的分類和介紹。綜述對(duì)于各位想要深入研究的看官是非常非常重要的資源:大佬們經(jīng)常看綜述一方面可以了解算法的不足并在此基礎(chǔ)上做出改進(jìn);萌新們可以通過(guò)閱讀一篇好的綜述入門某一個(gè)學(xué)科。
-
算法
+關(guān)注
關(guān)注
23文章
4711瀏覽量
95446 -
圖像分割
+關(guān)注
關(guān)注
4文章
182瀏覽量
18345 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8505瀏覽量
134677
原文標(biāo)題:最全綜述 | 圖像分割算法
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
免疫克隆SAR圖像分割算法
一種改進(jìn)的圖像分割算法分析

基于天空分割的單幅圖像去霧算法
基于像素聚類進(jìn)行圖像分割的算法

一種新的彩色圖像分割算法

基于內(nèi)容的圖像分割方法綜述

圖像分割算法的深入研究

基于Contourlet域下的聲吶圖像分割算法
改進(jìn)自適應(yīng)GACV的水下圖像分割算法研究

評(píng)論