計(jì)算機(jī)視覺(jué)分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要子領(lǐng)域,它旨在將圖像中的每個(gè)像素分配到不同的類(lèi)別或?qū)ο笊?。這種技術(shù)通常被用于圖像識(shí)別、場(chǎng)景理解、醫(yī)學(xué)圖像處理等多個(gè)應(yīng)用場(chǎng)景,具有廣泛的實(shí)際應(yīng)用價(jià)值。 此前解決分割問(wèn)題大致有兩種方法。 第一種是交互式分割,該方法允許分割任何類(lèi)別的 對(duì)象,但需要一個(gè)人通過(guò)迭代細(xì)化掩碼來(lái)指導(dǎo)該方法。第二種是自動(dòng)分割,允許分割提前定義的特定對(duì)象類(lèi)別(例如,貓或椅子),但需要大量的手動(dòng)注釋對(duì)象來(lái)訓(xùn)練(例如,數(shù)千甚至數(shù)萬(wàn)個(gè)分割貓的例子)。這兩種方法都沒(méi)有提供通用的、全自動(dòng)的分割方法。 計(jì)算機(jī)視覺(jué)領(lǐng)域也迎來(lái)通用模型趨勢(shì),隨著計(jì)算機(jī)視覺(jué)領(lǐng)域模型泛化能力的提升,有望推動(dòng)通用的多模態(tài)AI系統(tǒng)發(fā)展,在工業(yè)制造、通用機(jī)器人、智能家居、游戲、虛擬現(xiàn)實(shí)等領(lǐng)域得到應(yīng)用。本文介紹了近期分割大模型發(fā)展情況。
1.SAM
SAM(Segment Anything Model)Meta 的 FAIR 實(shí)驗(yàn)室發(fā)布的一種最先進(jìn)的圖像分割模型,該模型將自然語(yǔ)言處理領(lǐng)域的prompt范式引入計(jì)算機(jī)視覺(jué)領(lǐng)域,可以通過(guò)點(diǎn)擊、框選和自動(dòng)識(shí)別三種交互方式,實(shí)現(xiàn)精準(zhǔn)的圖像分割,突破性地提升了圖像分割的效率。
1.1.任務(wù)
SAM 接受了數(shù)百萬(wàn)張圖像和超過(guò)十億個(gè)掩碼的訓(xùn)練,可為任何提示返回有效的分割掩碼。在這種情況下,提示是分割任務(wù),可以是前景/背景點(diǎn)、粗框或遮罩、點(diǎn)擊、文本,或者一般來(lái)說(shuō),指示圖像中要分割的內(nèi)容的任何信息。該任務(wù)也用作模型的預(yù)訓(xùn)練目標(biāo)。
1.2.網(wǎng)絡(luò)架構(gòu)
SAM 的架構(gòu)包含三個(gè)組件,它們協(xié)同工作以返回有效的分割掩碼:
圖像編碼器,用于生成一次性圖像嵌入。
提示編碼器,用于生成提示嵌入,提示可以是點(diǎn)、框或文本。
結(jié)合了提示和圖像編碼器的嵌入的輕量級(jí)掩碼解碼器。
1.1.1.圖像編碼器
在最高級(jí)別,圖像編碼器(掩碼自動(dòng)編碼器、MAE、預(yù)訓(xùn)練視覺(jué)變換器、ViT)生成一次性圖像嵌入,可以在提示模型之前應(yīng)用。
1.1.2.提示編碼器
提示編碼器將背景點(diǎn)、遮罩、邊界框或文本實(shí)時(shí)編碼到嵌入向量中。該研究考慮了兩組提示:稀疏(點(diǎn)、框、文本)和密集(掩碼)。 點(diǎn)和框由位置編碼表示,并為每種提示類(lèi)型添加學(xué)習(xí)嵌入。自由格式的文本提示由來(lái)自 CLIP 的現(xiàn)成文本編碼器表示。密集提示,如蒙版,嵌入卷積并與圖像嵌入逐元素求和。
1.1.3.掩碼解碼器
輕量級(jí)掩碼解碼器根據(jù)來(lái)自圖像和提示編碼器的嵌入預(yù)測(cè)分割掩碼。它將圖像嵌入、提示嵌入和輸出標(biāo)記映射到掩碼。所有嵌入都由解碼器塊更新,解碼器塊在兩個(gè)方向(從提示到圖像嵌入和返回)使用提示自我注意和交叉注意。 掩碼被注釋并用于更新模型權(quán)重。這種布局增強(qiáng)了數(shù)據(jù)集,并允許模型隨著時(shí)間的推移學(xué)習(xí)和改進(jìn),使其高效靈活。
1.3.數(shù)據(jù)集
Segment Anything 10 億掩碼 (SA-1B) 數(shù)據(jù)集是迄今為止最大的標(biāo)記分割數(shù)據(jù)集。它專(zhuān)為高級(jí)分割模型的開(kāi)發(fā)和評(píng)估而設(shè)計(jì)。。標(biāo)注者使用 SAM 交互地注釋圖像,之后新注釋的數(shù)據(jù)又反過(guò)來(lái)更新 SAM,可謂是相互促進(jìn)。 使用該方法,交互式地注釋一個(gè)掩碼只需大約 14 秒。與之前的大規(guī)模分割數(shù)據(jù)收集工作相比,Meta 的方法比 COCO 完全手動(dòng)基于多邊形的掩碼注釋快 6.5 倍,比之前最大的數(shù)據(jù)注釋工作快 2 倍,這是因?yàn)橛辛?SAM 模型輔助的結(jié)果。 最終的數(shù)據(jù)集超過(guò) 11 億個(gè)分割掩碼,在大約 1100 萬(wàn)張經(jīng)過(guò)許可和隱私保護(hù)圖像上收集而來(lái)。SA-1B 的掩碼比任何現(xiàn)有的分割數(shù)據(jù)集多 400 倍,并且經(jīng)人工評(píng)估研究證實(shí),這些掩碼具有高質(zhì)量和多樣性,在某些情況下甚至在質(zhì)量上可與之前更小、完全手動(dòng)注釋的數(shù)據(jù)集的掩碼相媲美 。
1.4.零樣本遷移實(shí)驗(yàn)
1.1.4.零樣本單點(diǎn)有效掩碼評(píng)估
1.1.5.零樣本邊緣檢測(cè)
1.1.6.零樣本對(duì)象建議
1.1.7.零樣本實(shí)例分割
1.1.8.零樣本文本轉(zhuǎn)掩碼
1.1.9.消融實(shí)驗(yàn)
2.Grounded-SAM
SAM發(fā)布后,很快出現(xiàn)了結(jié)合多種基礎(chǔ)能力的衍生模型。例如由前微軟亞研院首席科學(xué)家沈向洋博士創(chuàng)辦的IDEA研究院,基于SAM、自有Grounding DINO模型、Stable Diffusion技術(shù),研發(fā)出Grounded SAM模型,可以直接通過(guò)文本描述實(shí)現(xiàn)圖片的檢測(cè)、分割、生成。 借助Grounding DINO強(qiáng)大的零樣本檢測(cè)能力,Grounded SAM可以通過(guò)文本描述就可以找到圖片中的任意物體,然后通過(guò)SAM強(qiáng)大的分割能力,細(xì)粒度的分割出mas。最后,還可以利用Stable Diffusion對(duì)分割出來(lái)的區(qū)域做可控的文圖生成。 Grounding DINO例子
Grounded-Segment-Anything例子
3.SegGPT
國(guó)內(nèi)的智源研究院視覺(jué)團(tuán)隊(duì)提出了通用分割模型SegGPT——Segment Everything in Context,首個(gè)利用視覺(jué)上下文完成各種分割任務(wù)的通用視覺(jué)模型。就像這樣,在一張畫(huà)面中標(biāo)注出彩虹,就能批量分割其他畫(huà)面中的彩虹。 和 SAM 相比,視覺(jué)模型的 In-context 能力是最大差異點(diǎn) :
SegGPT “一通百通”:可使用一個(gè)或幾個(gè)示例圖片和對(duì)應(yīng)的掩碼即可分割大量測(cè)試圖片。用戶(hù)在畫(huà)面上標(biāo)注識(shí)別一類(lèi)物體,即可批量化識(shí)別分割出其他所有同類(lèi)物體,無(wú)論是在當(dāng)前畫(huà)面還是其他畫(huà)面或視頻環(huán)境中。
SAM“一觸即通”:通過(guò)一個(gè)點(diǎn)、邊界框或一句話,在待預(yù)測(cè)圖片上給出交互提示,識(shí)別分割畫(huà)面上的指定物體。 這也就意味著,SAM的精細(xì)標(biāo)注能力,與SegGPT的批量化標(biāo)注分割能力,還能進(jìn)一步相結(jié)合,產(chǎn)生全新的CV應(yīng)用。 具體而言,SegGPT 是智源通用視覺(jué)模型 Painter 的衍生模型,針對(duì)分割一切物體的目標(biāo)做出優(yōu)化。SegGPT 訓(xùn)練完成后無(wú)需微調(diào),只需提供示例即可自動(dòng)推理并完成對(duì)應(yīng)分割任務(wù),包括圖像和視頻中的實(shí)例、類(lèi)別、零部件、輪廓、文本、人臉等等。
該模型具有以下優(yōu)勢(shì)能力:
通用能力:SegGPT具有上下文推理能力,模型能夠根據(jù)上下文(prompt)中提供掩碼,對(duì)預(yù)測(cè)進(jìn)行自適應(yīng)的調(diào)整,實(shí)現(xiàn)對(duì)“everything”的分割,包括實(shí)例、類(lèi)別、零部件、輪廓、文本、人臉、醫(yī)學(xué)圖像等。
靈活推理能力:支持任意數(shù)量的prompt;支持針對(duì)特定場(chǎng)景的tuned prompt;可以用不同顏色的mask表示不同目標(biāo),實(shí)現(xiàn)并行分割推理。
自動(dòng)視頻分割和追蹤能力:以第一幀圖像和對(duì)應(yīng)的物體掩碼作為上下文示例,SegGPT能夠自動(dòng)對(duì)后續(xù)視頻幀進(jìn)行分割,并且可以用掩碼的顏色作為物體的ID,實(shí)現(xiàn)自動(dòng)追蹤。
3.1.方法
SegGPT 訓(xùn)練框架將視覺(jué)任務(wù)的輸出空間重新定義為“圖像”,并將不同的任務(wù)統(tǒng)一為同一個(gè)圖像修復(fù)問(wèn)題,即隨機(jī)mask任務(wù)輸出圖像并重建缺失的pixel。為了保持簡(jiǎn)單性和通用性,作者沒(méi)有對(duì)架構(gòu)和損失函數(shù)進(jìn)行修改,即vanilla ViT和簡(jiǎn)單的 smooth-?1損失,但在上下文訓(xùn)練中設(shè)計(jì)了一種新的隨機(jī)著色方案更好的泛化能力。
3.1.1.In-Context Coloring
在Painter的傳統(tǒng)框架中,每個(gè)任務(wù)的顏色空間都是預(yù)定義的,導(dǎo)致solution往往會(huì)collapse成為multi-task learning的任務(wù)。擬議的上下文內(nèi)著色隨機(jī)著色方案包括對(duì)另一張具有相似背景的圖像進(jìn)行采樣,將顏色映射到隨機(jī)顏色,并使用混合上下文訓(xùn)練來(lái)關(guān)注context而不是特定的顏色信息。分段數(shù)據(jù)集的統(tǒng)一允許根據(jù)特定任務(wù)制定一致的數(shù)據(jù)采樣策略,為不同的數(shù)據(jù)類(lèi)型(例如語(yǔ)義和實(shí)例分割)定義不同的上下文,并且使用相同的顏色來(lái)指代相同的類(lèi)別或?qū)嵗?/p>
3.1.2.Context Ensemble
一旦訓(xùn)練完成,這種訓(xùn)練模式就可以在推理過(guò)程中釋放出來(lái)。SegGPT支持在上下文中進(jìn)行任意分割,例如,使用單個(gè)圖像及其目標(biāo)圖像的示例。目標(biāo)圖像可以是單一顏色(不包括background),也可以是多種顏色,例如,在一個(gè)鏡頭中分割多個(gè)類(lèi)別或感興趣的對(duì)象。具體來(lái)說(shuō),給定要測(cè)試的輸入圖像,我們將其與示例圖像拼接并將其提供給 SegGPT 以獲得相應(yīng)的context的預(yù)測(cè)。為了提供更準(zhǔn)確和具體的上下文,可以使用多個(gè)示例。一種稱(chēng)為空間的Ensemble,多個(gè)example連接在n×n網(wǎng)格中,然后二次采樣到與單個(gè)示例相同的大小。這種方法符合上下文著色的直覺(jué),并且可以在幾乎沒(méi)有額外成本的情況下在上下文中提取多個(gè)示例的語(yǔ)義信息。另一種方法是特征集成。多個(gè)示例在批次維度中組合并獨(dú)立計(jì)算,除了查詢(xún)圖像的特征在每個(gè)注意層之后被平均。通過(guò)這種方式,查詢(xún)圖像在推理過(guò)程中收集了有關(guān)多個(gè)示例的信息。
3.1.3.In-Context Tuning
SegGPT 能夠在不更新模型參數(shù)的情況下適應(yīng)獨(dú)特的用例。我們凍結(jié)整個(gè)模型并初始化一個(gè)可學(xué)習(xí)的圖像張量作為輸入上下文。在訓(xùn)練期間只更新這個(gè)可學(xué)習(xí)的image的vector。其余的訓(xùn)練保持不變,例如,相同的損失函數(shù)。tuning后,作者將學(xué)習(xí)到的image張量取出來(lái),作為特定應(yīng)用的即插即用的keys。
3.2.實(shí)驗(yàn)
4.SEEM
SEEM是一種可提示的交互式模型,通過(guò)整合可學(xué)習(xí)的記憶提示以通過(guò)掩碼引導(dǎo)的交叉注意力保留對(duì)話歷史信息,可以一次性在圖像中對(duì)所有地方的所有內(nèi)容進(jìn)行分割,包括語(yǔ)義、實(shí)例和全景分割,同時(shí)也支持各種 prompt 類(lèi)型和它們的任意組合。 作者指出,SEEM 有以下 4 個(gè)亮點(diǎn):
多功能性(Versatile):處理各種類(lèi)型的 prompt ,例如點(diǎn)擊、框選、多邊形、涂鴉、文本和參考圖像;
組合式(Compositional):處理 prompt 的任何組合;
交互性(Interactive):與用戶(hù)多輪交互,得益于 SEEM 的記憶 prompt 來(lái)存儲(chǔ)會(huì)話歷史記錄;
語(yǔ)義感知(Semantic-aware):為任何預(yù)測(cè)的掩碼提供語(yǔ)義標(biāo)簽。
4.1.方法
SEEM 模型采用了一種通用的編碼器-解碼器架構(gòu),主要關(guān)注 query 和 prompt 之間的復(fù)雜交互。模型由文本編碼器和視覺(jué)采樣器組成。文本和視覺(jué) prompt 被編碼成可學(xué)習(xí)的查詢(xún),然后送入 SEEM 模型中,并輸出 Mask 和語(yǔ)義標(biāo)簽。視覺(jué) prompt 被編碼成池化圖像特征,然后在 SEEM 解碼器中使用 Self-Attention 和 Cross-Attention。如圖 (a) 所示: SEEM 與人之間的多輪交互如圖 (b),主要包括以下 3 個(gè)步驟:
人給出 prompt;
模型向人發(fā)送預(yù)測(cè)結(jié)果;
模型更新記憶 prompt。
4.1.1.多功能
除了文本輸入外,SEEM 還引入了視覺(jué)提示來(lái)處理所有的非文本輸入,例如點(diǎn)、框、涂鴉和另一幅圖像的區(qū)域引用等。 當(dāng)文本提示無(wú)法準(zhǔn)確識(shí)別正確的分割區(qū)域時(shí),非文本提示就能夠提供有用的補(bǔ)充信息,幫助準(zhǔn)確定位分割區(qū)域。以往的交互式分割方法通常將空間查詢(xún)轉(zhuǎn)換為掩模,然后將它們饋送到圖像骨干網(wǎng)絡(luò)中,或者針對(duì)每種輸入類(lèi)型(點(diǎn)、框)使用不同的提示編碼器。然而,這些方法存在重量過(guò)大或難以泛化的問(wèn)題。 為了解決這些問(wèn)題,SEEM 提出了使用視覺(jué)提示來(lái)統(tǒng)一所有非文本輸入。這些視覺(jué)提示以令牌的形式統(tǒng)一表示,并位于同一視覺(jué)嵌入空間中,這樣就可以使用同一種方法來(lái)處理所有非文本輸入。為了提取這些視覺(jué)提示的特征,該模型還引入了一個(gè)稱(chēng)為“視覺(jué)采樣器”的方法,用于從輸入圖像或引用圖像的特征映射中提取特定位置的特征。 此外,SEEM 還通過(guò)全景和引用分割來(lái)持續(xù)學(xué)習(xí)通用的視覺(jué)-語(yǔ)義空間,使得視覺(jué)提示與文本提示能夠自然地對(duì)齊,從而更好地指導(dǎo)分割過(guò)程。在學(xué)習(xí)語(yǔ)義標(biāo)簽時(shí),提示特征與文本提示映射到相同的空間以計(jì)算相似度矩陣,從而更好地協(xié)同完成分割任務(wù)。
4.1.2.可組合
用戶(hù)可以使用不同或組合的輸入類(lèi)型表達(dá)其意圖,因此在實(shí)際應(yīng)用中,組合式提示方法至關(guān)重要。 然而,在模型訓(xùn)練時(shí)會(huì)遇到兩個(gè)問(wèn)題。首先,訓(xùn)練數(shù)據(jù)通常只涵蓋一種交互類(lèi)型(例如,無(wú)、文本、視覺(jué))。其次,雖然我們已經(jīng)使用視覺(jué)提示來(lái)統(tǒng)一所有非文本提示并將它們與文本提示對(duì)齊,但它們的嵌入空間仍然本質(zhì)上不同。 為了解決這個(gè)問(wèn)題,本文提出了將不同類(lèi)型的提示與不同的輸出進(jìn)行匹配的方法。在模型訓(xùn)練后,SEEM 模型變得熟悉了所有提示類(lèi)型,并支持各種組合方式,例如無(wú)提示、單提示類(lèi)型或同時(shí)使用視覺(jué)和文本提示。值得注意的是,即使是從未像這樣訓(xùn)練過(guò)的樣本,視覺(jué)和文本提示也可以簡(jiǎn)單地連接并饋送到 SEEM 解碼器中。
4.1.3.可交互
SEEM 通過(guò)引入記憶提示來(lái)進(jìn)行多輪交互式分割,使得分割結(jié)果得到進(jìn)一步優(yōu)化。記憶提示是用來(lái)傳遞先前迭代中的分割結(jié)果,將歷史信息編碼到模型中,以在當(dāng)前輪次中使用。 不同于之前的工作使用一個(gè)網(wǎng)絡(luò)來(lái)編碼掩模,SEEM 采用掩模引導(dǎo)的交叉注意力機(jī)制來(lái)編碼歷史信息,這可以更有效地利用分割歷史信息來(lái)進(jìn)行下一輪次的優(yōu)化。值得注意的是,這種方法也可以擴(kuò)展到同時(shí)進(jìn)行多個(gè)對(duì)象的交互式分割。
4.1.4.語(yǔ)義感知
與之前的類(lèi)別無(wú)關(guān)的交互式分割方法不同,SEEM 將語(yǔ)義標(biāo)簽應(yīng)用于來(lái)自所有類(lèi)型提示組合的掩碼,因?yàn)樗囊曈X(jué)提示特征與文本特征在一個(gè)聯(lián)合視覺(jué)-語(yǔ)義空間中是對(duì)齊的。 在訓(xùn)練過(guò)程中,雖然沒(méi)有為交互式分割訓(xùn)練任何語(yǔ)義標(biāo)簽,但是由于聯(lián)合視覺(jué)-語(yǔ)義空間的存在,掩膜嵌入(mask embeddings)和 視覺(jué)取樣器 (visual sampler)之間的相似度矩陣可以被計(jì)算出來(lái),從而使得計(jì)算出的 logits 可以很好的對(duì)齊。 這樣,在推理過(guò)程中,查詢(xún)圖像就可以匯集多個(gè)示例的信息。
4.2.實(shí)驗(yàn)
Visual 比 Textual 效果更顯著,當(dāng)使用 Visual + Textual 進(jìn)行提示時(shí),IOU 精度達(dá)到了最高。
-
圖像分割
+關(guān)注
關(guān)注
4文章
182瀏覽量
18337 -
模型
+關(guān)注
關(guān)注
1文章
3517瀏覽量
50381 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
9文章
1708瀏覽量
46760
原文標(biāo)題:計(jì)算機(jī)視覺(jué)走向如何?分割大模型全面盤(pán)點(diǎn)(SAM/SegGPT/SEEM等)
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
基于GAC模型實(shí)現(xiàn)交互式圖像分割的改進(jìn)算法
使用全卷積網(wǎng)絡(luò)模型實(shí)現(xiàn)圖像分割
衛(wèi)星通信技術(shù)近期發(fā)展介紹
大化肥用離心壓縮機(jī)組的使用情況分析及其近期發(fā)展趨勢(shì)
基于多級(jí)混合模型的圖像分割方法
基于交叉視覺(jué)皮質(zhì)模型的圖像快速分割新算法

基于活動(dòng)輪廓模型的圖像分割
基于圖像局部灰度差異的噪聲圖像分割模型
基于雙階段網(wǎng)絡(luò)的交互式分割算法模型SeribNer

評(píng)論