亚洲欧美另类视频,在线丁香五月天AV

導(dǎo)讀

本文從CVPR2022中三篇不同領(lǐng)域的文章中CAM的表現(xiàn)出發(fā)，淺談一下對(duì)未來(lái)的CAM發(fā)展或者是未來(lái)可解釋深度模型的發(fā)展。

卷首語(yǔ)

這個(gè)問(wèn)題起源于我的對(duì)于現(xiàn)階段CAM解釋網(wǎng)絡(luò)特征變化的未來(lái)發(fā)展的一些不確定。我自己在20年開(kāi)始寫(xiě)文章就沉迷上使用了CAM去解釋自己的添加的網(wǎng)絡(luò)結(jié)構(gòu)模塊了。我對(duì)于CAM的接觸時(shí)間還蠻長(zhǎng)的，從開(kāi)始的熱戀期到現(xiàn)在的倦怠期，我越來(lái)越不覺(jué)得CAM的圖能給我?guī)?lái)眼前一亮的感覺(jué)了。加上現(xiàn)在一些文章的濫用，在一堆圖片中選擇出效果最好的幾張進(jìn)行所謂的CAM的解釋，這樣的工作會(huì)逐漸讓我覺(jué)得這個(gè)東西的無(wú)用和雞肋。

所以今晚就想和大家聊聊，在CVPR2022中三篇不同領(lǐng)域的文章中CAM的表現(xiàn)，對(duì)未來(lái)的CAM發(fā)展或者是未來(lái)可解釋深度模型的發(fā)展希望得到一些啟發(fā)！

先簡(jiǎn)單快速的回顧一遍CAM

首先CAM是什么？

CAM全稱Class Ac tivation Mapping，既類別激活映射圖，也被稱為類熱力圖、顯著性圖等。我們可以簡(jiǎn)單的理解為是圖像中信息對(duì)于預(yù)測(cè)結(jié)果的貢獻(xiàn)排名，分?jǐn)?shù)越高（顏色越熱）的地方表示在輸入圖片中這塊區(qū)域?qū)W(wǎng)絡(luò)的響應(yīng)越高、貢獻(xiàn)越大，也就是吸引網(wǎng)絡(luò)注意力的地方！

如何生成CAM

CNN的操作可以看做是濾波器對(duì)圖片進(jìn)行特征提取，我們可以大膽直接的得出結(jié)論，被一層層卷積核提取后，基本就是卷積核判斷是重要的信息，其值越大，特征越明顯，得到卷積的關(guān)注度就越高。

一個(gè)深層的卷積神經(jīng)網(wǎng)絡(luò)，通過(guò)層層卷積操作，提取出語(yǔ)義信息和空間信息，我們一直都很希望可以打破深度神經(jīng)網(wǎng)絡(luò)的黑盒，可以溯源特征提取的過(guò)程，甚至可以知道特征所代表的語(yǔ)義內(nèi)容， 通常每一層的特征圖還會(huì)有很多的層，我們一般用channel表示，這些不同層（通道）特征圖，我們可以認(rèn)為理解為存放著卷積提取到不同的特征。隨著卷積的逐層深入，該特征已經(jīng)失去了原有的空間信息和特征信息，被進(jìn)一步的集成壓縮為具有高度抽象性的特征圖。這些特征圖所代表的語(yǔ)義信息我們不得而知，但是這些特征圖的重要性我們卻可以通過(guò)計(jì)算得出。所以我們的CAM主要作用就是根據(jù)不同通道的貢獻(xiàn)情況，融合出一張CAM圖，那么我們就可以更直觀的了解到在圖像中那些部分是在CNN中是高響應(yīng)的重要信息，哪些信息是無(wú)關(guān)緊要的無(wú)聊信息。

CAM獲取的步驟如下：

step1：選擇可視化的特征層，例如尺寸為 16?16?1024 的特征圖

step2：獲取該特征的每個(gè)channel的權(quán)重，即長(zhǎng)度為1024的向量；

step3：通過(guò)線性融合的方式，把不同channel的權(quán)重賦回原特征圖中，在依次的將各個(gè)通道的特征圖線性相加

獲取尺寸為16*16的新特征圖；

step4：對(duì)該新特征圖進(jìn)行歸一化，并通過(guò)插值的方式還原到原圖尺寸；

Partial Class Activation Attention for Semantic Segmentation

文章任務(wù)背景

場(chǎng)景分割的工作其實(shí)大致上可以主要可以分為兩個(gè)任務(wù)，在局部視野下聚合同一類的像素和在全局視野下區(qū)分不同類別的像素。說(shuō)得簡(jiǎn)單，但是在實(shí)際場(chǎng)景中，由于紋理、光照和位置的不同，屬于同一類別的像素在特征響應(yīng)也可能會(huì)有很大的差異，這樣就會(huì)產(chǎn)生像素之間的粘連，邊界區(qū)分不明顯的問(wèn)題。（不同類別內(nèi)的粘連問(wèn)題，如下圖e，CAM所展示的效果）。對(duì)于這種問(wèn)題，之前的工作會(huì)選擇使用像金字塔、空洞卷積還有自注意力機(jī)制這些結(jié)構(gòu)，通過(guò)融合不同的感受野下的特征信息，不同的分辨率下的空間信息，以及深度挖掘不同類別下的特征信息，來(lái)幫助網(wǎng)絡(luò)解決不同物體之間邊界區(qū)分，以及同一物體的像素聚合。

為了消除局部上下文方差引起的類內(nèi)不一致，在原有的基于圖像級(jí)分類的局部定位算法基礎(chǔ)上，局部類激活注意（Partial Class Activation Attention, PCAA）算法，該算法將定位任務(wù)細(xì)分為區(qū)域級(jí)預(yù)測(cè)任務(wù)，獲得了較好的定位性能。比如我們大致的鎖定物體出現(xiàn)的區(qū)域（局部中心位置），然后計(jì)算局部中心與其他像素的相關(guān)程度再對(duì)區(qū)域內(nèi)的物體進(jìn)行更一步的局部聚合。它同時(shí)利用局部和全局的信息進(jìn)行特征聚合，

本文提出了Partial CAM，它將CAM的功能從整體預(yù)測(cè)擴(kuò)展到區(qū)域級(jí)別的物體預(yù)測(cè)，并實(shí)現(xiàn)了非常不錯(cuò)的定位性能。到底有多不錯(cuò)呢？我們可以看看下圖的效果比較，會(huì)發(fā)現(xiàn)使用了Partial CAM的結(jié)構(gòu)后的整體激活效果會(huì)更加的重視目標(biāo)對(duì)象的分割邊緣，在同一物體中激活效果會(huì)更加聚集，非同一物體的會(huì)激活像素點(diǎn)會(huì)更加遠(yuǎn)離。

這里是展示的是不同的方法同一場(chǎng)景下的類激活效果

文章的工作內(nèi)容

文章希望有一種方法可以打破以往的在局部視野下聚合同一類的像素和在全局視野下區(qū)分不同類別的像素的建模思路，使用一個(gè)局部延申到全局的建模思路，完成場(chǎng)景分割。本文將輸入的圖像分割成不重疊的patch塊，一個(gè)patch塊相當(dāng)于一個(gè)小分割區(qū)域，通過(guò)對(duì)這樣的小區(qū)域進(jìn)行像素的激活工作，不斷的堆疊，我們可以從局部逐步的細(xì)化整目標(biāo)的分割精度。具體來(lái)說(shuō)，它首先根據(jù)局部CAM收集到的局部信息，并計(jì)算每個(gè)patch內(nèi)部像素到類的相似度映射。對(duì)于每個(gè)類，所有的區(qū)域信息會(huì)被聚合到一起，聚合在全局中心周邊。PCAA還通過(guò)計(jì)算區(qū)域之間像素之間的方差距離來(lái)考慮區(qū)域內(nèi)容上下文的連貫性，更好的區(qū)分物體與物體之間的聯(lián)系，解決邊界黏連的問(wèn)題完成分割任務(wù)。

一個(gè)小提示， 其實(shí)因?yàn)镃AM其實(shí)原本設(shè)計(jì)并不是實(shí)現(xiàn)在語(yǔ)義分割任務(wù)上的，在空間上信息并關(guān)注，所以我們需要一點(diǎn)本土化的改進(jìn)。這樣文章提出的像素級(jí)別特征聚集和激活目前只能使用在語(yǔ)義分割場(chǎng)景中，因?yàn)檎Z(yǔ)義分割場(chǎng)景會(huì)提供像素級(jí)別的GT標(biāo)注，像目標(biāo)檢測(cè)和分類任務(wù)就暫時(shí)不能支持了。

我們提出了區(qū)域類激活注意(PCAA)。與以往的簡(jiǎn)單使用像素特征或全局中心相比，PCAA同時(shí)使用局部和全局表示。與傳統(tǒng)的定位算法相比，局部定位算法使網(wǎng)絡(luò)學(xué)習(xí)到更多的空間信息，能夠提供更可靠的定位結(jié)果。而且它在有效的保留了全局特性之外，也考慮到了局部特殊性，更加的適配語(yǔ)義分割、圖像超分辨率這類型的需要更加細(xì)致的細(xì)節(jié)信息的像素級(jí)別任務(wù)。

文章方法的介紹

文章的模型設(shè)計(jì)圖

從模型的結(jié)構(gòu)看，主要可以分為大整體和小局部的兩個(gè)模塊

Partial CAM（PCAM）

圖像經(jīng)過(guò)CNN進(jìn)行特征提取后，得到特征圖xin ，特征經(jīng)過(guò)一個(gè)1x1的卷積之后，經(jīng)過(guò)一個(gè)SxS的全局平均池化層希望在每個(gè)patch的區(qū)域中都能生成CAM，區(qū)域的面積就是SxS。之后我們將label轉(zhuǎn)換為獨(dú)熱向量，然后我們把轉(zhuǎn)化為獨(dú)熱向量后的Label通過(guò)maxpool生成每個(gè)patch的標(biāo)簽。

Sc=Sigmoid(AvgPoolxS×S(Ac))

?Lc=MaxPoolS×S(Lc)

通過(guò)這樣的方式就可以讓PCAM的生成的局部激活圖得到有效的監(jiān)督。與分類級(jí)標(biāo)簽相比，像素級(jí)別的標(biāo)簽對(duì)網(wǎng)絡(luò)空間信息進(jìn)行更細(xì)粒度的監(jiān)督，因此，PCAM比普通的CAM具有更精確的定位性能，通過(guò)這樣的方式我們就可以得到有效精確的PCAM圖了。

PCAA

PCAA獨(dú)特地采用了部分CAM來(lái)建模像素關(guān)系，在兩步注意力加權(quán)計(jì)算 （局部和全局） 中利用了不同類型的類中心。與整個(gè)圖像相比，屬于同一類的特征在每個(gè)部分內(nèi)的方差往往更小。通過(guò)計(jì)算不同局部類中心的相似度圖來(lái)緩解局部特異性的影響。同時(shí)，采用全局表示進(jìn)行特征聚合，保證了最終輸出的類內(nèi)一致性。

PCAA中具體分為以下幾個(gè)結(jié)構(gòu)

我們把得到的特征圖分成大小為SxS的小Patch，我們把PCAM圖用SoftMax轉(zhuǎn)化為類別概率對(duì)各個(gè)特征圖進(jìn)行加權(quán)處理

1、Local Class Center

在得到每個(gè)部分的精準(zhǔn)PCAM圖后，我們把激活圖進(jìn)行SoftMax的歸一化之后得到一個(gè)概率得分，然后將這組概率得分加權(quán)到各個(gè)patch上，對(duì)每組的patch進(jìn)行整體的激活。之后再利用 Sc 激活每個(gè)patch的局部中心點(diǎn)。

Local Class Center

采用圖卷積的單元來(lái)建模每個(gè)Patch局部中心之間的相互作用以及特征之間的相互聯(lián)系，尋找相關(guān)連的單元節(jié)點(diǎn)，然后將節(jié)點(diǎn)們聚合更新出一版新的節(jié)點(diǎn)。

2、Global Class Representation

由于局部中心點(diǎn)是在每個(gè)區(qū)域內(nèi)計(jì)算的，同一類的目標(biāo)物體表示也有敏感的特征不是一致的（比如部分對(duì)顏色敏感，部分對(duì)紋路敏感）但是這些特征都是聚合成完整物體不可缺失的特征信息。為了提高整個(gè)圖像的類間的特征一致性，我們需要所有區(qū)域中心通過(guò)加權(quán)聚合的方式進(jìn)行融合，將同一類物體的敏感的特征們進(jìn)行聚合。

3、Feature Aggregation

我們將local的權(quán)重以及global的權(quán)重加權(quán)到特征圖中進(jìn)行線性的加權(quán)融合得到了最后的特征圖輸出。

實(shí)驗(yàn)結(jié)果

文章的貢獻(xiàn)

1、提出部分類激活映射(Partial Class Activation Map)作為一種表示像素關(guān)系的新策略。通過(guò)將圖像級(jí)分類任務(wù)細(xì)分為區(qū)域級(jí)預(yù)測(cè)，改進(jìn)了CAM的生成。

2、設(shè)計(jì)了部分類激活注意(Partial Class Activation Attention)來(lái)增強(qiáng)特征表示。它同時(shí)考慮了局部特異性和全局一致性。

3、通過(guò)大量實(shí)驗(yàn)驗(yàn)證了所提方法的有效性。具體來(lái)說(shuō)，方法在cityscape上實(shí)現(xiàn)了82.3%，在Pascal Context上實(shí)現(xiàn)了55.6%，在ADE20K上實(shí)現(xiàn)了46.74%。

看完后對(duì)于CAM的感受

本文首次探討了利用類激活映射 （Class Activation Map, CAM） 建模像素關(guān)系的方法。PCAM是一種可以用于語(yǔ)義分割的具有空間特性的類激活映射建模方法。CAM方法可以從分類模型定位對(duì)象。這對(duì)于弱監(jiān)督任務(wù)至關(guān)重要，但完全會(huì)忽略了空間關(guān)系。對(duì)于一個(gè)全監(jiān)督的分割任務(wù)，像素級(jí)別的注釋使我們能夠引入空間信息，以更精確地生成CAM。

這次的CAM其實(shí)并沒(méi)有像以往的工作一樣，只是單純的作為一個(gè)可視化的工具，而是挖掘了CAM的作為一個(gè)區(qū)域指導(dǎo)先驗(yàn)的這樣一個(gè)可能性。通過(guò)有效的監(jiān)督類激活的信息，讓CAM再一次切實(shí)的參與到模型的建設(shè)當(dāng)中。我覺(jué)得以CAM作為構(gòu)建一個(gè)即插即用的藍(lán)本模型，我認(rèn)為是一個(gè)很可行的方向！

C-CAM: Causal CAM for Weakly Supervised Semantic Segmentation on Medical Image

文章任務(wù)背景介紹

第二篇文章的故事發(fā)生在醫(yī)療圖像分割case中。近年來(lái)，CAM的弱監(jiān)督語(yǔ)義分割((Weakly supervised semantic segmentation以下簡(jiǎn)稱WSSS)研究成果被提出，用于醫(yī)療影像上作品卻不多。現(xiàn)在階段的醫(yī)療圖像分割任務(wù)中存在著兩個(gè)問(wèn)題，第一個(gè)是目標(biāo)前景和背景的邊界不清晰，第二個(gè)是在訓(xùn)練階段中，共現(xiàn)的現(xiàn)象非常嚴(yán)重。（共現(xiàn)現(xiàn)象是指在訓(xùn)練階段中同一張圖像中出現(xiàn)不同的器官）共現(xiàn)的主要問(wèn)題是，同一環(huán)境下A器官出現(xiàn)次數(shù)比B器官多，可能效果會(huì)向A傾斜，對(duì)于需要識(shí)別出的B，比較難識(shí)別出。

我感覺(jué)共現(xiàn)這個(gè)情況我需要單獨(dú)拿出來(lái)說(shuō)一下，再解釋一下

共現(xiàn)，字面意思一樣是共同出現(xiàn)，舉個(gè)例子比如說(shuō)腹部MRI圖像中不同器官總是同時(shí)出現(xiàn)，會(huì)給AI造成了一定的干擾，可能會(huì)把這種共現(xiàn)作為特征信息學(xué)習(xí)進(jìn)去了。然而，這種同現(xiàn)現(xiàn)象在自然圖像中并沒(méi)有那么嚴(yán)重。例如，“人”并不總是和“馬”一起出現(xiàn)，反之亦然。因此當(dāng)人騎著馬出現(xiàn)的時(shí)候，CAM模型可以知道圖像的哪一部分是“人”，但遺憾的是，CAM模型很難在共現(xiàn)場(chǎng)景中正確激活有效的識(shí)別對(duì)象。

左邊圖為前景與背景的邊界，右邊圖為共現(xiàn)

在醫(yī)療圖像的熱力圖中我們可以更加清晰的發(fā)現(xiàn)這兩個(gè)問(wèn)題的存在。第一行中可以發(fā)現(xiàn)由于共現(xiàn)問(wèn)題中導(dǎo)致的激活錯(cuò)誤（黃框表示為正確的激活部分）。第二行中也可以通過(guò)類激活圖發(fā)現(xiàn)分割過(guò)程中出現(xiàn)了前景和背景的黏連問(wèn)題，邊界分割不清。由于醫(yī)療圖像與自然圖像不同，圖像中的區(qū)分不同器官區(qū)域與傳統(tǒng)的自然圖像中學(xué)習(xí)到的先驗(yàn)知識(shí)（比如亮度變化、形狀、顏色）不相同，如果是分類任務(wù)識(shí)別會(huì)更加的精準(zhǔn)，但是這種精準(zhǔn)卻無(wú)法體現(xiàn)在醫(yī)療圖像分割的任務(wù)中。因?yàn)樵诜诸惾蝿?wù)中并不需要考慮空間相關(guān)性的要素，比如當(dāng)在統(tǒng)計(jì)意義上高度相關(guān)的要素可以區(qū)分類別，但是無(wú)法區(qū)分區(qū)域。比如說(shuō)我可以說(shuō)雨傘和下雨在統(tǒng)計(jì)學(xué)意義是高度相關(guān)的，如果是場(chǎng)景分類的時(shí)候我們看見(jiàn)有人打傘，那么我們就可以認(rèn)為這個(gè)場(chǎng)景在下雨。如果是分類的情況，激活雨傘也是合理的。但是如果我要把雨水的區(qū)域分開(kāi)，如果激活雨傘就顯得毫無(wú)作用了，也顯得模型的毫無(wú)邏輯可以言。

文章的方法

總的來(lái)說(shuō)文章借助CAM以及通過(guò)因果推理鏈將因果關(guān)系引入了醫(yī)療圖像弱監(jiān)督的方向上。從圖中可以發(fā)現(xiàn)，文章用了CAM的粗分割，結(jié)合細(xì)節(jié)調(diào)整+粗糙的區(qū)域劃分（粗掩碼），以及在分類頭的作用下解決了上面提到的兩個(gè)問(wèn)題。

Global Sampling Module

CAM雖然在分割任務(wù)中不夠準(zhǔn)確。但是，它可以為醫(yī)學(xué)圖像提供與分類和解剖高度相關(guān)的有價(jià)值的信息。因此，我們?cè)O(shè)計(jì)了一個(gè)全局采樣(GS)模塊來(lái)利用這些有價(jià)值的信息。

GS模塊如圖下所示。訓(xùn)練圖像直接輸入Pure CAM (P-CAM)模型，得到粗糙的偽掩模。

P-CAM是一個(gè)類似CAM的模型，它由一個(gè)CNN主干、一個(gè)分類頭、一個(gè)映射操作和一個(gè)上采樣操作組成。

在訓(xùn)練階段， 只使用CNN主干和分類頭

在推斷階段， 通過(guò)映射操作和上采樣操作生成粗糙的偽掩碼，以及具有全局上下文聯(lián)系的特征圖。

Causality in medical image WSSS

在半監(jiān)督的任務(wù)中關(guān)鍵是生成一個(gè)具有精確的偽掩膜，在C-CAM中我們通過(guò)因果鏈來(lái)進(jìn)行邏輯上的細(xì)化決策。第一個(gè)鏈?zhǔn)欠诸惾蝿?wù)中的因果關(guān)系控制，X→Y。說(shuō)明圖像內(nèi)容X(原因)在具有全局上下文聯(lián)系的特征圖的C的影響下影響最后的分類任務(wù)進(jìn)行優(yōu)化。第二條因果鏈?zhǔn)欠治鲆蚬鸝→S，通過(guò)分析結(jié)構(gòu)信息進(jìn)而監(jiān)督分割時(shí)形狀（位置內(nèi)容）的形成。最后，偽掩模由類別特征Y和形狀特征S共同確定。

值的一提的是文章中出現(xiàn)了一個(gè)比較好玩的東西，就是上圖的因果關(guān)系圖。在醫(yī)療圖像中利用因果關(guān)系，加強(qiáng)弱監(jiān)督方向的工作，這篇工作是第一次。通過(guò)采用分類頭+CAM的方式去控制模型的學(xué)習(xí)方向，去做這兩個(gè)問(wèn)題的解決方法，這是有趣的，也是令人信服的。

我們把上面的因果鏈路抽象為可以輸入到模型中的模塊，整理得到了下面的結(jié)構(gòu)。

Category-Causality Chain.

通過(guò) MGC 對(duì)粗分割標(biāo)簽圖進(jìn)行監(jiān)督和細(xì)化，生成出更精細(xì)的類別標(biāo)簽。同時(shí)也會(huì)細(xì)分割標(biāo)簽圖進(jìn)行進(jìn)一步的監(jiān)督優(yōu)化，努力的保證控制上下文聯(lián)系的特征能夠有效的得到關(guān)注，被順利激活。

Anatomy-Causality Chain.

可以很好地捕捉目標(biāo)的形狀和邊界，但不能完全確定語(yǔ)義，然后通過(guò)解剖結(jié)構(gòu)信息來(lái)解決語(yǔ)義問(wèn)題。特別是對(duì)于一些多器官影像，如腹部掃描，因?yàn)楣铂F(xiàn)的情況，CAMcc無(wú)法區(qū)分左腎和右腎。為此，文章設(shè)計(jì)了一個(gè)分析因果鏈來(lái)解決這個(gè)問(wèn)題。在分析-因果關(guān)系鏈中，文章設(shè)計(jì)了1/0指標(biāo)來(lái)表示醫(yī)學(xué)圖像的位置信息。最后，按如下公式計(jì)算分析-因果關(guān)系圖Ms，得到各類別的可能位置:

即對(duì)特征信息圖進(jìn)行決策，當(dāng)MGC被有效激活的時(shí)候就將特征進(jìn)行保留，當(dāng)MGC無(wú)法為有效激活的時(shí)候就置為0，通過(guò)這種篩選的方式，弱化共現(xiàn)產(chǎn)生的影響，當(dāng)共現(xiàn)的特征消失的時(shí)候，與共現(xiàn)相關(guān)的特征通道會(huì)被置為0，再出現(xiàn)時(shí)是因?yàn)樘卣髦当恢脼?，所以無(wú)法順利的激活與共現(xiàn)相關(guān)的特征信息。

CAM對(duì)于文章的作用

我對(duì)于CAM出現(xiàn)在醫(yī)療圖像上的事情是很支持的。因?yàn)獒t(yī)療圖像于自然圖像的信息出入還是很大的，其實(shí)如果不細(xì)說(shuō)，我們根本沒(méi)有辦法判斷出整體效果如何，所以在CAM的加持下，我覺(jué)得醫(yī)療圖像的工作會(huì)更具有說(shuō)服力。但是在這篇文章中CAM有更重要的角色，就是參加弱監(jiān)督模型做出粗掩碼，與上文的監(jiān)督作用相類似，CAM的技術(shù)在文章中也是相當(dāng)于一個(gè)信息提取以及監(jiān)督優(yōu)化的角色。因?yàn)镃AM一開(kāi)始被設(shè)計(jì)出來(lái)的其實(shí)主要一個(gè)期待點(diǎn)是希望可以強(qiáng)化半監(jiān)督的工作效果的，所以再次回歸半監(jiān)督何嘗不是一種不忘初心。

CLIMS: Cross Language Image Matching for Weakly Supervised Semantic Segmentation

文章背景

眾所周知，CAM（類激活圖）通常只激活有區(qū)別的對(duì)象區(qū)域，并且錯(cuò)誤地包含許多與對(duì)象相關(guān)的背景。眾所周知，CAM (Class Activation Map)通常只激活目標(biāo)對(duì)象所在的區(qū)域，不可避免的將大量與物體無(wú)關(guān)的背景信息激活了出來(lái)。由于WSSS(弱監(jiān)督語(yǔ)義分割)模型只有固定的圖像級(jí)別的標(biāo)簽，因此很難抑制激活目標(biāo)對(duì)象會(huì)激活出的不同背景區(qū)域。

文章工作內(nèi)容

在本文中，提出了一種用于WSSS場(chǎng)景中的跨語(yǔ)言圖像匹配(CLIMS)框架，基于最近引入的對(duì)比語(yǔ)言圖像預(yù)訓(xùn)練(CLIP)模型?？蚣艿暮诵乃枷胧且胱匀徽Z(yǔ)言監(jiān)督，激活更完整的對(duì)象區(qū)域，抑制密切相關(guān)的背景區(qū)域。

特別地，文章中還對(duì)目標(biāo)對(duì)象、背景區(qū)域和文本標(biāo)簽專門(mén)設(shè)計(jì)了損失函數(shù)對(duì)模型進(jìn)行指導(dǎo)，對(duì)每一類CAM激發(fā)更合理的對(duì)象區(qū)域。

文章基于最近引入的對(duì)比學(xué)習(xí)的預(yù)訓(xùn)練模型（CLIP），提出了一種新的跨模態(tài)的匹配網(wǎng)絡(luò)?？蚣艿暮诵乃枷胧且胱匀徽Z(yǔ)言的信息，來(lái)輔助圖像激活出更完整的目標(biāo)識(shí)別區(qū)域，并抑制相關(guān)的背景區(qū)域的干擾。下圖展示的圖像是通過(guò)引入自然語(yǔ)言信息，協(xié)助圖像激活的效果展示，相信大家從CAM和ADV-CAM中都不難可以看到，跨模態(tài)信息交互提升圖像識(shí)別準(zhǔn)確度方法的效果確實(shí)非常的不錯(cuò)。

文章的方法

一個(gè)問(wèn)題是，我們?nèi)绾伟盐谋緝?nèi)容和圖像內(nèi)容進(jìn)行整合，利用相互的信息監(jiān)督優(yōu)化。

Cross Language Image Matching Framework

傳統(tǒng)的WSSS方法只使用一組預(yù)先設(shè)計(jì)好的固定對(duì)象進(jìn)行監(jiān)督，但是文章中基于CLIP模型的文本+圖像的模型放棄了這思路，基于Zero-shot的特性，自由探索對(duì)象與對(duì)象之間的關(guān)系。文章通過(guò)CAM提取出激活的權(quán)重，x表示激活前景的權(quán)重，（1-x）表示背景的激活權(quán)重。我們把權(quán)重賦值進(jìn)原圖中，就可以初步的將目標(biāo)對(duì)象，以及背景進(jìn)行分離，然后通過(guò)CLIP將提取出的目標(biāo)對(duì)象信息以及背景信息與文本信息進(jìn)行交互，相互監(jiān)督。

Object region and Text label Matching

監(jiān)督的過(guò)程其實(shí)不難，主要還是CLIP的余弦相似度的計(jì)算，之后再經(jīng)過(guò)loss控制優(yōu)化。生成的初始CAM會(huì)在 LOTM 的監(jiān)督下逐漸接近目標(biāo)對(duì)象。然而，單獨(dú)的LOTM并不區(qū)分背景和前景的區(qū)域，也不能抑制CAM對(duì)于背景區(qū)域的激活。

Background region and Text label Matching

為了提高被激活對(duì)象區(qū)域的完整性，設(shè)計(jì)了背景區(qū)域和文本標(biāo)簽匹配損失 LBTM ，以包含更多的目標(biāo)對(duì)象內(nèi)容。

Co-occurring Background Suppression

前面提到的兩個(gè)損失函數(shù)只保證激活圖完全覆蓋目標(biāo)對(duì)象，沒(méi)有考慮到與目標(biāo)對(duì)象出現(xiàn)的相關(guān)背景的錯(cuò)誤激活。共現(xiàn)可能會(huì)顯著降低生成的偽掩模的質(zhì)量。但是，要想對(duì)這些背景進(jìn)行像素級(jí)標(biāo)記是非常耗時(shí)和昂貴的，而且WSSS的場(chǎng)景中也不會(huì)進(jìn)行這樣的操作。由于背景的種類比前景的種類要更復(fù)雜，使用ImageNet訓(xùn)練的分類網(wǎng)絡(luò)，很有可能沒(méi)有覆蓋背景對(duì)象中出現(xiàn)的類，這樣就沒(méi)有辦法對(duì)目標(biāo)對(duì)象有清晰的認(rèn)知了。然而，如果加入了文本信息的監(jiān)督，以及預(yù)訓(xùn)練的CLIP就可以很好的避開(kāi)這個(gè)缺陷。同時(shí)為了解決這一問(wèn)題，我們?cè)O(shè)計(jì)了以下同時(shí)發(fā)生的背景抑制損失 LCBS ，在訓(xùn)練過(guò)程中，骨干網(wǎng)絡(luò)會(huì)逐漸抑制背景區(qū)域的錯(cuò)誤激活，使LCBS最小化。

Area Regularization

其實(shí)上文的損失函數(shù)的把控下，基本可以消除很大部分的錯(cuò)誤激活，但是我們依舊也可以使用一個(gè)全局化的方式。就是對(duì)激活圖中激活目標(biāo)的區(qū)域面積大小進(jìn)行約束，就可以，更進(jìn)一步精細(xì)化激活區(qū)域。因此，設(shè)計(jì)了一個(gè)像素級(jí)的區(qū)域正則化項(xiàng) LREG 來(lái)約束激活圖的大小，以確保激活圖中不包含無(wú)關(guān)背景。

最后通過(guò)對(duì)loss函數(shù)的加權(quán)組合，就能得到我們想要的結(jié)果了。

文章的貢獻(xiàn)

提出了一個(gè)文本驅(qū)動(dòng)的學(xué)習(xí)框架CLIMS，為WSSS引入基于圖像-文本匹配模型的監(jiān)督。

設(shè)計(jì)了三個(gè)損失函數(shù)和一個(gè)區(qū)域面積的約束。目標(biāo)對(duì)象、背景區(qū)域和與文本標(biāo)簽的匹配損失保證了初始CAM的正確性和完整性。同時(shí)背景損失函數(shù)對(duì)背景抑制損失可以進(jìn)一步大大降低類相關(guān)背景的影響。區(qū)域面積的正則化可以約束激活區(qū)域的大小

在PASCAL VOC2012數(shù)據(jù)集上的大量實(shí)驗(yàn)表明，提出的CLIMS顯著優(yōu)于以前最先進(jìn)的方法。

CAM在CLIMS中的作用

這是一篇非常有趣的工作，是對(duì)于CLIP的一次拓展，文章妙就妙在了，串聯(lián)起來(lái)了很多意想不到的東西，用CLIP生成CAM圖。在文章中，CAM其實(shí)很大程度也和上文一樣，參與到了網(wǎng)絡(luò)中的選擇當(dāng)中。其實(shí)看完這么多文章還是發(fā)現(xiàn)原來(lái)CAM在半監(jiān)督的任務(wù)上參與度是最高的，其實(shí)除了CAM的可視化之外，CAM其實(shí)也具有選擇控制的作用?？赡苁荂AM的解釋性的可視化更加的通用，以至于蓋過(guò)了它在無(wú)監(jiān)督上的光芒吧。但沒(méi)事文章可以將CAM的生成和CLIP對(duì)比學(xué)習(xí)進(jìn)行聯(lián)動(dòng)，這真的是一種新的嘗試，打開(kāi)了CAM的在半監(jiān)督領(lǐng)域的更多可能性，其實(shí)也將可視化帶到了一個(gè)信息高度。

結(jié)尾

我遇到了很多朋友，他們都在問(wèn)我CAM的圖到底要怎么畫(huà)才好。是不是用了CAM，就可以提高我實(shí)驗(yàn)效果的說(shuō)服力。我這里的回答也還是那句，CAM可能確實(shí)是目前可視化模型最直觀的手段，CAM的工作其實(shí)有對(duì)模型得出的過(guò)程進(jìn)行溯源，這就是很多其他類型的可視化做不到的點(diǎn)了。但是我覺(jué)得我們不該濫用這類的可視化以及這類的控制結(jié)構(gòu)，我們需要明白自己為啥用，我能不能用這樣的可視化說(shuō)明一些合乎邏輯的發(fā)現(xiàn)，真正發(fā)揮解釋作用，而不是一味的可視化，卻忽略了分析，連一開(kāi)始自己要優(yōu)化的目標(biāo)都忘記得一干二凈了。CAM它的功能不只有可視化模型，它還能參與模型的的任務(wù)當(dāng)中，還能做弱監(jiān)督，還能結(jié)合多模態(tài)的任務(wù)，真的不僅僅只有可視化這一個(gè)特點(diǎn)而已。所以我們應(yīng)該繼續(xù)發(fā)散思維，去找尋CAM更多的可能性，更多相關(guān)的內(nèi)容其實(shí)很建議大家可以后續(xù)去研究！

結(jié)尾++

其實(shí)我也嘗試在MMSegmentation的一些網(wǎng)絡(luò)中加入了CAM,實(shí)現(xiàn)了部分網(wǎng)絡(luò)的一些可視化內(nèi)容，我晚點(diǎn)會(huì)整代碼，然后在MMSegmentation上面提一個(gè)pr，大家可以留意一下在MMSegmentation，如果覺(jué)得好用的話可以給MMSegmentation點(diǎn)一個(gè)大大的star。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

PCAA

PCAA

+關(guān)注

關(guān)注
0

文章
3

瀏覽量
6157
卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
4

文章
369

瀏覽量
12303

原文標(biāo)題：CNN可視化！從CVPR 2022出發(fā)，聊聊CAM是如何激活我們文章的熱度！

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

淺談一下對(duì)未來(lái)的CAM發(fā)展或者是未來(lái)可解釋深度模型的發(fā)展

評(píng)論