導讀

在本文中，作者回顧了視覺表征的一類經(jīng)典方法：聚類 (Clustering) 。作者將這種范式稱之為上下文聚類 (Context Cluster)。這是一種新的用于視覺表征的特征提取范式。并在多種視覺任務(wù)中取得了和 ConvNets，ViTs 相當?shù)男阅堋?/span>

本文目錄

1 把圖片視為點集，簡單聚類算法實現(xiàn)強悍視覺架構(gòu) (超高分論文)
(目前匿名，待更新)
1.1 CoCs 論文解讀
1.1.1 背景和動機
1.1.2 把圖像視為一組點集
1.1.3 CoCs 模型的總體架構(gòu)和圖片的預處理環(huán)節(jié)
1.1.4 上下文聚類塊原理
1.1.5 實驗結(jié)果

1 把圖片視為點集，簡單聚類算法實現(xiàn)強悍視覺架構(gòu)

論文名稱：Image as Set of Points

論文地址：

https://openreview.net/pdf%3Fid%3DawnvqZja69

1.1.1 背景和動機

提取特征的方式很大程度上取決于如何解釋圖像。

在方法上，ConvNets 將圖像概念化為一組排列成矩形形式的像素，并以滑動窗口的方式使用卷積提取局部特征。卷積網(wǎng)絡(luò)非常高效的原因是得益于一些重要的歸納偏置 (inductive bias)，如局部性 (locality) 和平移等變性 (translation equivariance)。視覺 Transformer 將圖像視為一塊塊組成的序列，并使用全局注意力操作自適應(yīng)地融合來自每個 Patch 的信息。這樣，模型中固有的歸納偏置被拋棄，并獲得了令人滿意的結(jié)果。

最近，有些工作試圖把卷積和注意力機制結(jié)合在一起，比如：CMT[1]，CoAtNet[2]等，這些方法在網(wǎng)格中掃描圖像 (通過卷積，獲得局部性的先驗)，同時探索 Patch 之間的相互關(guān)系 (通過注意力，獲得全局建模的能力)。雖然它們繼承了兩者的優(yōu)點，但其見解和知識仍然局限于 ConvNets 和 ViT。

本文作者研究特征提取器 (Feature Extractor)，但是視角不僅僅局限在 ConvNets 和 ViT 上。雖然卷積和注意力機制已經(jīng)被證明了可以用來構(gòu)建高性能視覺架構(gòu)，但它們并不是唯一的選擇。其他的選擇比如基于 MLP 的模型 ResMLP[3]，和基于 GNN 的模型 ViG[4]。因此，作者期待在本文中探索一種新的特征提取范式，它可以提供一些新穎的見解，而不是增量式的性能改進。

在本文中，作者回顧了視覺表征的一類經(jīng)典方法：聚類 (Clustering) 。總體而言，作者將圖像視為一組點集，并將所有點分組為 Clusters。在每個類中，我們將這些點聚集成一個 center，然后自適應(yīng)地將中心點分配給所有的點。作者將這種范式稱之為上下文聚類 (Context Cluster) 。

圖1：上下文聚類 (context cluster)

如上圖1所示，具體而言，作者將每個像素視為一個具有顏色和位置信息的5維數(shù)據(jù)點。作者將圖像轉(zhuǎn)換為一組點云，并利用點云分析的方法用于圖像視覺表征。這連接了圖像和點云的視覺表征，顯示出了強大的泛化性能，也有利于未來的多模態(tài)研究。對于一組點，作者引入了一種簡化的聚類方法[5]，將點分組為一個個類。

作者將基于上下文聚類 (context cluster) 得到的 Deep Model 稱之為 Context Clusters (CoCs) 。模型的設(shè)計也繼承了 ViT 的層次表示和 MetaFormer 的框架。通過將圖像視為點的集合，CoC 對不同數(shù)據(jù)域 (如點云、RGBD 圖像等) 具有很強的泛化能力，和比較令人滿意的可解釋性。盡管 CoC 不以性能為目標，但作者發(fā)現(xiàn)在幾個基準測試中，它仍然達到了與 ConvNets 或 ViTs 相同甚至更好的性能。

1.1.2 把圖像視為一組點集

作為一個通用主干網(wǎng)絡(luò)的工作，我們首先要明確的一點是：無論作者在鼓吹什么概念，這個網(wǎng)絡(luò)的每一個 Block 都要做一件事情：就是特征提取 (Feature Extraction)。本文使用的聚類 (Clustering) 操作也不會例外。

在特征提取之前我們先從圖像開始。給定一張原始的輸入圖片 , 作者先對圖片的每個像素增加一個坐標, 使之成為一個 5 維的向量。其中, 每個位置的坐標可以寫成 , 然后將增強后的圖像轉(zhuǎn)換為像素點的集合 , 其中為點的個數(shù), 每個點同時包含特征 (顏色) 和位置 (坐標) 的信息。

這樣的表征為圖像提供了一個全新的視角，即：把圖像視為一組點集，其可以被認為是一種通用數(shù)據(jù)表示，因為大多數(shù)領(lǐng)域的數(shù)據(jù)可以作為特征和位置信息的組合給出。

1.1.3 CoCs 模型的總體架構(gòu)和圖片的預處理環(huán)節(jié)

前文提到，無論作者在鼓吹什么概念，這個網(wǎng)絡(luò)的每一個 Block 都要做一件事情：就是特征提取 (Feature Extraction)。本文作者同樣遵循 ConvNets 的方法，利用 Context Clusters Block，提取深層特征。

模型總體架構(gòu)如下圖2所示，每個 Stage 都由點數(shù)縮減模塊 (Points Reducer Block) 和上下文聚類塊 (Context Clusters Block) 組成。

總體而言：

CoCs 模型的總體架構(gòu)類似于 Swin，PVT 的金字塔結(jié)構(gòu)。
Swin 中的圖片的預處理環(huán)節(jié)在 CoCs 里面用的也是卷積。
Swin 中的 Self-attention 模塊在 CoCs 里面用的是上下文聚類模塊 (Context Clusters Block) 。
Swin 中的下采樣操作在 CoCs 里面用的是點數(shù)縮減模塊 (Points Reducer Block) 。
Swin 中的位置編碼是 Add 在圖片上的，CoCs 里面用的是 Concat 操作，把3維的 image 搞成了5維的 "augmented image"。

在圖片的預處理環(huán)節(jié), 給定一組像素點的集合 , 作者首先減少點的數(shù)量以提高計算效率, 然后應(yīng)用一系列 Context Clusters Block 來提取特征。為了減少點的數(shù)量, 在空間中均勻地選擇一些錨點, 并將最近的個點 ( 等) 通過線性投影進行拼接和融合。

圖2：CoCs 模型的總體架構(gòu)

如何選擇錨點呢？如下圖3所示，作者展示了16個點和4個錨點，每個錨點都考慮了它最近的4個鄰居。所有鄰居都沿著通道維度進行 concatenation，并且使用 FC 層來降低維度數(shù)并融合信息。在減少點的數(shù)量后，會得到4個新的點。這步可以使用 2×2 的卷積實現(xiàn)。

PyTorch 代碼如下 (PointRecuder 和 Transformer 類金字塔結(jié)構(gòu)使用的下采樣操作是一致的)：

classPointRecuder(nn.Module):
"""
PointReducerisimplementedbyalayerofconvsinceitismathmaticallyequal.
Input:tensorinshape[B,C,H,W]
Output:tensorinshape[B,C,H/stride,W/stride]
"""
def__init__(self,patch_size=16,stride=16,padding=0,
in_chans=3,embed_dim=768,norm_layer=None):
super().__init__()
patch_size=to_2tuple(patch_size)
stride=to_2tuple(stride)
padding=to_2tuple(padding)
self.proj=nn.Conv2d(in_chans,embed_dim,kernel_size=patch_size,
stride=stride,padding=padding)
self.norm=norm_layer(embed_dim)ifnorm_layerelsenn.Identity()

defforward(self,x):
x=self.proj(x)
x=self.norm(x)
returnx

圖3：模型一開始選擇錨點的方法，很像 ViT 的卷積分 Patch 操作

1.1.4 上下文聚類模塊原理

圖4：一個上下文聚類 Block

本小節(jié)介紹 CoCs 的核心：上下文聚類模塊 (圖4虛線部分) 的原理?？傮w而言，上下文聚類模塊分為兩部分：特征聚合 (Feature Aggregating) 和**特征再分配 (Feature Dispatching)**。作者首先將特征點聚類成為 Cluster，然后，每個聚類中的特征點將被聚合，然后再分派回去。

給定一組特征點 , 作者根據(jù)相似度將所有點分組為幾個組, 每個點被單獨分配到一個 Cluster 中。聚類的方法使用 SLIC , 設(shè)置個聚類中心, 每個聚類中心都通過計算其個最近鄰的平均值得到。然后計算成對余弦相似矩陣和得到的中心點集。完成之后, 作者將每個點分配到最相似的 Cluster 中, 產(chǎn)生個聚類。值得注意的是, 每個 Cluster 中可能有不同數(shù)量的點。極限情況下一些 Cluster 中可能沒有點。

特征聚合

現(xiàn)在把目光放在一個 Cluster 內(nèi)部。假設(shè)一個簇包含個點 ( 的一個子集), 這個點與聚類中心的相似度為。作者將這個點映射到一個 value space 中, 得到: , 其中, 是 value dimension。類似地, value space 中也有一個聚類中心 , 聚合的特征可以寫成:

這里和是可學習的標量, 用于縮放和移動, 是 Sigmoid 函數(shù), 用于重新縮放相似度到。表示中的第個點。從經(jīng)驗上看, 這種策略比直接應(yīng)用原始相似度的結(jié)果要好得多, 因為不涉及負值。為了數(shù)值的穩(wěn)定性, 作者在式1中加入了聚類中心 , 和歸一化因子。

特征再分配

然后，聚合的特征根據(jù)相似性自適應(yīng)地分配到聚類中的每個點。通過這樣做，點之間可以相互通信，并共享來自 Cluster 中所有點的特征，方法如下：

這里，作者遵循和1式相似的做法來處理相似性，并應(yīng)用一個全連接 (FC) 層來匹配特征維度 (從值空間維度到原始維度 )。

多頭機制

考慮到 ViT 中使用的多頭注意力機制，作者在上下文聚類模塊中使用了類似的做法，也使用了 hh 個 head，且多頭操作的輸出由 FC 層融合，發(fā)現(xiàn)多頭機制也使得模型效果更好。

聚類中心不動？

傳統(tǒng)的聚類算法和 SuperPixel 技術(shù)都是迭代更新中心直到收斂，但是這將導致過高的計算成本，使得推理時間將呈指數(shù)增長。在上下文聚類中，作者固定聚類中心不動，在準確性和速度之間取得妥協(xié)。

PyTorch 代碼如下 (變量維度我已經(jīng)在代碼中標明)：

classCluster(nn.Module):
def__init__(self,dim,out_dim,proposal_w=2,proposal_h=2,fold_w=2,fold_h=2,heads=4,head_dim=24,return_center=False):
"""

:paramdim:channelnubmer
:paramout_dim:channelnubmer
:paramproposal_w:thesqrt(proposals)value,wecanalsosetadifferentvalue
:paramproposal_h:thesqrt(proposals)value,wecanalsosetadifferentvalue
:paramfold_w:thesqrt(numberofregions)value,wecanalsosetadifferentvalue
:paramfold_h:thesqrt(numberofregions)value,wecanalsosetadifferentvalue
:paramheads:headsnumberincontextcluster
:paramhead_dim:dimensionofeachheadincontextcluster
:paramreturn_center:ifjustreturncentersinsteadofdispatchingback(deprecated).
"""
super().__init__()
self.heads=heads
self.head_dim=head_dim
self.fc1=nn.Conv2d(dim,heads*head_dim,kernel_size=1)
self.fc2=nn.Conv2d(heads*head_dim,out_dim,kernel_size=1)
self.fc_v=nn.Conv2d(dim,heads*head_dim,kernel_size=1)
self.sim_alpha=nn.Parameter(torch.ones(1))
self.sim_beta=nn.Parameter(torch.zeros(1))
self.centers_proposal=nn.AdaptiveAvgPool2d((proposal_w,proposal_h))
self.fold_w=fold_w
self.fold_h=fold_h
self.return_center=return_center

defforward(self,x):#[b,c,w,h]
value=self.fc_v(x)
x=self.fc1(x)
x=rearrange(x,"b(ec)wh->(be)cwh",e=self.heads)#[b*heads,head_dim,w,h]
value=rearrange(value,"b(ec)wh->(be)cwh",e=self.heads)#[b*heads,head_dim,w,h]
ifself.fold_w>1andself.fold_h>1:
#splitthebigfeaturemapstosmalllocaregionstoreducecomputationsofmatrixmultiplications.
b0,c0,w0,h0=x.shape
assertw0%self.fold_w==0andh0%self.fold_h==0,
f"Ensurethefeaturemapsize({w0}*{h0})canbedividedbyfold{self.fold_w}*{self.fold_h}"
x=rearrange(x,"bc(f1w)(f2h)->(bf1f2)cwh",f1=self.fold_w,f2=self.fold_h)#[bs*blocks,c,ks[0],ks[1]]#[b*heads*64,head_dim,w/8,h/8]
value=rearrange(value,"bc(f1w)(f2h)->(bf1f2)cwh",f1=self.fold_w,f2=self.fold_h)#[b*heads*64,head_dim,w/8,h/8]
b,c,w,h=x.shape#[b*heads*64,head_dim,w/8,h/8]
centers=self.centers_proposal(x)#[b,c,C_W,C_H],wesetM=C_W*C_HandN=w*h#[b*heads*64,head_dim,2,2]
value_centers=rearrange(self.centers_proposal(value),'bcwh->b(wh)c')#[b,C_W,C_H,c]#[b*heads*64,4,head_dim]
b,c,ww,hh=centers.shape#[b*heads*64,head_dim,2,2]
sim=torch.sigmoid(self.sim_beta+self.sim_alpha*pairwise_cos_sim(centers.reshape(b,c,-1).permute(0,2,1),x.reshape(b,c,-1).permute(0,2,1)))#[B,M,N]#[b*heads*64,4,w/8*h/8]
#sololyassigneachpointtoonecenter
sim_max,sim_max_idx=sim.max(dim=1,keepdim=True)
mask=torch.zeros_like(sim)#binary#[B,M,N]
mask.scatter_(1,sim_max_idx,1.)
sim=sim*mask
value2=rearrange(value,'bcwh->b(wh)c')#[B,N,D]#[b*heads*64,w/8*h/8,head_dim]
#outshape[B,M,D]
#[b*heads*64,1,w/8*h/8,head_dim]*[b*heads*64,4,w/8*h/8,1]=[b*heads*64,4,w/8*h/8,head_dim]
#[b*heads*64,4,head_dim]
out=((value2.unsqueeze(dim=1)*sim.unsqueeze(dim=-1)).sum(dim=2)+value_centers)/(mask.sum(dim=-1,keepdim=True)+1.0)#[B,M,D]

ifself.return_center:
out=rearrange(out,"b(wh)c->bcwh",w=ww)
#returntoeachpointinacluster
else:
##[b*heads*64,4,1,head_dim]*[b*heads*64,4,w/8*h/8,1]=[b*heads*64,w/8*h/8,head_dim]
out=(out.unsqueeze(dim=2)*sim.unsqueeze(dim=-1)).sum(dim=1)#[B,N,D]
#[b*heads*64,head_dim,w/8*h/8]
out=rearrange(out,"b(wh)c->bcwh",w=w)

ifself.fold_w>1andself.fold_h>1:#recoverthesplitedregionsbacktobigfeaturemaps
out=rearrange(out,"(bf1f2)cwh->bc(f1w)(f2h)",f1=self.fold_w,f2=self.fold_h)#[b*heads,head_dim,w,h]
out=rearrange(out,"(be)cwh->b(ec)wh",e=self.heads)#[b,head_dim*heads,w,h]
out=self.fc2(out)#[b,out_dim,w,h]
returnout

1.1.5 實驗結(jié)果

ImageNet-1K 圖像分類

如下圖6所示是在 ImageNet-1K 上的消融實驗結(jié)果。當 Position info. 即位置信息刪掉時，模型無法訓練了。在沒有 Context Cluster 操作的情況下，性能下降了 3.3%。此外，多頭設(shè)計可使結(jié)果提高 0.9%。0.9，weight decay 為0.5，使用了 Exponential Moving Average (EMA)。如下圖56所示，CoCs 能夠獲得與廣泛使用的基線相當甚至更好的性能。

通過約 25M 個參數(shù)，CoCs 的性能超過了增強的 ResNet50 和 PVT-small 1.1%，并達到 80.9% 的 Top-1 精度。此外，CoCs 明顯優(yōu)于基于 MLP 的方法。這一現(xiàn)象表明，上下文集群模塊有助于建模視覺表征。

圖5：ImageNet-1K 圖像分類實驗結(jié)果

如下圖5所示是在 ImageNet-1K 上的消融實驗結(jié)果。當 Position info. 即位置信息刪掉時，模型無法訓練了。在沒有 Context Cluster 操作的情況下，性能下降了 3.3%。此外，多頭設(shè)計可使結(jié)果提高 0.9%。

圖6：消融實驗結(jié)果

聚類可視化結(jié)果

作者在圖7中繪制了 ViT 的注意力圖，ConvNet 的 class activation map (i.e., CAM)，和 CoCs 的 clustering map。可以看到，本文的方法在最后的 Stage 清晰地將 "鵝" 聚為一個 object context，并將背景 "草" 分組在一起。上下文聚類甚至可以在非常早期的 Stage 聚類相似的上下文。

圖7：聚類可視化結(jié)果，從左到右分別是4個 Stage ([3rd, 6th, 9th, 12th]) 的聚類可視化結(jié)果

ScanObjectNN 3D 點云分類實驗結(jié)果

作者選擇 PointMLP 作為模型的基線，因為它的性能和易用性。作者將上下文聚類模塊放在 PointMLP 中的每個 Residual Point Block 之前。得到的模型稱為 PointMLP-CoC。如下圖7所示，作者展示了所有類別的平均準確度 (mAcc) 和所有樣本的總體準確度 (OA)。實驗結(jié)果表明，該方法可以顯著提高 PointMLP 的性能，平均準確率提高0.5% (84.4% vs. 83.9%)，總體準確率提高 0.8% (86.2% vs. 85.4%)。

圖8：點云分類實驗結(jié)果

MS-COCO 目標檢測和實例分割實驗結(jié)果

接下來，作者研究 Context Cluster 操作對下游任務(wù)的泛化性，包括 MS-COCO 目標檢測和實例分割。檢測頭和實例分割頭使用 Mask RCNN。所有模型使用 1× scheduler (12 epochs) 進行訓練，并使用 ImageNet 預訓練權(quán)重進行初始化。為了進行比較，作者將 ResNet 作為 ConvNets 的代表，PVT 作為 ViTs 的代表。

對于分辨率為 (1280,800) 大小的圖像，檢測和分割任務(wù)將有 1000 個點。很明顯，將1000個點分成4個 Cluster 會產(chǎn)生較差的結(jié)果。為此，作者研究了一個局部區(qū)域中使用4，25，49個中心，并將得到的模型分別稱為 Small/4、Small/25 和 Small/49。如圖9的結(jié)果表明，Context Cluster 操作對下游任務(wù)具有很好的泛化能力。CoC-Small/25 在檢測和實例分割任務(wù)上都優(yōu)于 ConvNet 和 ViT 基線。

圖9：目標檢測實驗結(jié)果

ADE20K 語義分割實驗結(jié)果

接下來，作者研究 Context Cluster 操作對 ADE20K 語義分割任務(wù)的泛化性，語義分割頭使用 semantic FPN。所有模型使用 80k iterations 進行訓練，并使用 ImageNet 預訓練權(quán)重進行初始化。為了進行比較，作者將 ResNet 作為 ConvNets 的代表，PVT 作為 ViTs 的代表。

ADE20K 的實驗結(jié)果如下圖10所示。使用類似數(shù)量的參數(shù)，Context Cluster 操作明顯優(yōu)于 PVT 和 ResNet。Context Cluster 操作類似于 SuperPixel，這是一種過度分割的技術(shù)。當應(yīng)用于特征提取時，作者期望 Context Cluster 操作能夠?qū)χ虚g特征中的上下文進行過度分割，并在語義分割任務(wù)中表現(xiàn)出改進。與目標檢測和實例分割任務(wù)不同，center 數(shù)量對結(jié)果影響不大。

圖10：語義分割實驗結(jié)果

總結(jié)

提取特征的方式很大程度上取決于如何解釋圖像。在本文中，作者回顧了視覺表征的一類經(jīng)典方法：聚類 (Clustering) ?？傮w而言，作者將圖像視為一組點集，并將所有點分組為 Clusters。在每個類中，我們將這些點聚集成一個 center，然后自適應(yīng)地將中心點分配給所有的點。作者將這種范式稱之為上下文聚類 (Context Cluster)。這是一種新的用于視覺表征的特征提取范式。受點云分析和 SuperPixel 算法的啟發(fā)，Context Cluster與 ConvNets 和 ViTs 有本質(zhì)區(qū)別，不涉及卷積和注意力。并在多種視覺任務(wù)中取得了和 ConvNets，ViTs 相當?shù)男阅堋?/p>

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴