一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

視覺新范式!COCs:將圖像視為點集

CVer ? 來源:極市平臺 ? 2023-01-11 14:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導讀

在本文中,作者回顧了視覺表征的一類經(jīng)典方法:聚類 (Clustering) 。作者將這種范式稱之為上下文聚類 (Context Cluster)。這是一種新的用于視覺表征的特征提取范式。并在多種視覺任務(wù)中取得了和 ConvNets,ViTs 相當?shù)男阅堋?/span>

本文目錄

1 把圖片視為點集,簡單聚類算法實現(xiàn)強悍視覺架構(gòu) (超高分論文)
(目前匿名,待更新)
1.1 CoCs 論文解讀
1.1.1 背景和動機
1.1.2 把圖像視為一組點集
1.1.3 CoCs 模型的總體架構(gòu)和圖片的預處理環(huán)節(jié)
1.1.4 上下文聚類塊原理
1.1.5 實驗結(jié)果

1 把圖片視為點集,簡單聚類算法實現(xiàn)強悍視覺架構(gòu)

論文名稱:Image as Set of Points

論文地址:

https://openreview.net/pdf%3Fid%3DawnvqZja69

1.1.1 背景和動機

提取特征的方式很大程度上取決于如何解釋圖像。

在方法上,ConvNets 將圖像概念化為一組排列成矩形形式的像素,并以滑動窗口的方式使用卷積提取局部特征。卷積網(wǎng)絡(luò)非常高效的原因是得益于一些重要的歸納偏置 (inductive bias),如局部性 (locality) 和平移等變性 (translation equivariance)。視覺 Transformer 將圖像視為一塊塊組成的序列,并使用全局注意力操作自適應(yīng)地融合來自每個 Patch 的信息。這樣,模型中固有的歸納偏置被拋棄,并獲得了令人滿意的結(jié)果。

最近,有些工作試圖把卷積和注意力機制結(jié)合在一起,比如:CMT[1],CoAtNet[2]等,這些方法在網(wǎng)格中掃描圖像 (通過卷積,獲得局部性的先驗),同時探索 Patch 之間的相互關(guān)系 (通過注意力,獲得全局建模的能力)。雖然它們繼承了兩者的優(yōu)點,但其見解和知識仍然局限于 ConvNets 和 ViT。

本文作者研究特征提取器 (Feature Extractor),但是視角不僅僅局限在 ConvNets 和 ViT 上。雖然卷積和注意力機制已經(jīng)被證明了可以用來構(gòu)建高性能視覺架構(gòu),但它們并不是唯一的選擇。其他的選擇比如基于 MLP 的模型 ResMLP[3],和基于 GNN 的模型 ViG[4]。因此,作者期待在本文中探索一種新的特征提取范式,它可以提供一些新穎的見解,而不是增量式的性能改進。

在本文中,作者回顧了視覺表征的一類經(jīng)典方法:聚類 (Clustering) 。總體而言,作者將圖像視為一組點集,并將所有點分組為 Clusters。在每個類中,我們將這些點聚集成一個 center,然后自適應(yīng)地將中心點分配給所有的點。作者將這種范式稱之為上下文聚類 (Context Cluster) 。

e090fcfc-916e-11ed-bfe3-dac502259ad0.jpg

圖1:上下文聚類 (context cluster)

如上圖1所示,具體而言,作者將每個像素視為一個具有顏色和位置信息的5維數(shù)據(jù)點。作者將圖像轉(zhuǎn)換為一組點云,并利用點云分析的方法用于圖像視覺表征。這連接了圖像和點云的視覺表征,顯示出了強大的泛化性能,也有利于未來的多模態(tài)研究。對于一組點,作者引入了一種簡化的聚類方法[5],將點分組為一個個類。

作者將基于上下文聚類 (context cluster) 得到的 Deep Model 稱之為 Context Clusters (CoCs) 。模型的設(shè)計也繼承了 ViT 的層次表示和 MetaFormer 的框架。通過將圖像視為點的集合,CoC 對不同數(shù)據(jù)域 (如點云、RGBD 圖像等) 具有很強的泛化能力,和比較令人滿意的可解釋性。盡管 CoC 不以性能為目標,但作者發(fā)現(xiàn)在幾個基準測試中,它仍然達到了與 ConvNets 或 ViTs 相同甚至更好的性能。

1.1.2 把圖像視為一組點集

作為一個通用主干網(wǎng)絡(luò)的工作,我們首先要明確的一點是:無論作者在鼓吹什么概念,這個網(wǎng)絡(luò)的每一個 Block 都要做一件事情:就是特征提取 (Feature Extraction)。本文使用的聚類 (Clustering) 操作也不會例外。

在特征提取之前我們先從圖像開始。給定一張原始的輸入圖片 , 作者先對圖片的每個像素 增加一個 坐標, 使之成為一個 5 維的向量。其中, 每個位置的坐標可以寫成 , 然后將增強后的圖像轉(zhuǎn)換為像素點的集合 , 其中 為點的個數(shù), 每個點同時包含特征 (顏色) 和位置 (坐標) 的信息。

這樣的表征為圖像提供了一個全新的視角,即:把圖像視為一組點集,其可以被認為是一種通用數(shù)據(jù)表示,因為大多數(shù)領(lǐng)域的數(shù)據(jù)可以作為特征和位置信息的組合給出。

1.1.3 CoCs 模型的總體架構(gòu)和圖片的預處理環(huán)節(jié)

前文提到,無論作者在鼓吹什么概念,這個網(wǎng)絡(luò)的每一個 Block 都要做一件事情:就是特征提取 (Feature Extraction)。本文作者同樣遵循 ConvNets 的方法,利用 Context Clusters Block,提取深層特征。

模型總體架構(gòu)如下圖2所示,每個 Stage 都由點數(shù)縮減模塊 (Points Reducer Block)上下文聚類塊 (Context Clusters Block) 組成。

總體而言:

  • CoCs 模型的總體架構(gòu)類似于 Swin,PVT 的金字塔結(jié)構(gòu)。
  • Swin 中的圖片的預處理環(huán)節(jié)在 CoCs 里面用的也是卷積
  • Swin 中的 Self-attention 模塊在 CoCs 里面用的是上下文聚類模塊 (Context Clusters Block) 。
  • Swin 中的下采樣操作在 CoCs 里面用的是點數(shù)縮減模塊 (Points Reducer Block) 。
  • Swin 中的位置編碼是 Add 在圖片上的,CoCs 里面用的是 Concat 操作,把3維的 image 搞成了5維的 "augmented image"。

在圖片的預處理環(huán)節(jié), 給定一組像素點的集合 , 作者首先減少點的數(shù)量以提高計算效率, 然后應(yīng)用一系列 Context Clusters Block 來提取特征。為了減少點的數(shù)量, 在空間中均勻地選擇一些錨點, 并將最近的 個點 ( 等) 通過線性投影進行拼接和融合。

e09f4302-916e-11ed-bfe3-dac502259ad0.jpg圖2:CoCs 模型的總體架構(gòu)

如何選擇錨點呢?如下圖3所示,作者展示了16個點和4個錨點,每個錨點都考慮了它最近的4個鄰居。所有鄰居都沿著通道維度進行 concatenation,并且使用 FC 層來降低維度數(shù)并融合信息。在減少點的數(shù)量后,會得到4個新的點。這步可以使用 2×2 的卷積實現(xiàn)。

PyTorch 代碼如下 (PointRecuder 和 Transformer 類金字塔結(jié)構(gòu)使用的下采樣操作是一致的):

classPointRecuder(nn.Module):
"""
PointReducerisimplementedbyalayerofconvsinceitismathmaticallyequal.
Input:tensorinshape[B,C,H,W]
Output:tensorinshape[B,C,H/stride,W/stride]
"""
def__init__(self,patch_size=16,stride=16,padding=0,
in_chans=3,embed_dim=768,norm_layer=None):
super().__init__()
patch_size=to_2tuple(patch_size)
stride=to_2tuple(stride)
padding=to_2tuple(padding)
self.proj=nn.Conv2d(in_chans,embed_dim,kernel_size=patch_size,
stride=stride,padding=padding)
self.norm=norm_layer(embed_dim)ifnorm_layerelsenn.Identity()

defforward(self,x):
x=self.proj(x)
x=self.norm(x)
returnx
e0abfc28-916e-11ed-bfe3-dac502259ad0.jpg圖3:模型一開始選擇錨點的方法,很像 ViT 的卷積分 Patch 操作

1.1.4 上下文聚類模塊原理

e0b7c24c-916e-11ed-bfe3-dac502259ad0.jpg圖4:一個上下文聚類 Block

本小節(jié)介紹 CoCs 的核心:上下文聚類模塊 (圖4虛線部分) 的原理??傮w而言,上下文聚類模塊分為兩部分:特征聚合 (Feature Aggregating) 和**特征再分配 (Feature Dispatching)**。作者首先將特征點聚類成為 Cluster,然后,每個聚類中的特征點將被聚合,然后再分派回去。

給定一組特征點 , 作者根據(jù)相似度將所有點分組為幾個組, 每個點被單獨分配到一個 Cluster 中。聚類的方法使用 SLIC , 設(shè)置 個聚類中心, 每個聚類中心都通過計算其 個最近鄰的平均值得到。然后計算成對余弦相似矩陣 和得到的中心點集。完成之后, 作者將每個點分配到最相似的 Cluster 中, 產(chǎn)生 個聚類。值得注意的是, 每個 Cluster 中可能有不同數(shù)量的點。極限情況下一些 Cluster 中可能沒有點。

特征聚合

現(xiàn)在把目光放在一個 Cluster 內(nèi)部。假設(shè)一個簇包含 個點 ( 的一個子集), 這 個點與聚類中心的相似度為 。作者將這 個點映射到一個 value space 中, 得到: , 其中, 是 value dimension。類似地, value space 中也有一個聚類中心 , 聚合的特征 可以寫成:

e0ca0650-916e-11ed-bfe3-dac502259ad0.png

這里 和 是可學習的標量, 用于縮放和移動, 是 Sigmoid 函數(shù), 用于重新縮放相似度到 。 表示 中的第 個點。從經(jīng)驗上看, 這種策略比直接應(yīng)用原始相似度的結(jié)果要好得多, 因為不涉及負值。為了數(shù)值的穩(wěn)定性, 作者在式1中加入了聚類中心 , 和歸一化因子 。

特征再分配

然后,聚合的特征 根據(jù)相似性自適應(yīng)地分配到聚類中的每個點。通過這樣做,點之間可以相互通信,并共享來自 Cluster 中所有點的特征,方法如下:

e0d84ba2-916e-11ed-bfe3-dac502259ad0.png

這里,作者遵循和1式相似的做法來處理相似性,并應(yīng)用一個全連接 (FC) 層來匹配特征維度 (從值空間維度 到原始維度 )。

多頭機制

考慮到 ViT 中使用的多頭注意力機制,作者在上下文聚類模塊中使用了類似的做法,也使用了 hh 個 head,且多頭操作的輸出由 FC 層融合,發(fā)現(xiàn)多頭機制也使得模型效果更好。

聚類中心不動?

傳統(tǒng)的聚類算法和 SuperPixel 技術(shù)都是迭代更新中心直到收斂,但是這將導致過高的計算成本,使得推理時間將呈指數(shù)增長。在上下文聚類中,作者固定聚類中心不動,在準確性和速度之間取得妥協(xié)。

PyTorch 代碼如下 (變量維度我已經(jīng)在代碼中標明):

classCluster(nn.Module):
def__init__(self,dim,out_dim,proposal_w=2,proposal_h=2,fold_w=2,fold_h=2,heads=4,head_dim=24,return_center=False):
"""

:paramdim:channelnubmer
:paramout_dim:channelnubmer
:paramproposal_w:thesqrt(proposals)value,wecanalsosetadifferentvalue
:paramproposal_h:thesqrt(proposals)value,wecanalsosetadifferentvalue
:paramfold_w:thesqrt(numberofregions)value,wecanalsosetadifferentvalue
:paramfold_h:thesqrt(numberofregions)value,wecanalsosetadifferentvalue
:paramheads:headsnumberincontextcluster
:paramhead_dim:dimensionofeachheadincontextcluster
:paramreturn_center:ifjustreturncentersinsteadofdispatchingback(deprecated).
"""
super().__init__()
self.heads=heads
self.head_dim=head_dim
self.fc1=nn.Conv2d(dim,heads*head_dim,kernel_size=1)
self.fc2=nn.Conv2d(heads*head_dim,out_dim,kernel_size=1)
self.fc_v=nn.Conv2d(dim,heads*head_dim,kernel_size=1)
self.sim_alpha=nn.Parameter(torch.ones(1))
self.sim_beta=nn.Parameter(torch.zeros(1))
self.centers_proposal=nn.AdaptiveAvgPool2d((proposal_w,proposal_h))
self.fold_w=fold_w
self.fold_h=fold_h
self.return_center=return_center

defforward(self,x):#[b,c,w,h]
value=self.fc_v(x)
x=self.fc1(x)
x=rearrange(x,"b(ec)wh->(be)cwh",e=self.heads)#[b*heads,head_dim,w,h]
value=rearrange(value,"b(ec)wh->(be)cwh",e=self.heads)#[b*heads,head_dim,w,h]
ifself.fold_w>1andself.fold_h>1:
#splitthebigfeaturemapstosmalllocaregionstoreducecomputationsofmatrixmultiplications.
b0,c0,w0,h0=x.shape
assertw0%self.fold_w==0andh0%self.fold_h==0,
f"Ensurethefeaturemapsize({w0}*{h0})canbedividedbyfold{self.fold_w}*{self.fold_h}"
x=rearrange(x,"bc(f1w)(f2h)->(bf1f2)cwh",f1=self.fold_w,f2=self.fold_h)#[bs*blocks,c,ks[0],ks[1]]#[b*heads*64,head_dim,w/8,h/8]
value=rearrange(value,"bc(f1w)(f2h)->(bf1f2)cwh",f1=self.fold_w,f2=self.fold_h)#[b*heads*64,head_dim,w/8,h/8]
b,c,w,h=x.shape#[b*heads*64,head_dim,w/8,h/8]
centers=self.centers_proposal(x)#[b,c,C_W,C_H],wesetM=C_W*C_HandN=w*h#[b*heads*64,head_dim,2,2]
value_centers=rearrange(self.centers_proposal(value),'bcwh->b(wh)c')#[b,C_W,C_H,c]#[b*heads*64,4,head_dim]
b,c,ww,hh=centers.shape#[b*heads*64,head_dim,2,2]
sim=torch.sigmoid(self.sim_beta+self.sim_alpha*pairwise_cos_sim(centers.reshape(b,c,-1).permute(0,2,1),x.reshape(b,c,-1).permute(0,2,1)))#[B,M,N]#[b*heads*64,4,w/8*h/8]
#sololyassigneachpointtoonecenter
sim_max,sim_max_idx=sim.max(dim=1,keepdim=True)
mask=torch.zeros_like(sim)#binary#[B,M,N]
mask.scatter_(1,sim_max_idx,1.)
sim=sim*mask
value2=rearrange(value,'bcwh->b(wh)c')#[B,N,D]#[b*heads*64,w/8*h/8,head_dim]
#outshape[B,M,D]
#[b*heads*64,1,w/8*h/8,head_dim]*[b*heads*64,4,w/8*h/8,1]=[b*heads*64,4,w/8*h/8,head_dim]
#[b*heads*64,4,head_dim]
out=((value2.unsqueeze(dim=1)*sim.unsqueeze(dim=-1)).sum(dim=2)+value_centers)/(mask.sum(dim=-1,keepdim=True)+1.0)#[B,M,D]

ifself.return_center:
out=rearrange(out,"b(wh)c->bcwh",w=ww)
#returntoeachpointinacluster
else:
##[b*heads*64,4,1,head_dim]*[b*heads*64,4,w/8*h/8,1]=[b*heads*64,w/8*h/8,head_dim]
out=(out.unsqueeze(dim=2)*sim.unsqueeze(dim=-1)).sum(dim=1)#[B,N,D]
#[b*heads*64,head_dim,w/8*h/8]
out=rearrange(out,"b(wh)c->bcwh",w=w)

ifself.fold_w>1andself.fold_h>1:#recoverthesplitedregionsbacktobigfeaturemaps
out=rearrange(out,"(bf1f2)cwh->bc(f1w)(f2h)",f1=self.fold_w,f2=self.fold_h)#[b*heads,head_dim,w,h]
out=rearrange(out,"(be)cwh->b(ec)wh",e=self.heads)#[b,head_dim*heads,w,h]
out=self.fc2(out)#[b,out_dim,w,h]
returnout

1.1.5 實驗結(jié)果

ImageNet-1K 圖像分類

如下圖6所示是在 ImageNet-1K 上的消融實驗結(jié)果。當 Position info. 即位置信息刪掉時,模型無法訓練了。在沒有 Context Cluster 操作的情況下,性能下降了 3.3%。此外,多頭設(shè)計可使結(jié)果提高 0.9%。0.9,weight decay 為0.5,使用了 Exponential Moving Average (EMA)。如下圖56所示,CoCs 能夠獲得與廣泛使用的基線相當甚至更好的性能。

通過約 25M 個參數(shù),CoCs 的性能超過了增強的 ResNet50 和 PVT-small 1.1%,并達到 80.9% 的 Top-1 精度。此外,CoCs 明顯優(yōu)于基于 MLP 的方法。這一現(xiàn)象表明,上下文集群模塊有助于建模視覺表征。

e0e69036-916e-11ed-bfe3-dac502259ad0.jpg圖5:ImageNet-1K 圖像分類實驗結(jié)果

如下圖5所示是在 ImageNet-1K 上的消融實驗結(jié)果。當 Position info. 即位置信息刪掉時,模型無法訓練了。在沒有 Context Cluster 操作的情況下,性能下降了 3.3%。此外,多頭設(shè)計可使結(jié)果提高 0.9%。

e10d93a2-916e-11ed-bfe3-dac502259ad0.png圖6:消融實驗結(jié)果

聚類可視化結(jié)果

作者在圖7中繪制了 ViT 的注意力圖,ConvNet 的 class activation map (i.e., CAM),和 CoCs 的 clustering map。可以看到,本文的方法在最后的 Stage 清晰地將 "鵝" 聚為一個 object context,并將背景 "草" 分組在一起。上下文聚類甚至可以在非常早期的 Stage 聚類相似的上下文。

e11a103c-916e-11ed-bfe3-dac502259ad0.jpg圖7:聚類可視化結(jié)果,從左到右分別是4個 Stage ([3rd, 6th, 9th, 12th]) 的聚類可視化結(jié)果

ScanObjectNN 3D 點云分類實驗結(jié)果

作者選擇 PointMLP 作為模型的基線,因為它的性能和易用性。作者將上下文聚類模塊放在 PointMLP 中的每個 Residual Point Block 之前。得到的模型稱為 PointMLP-CoC。如下圖7所示,作者展示了所有類別的平均準確度 (mAcc) 和所有樣本的總體準確度 (OA)。實驗結(jié)果表明,該方法可以顯著提高 PointMLP 的性能,平均準確率提高0.5% (84.4% vs. 83.9%),總體準確率提高 0.8% (86.2% vs. 85.4%)。

e1286362-916e-11ed-bfe3-dac502259ad0.jpg圖8:點云分類實驗結(jié)果

MS-COCO 目標檢測和實例分割實驗結(jié)果

接下來,作者研究 Context Cluster 操作對下游任務(wù)的泛化性,包括 MS-COCO 目標檢測和實例分割。檢測頭和實例分割頭使用 Mask RCNN。所有模型使用 1× scheduler (12 epochs) 進行訓練,并使用 ImageNet 預訓練權(quán)重進行初始化。為了進行比較,作者將 ResNet 作為 ConvNets 的代表,PVT 作為 ViTs 的代表。

對于分辨率為 (1280,800) 大小的圖像,檢測和分割任務(wù)將有 1000 個點。很明顯,將1000個點分成4個 Cluster 會產(chǎn)生較差的結(jié)果。為此,作者研究了一個局部區(qū)域中使用4,25,49個中心,并將得到的模型分別稱為 Small/4、Small/25 和 Small/49。如圖9的結(jié)果表明,Context Cluster 操作對下游任務(wù)具有很好的泛化能力。CoC-Small/25 在檢測和實例分割任務(wù)上都優(yōu)于 ConvNet 和 ViT 基線。

e13ae73a-916e-11ed-bfe3-dac502259ad0.jpg圖9:目標檢測實驗結(jié)果

ADE20K 語義分割實驗結(jié)果

接下來,作者研究 Context Cluster 操作對 ADE20K 語義分割任務(wù)的泛化性,語義分割頭使用 semantic FPN。所有模型使用 80k iterations 進行訓練,并使用 ImageNet 預訓練權(quán)重進行初始化。為了進行比較,作者將 ResNet 作為 ConvNets 的代表,PVT 作為 ViTs 的代表。

ADE20K 的實驗結(jié)果如下圖10所示。使用類似數(shù)量的參數(shù),Context Cluster 操作明顯優(yōu)于 PVT 和 ResNet。Context Cluster 操作類似于 SuperPixel,這是一種過度分割的技術(shù)。當應(yīng)用于特征提取時,作者期望 Context Cluster 操作能夠?qū)χ虚g特征中的上下文進行過度分割,并在語義分割任務(wù)中表現(xiàn)出改進。與目標檢測和實例分割任務(wù)不同,center 數(shù)量對結(jié)果影響不大。

e1470fa6-916e-11ed-bfe3-dac502259ad0.png圖10:語義分割實驗結(jié)果

總結(jié)

提取特征的方式很大程度上取決于如何解釋圖像。在本文中,作者回顧了視覺表征的一類經(jīng)典方法:聚類 (Clustering) ??傮w而言,作者將圖像視為一組點集,并將所有點分組為 Clusters。在每個類中,我們將這些點聚集成一個 center,然后自適應(yīng)地將中心點分配給所有的點。作者將這種范式稱之為上下文聚類 (Context Cluster)。這是一種新的用于視覺表征的特征提取范式。受點云分析和 SuperPixel 算法的啟發(fā),Context Cluster與 ConvNets 和 ViTs 有本質(zhì)區(qū)別,不涉及卷積和注意力。并在多種視覺任務(wù)中取得了和 ConvNets,ViTs 相當?shù)男阅堋?/p>

審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41223
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    404

    瀏覽量

    17876
  • 聚類算法
    +關(guān)注

    關(guān)注

    2

    文章

    118

    瀏覽量

    12322

原文標題:超高分論文!視覺新范式!COCs:將圖像視為點集

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    如何一個FA模型開發(fā)的聲明式范式應(yīng)用切換到Stage模型

    模型切換概述 本文介紹如何一個FA模型開發(fā)的聲明式范式應(yīng)用切換到Stage模型,您需要完成如下動作: 工程切換:新建一個Stage模型的應(yīng)用工程。 配置文件切換:config.json切換
    發(fā)表于 06-04 06:22

    工業(yè)相機圖像采集卡:機器視覺的核心樞紐

    應(yīng)用廣泛。工業(yè)相機圖像采集卡的主要功能在機器視覺系統(tǒng)中,工業(yè)相機負責捕獲目標對象的圖像,而圖像采集卡則負責這些
    的頭像 發(fā)表于 05-21 12:13 ?190次閱讀
    工業(yè)相機<b class='flag-5'>圖像</b>采集卡:機器<b class='flag-5'>視覺</b>的核心樞紐

    ALVA空間智能視覺焊接方案重構(gòu)工業(yè)焊接范式

    在智能制造浪潮席卷全球的今天,焊接工藝作為制造業(yè)的核心環(huán)節(jié),正經(jīng)歷著從“經(jīng)驗驅(qū)動”向“數(shù)據(jù)驅(qū)動”的范式躍遷。
    的頭像 發(fā)表于 05-15 11:30 ?411次閱讀

    基于LockAI視覺識別模塊:C++使用圖像的統(tǒng)計信息

    圖像處理中,統(tǒng)計信息可以幫助我們了解圖像的特性,例如區(qū)域內(nèi)的像素分布、顏色轉(zhuǎn)換以及特定區(qū)域的分析。本文介紹基于LockAI視覺識別模塊如何提取興趣區(qū)域(ROI)、轉(zhuǎn)換顏色通道、計算
    發(fā)表于 05-08 10:31

    基于LockAI視覺識別模塊:C++使用圖像的統(tǒng)計信息

    圖像處理中,統(tǒng)計信息可以幫助我們了解圖像的特性,例如區(qū)域內(nèi)的像素分布、顏色轉(zhuǎn)換以及特定區(qū)域的分析。本文介紹基于LockAI視覺識別模塊如何提取興趣區(qū)域(ROI)、轉(zhuǎn)換顏色通道、計算
    的頭像 發(fā)表于 05-08 10:09 ?227次閱讀
    基于LockAI<b class='flag-5'>視覺</b>識別模塊:C++使用<b class='flag-5'>圖像</b>的統(tǒng)計信息

    基于LockAI視覺識別模塊:C++圖像的基本運算

    圖像處理中,理解圖像的基本操作是掌握計算機視覺技術(shù)的關(guān)鍵。本文章介紹 基于LockAI視覺識別模塊下OpenCV 中
    發(fā)表于 05-06 16:56

    基于LockAI視覺識別模塊:C++圖像的基本運算

    圖像處理中,理解圖像的基本操作是掌握計算機視覺技術(shù)的關(guān)鍵。本文章介紹基于LockAI視覺識別模塊下OpenCV中
    的頭像 發(fā)表于 05-06 16:20 ?220次閱讀
    基于LockAI<b class='flag-5'>視覺</b>識別模塊:C++<b class='flag-5'>圖像</b>的基本運算

    機器視覺運動控制一體機在視覺膠滴藥機上的應(yīng)用

    正運動視覺膠滴藥機解決方案
    的頭像 發(fā)表于 04-10 10:04 ?276次閱讀
    機器<b class='flag-5'>視覺</b>運動控制一體機在<b class='flag-5'>視覺</b><b class='flag-5'>點</b>膠滴藥機上的應(yīng)用

    【每天學點AI】實戰(zhàn)圖像增強技術(shù)在人工智能圖像處理中的應(yīng)用

    圖像增強(ImageEnhancement)是人工智能和計算機視覺中一項重要的技術(shù),也是人工智能數(shù)據(jù)預處理的一個重要步驟。它旨在提高圖像的質(zhì)量,使其在
    的頭像 發(fā)表于 11-22 17:14 ?1713次閱讀
    【每天學點AI】實戰(zhàn)<b class='flag-5'>圖像</b>增強技術(shù)在人工智能<b class='flag-5'>圖像</b>處理中的應(yīng)用

    圖像采集卡不斷發(fā)展和改進,為視覺系統(tǒng)提供更大的價值

    圖像采集卡最初是為了從模擬機器視覺相機中獲取原始圖像而開發(fā)的,人們曾一度預計該技術(shù)將被直接連接到電腦的技術(shù)所取代。然而,經(jīng)驗卻并非如此。圖像采集卡不斷發(fā)展和改進,為
    的頭像 發(fā)表于 09-30 11:10 ?485次閱讀
    <b class='flag-5'>圖像</b>采集卡不斷發(fā)展和改進,為<b class='flag-5'>視覺</b>系統(tǒng)提供更大的價值

    圖像采集卡:增強視覺數(shù)據(jù)采集

    圖像采集卡介紹:在視覺數(shù)據(jù)采集領(lǐng)域,圖像采集卡在捕獲和處理來自各種來源的圖像或視頻方面發(fā)揮著關(guān)鍵作用。在本文中,我們深入探討
    的頭像 發(fā)表于 09-24 11:06 ?681次閱讀
    <b class='flag-5'>圖像</b>采集卡:增強<b class='flag-5'>視覺</b>數(shù)據(jù)采集

    計算機視覺中的圖像融合

    在許多計算機視覺應(yīng)用中(例如機器人運動和醫(yī)學成像),需要將多個圖像的相關(guān)信息整合到單一圖像中。這種圖像融合可以提供更高的可靠性、準確性和數(shù)據(jù)質(zhì)量。多視圖融合可以提高
    的頭像 發(fā)表于 08-01 08:28 ?1129次閱讀
    計算機<b class='flag-5'>視覺</b>中的<b class='flag-5'>圖像</b>融合

    成都微光電發(fā)布車規(guī)級MIA2001圖像傳感器

    成都微光電近日隆重推出了其專為汽車視覺系統(tǒng)設(shè)計的旗艦產(chǎn)品——MIA2001圖像傳感器。這款高性能傳感器融合了成都微光電的最新科技成果,專為提升駕駛安全與
    的頭像 發(fā)表于 07-26 16:36 ?1073次閱讀

    圖像語義分割的實用性是什么

    圖像語義分割是一種重要的計算機視覺任務(wù),它旨在圖像中的每個像素分配到相應(yīng)的語義類別中。這項技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動駕駛、醫(yī)學圖像
    的頭像 發(fā)表于 07-17 09:56 ?906次閱讀

    opencv圖像識別有什么算法

    OpenCV(Open Source Computer Vision Library)是一個開源的計算機視覺和機器學習軟件庫,提供了大量的圖像處理和計算機視覺相關(guān)的算法。以下是一些常見的OpenCV
    的頭像 發(fā)表于 07-16 10:40 ?1874次閱讀