一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種新的通用視覺主干模型Vision Mamba

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-01-06 09:55 ? 次閱讀

Vision Mamba

最具潛力的下一代通用視覺主干網(wǎng)絡(luò)

CNN和Transformer常作為深度學(xué)習(xí)模型的首選基礎(chǔ)模塊,被應(yīng)用于各種場景,如文本、視覺、語音信號處理及其各種下游應(yīng)用。然而這兩個基礎(chǔ)模塊都有著其固有而互補的缺陷:CNN具有固定大小窗口的卷積核,使其計算量為線性,但也由此而面臨著窗口化局部感受野的缺陷,使其在全局場景感知和場景語義理解上之力;Transformer通過全局的注意力計算,使其具有長上下文的全局感知能力,但其二次方復(fù)雜度的計算量使得在算力有限的端側(cè)設(shè)備上運行變得很困難。

針對這一問題,我們提出了VisionMamba,來打破線性復(fù)雜度與全局感受野不可兼得的困境?;谧匀徽Z言處理中的Mamba狀態(tài)空間模型SSM,我們設(shè)計了雙向SSM,并引I入了位置編碼來專門處理具有二維多向性的視覺信號。在各種分類、檢測、分割任務(wù)中,Vim相比現(xiàn)有的視覺Transformer在精度上具有顯著提升,同時在計算和內(nèi)存效率上也有顯著改進(jìn)。例如,在進(jìn)行分辨率為1248x1248的批量推理時,Vim比DeiT快2.8倍,GPU內(nèi)存節(jié)省86.8%

? Vision Mamba 論文鏈接:

https://arxiv.org/abs/2401.09417

? 項目主頁:

https://github.com/hustvl/Vim

簡介

本文的工作Vision Mamba[1]發(fā)表在ICML 2024。研究的問題是如何設(shè)計新型神經(jīng)網(wǎng)絡(luò)來實現(xiàn)高效的視覺表示學(xué)習(xí)。該任務(wù)要求神經(jīng)網(wǎng)絡(luò)模型能夠在處理高分辨率圖像時既保持高性能,又具備計算和內(nèi)存的高效性。先前的方法主要依賴自注意力機(jī)制來進(jìn)行視覺表示學(xué)習(xí),但這種方法在處理長序列時速度和內(nèi)存使用上存在挑戰(zhàn)。論文提出了一種新的通用視覺主干模型Vision Mamba,簡稱Vim1,該模型使用雙向狀態(tài)空間模型(SSM)對圖像序列進(jìn)行位置嵌入,并利用雙向SSM壓縮視覺表示。在ImageNet[2]分類、COCO[2]目標(biāo)檢測和ADE20k[3]語義分割任務(wù)中,Vim相比現(xiàn)有的視覺Transformer[4](如DeiT[5])在性能上有顯著提升,同時在計算和內(nèi)存效率上也有顯著改進(jìn)。例如,在進(jìn)行分辨率為1248×1248的批量推理時,Vim比DeiT快2.8倍,GPU內(nèi)存節(jié)省86.8%。這些結(jié)果表明,Vim能夠克服在高分辨率圖像理解中執(zhí)行Transformer樣式的計算和內(nèi)存限制,具有成為下一代視覺基礎(chǔ)模型主干的潛力。

c6828338-c9b8-11ef-9310-92fbcf53809c.png

圖1 本文所提出的Vision Mamba (Vim)和基于Transformer的DeiT模型進(jìn)行精度與效率對比:Vim在圖像分類、目標(biāo)檢測、語義分割、實例分割任務(wù)上獲得了更好的精度,且在高清分辨率圖像處理上呈現(xiàn)出巨大的優(yōu)勢。

研究背景

圖像表示學(xué)習(xí)是計算機(jī)視覺領(lǐng)域的重要研究課題,其目的是通過模型學(xué)習(xí)從圖像中提取有意義的特征,從而應(yīng)用于各種視覺任務(wù)中。目前,視覺Transformer(Vision Transformer, ViT[4])和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNNs)是圖像表示學(xué)習(xí)中最常用的方法。然而,這些方法在理論上存在一些局限性。

視覺Transformer利用自注意力機(jī)制能夠取得全局的感受野,在大規(guī)模自監(jiān)督預(yù)訓(xùn)練和下游任務(wù)中表現(xiàn)出色,但其自注意力機(jī)制在處理長序列依賴和高分辨率圖像時,帶來了計算和內(nèi)存的巨大開銷。具體而言,自注意力機(jī)制的計算復(fù)雜度是輸入的圖像塊序列長度的平方,這使得其在處理高分辨率圖像時非常耗時且占用大量內(nèi)存。盡管一些研究提出了改進(jìn)方法,如窗口注意力機(jī)制[6,7],但這些方法雖然降低了復(fù)雜度,但導(dǎo)致感受野被局限在局部的窗口內(nèi)部,失去了原本全局感受野的優(yōu)勢。

另一方面,卷積神經(jīng)網(wǎng)絡(luò)在處理圖像時,通過使用固定大小的卷積核來提取局部特征。然而,卷積神經(jīng)網(wǎng)絡(luò)在捕捉全局上下文信息方面存在局限性,因為卷積核的感受野是有限的,雖然一些研究引入了金字塔結(jié)構(gòu)或大卷積核來增強全局信息提取能力,但這些改進(jìn)仍然無法完全克服CNN在處理長序列依賴方面的不足。

在自然語言處理領(lǐng)域,Mamba[11]方法的出現(xiàn)給高效率長序列建模帶來了很好的發(fā)展契機(jī)。Mamba是狀態(tài)空間模型(state space model, SSM)方法的最新演進(jìn)。Mamba提出了一種輸入自適應(yīng)的狀態(tài)空間模型,能夠更高質(zhì)量地完成序列建模任務(wù)。與此同時,該方法在處理長序列建模問題時有著次二次方的復(fù)雜度與更高的處理效率。然而,Mamba方法并不能夠直接應(yīng)用于視覺表征學(xué)習(xí),因為Mamba方法是為自然語言領(lǐng)域的因果建模而設(shè)計的,它缺少對于二維空間位置的感知能力以及缺少全局的建模能力。

c69ceac0-c9b8-11ef-9310-92fbcf53809c.png

圖2 本文所提出的Vim模型的網(wǎng)絡(luò)構(gòu)架圖。

為了克服上述Transformer和CNN的理論局限性,啟發(fā)于自然語言處理領(lǐng)域Mamba的成功,本文提出了一種新的通用視覺主干模型——Vision Mamba (Vim)。該模型基于狀態(tài)空間模型[10](State Space Models, SSMs),利用其在長序列建模中的高效性,提供了一種新的視覺表示學(xué)習(xí)方法。該模型提出了雙向狀態(tài)空間模型來適配視覺特征的多方向性,并引入位置編碼來針對圖像單元進(jìn)行標(biāo)記。本文提出的Vim模型通過雙向SSM對圖像序列進(jìn)行位置嵌入和壓縮,不僅在ImageNet分類任務(wù)上表現(xiàn)出色,還在COCO目標(biāo)檢測和ADE20k語義分割任務(wù)中展示了優(yōu)異的性能。與現(xiàn)有的視覺Transformer如DeiT相比,Vim在計算和內(nèi)存效率上有顯著提升。

Vision Mamba方法介紹

狀態(tài)空間模型

狀態(tài)空間模型,比如結(jié)構(gòu)化狀態(tài)空間序列模型[10](S4)和Mamba[11]是啟發(fā)于連續(xù)系統(tǒng),該系統(tǒng)通過隱藏狀態(tài)c6b43068-c9b8-11ef-9310-92fbcf53809c.png將一維函數(shù)或序列c6c9c0b8-c9b8-11ef-9310-92fbcf53809c.png映射到c6decc2e-c9b8-11ef-9310-92fbcf53809c.png。該系統(tǒng)使用c6f1acd6-c9b8-11ef-9310-92fbcf53809c.png作為演化參數(shù),并使用c7001f32-c9b8-11ef-9310-92fbcf53809c.pngc7165158-c9b8-11ef-9310-92fbcf53809c.png作為投影參數(shù)。連續(xù)系統(tǒng)的工作方式如下: ?

c7318b26-c9b8-11ef-9310-92fbcf53809c.png

S4和Mamba是連續(xù)系統(tǒng)的離散版本,它們包含一個時間尺度參數(shù)c744d6e0-c9b8-11ef-9310-92fbcf53809c.png,用于將連續(xù)參數(shù)A和B轉(zhuǎn)換為離散參數(shù)

c75f97be-c9b8-11ef-9310-92fbcf53809c.png

c75f97be-c9b8-11ef-9310-92fbcf53809c.png

。常用的方式是零階保持,其定義如下:

c75f97be-c9b8-11ef-9310-92fbcf53809c.png

c75f97be-c9b8-11ef-9310-92fbcf53809c.png

c75f97be-c9b8-11ef-9310-92fbcf53809c.png

離散化后,使用步長c744d6e0-c9b8-11ef-9310-92fbcf53809c.png的離散版本可以重寫為:

c7e068e4-c9b8-11ef-9310-92fbcf53809c.png

最后,模型可以使用全局的卷積來并行的計算:

c7f99e9a-c9b8-11ef-9310-92fbcf53809c.png

其中

c8115b16-c9b8-11ef-9310-92fbcf53809c.png

是輸入序列

c7f99e9a-c9b8-11ef-9310-92fbcf53809c.png

的長度,c84b1a90-c9b8-11ef-9310-92fbcf53809c.png是結(jié)構(gòu)化的卷積核。 ?

Vision Mamba結(jié)構(gòu)

所提出的Vision Mamba如圖1所示。標(biāo)準(zhǔn)的Mamba模塊是為一維的文本序列所設(shè)計的。為了適配視覺信號,我們首先將二維圖像c866341a-c9b8-11ef-9310-92fbcf53809c.png轉(zhuǎn)換為展平的二維圖像塊序列c87efeaa-c9b8-11ef-9310-92fbcf53809c.png,其中c89aad1c-c9b8-11ef-9310-92fbcf53809c.png是輸入圖像的尺寸,C是通道數(shù),P是圖像塊的尺寸。接下來,我們將c8b6904a-c9b8-11ef-9310-92fbcf53809c.png線性投影到大小為D的向量,并添加位置編碼

c8db09d4-c9b8-11ef-9310-92fbcf53809c.png

,如下所示:

c8f5c8d2-c9b8-11ef-9310-92fbcf53809c.png

其中

c9108ee2-c9b8-11ef-9310-92fbcf53809c.png

c9108ee2-c9b8-11ef-9310-92fbcf53809c.png

中的第

c9108ee2-c9b8-11ef-9310-92fbcf53809c.png

個圖像塊,

c9108ee2-c9b8-11ef-9310-92fbcf53809c.png

是可學(xué)習(xí)的投影變換矩陣。受ViT[4]的啟發(fā),我們也使用類別標(biāo)記c97cbe8c-c9b8-11ef-9310-92fbcf53809c.png來表示整個圖像塊序列。然后,我們將標(biāo)記序列c98f1dfc-c9b8-11ef-9310-92fbcf53809c.png輸入到Vim編碼器的第c9a33832-c9b8-11ef-9310-92fbcf53809c.png層,并得到輸出c9a33832-c9b8-11ef-9310-92fbcf53809c.png。最后我們對輸出類別標(biāo)記c9da86c0-c9b8-11ef-9310-92fbcf53809c.png進(jìn)行歸一化,并將其送入多層感知機(jī)(MLP)分類頭以獲得最終類別預(yù)測c9f0b2ec-c9b8-11ef-9310-92fbcf53809c.png

ca048a56-c9b8-11ef-9310-92fbcf53809c.png

其中Vim是提出的視覺Mamba模塊,

ca23e658-c9b8-11ef-9310-92fbcf53809c.png

是層數(shù),

ca23e658-c9b8-11ef-9310-92fbcf53809c.png

是歸一化層。

算法1:Vim模塊流程

輸入:圖像塊序列ca54f338-c9b8-11ef-9310-92fbcf53809c.png

輸出:圖像塊序列c9a33832-c9b8-11ef-9310-92fbcf53809c.png

ca7f746e-c9b8-11ef-9310-92fbcf53809c.png

Vim模塊

原始的Mamba模塊是為一維序列設(shè)計的,不適用于需要空間感知理解的視覺任務(wù)。我們創(chuàng)新性提出Vision Mamba編碼的基本構(gòu)建模塊Vim模塊,如圖2右側(cè)所示。具體來說,像我們在算法1中所展示的操作。輸入的標(biāo)記序列caa58578-c9b8-11ef-9310-92fbcf53809c.png首先通過歸一化層進(jìn)行歸一化。接下來,我們將歸一化后的序列線性投影到維度大小為cabbbf46-c9b8-11ef-9310-92fbcf53809c.pngcad42ab8-c9b8-11ef-9310-92fbcf53809c.pngcaf2c194-c9b8-11ef-9310-92fbcf53809c.png。然后,我們從前向和后向兩個方向處理cb0a325c-c9b8-11ef-9310-92fbcf53809c.png。對于每個方向,我們首先對cad42ab8-c9b8-11ef-9310-92fbcf53809c.png進(jìn)行一維卷積,得到cb37179a-c9b8-11ef-9310-92fbcf53809c.png。然后,我們將cb37179a-c9b8-11ef-9310-92fbcf53809c.png線性投影到cb7229de-c9b8-11ef-9310-92fbcf53809c.png。c744d6e0-c9b8-11ef-9310-92fbcf53809c.png然后用于分別離散化得到cba520be-c9b8-11ef-9310-92fbcf53809c.pngcbbf6dc0-c9b8-11ef-9310-92fbcf53809c.png。最后我們通過SSM計算前向輸出cbdb4194-c9b8-11ef-9310-92fbcf53809c.png和反向輸出cbf8d5a6-c9b8-11ef-9310-92fbcf53809c.png,并通過caf2c194-c9b8-11ef-9310-92fbcf53809c.png進(jìn)行門控,并加在一起得到輸出標(biāo)記序列c9a33832-c9b8-11ef-9310-92fbcf53809c.png。 ?

效率優(yōu)化

Vim通過借助于Mamba的硬件友好的實現(xiàn)方式確保運行的效率。優(yōu)化的關(guān)鍵思想是避免GPU的I/O瓶頸和內(nèi)存瓶頸。

IO高效性。高帶寬存儲器(HBM)和SRAM是GPU的兩個重要組成部分。其中,SRAM具有更大的帶寬,而HBM具有更大的存儲容量。標(biāo)準(zhǔn)的Vim的SSM操作在HBM上需要的I/O數(shù)量是O(BMEN),其中B為批量大小,M為圖像塊序列長度,E 表示擴(kuò)展?fàn)顟B(tài)維度,N 表示 SSM 維度。受到Mamba的啟發(fā),Vim首先將O(BME+EN)字節(jié)的內(nèi)存從較慢的HBM讀取到較快的SRAM中。然后Vim在SRAM中獲取對應(yīng)的參數(shù),并執(zhí)行SSM操作,最終將輸出結(jié)果寫回HBM。此方法可以講I/O數(shù)量從O(BMEN)降低到O(BME+EN)從而大幅度提升效率。

內(nèi)存高效性。為了避免內(nèi)存不足問題并在處理長序列時降低內(nèi)存使用,Vim選擇了與 Mamba 相同的重計算方法。對于尺寸為 (B.M,E,N)的中間狀態(tài)來計算梯度,Vim在網(wǎng)絡(luò)的反向傳遞中重新計算它們。對于激活函數(shù)和卷積的中間激活值,Vim 也重新計算它們,以優(yōu)化 GPU 的內(nèi)存需求,因為激活值占用了大量內(nèi)存,但重新計算速度很快。

計算高效性。Vim模塊中的SSM算法和Transformer中的自注意力機(jī)制都在自適應(yīng)地提供全局上下文方面起到了關(guān)鍵作用。給定一個視覺序列cc3b6998-c9b8-11ef-9310-92fbcf53809c.png和默認(rèn)的設(shè)置cc575ee6-c9b8-11ef-9310-92fbcf53809c.png。全局注意力機(jī)制和SSM的計算復(fù)雜度分別為:

cc72cb18-c9b8-11ef-9310-92fbcf53809c.png

其中,自注意力機(jī)制的計算復(fù)雜度和序列長度cc942d08-c9b8-11ef-9310-92fbcf53809c.png成平方關(guān)系,而SSM的計算復(fù)雜度和序列長度cc942d08-c9b8-11ef-9310-92fbcf53809c.png呈線性關(guān)系。這種計算效率使得Vim在處理具有長序列長度的千兆像素級別應(yīng)用時具有良好的擴(kuò)展性。

實驗結(jié)果

該方法在標(biāo)準(zhǔn)的大型圖片分類數(shù)據(jù)集ImageNet-1K上進(jìn)行驗證。并將分類訓(xùn)練好的模型作為預(yù)加載權(quán)重用于下游圖片密集型預(yù)測任務(wù)中去,如COCO數(shù)據(jù)集上的目標(biāo)檢測和實力分割任務(wù), ADE20K上的像素級別的語義分割任務(wù)。

分類對比

如表1與當(dāng)前主流的分類模型對比Vim顯示出了相當(dāng)?shù)木?,將Vim和基于CNN、Transformer和SSM的主干網(wǎng)絡(luò)進(jìn)行比較,Vim顯示了相當(dāng)甚至更優(yōu)的性能。例如,在參數(shù)量相同的情況下Vim-Small的準(zhǔn)確率80.3%,比ResNet50[12]高出了4.1個百分點。與傳統(tǒng)的基于自注意力機(jī)制的ViT[4]相比,Vim在參數(shù)數(shù)量和準(zhǔn)確率上均有顯著提升。與視覺Transformer ViT高度優(yōu)化的變種DeiT相比,Vim在不同模型尺度上均以相似的參數(shù)數(shù)量取得了更好的精度。

如圖1所示,Vim的優(yōu)越的效率足以支持更細(xì)粒度的微調(diào),在通過細(xì)粒度微調(diào)后,與基于SSM的S4ND-ViT-B[13]相比,Vim在參數(shù)數(shù)量減小3倍的情況下達(dá)到了相似的精度,Vim-Ti+,Vim-S+和Vim-B+的結(jié)果均有所提高。其中,Vim-S+甚至達(dá)到了與DeiT-B相似的效果。

cccb5008-c9b8-11ef-9310-92fbcf53809c.png

表1ImageNet-1K分類骨干網(wǎng)絡(luò)對比

語義分割對比

在ADE20K語義分割數(shù)據(jù)集上,我們將ImageNet-1K上訓(xùn)練好的權(quán)重加載到UperNet[14]分割器中,使用Vim作為骨干網(wǎng)絡(luò)進(jìn)行特征提取,如表3所示,Vim取得了相比于CNN網(wǎng)絡(luò)ResNet更少的參數(shù)量以及更高的精度,去Transformer模型DeiT相比,Vim取得了更優(yōu)的精度。

ccde6616-c9b8-11ef-9310-92fbcf53809c.png

表2ADE20k語義分割對比

ccf715d0-c9b8-11ef-9310-92fbcf53809c.png

表3 COCO目標(biāo)檢測和實例分割對比

目標(biāo)檢測與實例分割對比

在COCO目標(biāo)檢測與實例分割數(shù)據(jù)集上,我們將ImageNet-1K上訓(xùn)練好的權(quán)重加載到Cascade-RCNN框架中,使用Vim作為骨干網(wǎng)絡(luò)進(jìn)行特征提取,如表3所示,Vim取得相對于Transformer的DeiT更好的檢測框精度和實例分割精度。值得注意的是,在高清圖像輸入的目標(biāo)檢測任務(wù)上,圖像輸入分辨率為1024×1024,由于Transformer的平方復(fù)雜度,需要將自注意力機(jī)制限制在固定大小的窗口內(nèi), 而Vim得意于其線性復(fù)雜度,無需窗口化,可以進(jìn)行全局的視覺特征感知,從而取得了相對于表3中窗口化DeiT更好的精度。

消融實驗

雙向SSM。如表4所示,雙向SSM相較于原本的單向SSM取得了更高的分類精度, 且在下游的密集型預(yù)測任務(wù)上取得更為顯著的優(yōu)勢。這一結(jié)果顯示了本文提出的雙向設(shè)計對于視覺特征學(xué)習(xí)的必要性與重要性。

cd0edd46-c9b8-11ef-9310-92fbcf53809c.png

表4 雙向SSM建模消融實驗

分類策略。在表5中,我們探索了以下幾種分類策略:

cd2f1868-c9b8-11ef-9310-92fbcf53809c.png

表5 分類策略消融實驗

·Mean pool,將最后Vision Mamba編碼器輸出的特征進(jìn)行平均池化。

·Max pool,將最后Vision Mamba編碼器輸出的特征進(jìn)行最大化池化。

·Head class token,將類別標(biāo)記詞元置于圖像塊序列頭部。

·Double class token,將類別標(biāo)記詞元置于圖像塊序列兩端。

·Middle class token,將類別標(biāo)記詞元置于圖像塊序列中間。

如表5所示,實驗結(jié)果表明,中間類別標(biāo)記策略能夠充分利用SSM的循環(huán)特性和ImageNet中的中心對象先驗,展示了最佳的top-1準(zhǔn)確率76.1。

總結(jié)

該論文提出了Vision Mamba (Vim),以探索最新的高效狀態(tài)空間模型Mamba作為通用視覺主干網(wǎng)絡(luò)。與以往用于視覺任務(wù)的狀態(tài)空間模型采用混合架構(gòu)或等效的全局二維卷積核不同,Vim以序列建模的方式學(xué)習(xí)視覺表示,并未引入圖像特定的歸納偏置。得益于所提出的雙向狀態(tài)空間建模,Vim實現(xiàn)了數(shù)據(jù)依賴的全局視覺上下文,并具備與Transformer相同的建模能力,同時計算復(fù)雜度更低。受益于Mamba的硬件感知設(shè)計,Vim在處理高分辨率圖像時的推理速度和內(nèi)存使用顯著優(yōu)于ViTs。在標(biāo)準(zhǔn)計算機(jī)視覺基準(zhǔn)上的實驗結(jié)果驗證了Vim的建模能力和高效性,表明Vim具有成為下一代視覺主干網(wǎng)絡(luò)的巨大潛力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    14

    文章

    7713

    瀏覽量

    90140
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3464

    瀏覽量

    49816
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    625

    瀏覽量

    13923
  • 地平線
    +關(guān)注

    關(guān)注

    0

    文章

    384

    瀏覽量

    15324

原文標(biāo)題:地平線Vision Mamba:超越ViT,最具潛力的下一代通用視覺主干網(wǎng)絡(luò)

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    LabVIEW Vision Assistant的圖像處理,NI視覺助手教程免費閱讀

    點擊學(xué)習(xí)>>《龍哥手把手教你學(xué)LabVIEW視覺設(shè)計》視頻教程LabVIEW Vision Assistant的圖像處理,NI視覺助手教程免費閱讀 非常好的份教程,特別的詳細(xì),比英文
    發(fā)表于 09-17 16:34

    用 NI Vision Development Module(VDM)視覺開發(fā)模塊 還是用 NI Vision Assistant視覺助手?

    用labview開發(fā)機(jī)器視覺程序時,用 NI Vision Development Module(VDM)視覺開發(fā)模塊 還是用NI Vision Assistant
    發(fā)表于 07-22 16:09

    還在為非標(biāo)項目單獨開發(fā)視覺軟件?你out了!labview通用視覺框架,真香!

    labview視覺非標(biāo)軟件開發(fā)直以來面臨的問題是:算法復(fù)用性差,界面臃腫,軟件開發(fā)周期長。針對這個問題,構(gòu)思了一種極簡易的通用視覺框架,課
    發(fā)表于 07-25 23:55

    分享一種不錯的Xilinx Smarter Vision解決方案

    分享一種不錯的Xilinx Smarter Vision解決方案
    發(fā)表于 06-03 06:22

    一種基于檢索頻度的網(wǎng)格資源描述模型

    網(wǎng)格發(fā)展的目的是資源共享,而資源描述是網(wǎng)格應(yīng)用的關(guān)鍵。本文給出一種根據(jù)資源檢索頻度劃分的通用資源描述模型及其工程實現(xiàn),經(jīng)實驗分析,該模型優(yōu)于完全描述
    發(fā)表于 09-03 17:34 ?6次下載

    一種改進(jìn)的視覺詞袋方法

    視覺詞袋模型廣泛地應(yīng)用于圖像分類與圖像檢索等領(lǐng)域.在傳統(tǒng)詞袋模型中,視覺單詞統(tǒng)計方法忽略了視覺詞之間的空間信息以及分類對象形狀信息。導(dǎo)致圖像
    發(fā)表于 12-28 17:36 ?3次下載

    一種融合視覺詞匯空間信息的主題模型

    針對主題模型中詞匯獨立性和主題獨立性假設(shè)忽略了視覺詞匯間空間關(guān)系的問題,提出了一種融合了視覺詞匯空間信息的主題模型,稱為馬爾可夫主題隨機(jī)場(
    發(fā)表于 12-30 13:44 ?0次下載
    <b class='flag-5'>一種</b>融合<b class='flag-5'>視覺</b>詞匯空間信息的主題<b class='flag-5'>模型</b>

    微軟視覺語言模型有顯著超越人類的表現(xiàn)

    最近開發(fā)了一種新的圖像編碼對象屬性檢測模型,稱為VinVL(Visual features in Vision-Language),有著顯著超越人類的表現(xiàn)。
    的頭像 發(fā)表于 01-19 14:32 ?1768次閱讀

    Transformer迎來強勁競爭者 新架構(gòu)Mamba引爆AI圈!

    作為通用序列模型的骨干,Mamba 在語言、音頻和基因組學(xué)等多種模態(tài)中都達(dá)到了 SOTA 性能。在語言建模方面,無論是預(yù)訓(xùn)練還是下游評估,他們的 Mamba-3B
    發(fā)表于 12-07 14:14 ?592次閱讀
    Transformer迎來強勁競爭者 新架構(gòu)<b class='flag-5'>Mamba</b>引爆AI圈!

    微軟發(fā)布PhI-3-Vision模型,提升視覺AI效率

    Phi-3-vision一種小型多模式語言模型(SLM),主要適用于本地人工智能場景。其模型參數(shù)高達(dá) 42 億,上下文序列包含 128k 個符號,可滿足各種
    的頭像 發(fā)表于 05-28 11:35 ?677次閱讀

    用Ollama輕松搞定Llama 3.2 Vision模型本地部署

    Ollama的安裝。 ,Llama3.2 Vision簡介 Llama 3.2 Vision個多模態(tài)大型語言模型(LLMs)的集合,它
    的頭像 發(fā)表于 11-23 17:22 ?3265次閱讀
    用Ollama輕松搞定Llama 3.2 <b class='flag-5'>Vision</b><b class='flag-5'>模型</b>本地部署

    Mamba入局圖像復(fù)原,達(dá)成新SOTA

    圖像復(fù)原又來新突破了!還記得性能超越SwinIR(基于Transformer)的MambaIR嗎?一種基于Mamba的圖像復(fù)原基準(zhǔn)模型,登上ECCV 2024。最近原作者又開發(fā)了新版本
    的頭像 發(fā)表于 12-30 18:09 ?590次閱讀
    <b class='flag-5'>Mamba</b>入局圖像復(fù)原,達(dá)成新SOTA

    港大提出SparX:強化Vision Mamba和Transformer的稀疏跳躍連接機(jī)制

    本文分享香港大學(xué)計算和數(shù)據(jù)科學(xué)學(xué)院俞益洲教授及其研究團(tuán)隊發(fā)表于 AAAI 2025 的論文——SparX,一種強化 Vision Mamba 和 Transformer 的稀疏跳躍連接機(jī)制,性能強大
    的頭像 發(fā)表于 01-03 09:28 ?492次閱讀
    港大提出SparX:強化<b class='flag-5'>Vision</b> <b class='flag-5'>Mamba</b>和Transformer的稀疏跳躍連接機(jī)制

    地平線ViG基于視覺Mamba通用視覺主干網(wǎng)絡(luò)

    Vision Mamba的成功預(yù)示著將視覺表征學(xué)習(xí)轉(zhuǎn)換為線性復(fù)雜度視覺序列表征學(xué)習(xí)具有巨大的潛力。盡管以Vision
    的頭像 發(fā)表于 01-08 09:33 ?444次閱讀
    地平線ViG基于<b class='flag-5'>視覺</b><b class='flag-5'>Mamba</b>的<b class='flag-5'>通用</b><b class='flag-5'>視覺</b><b class='flag-5'>主干</b>網(wǎng)絡(luò)

    文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1177次閱讀
    <b class='flag-5'>一</b>文詳解<b class='flag-5'>視覺</b>語言<b class='flag-5'>模型</b>