首個(gè)無需依賴SAM的高效像素級(jí)推理大模型PixelLM問世

多模態(tài)大模型爆發(fā)，準(zhǔn)備好進(jìn)入圖像編輯、自動(dòng)駕駛和機(jī)器人技術(shù)等細(xì)粒度任務(wù)中實(shí)際應(yīng)用了嗎？

目前大多數(shù)模型的能力還是局限于生成對(duì)整體圖像或特定區(qū)域的文本描述，在像素級(jí)理解方面的能力（例如物體分割）相對(duì)有限。

針對(duì)這個(gè)問題，一些工作開始探索借助多模態(tài)大模型來處理用戶的分割指令（例如，“請(qǐng)分割出圖片中富含維生素C的水果”）。

然而，市面上的方法都存在兩個(gè)主要缺點(diǎn)：

1)?無法處理涉及多個(gè)目標(biāo)對(duì)象的任務(wù)，而這在現(xiàn)實(shí)世界場(chǎng)景中是不可或缺的；

2)?依賴于像SAM這樣的預(yù)訓(xùn)練圖像分割模型，而SAM的一次前向傳播需要的計(jì)算量已經(jīng)足夠 Llama-7B產(chǎn)生500多個(gè)token了。

為了解決此問題，字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)聯(lián)合北京交通大學(xué)、北京科技大學(xué)的研究人員提出了首個(gè)無需依賴SAM的高效像素級(jí)推理大模型PixelLM。

相比之前的工作，PixelLM的優(yōu)勢(shì)在于：

能夠熟練處理任意數(shù)量的開放域目標(biāo)和多樣化的復(fù)雜推理分割任務(wù)。

避免了額外的、成本高昂的分割模型，提升了效率和對(duì)不同應(yīng)用的遷移能力。

進(jìn)一步，為了支持這一研究領(lǐng)域的模型訓(xùn)練和評(píng)估，研究團(tuán)隊(duì)在LVIS數(shù)據(jù)集的基礎(chǔ)之上，借助GPT-4V構(gòu)建了一個(gè)面向多目標(biāo)推理分割場(chǎng)景的數(shù)據(jù)集MUSE，它包含20萬個(gè)以上的問題-答案對(duì)，涉及90萬個(gè)以上的實(shí)例分割掩碼。

為了實(shí)現(xiàn)上述的效果，這項(xiàng)研究具體是如何做的呢？

背后原理

如論文中的框架圖所示，PixelLM架構(gòu)十分簡(jiǎn)潔，包括四個(gè)主要部分，后兩者是PixelLM的核心：

預(yù)訓(xùn)練的CLIP-ViT視覺編碼器

大語言模型

輕量級(jí)像素解碼器

分割碼表 Seg Codebook

Seg codebook包含可學(xué)習(xí)的tokens，它們用于編碼CLIP-ViT不同尺度上的目標(biāo)信息。然后，像素解碼器基于這些tokens和CLIP-ViT的圖像特征生成目標(biāo)分割結(jié)果。得益于這種設(shè)計(jì)，PixelLM可以在沒有外部分割模型的情況下生成高質(zhì)量的分割結(jié)果，顯著提高了模型效率。

根據(jù)研究人員的描述，Seg codebook內(nèi)的tokens可分為L(zhǎng)組，每一組包含N個(gè)token，每個(gè)組對(duì)應(yīng)于來自CLIP-ViT視覺特征的一個(gè)尺度。

對(duì)于輸入的圖像，PixelLM從CLIP-ViT視覺編碼器產(chǎn)的圖像特征中提取出L個(gè)尺度的特征，其中最后一層涵蓋了全局圖像信息，會(huì)被LLM用作理解圖像內(nèi)容。

Seg codebook的tokens將會(huì)與文本指令及最后一層圖像特征一起輸入LLM中，以自回歸的形式產(chǎn)生輸出。而輸出中也將包含經(jīng)過LLM處理后的Seg codebook tokens，它們將與L個(gè)尺度的CLIP-ViT特征一起輸入到像素解碼器中產(chǎn)生最終的分割結(jié)果。

那么為什么還要設(shè)置每組包含N個(gè)token呢？研究人員結(jié)合下圖進(jìn)行了解釋：

在涉及多個(gè)目標(biāo)或目標(biāo)所包含的語義十分復(fù)雜的情景中，盡管LLM可以提供詳細(xì)的文本響應(yīng)，但僅使用單個(gè)token可能無法充分捕捉目標(biāo)語義的全部?jī)?nèi)容。

為了增強(qiáng)模型在復(fù)雜推理情景下的能力，研究人員在每個(gè)尺度組內(nèi)引入多個(gè)token，并執(zhí)行一個(gè)token的線性融合操作。在token傳入解碼器之前，使用線性投影層將每個(gè)分組內(nèi)的token合并。

下圖展示了每組內(nèi)多個(gè)token時(shí)的效果。注意力圖是每個(gè)token經(jīng)過解碼器處理后的樣子，這個(gè)可視化結(jié)果表明，多個(gè)token提供了獨(dú)特且互補(bǔ)的信息，從而實(shí)現(xiàn)了更有效的分割輸出。

此外，為了增強(qiáng)模型區(qū)分多個(gè)目標(biāo)的能力，PixelLM還額外設(shè)計(jì)了一個(gè)Target Refinement Loss。

MUSE數(shù)據(jù)集

盡管已經(jīng)提出了上述解決方案，但為了充分發(fā)揮模型的能力，模型仍然需要適當(dāng)?shù)挠?xùn)練數(shù)據(jù)?；仡櫮壳翱捎玫墓_數(shù)據(jù)集，發(fā)現(xiàn)現(xiàn)有的數(shù)據(jù)存在以下主要限制：

1) 對(duì)物體細(xì)節(jié)的描述不夠充足；
2) 缺乏具有復(fù)雜推理和多種目標(biāo)數(shù)量的問題-答案對(duì)。

為了解決這些問題，研究團(tuán)隊(duì)借助GPT-4V構(gòu)建了一個(gè)自動(dòng)化的數(shù)據(jù)標(biāo)注流水線，并由此產(chǎn)生了MUSE數(shù)據(jù)集。下圖展示了MUSE生成時(shí)所用到的Prompt及產(chǎn)生的數(shù)據(jù)示例。

在MUSE中，所有實(shí)例掩碼都來自LVIS數(shù)據(jù)集，并且額外添加了根據(jù)圖像內(nèi)容生成的詳細(xì)文本描述。MUSE包含了24.6萬個(gè)問題-答案對(duì)，每個(gè)問題-答案對(duì)平均涉及3.7個(gè)目標(biāo)物體。此外，研究團(tuán)隊(duì)對(duì)數(shù)據(jù)集進(jìn)行了詳盡的統(tǒng)計(jì)分析：

類別統(tǒng)計(jì)：MUSE中有來自原始LVIS數(shù)據(jù)集的1000多個(gè)類別，以及90萬個(gè)具有獨(dú)特描述的實(shí)例，這些描述基于問題-答案對(duì)的上下文而變化。圖(a)顯示了所有問題-答案對(duì)中每個(gè)類別的實(shí)例數(shù)量。

Token數(shù)目統(tǒng)計(jì)：圖(b)展示了實(shí)例描述的token數(shù)目分布，其中有的實(shí)例描述包含了超過100個(gè)tokens。這些描述不僅限于簡(jiǎn)單的類別名稱；相反，它們通過基于GPT-4V的數(shù)據(jù)生成流程，大量豐富了每個(gè)實(shí)例的詳細(xì)信息，涵蓋了外觀、屬性和與其他對(duì)象的關(guān)系等。數(shù)據(jù)集中信息的深度和多樣性增強(qiáng)了訓(xùn)練模型的泛化能力，使其能夠有效地解決開放域問題。

目標(biāo)數(shù)目統(tǒng)計(jì)：圖（c）展示了每個(gè)問題-答案對(duì)中目標(biāo)數(shù)量的統(tǒng)計(jì)數(shù)據(jù)。平均目標(biāo)數(shù)量為3.7，最大目標(biāo)數(shù)量可達(dá)34個(gè)。這個(gè)數(shù)字可以覆蓋單個(gè)圖像的大多數(shù)目標(biāo)推理場(chǎng)景。

算法測(cè)評(píng)

研究團(tuán)隊(duì)在三個(gè)benchmark上評(píng)測(cè)了PixelLM的性能，包括MUSE benchmark, referring segmentation benchmark，以及multi-referring segmentation benchmark. 在multi-referring segmentation benchmark中，研究團(tuán)隊(duì)要求模型在一個(gè)問題中連續(xù)地分割出referring segmentation benchmark中每幅圖像包含的多個(gè)目標(biāo)。

同時(shí)，由于PixelLM是首個(gè)處理涉及多目標(biāo)復(fù)雜像素推理任務(wù)的模型，研究團(tuán)隊(duì)建立了四個(gè)baseline以對(duì)模型進(jìn)行比較分析。

其中三個(gè)baseline基于與PixelLM最相關(guān)工作LISA，包括：

1）原始的LISA；

2）LISA_rec: 先將問題輸入LLAVA-13B以得到目標(biāo)的文本回復(fù)，再用LISA分割這些文本；

3）LISA_aug：直接將MUSE加入LISA的訓(xùn)練數(shù)據(jù)。

4) 另外一個(gè)則是不使用LLM的通用分割模型SEEM。

在三個(gè)benchmark的絕大多數(shù)指標(biāo)上，PixelLM的性能均優(yōu)于其他方法，且由于PixelLM不依賴于SAM，其TFLOPs遠(yuǎn)遠(yuǎn)低于同尺寸的模型。

審核編輯：黃飛

閱讀全文

字節(jié)(13371) 字節(jié)(13371)
GPT(14803) GPT(14803)
大模型(810) 大模型(810)

評(píng)論

相關(guān)推薦

如何使用FasterTransformer進(jìn)行單機(jī)及分布式模型推理

最近幾個(gè)月，隨著ChatGPT的現(xiàn)象級(jí)表現(xiàn)，大模型如雨后春筍般涌現(xiàn)。而模型推理是抽象的算法模型觸達(dá)具體的實(shí)際業(yè)務(wù)的最后一公里。但是在這個(gè)環(huán)節(jié)中，仍然還有很多已經(jīng)是大家共識(shí)的痛點(diǎn)和訴求，比如：任何

2023-05-18 14:35:17

2000

如何在SAM時(shí)代下打造高效的高性能計(jì)算大模型訓(xùn)練平臺(tái)

在一起，從而顯著提升模型的泛化能力。SAM 的設(shè)計(jì)初衷是簡(jiǎn)化圖像分割的過程，減少對(duì)專業(yè)建模知識(shí)的依賴，并降低大規(guī)模訓(xùn)練所需的計(jì)算資源。

2023-08-21 04:02:50

1293

AscendCL快速入門——模型推理篇（上）

一、概述本文介紹了AscendCL模型推理相關(guān)知識(shí)，介紹了AscendCL接口加載離線模型，為離線模型準(zhǔn)備數(shù)據(jù)結(jié)構(gòu)以及調(diào)用離線模型進(jìn)行推理的過程。簡(jiǎn)單來說，曻騰的AscendCL的推理工程可以問為

2023-08-24 11:04:14

Dllite_micro （輕量級(jí)的 AI 推理框架）

DLLite-Micro 是一個(gè)輕量級(jí)的 AI 推理框架，可以為 OpenHarmony OS 的輕量設(shè)備和小型設(shè)備提供深度模型的推理能力DLLite-Micro 向開發(fā)者提供清晰、易上手的北向接口

2021-08-05 11:40:11

EasyGo使用筆記丨極簡(jiǎn)操作，無需編譯，助力高效實(shí)驗(yàn)室高效發(fā)展

道。本次實(shí)驗(yàn)快速圓滿完成，得益于NetBox操作簡(jiǎn)單、無需編譯的特性，能實(shí)現(xiàn)快速上手且精準(zhǔn)驗(yàn)證的體驗(yàn)，助力科研高效發(fā)展。 NetBox 是一款基于FPGA的電力電子實(shí)時(shí)仿真產(chǎn)品。FPGA無需編譯，直接

2022-12-14 10:24:50

HarmonyOS：使用MindSpore Lite引擎進(jìn)行模型推理

場(chǎng)景介紹 MindSpore Lite 是一款 AI 引擎，它提供了面向不同硬件設(shè)備 AI 模型推理的功能，目前已經(jīng)在圖像分類、目標(biāo)識(shí)別、人臉識(shí)別、文字識(shí)別等應(yīng)用中廣泛使用。本文介紹

2023-12-14 11:41:13

NVIDIA 在首個(gè)AI推理基準(zhǔn)測(cè)試中大放異彩

首個(gè)獨(dú)立AI推理基準(zhǔn)測(cè)試 ——MLPerf Inference 0.5中取得第一名。由于推理一直是AI市場(chǎng)中最大、同時(shí)也是最具競(jìng)爭(zhēng)力的領(lǐng)域，業(yè)內(nèi)此前一直希望能夠有一套客觀的推理性能測(cè)試指標(biāo)。在參與

2019-11-08 19:44:51

k210可以采集傳感器的數(shù)據(jù)進(jìn)行模型的推理嗎？

2023-09-14 08:52:56

pytorch模型轉(zhuǎn)為rknn后沒有推理結(jié)果

使用rknn的api讀取我的模型，進(jìn)行轉(zhuǎn)換api可以成功轉(zhuǎn)換出rknn模型，但遇到的問題是：我使用測(cè)試數(shù)據(jù)調(diào)用rknn.inference進(jìn)行推理，每一次的輸出結(jié)果都為[array([nan, nan

2023-01-11 18:45:48

【LuckFox Pico Plus開發(fā)板免費(fèi)試用】RKNN模型推理測(cè)試

為開發(fā)者提供一個(gè)簡(jiǎn)單且高效的開發(fā)平臺(tái)。雖然LuckFox Pico作為入門級(jí)開發(fā)板只有幾十塊錢，但是它具有人工智能協(xié)處理器NPU，也可以實(shí)現(xiàn)人工智能的推理工作。瑞芯微 RV1103芯片采用了和RK3568

2023-11-11 16:51:53

【先楫HPM5361EVK開發(fā)板試用體驗(yàn)】：4、TinyML測(cè)試(1)

設(shè)備的資源限制。此外，TinyML還依賴于優(yōu)化的推理引擎和針對(duì)嵌入式設(shè)備的硬件加速器，以實(shí)現(xiàn)高效的模型推理。 TinyML的應(yīng)用領(lǐng)域非常廣泛，包括智能傳感器、健康監(jiān)測(cè)、物聯(lián)網(wǎng)、智能音頻處理、自動(dòng)駕駛

2023-12-22 10:12:25

【圖書分享】《基于MDK的SAM3處理器開發(fā)應(yīng)用》

SAM3U處理器的內(nèi)部結(jié)構(gòu)　　1.3.3 SAM3U系列MCU的優(yōu)點(diǎn)　　1.3.4 SAM3 MCU的開發(fā)工具第2章 CortexM3 處理器編程模型　2.1 寄存器組　　2.1.1 通用寄存器

2014-03-13 11:00:26

【愛芯派 Pro 開發(fā)板試用體驗(yàn)】在愛芯派部署ChatGLM3（一）

/main/detail。ChatGLM3 的推理框架是基于最新的高效動(dòng)態(tài)推理和顯存優(yōu)化技術(shù)構(gòu)建的，在相同硬件、模型條件下，相較于目前最佳的開源實(shí)現(xiàn)，對(duì)比伯克利大學(xué)推出的 vLLM 以及 Hugging

2023-12-17 22:54:49

【飛凌RK3568開發(fā)板試用體驗(yàn)】RKNN模型推理測(cè)試

研的人工智能協(xié)處理器NPU，并且提供了RKNN-Toolkit。今天就介紹一下如何使用RKNN模型進(jìn)行推理應(yīng)用程序開發(fā)。一、推理應(yīng)用程序的基本流程RKNN 是瑞芯微（Rockchip） NPU平臺(tái)

2022-12-08 19:06:16

一種不依賴于棋盤格等輔助標(biāo)定物體實(shí)現(xiàn)像素級(jí)相機(jī)和激光雷達(dá)自動(dòng)標(biāo)定的方法

主要內(nèi)容本文提出了一種不依賴于棋盤格等輔助標(biāo)定物體，實(shí)現(xiàn)像素級(jí)相機(jī)和激光雷達(dá)自動(dòng)標(biāo)定的方法。方法直接從點(diǎn)云中提取3D邊特征，一避免遮擋問題，并且使用了精確度更高的深度連續(xù)邊。文中首先指出：以下四種

2021-09-01 07:42:19

使用rk3588多npu推理模型，模型總推理時(shí)間還增加了，這怎么解釋

2023-11-05 18:22:42

全志XR806+TinyMaix，在全志XR806上實(shí)現(xiàn)ML推理

關(guān)于 TinyMaixTinyMaix是面向單片機(jī)的超輕量級(jí)的神經(jīng)網(wǎng)絡(luò)推理庫(kù)，即TinyML推理庫(kù)，可以讓你在任意單片機(jī)上運(yùn)行輕量級(jí)深度學(xué)習(xí)模型~設(shè)計(jì)原則：易用性 > 移植性 &

2022-09-21 09:56:29

壓縮模型會(huì)加速推理嗎？

你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 將簡(jiǎn)單的 CNN 導(dǎo)入到 STM32L462RCT我發(fā)現(xiàn)壓縮模型對(duì)推理時(shí)間沒有影響。aiRun 程序在 8

2023-01-29 06:24:08

好奇~！谷歌的 Edge TPU 專用 ASIC 旨在將機(jī)器學(xué)習(xí)推理能力引入邊緣設(shè)備

出色的 ML 推理性能。例如，其能夠以良好的功率表現(xiàn)執(zhí)行 MobileNet v2 等最先進(jìn)的移動(dòng)視覺模型，且 fps 可達(dá) 100 以上。這意味著你將能夠在符合節(jié)能與隱私保護(hù)要求的前提下，將快速 ML

2019-03-05 21:20:23

如何判斷推理何時(shí)由GPU或NPU在iMX8MPlus上運(yùn)行？

當(dāng)我為 TFLite 模型運(yùn)行基準(zhǔn)測(cè)試時(shí)，有一個(gè)選項(xiàng) --nnapi=true我如何知道 GPU 和 NPU 何時(shí)進(jìn)行推理？謝謝

2023-03-20 06:10:30

如何提高YOLOv4模型的推理性能？

使用 PyTorch 對(duì)具有非方形圖像的 YOLOv4 模型進(jìn)行了訓(xùn)練。將權(quán)重轉(zhuǎn)換為 ONNX 文件，然后轉(zhuǎn)換為中間表示（IR）。無法確定如何獲得更好的推理性能。

2023-08-15 06:58:00

實(shí)現(xiàn)具有RTD級(jí)精度且無需校準(zhǔn)快速溫度傳感器設(shè)計(jì)

如何實(shí)現(xiàn)具有RTD級(jí)精度且無需校準(zhǔn)快速溫度傳感器設(shè)計(jì)

2021-01-07 06:27:14

應(yīng)用CPLD及EPP技術(shù)對(duì)CCD信號(hào)像素級(jí)的高速采集，不看肯定后悔

EPP技術(shù)和CPLD技術(shù)介紹應(yīng)用CPLD及EPP技術(shù)對(duì)CCD信號(hào)像素級(jí)的高速采集

2021-04-08 06:11:10

怎樣使用PyTorch Hub去加載YOLOv5模型

PyTorch Hub 加載預(yù)訓(xùn)練的 YOLOv5s 模型，model并傳遞圖像進(jìn)行推理。'yolov5s'是最輕最快的 YOLOv5 型號(hào)。有關(guān)所有可用模型的詳細(xì)信息，請(qǐng)參閱自述文件。詳細(xì)示例此示例

2022-07-22 16:02:42

怎樣去解決rk1808相同模型推理速度變慢的問題呢

　　rk1808 相同模型速度變慢：　　rknn_server 0.9.4 （2078225 build： 2019-03-07 20:07:28）　　librknn_runtime version

2022-04-21 11:36:29

求助，為什么將不同的權(quán)重應(yīng)用于模型會(huì)影響推理性能？

生成兩個(gè) IR文件（相同的 .xml 文件，但不同的 .bin 文件）具有不同重量的類似模型，以不同的 fps （27fps 和 6fps）運(yùn)行更多樣化的權(quán)重是否會(huì)影響 Myriad X 上的推理性能？

2023-08-15 07:00:25

深度剖析OpenHarmony AI調(diào)度管理與推理接口

：管理資源引擎的相關(guān)內(nèi)容。Engine：推理引擎，推理的主要功能都由它管理。PluginManager：管理框架調(diào)度器的配置與工具。插件：管理框架與推理模型的加載、卸載。AIInterpreter：手機(jī)

2022-03-25 11:15:36

用tflite接口調(diào)用tensorflow模型進(jìn)行推理

摘要本文為系列博客tensorflow模型部署系列的一部分，用于實(shí)現(xiàn)通用模型的部署。本文主要實(shí)現(xiàn)用tflite接口調(diào)用tensorflow模型進(jìn)行推理。相關(guān)源碼見鏈接引言本文為系列博客

2021-12-22 06:51:18

經(jīng)濟(jì)高效的入門級(jí)系統(tǒng)平臺(tái)

研華公司近期新推出了一款經(jīng)濟(jì)高效的入門級(jí)系統(tǒng)平臺(tái)。研華ARK-1310擁有緊湊型、無風(fēng)扇的鋁制機(jī)箱外殼，可安裝在任何大型系統(tǒng)中，也可作為獨(dú)立平臺(tái)單獨(dú)應(yīng)用。ARK-1310小巧緊湊、堅(jiān)固耐用，因此非常適合各種惡劣環(huán)境應(yīng)用和自動(dòng)化控制應(yīng)用。

2019-07-23 06:21:45

請(qǐng)問模型推理只用到了kpu嗎？可以cpu，kpu，fft異構(gòu)計(jì)算嗎？

2023-09-14 08:13:24

請(qǐng)問在新CPU上推斷INT8模型的速度是否比舊CPU快？

與采用舊 CPU 的推理相比，在新 CPU 上推斷的 INT8 模型的推理速度更快。

2023-08-15 08:28:42

SA算法在基于模型推理入侵檢測(cè)中的應(yīng)用

鑒于模型推理的入侵檢測(cè)方法，需要在龐大的審計(jì)記錄空間中搜索巨量的攻擊腳本子集中的最優(yōu)值，對(duì)于這一NP類完全問題，提出了應(yīng)用模擬退火算法。并建立了攻擊檢測(cè)的優(yōu)化問

2008-11-18 00:18:36

數(shù)據(jù)庫(kù)弱函數(shù)依賴推理規(guī)則挖掘方法

數(shù)據(jù)庫(kù)推理問題是數(shù)據(jù)庫(kù)安全研究的重要分支方向，推理通道的分析是解決推理問題的基礎(chǔ)。傳統(tǒng)推理規(guī)則無法處理不完全符合函數(shù)依賴的數(shù)據(jù)關(guān)系，針對(duì)這一問題，本文提出了弱

2009-12-25 14:58:04

首個(gè)32 GB microSDHC存儲(chǔ)卡問世

首個(gè)32 GB microSDHC存儲(chǔ)卡問世　　 SanDisk（閃迪）宣布，閃迪專為手機(jī)打造的的大容量、移動(dòng)式存儲(chǔ)卡 ——32 gigabyte (GB)1 閃迪 microSDHC存儲(chǔ)卡——現(xiàn)已上市。全新

2010-03-25 17:20:33

1027

我國(guó)自主研發(fā)的高效彩色太陽能電池在長(zhǎng)問世

我國(guó)自主研發(fā)的高效彩色太陽能電池在長(zhǎng)問世記者今日從市科技局獲悉，繼湖南制造的高效彩色雙玻太陽能電池組件亮相上海世博會(huì)

2010-04-12 08:34:06

432

我國(guó)首個(gè)自主研發(fā)的地球系統(tǒng)模型宣布開源

模型

北京中科同志科技股份有限公司發(fā)布于 2023-11-18 09:59:01

什么是像素流送？像素流送如何應(yīng)用？

芯片像素

dianliang02發(fā)布于 2023-12-13 15:56:04

超像素詞包模型與SVM分類的圖像標(biāo)注_於敏

2017-03-19 19:03:46

貝葉斯IP網(wǎng)絡(luò)擁塞鏈路推理

針對(duì)CLINK算法在路由改變時(shí)擁塞鏈路推理性能下降的問題，建立一種變結(jié)構(gòu)離散動(dòng)態(tài)貝葉斯網(wǎng)模型，通過引入馬爾可夫性及時(shí)齊性假設(shè)簡(jiǎn)化該模型，并基于簡(jiǎn)化模型提出一種IP網(wǎng)絡(luò)擁塞鏈路推理算法（VSDDB

2018-01-16 18:46:26

無ROM Cortex? -M器件的SAM-BA? 監(jiān)視器及器件接口介紹

SAM Boot Assistant（SAM-BA）允許使用USB或UART主機(jī)進(jìn)行在系統(tǒng)編程（ISP），而無需任何外部編程接口。

2018-07-20 10:48:11

5195

歐司朗助力凱迪拉克實(shí)現(xiàn)業(yè)內(nèi)首個(gè)“無需雙手”的駕駛技術(shù)

日前，歐司朗光電半導(dǎo)體和Joyson Safety Systems 公司為新款凱迪拉克CT6配備了一款創(chuàng)新的半自動(dòng)駕駛系統(tǒng)。這款系統(tǒng)名為“超級(jí)巡航”（Super Cruise），是業(yè)內(nèi)首個(gè)真正的在高速上實(shí)現(xiàn)“無需雙手”的駕駛技術(shù)。

2018-09-13 15:10:47

2811

阿里開源首個(gè)移動(dòng)AI項(xiàng)目，淘寶同款推理引擎

阿里開源首個(gè)移動(dòng)AI項(xiàng)目，淘寶同款推理引擎，這是阿里開源的首個(gè)移動(dòng)AI項(xiàng)目，已經(jīng)用于阿里手機(jī)淘寶、手機(jī)天貓、優(yōu)酷等20多個(gè)應(yīng)用之中。覆蓋直播、短視頻、搜索推薦、商品圖像搜索、互動(dòng)營(yíng)銷、權(quán)益發(fā)放、安全風(fēng)控等場(chǎng)景。在IoT等移動(dòng)設(shè)備場(chǎng)景下，也有若干應(yīng)用。

2019-07-03 09:53:29

284

浪潮發(fā)布全球首個(gè)FPGA高效計(jì)算框架

2019-09-09 14:17:53

932

浪潮全球首發(fā)完整方案的FPGA高效計(jì)算框架

浪潮宣布開源發(fā)布基于FPGA的高效AI計(jì)算框架TF2,這一框架的推理引擎采用全球首創(chuàng)的DNN移位計(jì)算技術(shù),結(jié)合多項(xiàng)最新優(yōu)化技術(shù),可實(shí)現(xiàn)通用深度學(xué)習(xí)模型基于FPGA芯片的高性能低延遲部署,這也是全球首個(gè)包含從模型裁剪、壓縮、量化到通用模型實(shí)現(xiàn)等優(yōu)化算法的完整方案的FPGA上AI開源框架。

2019-09-23 15:04:56

1799

中興通訊在Linux基金會(huì)的首個(gè)開源社區(qū)正式成立

Adlik是LF AI中首個(gè)聚焦深度學(xué)習(xí)模型推理階段的項(xiàng)目，其宗旨是使深度學(xué)習(xí)模型能夠高效地運(yùn)行在多種部署環(huán)境下。

2019-10-11 09:15:53

1420

中國(guó)首個(gè)3.35米直徑火箭長(zhǎng)筒段貯箱成功問世

來自中國(guó)航天科技集團(tuán)有限公司八院消息，近日，中國(guó)首個(gè)3.35米直徑火箭長(zhǎng)筒段貯箱在八院800所問世。后續(xù)，該技術(shù)將應(yīng)用于新一代運(yùn)載火箭中。

2021-02-27 09:38:08

1546

貝葉斯網(wǎng)絡(luò)模型之一依賴估測(cè)器模型研究

分類問題是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域硏究的重點(diǎn)問題，貝葉斯網(wǎng)絡(luò)模型因其簡(jiǎn)單髙效的特點(diǎn)而廣泛應(yīng)用于分類問題。一依賴估測(cè)器（ODE）模型作為半監(jiān)督學(xué)習(xí)貝葉斯網(wǎng)絡(luò)模型中的經(jīng)典模型，受到研究人員的廣泛關(guān)注。現(xiàn)有

2021-03-17 15:05:10

從SAM9x5移植到SAM9X60

本應(yīng)用筆記介紹將基于 SAM9x5 的設(shè)計(jì)移植到 SAM9X60 器件需進(jìn)行的硬件和軟件更改。SAM9X60 器件的性能優(yōu)于SAM9x5。

2021-03-30 16:26:31

一種基于機(jī)器學(xué)習(xí)的流簇大小推理模型

數(shù)據(jù)中心網(wǎng)絡(luò)需要更加高效的推理模型提升流簇大小判斷的準(zhǔn)確性和敏感性。提岀了一種基于機(jī)器學(xué)習(xí)的流簇大小推理模型（ Mlcoflow），利用極限學(xué)習(xí)杋（ELM）以最小訓(xùn)練誤差為求解目標(biāo)建立推理模型，并且使用不完全信息建模以提升敏感度。實(shí)驗(yàn)證

2021-04-02 11:38:16

基于像素級(jí)生成對(duì)抗網(wǎng)絡(luò)的圖像彩色化模型

2021-06-27 11:02:01

基于變量依賴關(guān)系模型的變量重要性度量綜述

2021-07-02 14:44:08

NVIDIA技術(shù)助力線上大模型推理

自然語言理解、匹配排序等等，這些模型的訓(xùn)練和推理都大量依賴于NVIDIA GPU，尤其在推理方面，NVIDIA GPU及相應(yīng)的解決方案都滿足了業(yè)務(wù)所需的延遲和吞吐要求。微信搜索業(yè)務(wù)需要更高效平臺(tái) 微信搜索業(yè)務(wù)由多個(gè)子模塊構(gòu)成，包括查

2021-10-28 15:28:12

1551

深度學(xué)習(xí)工程之道|MegEngine推理性能優(yōu)化技術(shù)綜述，CPU上極限加速

MegEngine「訓(xùn)練推理一體化」的獨(dú)特范式，通過靜態(tài)圖優(yōu)化保證模型精度與訓(xùn)練時(shí)一致，無縫導(dǎo)入推理側(cè)，再借助工業(yè)驗(yàn)證的高效卷積優(yōu)化技術(shù)...

2022-02-07 10:59:49

如何實(shí)現(xiàn)高效的部署醫(yī)療影像推理

的時(shí)延變長(zhǎng)，GPU 使用效率不高。醫(yī)療影像推理的另一個(gè)需要考慮的問題是如何實(shí)現(xiàn)高效的部署。我們往往需要部署多個(gè)醫(yī)療影像 AI 應(yīng)用，那么如何去調(diào)度多個(gè)模型，如何并發(fā)處理多個(gè)請(qǐng)求，并充分利用 GPU 資源成為挑戰(zhàn)。

2022-04-09 08:18:22

1042

如何使用Triton進(jìn)行高效的推理部署

一個(gè)完整的醫(yī)療影像推理流程一般包含數(shù)據(jù)的前處理、AI 推理以及數(shù)據(jù)后處理這幾部分。

2022-04-10 15:06:09

2396

DGX SuperPOD助力助力織女模型的高效訓(xùn)練

　　“強(qiáng)悍的織女模型在京東探索研究院建設(shè)的全國(guó)首個(gè)基于 DGX SuperPOD 架構(gòu)的超大規(guī)模計(jì)算集群 “天琴α” 上完成訓(xùn)練，該集群具有全球領(lǐng)先的大規(guī)模分布式并行訓(xùn)練技術(shù)，其近似線性加速比的數(shù)據(jù)、模型、流水線并行技術(shù)持續(xù)助力織女模型的高效訓(xùn)練?！?/div>

2022-04-13 15:13:11

783

基于e-CARE的因果推理相關(guān)任務(wù)

因果推理是人類的一項(xiàng)核心認(rèn)知能力。借助因果推理能力，人類得以理解已觀測(cè)到的各種現(xiàn)象，并預(yù)測(cè)將來可能發(fā)生的事件。然而，盡管當(dāng)下的各類因果推理模型已經(jīng)在現(xiàn)有的因果推理數(shù)據(jù)集上取得了令人印象深刻的性能，然而，這些模型與人類的因果推理能力相比仍存在顯著差距。

2022-05-16 16:21:26

1081

基于NVIDIA Triton的AI模型高效部署實(shí)踐

NVIDIA Triton 推理服務(wù)器(以前稱為 TensorRT 推理服務(wù)器)是一款開源軟件，可簡(jiǎn)化深度學(xué)習(xí)模型在生產(chǎn)環(huán)境中的部署。借助 Triton 推理服務(wù)器，Devops 和 MLops

2022-06-28 15:49:47

1293

AI常識(shí)推理再突破單模型全球首次超過人類平均水平

??2022年7月25日，由科大訊飛承建的我國(guó)首個(gè)認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室榮登科學(xué)常識(shí)推理挑戰(zhàn)賽OpenBookQA榜首，創(chuàng)新性提出X-Reasoner模型，以準(zhǔn)確率94.2%的絕對(duì)優(yōu)勢(shì)奪冠，常識(shí)推理

2022-07-25 23:00:28

488

用于深度學(xué)習(xí)推理的高性能工具包

　　推理引擎用于部署應(yīng)用程序。使用部署管理器，您可以通過將模型、IR 文件、應(yīng)用程序和相關(guān)依賴項(xiàng)組裝到目標(biāo)設(shè)備的運(yùn)行時(shí)包中來創(chuàng)建開發(fā)包。

2022-08-16 11:27:29

439

螞蟻鏈AIoT團(tuán)隊(duì)與NVIDIA合作加速AI推理

螞蟻鏈 AIoT 團(tuán)隊(duì)與 NVIDIA 合作，將量化感知訓(xùn)練(QAT)技術(shù)應(yīng)用于深度學(xué)習(xí)模型性能優(yōu)化中，并通過 NVIDIA TensorRT 高性能推理 SDK 進(jìn)行高效率部署，通過 INT8 推理，吞吐量提升了 3 倍，助力螞蟻鏈版權(quán) AI 平臺(tái)中的模型推理服務(wù)大幅降本增效。

2022-09-09 09:53:52

872

加速邊緣設(shè)備中計(jì)算機(jī)視覺和語音的AI推理模型

　　加速AI推理模型已成為一項(xiàng)基本任務(wù)，因?yàn)槲覀冋鴦?chuàng)建更復(fù)雜，更高效的AI應(yīng)用程序邁進(jìn)。靈活和完整的AI輔助是在快速增長(zhǎng)的AI領(lǐng)域取得成功的關(guān)鍵組成部分。

2022-10-19 09:08:50

423

對(duì)您的 LED 進(jìn)行高效調(diào)光，無需檢測(cè)電阻器

2022-11-07 08:07:28

有了Fine-tune-CoT方法，小模型也能做推理，完美逆襲大模型

如果給語言模型生成一些 prompting，它還向人們展示了其解決復(fù)雜任務(wù)的能力。標(biāo)準(zhǔn) prompting 方法，即為使用少樣本的問答對(duì)或零樣本的指令的一系列方法，已經(jīng)被證明不足以解決需要多個(gè)推理步驟的下游任務(wù)（Chowdhery 等，2022）。

2023-02-02 16:15:26

772

GTC 2023：多模態(tài)短視頻模型推理優(yōu)化方案解析

　　多卡推理--流水線并行：將模型和數(shù)據(jù)切分，以流水線形式計(jì)算，提高GPU利用率。模型切分策略：依照各部分的計(jì)算時(shí)間和參數(shù)量設(shè)計(jì)。

2023-03-23 18:17:33

1921

SAM-Adapter：首次讓SAM在下游任務(wù)適應(yīng)調(diào)優(yōu)！

在這些基礎(chǔ)模型中，Segment Anything Model（SAM）作為一個(gè)在大型視覺語料庫(kù)上訓(xùn)練的通用圖像分割模型取得了顯著的突破。事實(shí)證明，SAM在不同的場(chǎng)景下具有成功的分割能力，這使得它在圖像分割和計(jì)算機(jī)視覺的相關(guān)領(lǐng)域邁出了突破性的一步。

2023-04-20 10:13:37

1061

SAM分割模型是什么？

SAM是一類處理圖像分割任務(wù)的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同，SAM可以處理所有類型的圖像。

2023-05-20 09:30:45

1380

第一篇綜述！分割一切模型(SAM)的全面調(diào)研

SAM 是一個(gè)提示型模型，其在 1100 萬張圖像上訓(xùn)練了超過 10 億個(gè)掩碼，實(shí)現(xiàn)了強(qiáng)大的零樣本泛化。許多研究人員認(rèn)為「這是 CV 的 GPT-3 時(shí)刻，因?yàn)?SAM 已經(jīng)學(xué)會(huì)了物體是什么的一般

2023-05-24 14:36:10

596

大模型時(shí)代下，普通科研人怎么辦？

所以，這篇arXiv的論文提出了一個(gè)簡(jiǎn)單而有效的基于SAM大模型的視聽定位和分割框架，即AV-SAM，它可以生成與音頻相對(duì)應(yīng)的發(fā)聲對(duì)象掩碼。具體而言，利用SAM中預(yù)先訓(xùn)練的圖像編碼器的視覺特征，把它和音頻特征逐像素視聽融合來聚合跨模態(tài)表示

2023-05-24 16:00:02

500

SAM 到底是什么

的有這么強(qiáng)大嗎？讓我們一起通過本文了解詳情！ SAM 是一個(gè)由 Meta AI 實(shí)驗(yàn)室推出的強(qiáng)大人工智能圖像分割應(yīng)用，可以自動(dòng)識(shí)別哪些圖像像素屬于一個(gè)對(duì)象，并且對(duì)圖像中各個(gè)對(duì)象進(jìn)行自動(dòng)風(fēng)格處理，可廣泛用于分析科學(xué)圖像、編輯照片等。 SAM 的完整應(yīng)用由一個(gè)圖片編碼器模型（encoder）

2023-06-12 10:46:56

2622

LeCun世界模型首個(gè)研究！自監(jiān)督視覺像人一樣學(xué)習(xí)和推理！

今日，Meta 推出了首個(gè)基于 LeCun 世界模型概念的 AI 模型。該模型名為圖像聯(lián)合嵌入預(yù)測(cè)架構(gòu)（Image Joint Embedding Predictive Architecture, I-JEPA），它通過創(chuàng)建外部世界的內(nèi)部模型來學(xué)習(xí)，比較圖像的抽象表示（而不是比較像素本身）。

2023-06-15 15:47:34

201

YOLOv8最新版本支持SAM分割一切

分割任何模型（Segment Anything Model - SAM）是一種突破性的圖像分割模型，可實(shí)現(xiàn)具有實(shí)時(shí)性能的快速分割。

2023-06-18 11:42:53

1027

教你如何用兩行代碼搞定YOLOv8各種模型推理

大家好，YOLOv8 框架本身提供的API函數(shù)是可以兩行代碼實(shí)現(xiàn) YOLOv8 模型推理，這次我把這段代碼封裝成了一個(gè)類，只有40行代碼左右，可以同時(shí)支持YOLOv8對(duì)象檢測(cè)、實(shí)例分割、姿態(tài)評(píng)估模型的GPU與CPU上推理演示。

2023-06-18 11:50:44

1891

基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)如何測(cè)試大語言模型(LLM)的純因果推理能力

? 因果推理是人類智力的標(biāo)志之一。因果關(guān)系NLP領(lǐng)域近年來引起了人們的極大興趣，但其主要依賴于從常識(shí)知識(shí)中發(fā)現(xiàn)因果關(guān)系。本研究提出了一個(gè)基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)來測(cè)試大語言模型(LLM

2023-06-20 15:39:05

1223

構(gòu)建一個(gè)移動(dòng)端友好的SAM方案MobileSAM

導(dǎo)讀本文提出一種"解耦蒸餾"方案對(duì)SAM的ViT-H解碼器進(jìn)行蒸餾，同時(shí)所得輕量級(jí)編碼器可與SAM的解碼器"無縫兼容"?。在推理速度方面，MobileSAM處理一張圖像僅需10ms

2023-06-30 10:59:08

673

FastSAM模型可實(shí)現(xiàn)25FPS的實(shí)時(shí)推理

比Meta的「分割一切模型」(SAM)更快的圖像分割工具，來了！最近中科院團(tuán)隊(duì)開源了FastSAM模型，能以 50倍的速度達(dá)到與原始SAM相近的效果，并實(shí)現(xiàn)25FPS的實(shí)時(shí)推理。該成果

2023-07-03 17:06:08

630

如何使用NVIDIA Triton 推理服務(wù)器來運(yùn)行推理管道

使用集成模型在 NVIDIA Triton 推理服務(wù)器上為 ML 模型管道提供服務(wù)

2023-07-05 16:30:34

1082

三種主流模型部署框架YOLOv8推理演示

深度學(xué)習(xí)模型部署有OpenVINO、ONNXRUNTIME、TensorRT三個(gè)主流框架，均支持Python與C++的SDK使用。對(duì)YOLOv5~YOLOv8的系列模型，均可以通過C++推理實(shí)現(xiàn)模型

2023-08-06 11:39:17

1677

對(duì)話三位IEEE專家：如何理解SAM視覺大模型

IEEE高級(jí)會(huì)員、天津理工大學(xué)教授、AR/VR技術(shù)專家羅訓(xùn)對(duì)記者表示，SAM是視覺領(lǐng)域的通用大模型，很多報(bào)道中把它比喻成視覺領(lǐng)域的ChatG－PT，SAM和ChatGPT的支撐技術(shù)和應(yīng)用場(chǎng)景都是不同的，但是在通用性這一點(diǎn)上，它們都是當(dāng)前技術(shù)發(fā)展趨勢(shì)的代表者。

2023-08-23 16:32:19

529

mlc-llm對(duì)大模型推理的流程及優(yōu)化方案

在 MLC-LLM 部署RWKV World系列模型實(shí)戰(zhàn)（3B模型Mac M2解碼可達(dá)26tokens/s）中提到要使用mlc-llm部署模型首先需要一個(gè)編譯過程，將原始的基于Realx搭建的模型

2023-09-26 12:25:55

383

主流大模型推理框架盤點(diǎn)解析

vLLM是一個(gè)開源的大模型推理加速框架，通過PagedAttention高效地管理attention中緩存的張量，實(shí)現(xiàn)了比HuggingFace Transformers高14-24倍的吞吐量。

2023-10-10 15:09:58

1556

TPU-MLIR量化敏感層分析，提升模型推理精度

背景介紹TPU-MLIR編譯器可以將機(jī)器學(xué)習(xí)模型轉(zhuǎn)換成算能芯片上運(yùn)行的bmodel模型。由于浮點(diǎn)數(shù)的計(jì)算需要消耗更多的計(jì)算資源和存儲(chǔ)空間，實(shí)際應(yīng)用中往往采用量化后的模型（也稱定點(diǎn)模型）進(jìn)行推理。相比

2023-10-10 10:17:42

484

介紹一款基于昆侖芯AI加速卡的高效模型推理部署框架

昆侖芯科技公眾號(hào)全新欄目“用芯指南”重磅推出！面向AI行業(yè)技術(shù)從業(yè)者，系列好文將提供手把手的昆侖芯產(chǎn)品使用指南。第一期圍繞昆侖芯自研效能工具——昆侖芯Anyinfer展開，這是一款基于昆侖芯AI加速卡的高效模型推理部署框架。種種行業(yè)痛點(diǎn)，昆侖芯Anyinfer輕松搞定。

2023-10-17 11:16:43

799

全球首個(gè)人體器官芯片醫(yī)藥大模型在南京江寧問世

近日，位于江寧高新區(qū)的江蘇運(yùn)動(dòng)健康研究院傳來好消息，在東南大學(xué)生物科學(xué)與醫(yī)學(xué)工程學(xué)院院長(zhǎng)、江蘇運(yùn)動(dòng)健康研究院院長(zhǎng)顧忠澤教授團(tuán)隊(duì)與華為公司的強(qiáng)強(qiáng)聯(lián)合下，全球首個(gè)人體器官芯片醫(yī)藥大模型近日在江寧問世

2023-10-20 08:43:41

261

澎峰科技發(fā)布大模型推理引擎PerfXLLM

要的巨額開銷也引發(fā)了相關(guān)研究者的關(guān)注。如何高效地進(jìn)行推理，并盡可能地減少成本，從而促進(jìn)大模型應(yīng)用的落地成為了目前的關(guān)鍵問題。于是，澎峰科技研發(fā)了一款大模型推理引擎—PerfXLLM ，并且已經(jīng)在高通的驍龍8Gen2 平臺(tái)實(shí)現(xiàn)了應(yīng)用。接下來將分為四個(gè)部分進(jìn)行介紹，第一部分將介

2023-11-25 15:35:01

383