一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

低成本擴(kuò)大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型

CVer ? 來(lái)源:CVer ? 2023-12-04 15:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

低成本擴(kuò)大輸入分辨率:探秘98億參數(shù)多模態(tài)大模型--Monkey眼中的世界

【導(dǎo)讀】11月,華中科技大學(xué)團(tuán)隊(duì)發(fā)布了新的多模態(tài)大模型——Monkey,通過(guò)專注于大分辨率,使得Monkey能夠處理分辨率高達(dá)1344×896的圖像,并加入了有著詳細(xì)描述的高質(zhì)量圖文數(shù)據(jù)進(jìn)行訓(xùn)練,幫助Monkey煉就洞察圖像細(xì)節(jié)的火眼金睛,取得了與Caption和QA任務(wù)相關(guān)的16個(gè)數(shù)據(jù)集的SOTA,甚至與GPT4V相比,在密集文本問(wèn)答任務(wù)上也有著亮眼的表現(xiàn)。

論文鏈接:https://arxiv.org/abs/2311.06607

代碼地址:https://github.com/Yuliang-Liu/Monkey

官方demo效果展示:

Monkey在密集文本的問(wèn)答任務(wù)上取得了很不錯(cuò)的效果,可以根據(jù)問(wèn)題的要求進(jìn)行推理,能夠適配中文問(wèn)答

ed9b49ec-91f5-11ee-939d-92fbcf53809c.gif

在文本較少的場(chǎng)景中Monkey也展現(xiàn)了不俗的問(wèn)答能力,自身?yè)碛胸S富的知識(shí)庫(kù),可以根據(jù)問(wèn)題進(jìn)行外推,從而回答出正確的答案

edba5922-91f5-11ee-939d-92fbcf53809c.gif

Monkey在Caption任務(wù)上同樣取得了出色的結(jié)果,不僅僅是對(duì)圖片進(jìn)行準(zhǔn)確詳細(xì)的描述,同時(shí)能夠合理發(fā)散,分析出圖片所傳達(dá)的一些抽象含義

以下是Monkey同GPT4V在密集文本與圖表上進(jìn)行問(wèn)答的可視化結(jié)果展示。

edc275e4-91f5-11ee-939d-92fbcf53809c.png

下圖展示了Monkey的卓越性能,在 18 個(gè)不同的數(shù)據(jù)集上進(jìn)行測(cè)試的結(jié)果表明,Monkey能夠很好地勝任圖像描述生成、場(chǎng)景問(wèn)答、以場(chǎng)景文本為中心的視覺(jué)問(wèn)答和面向文檔的視覺(jué)問(wèn)答等任務(wù),并在16個(gè)數(shù)據(jù)集上取得SOTA。

edc7e358-91f5-11ee-939d-92fbcf53809c.png

方法介紹:

1. 增大輸入分辨率

將原始輸入圖片裁剪成多個(gè)圖片塊,再將這些圖片塊和原始輸入圖片統(tǒng)一到448*448的尺寸。每個(gè)圖片塊經(jīng)過(guò)視覺(jué)編碼時(shí)會(huì)加入一個(gè)專屬的Lora以此更好地提取圖片塊的局部視覺(jué)特征,訓(xùn)練時(shí)僅訓(xùn)練Lora部分,而原始的輸入圖像則用于提取全局特征,以此方法達(dá)到增大輸入分辨率的目的。

eddb3a70-91f5-11ee-939d-92fbcf53809c.png

2. 多級(jí)特征融合的詳細(xì)描述生成方法生成高質(zhì)量圖文數(shù)據(jù)

主要分為五個(gè)步驟:第一步,使用BLIP2對(duì)整張圖生成全局描述;第二步用 GRIT生成區(qū)域框,并提供區(qū)域中對(duì)象的名稱和詳細(xì)描述,同時(shí)使用PPOCR提取區(qū)域的文本框坐標(biāo)和文本內(nèi)容;第三步使用SAM進(jìn)行分割,并送入BLIP2生成對(duì)各個(gè)物體及其組成部分的詳細(xì)描述;第四步使用BLIP-2 評(píng)估過(guò)濾掉低分匹配;最后使用ChatGPT 對(duì)上述得到的描述進(jìn)行總結(jié)從而得到圖像的詳細(xì)描述。

eddf41ec-91f5-11ee-939d-92fbcf53809c.png

下圖為使用使用多級(jí)特征融合的詳細(xì)描述生成方法后得到的標(biāo)注與原始CC3M標(biāo)注的對(duì)比,不難看出,兩種標(biāo)注之間存在著較大的差距,生成的詳細(xì)標(biāo)注盡可能地包含了圖片中的各種細(xì)節(jié),而不像是CC3M地原始標(biāo)注那樣一句帶過(guò)。利用這樣高質(zhì)量的圖文數(shù)據(jù)進(jìn)行訓(xùn)練,使得Monkey能夠更好地把握?qǐng)D文之間的關(guān)系。

edf95c12-91f5-11ee-939d-92fbcf53809c.png

更多的可視化對(duì)比結(jié)果與展示:

通過(guò)下圖展示的Monkey在QA任務(wù)上與多種大模型的對(duì)比結(jié)果,從中我們能夠更加直觀地感受到Monkey強(qiáng)大的問(wèn)答能力,能夠準(zhǔn)確地把握住問(wèn)題并給出正確的回答,尤其是在密集文本問(wèn)答任務(wù)上,目前的大模型或多或少都面臨著一定的問(wèn)題,Monkey為解決這一難題提供了一條可行的出路。

ee01832e-91f5-11ee-939d-92fbcf53809c.png

總結(jié)

Monkey提出了一種訓(xùn)練高效的方法,無(wú)需預(yù)訓(xùn)練即可有效地提高模型的輸入分辨率,最高可達(dá)896 x 1344像素。為了彌補(bǔ)簡(jiǎn)單文本標(biāo)簽和高分辨率輸入之間的差距,Monkey提出了一種多級(jí)特征融合的詳細(xì)描述生成方法,它可以自動(dòng)提供豐富的信息,以引導(dǎo)模型學(xué)習(xí)圖像中各個(gè)物體的屬性及其聯(lián)系。通過(guò)這兩種設(shè)計(jì)的協(xié)同作用,Monkey練就了一雙火眼金睛,在多個(gè)基準(zhǔn)測(cè)試中取得了出色的結(jié)果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 高分辨率
    +關(guān)注

    關(guān)注

    0

    文章

    48

    瀏覽量

    15513
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41302
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3148

    瀏覽量

    4091

原文標(biāo)題:低成本擴(kuò)大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    分辨率 vs 噪聲 —— ADC的挑戰(zhàn)

    設(shè)計(jì)者常用高分辨率 ADC 以降低最低可量測(cè)單位(LSB),提高檢測(cè)精度。 比如一個(gè) 16 位 ADC 在 5V 范圍內(nèi), LSB ≈ 76 μV ;理想情況下可以檢測(cè)到微弱電信號(hào)。 問(wèn)題是: 若
    的頭像 發(fā)表于 06-23 07:38 ?844次閱讀
    <b class='flag-5'>分辨率</b> vs 噪聲 —— ADC的挑戰(zhàn)

    如何計(jì)算存儲(chǔ)示波器的垂直分辨率?

    存儲(chǔ)示波器的垂直分辨率是指示波器能夠分辨的最小電壓變化量,它反映了示波器對(duì)信號(hào)幅度細(xì)節(jié)的測(cè)量能力,通常用位數(shù)(bit)來(lái)表示,也可通過(guò)相關(guān)公式換算為具體的電壓值。以下為你詳細(xì)介紹其計(jì)算方法:了解關(guān)鍵
    發(fā)表于 05-30 14:03

    是否可以在16位或32位圖像上推斷單映像-超級(jí)分辨率1032的模型?

    無(wú)法確定是 單圖像超級(jí)分辨率 - 1032 模型可以推斷為 16 位還是 32 位圖像
    發(fā)表于 03-06 07:16

    如何在輸入電壓范圍確定的情況下最大的使用AD的分辨率?

    我看ADC手冊(cè)上一般要求的參考電壓都是固定的,就拿ADS1242來(lái)說(shuō),我的輸入電壓的范圍在0~50mV,我使用內(nèi)部的PGA=32,這樣我如果使用2.5V的參考電壓,所有分辨率不能得到有效的利用,我
    發(fā)表于 02-12 07:10

    請(qǐng)問(wèn)SAR ADC有效分辨率與采樣有關(guān)嗎?

    是不是所有的ADC都是采樣越高、分辨率越差(跳動(dòng)位數(shù)越多)? 我的實(shí)驗(yàn): ADS8556是16位SAR ADC,最高采樣500KhZ。使用20k采樣
    發(fā)表于 01-15 07:57

    TVP7002 VGA輸入分辨率支持1280 x 1536嗎?

    TVP7002 VGA 輸入分辨率支持1280 x 1536嗎? TVP7002 VGA 輸入能自動(dòng)偵察VGA信號(hào)所使用的分辨率嗎?如可以則讀哪些寄存器,有例子嗎?
    發(fā)表于 01-14 07:27

    如何提高透鏡成像的分辨率

    透鏡成像分辨率是指透鏡系統(tǒng)能夠分辨的最小細(xì)節(jié)的能力。提高透鏡成像分辨率對(duì)于許多應(yīng)用領(lǐng)域,如顯微鏡、望遠(yuǎn)鏡、相機(jī)等,都是至關(guān)重要的。以下是一些提高透鏡成像分辨率的方法: 1. 減少像差
    的頭像 發(fā)表于 12-25 16:54 ?1107次閱讀

    如何選擇掃描電鏡的分辨率

    選擇掃描電鏡的分辨率需要綜合考慮多個(gè)因素。首先是研究目的。如果只是需要對(duì)樣品的大致形貌進(jìn)行觀察,例如查看較大顆粒的分布或者材料表面的宏觀缺陷,較低分辨率(如3-10nm)可能就足夠了。但如果要觀察
    的頭像 發(fā)表于 12-25 14:29 ?773次閱讀
    如何選擇掃描電鏡的<b class='flag-5'>分辨率</b>?

    商湯日日新模態(tài)模型權(quán)威評(píng)測(cè)第一

    剛剛,商湯科技日日新SenseNova模態(tài)模型,在權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的模態(tài)評(píng)測(cè)中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?1034次閱讀

    請(qǐng)問(wèn)ISO7720的時(shí)間分辨率有多少?

    ),HRPWM的時(shí)間分辨率是0.18ns,理論上HRPWM的精度為0.0095%。 2)HRPWM輸出通過(guò)RC濾波接到ISO7720的輸入,R=10Ω,C=22pF。 3)ISO7720輸出接功率芯片的驅(qū)動(dòng)
    發(fā)表于 11-29 08:25

    HDMI接口支持哪些視頻分辨率

    HDMI(High-Definition Multimedia Interface)接口支持的視頻分辨率因版本不同而有所差異。以下是HDMI接口不同版本所支持的視頻分辨率的概述: HDMI 1.4
    的頭像 發(fā)表于 11-27 14:14 ?1.1w次閱讀

    視頻處理器的分辨率是如何管理的

    ? ? 隨著電子應(yīng)用技術(shù)和消費(fèi)市場(chǎng)的不斷發(fā)展,LED顯示屏的顯示單元之間的間距正在逐漸縮小,然而,顯示屏的整體面積卻在不斷擴(kuò)大。為了滿足這一趨勢(shì)下對(duì)超大輸分辨率的需求,視頻處理器和拼接器變得
    的頭像 發(fā)表于 11-11 15:25 ?707次閱讀
    視頻處理器的<b class='flag-5'>分辨率</b>是如何管理的

    提高SAR ADC的分辨率

    電子發(fā)燒友網(wǎng)站提供《提高SAR ADC的分辨率.pdf》資料免費(fèi)下載
    發(fā)表于 10-25 09:11 ?0次下載
    提高SAR ADC的<b class='flag-5'>分辨率</b>

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō),
    的頭像 發(fā)表于 10-18 09:39 ?1278次閱讀

    什么是高分辨率示波器?它有哪些優(yōu)勢(shì)?

    分辨率示波器是一種在信息與系統(tǒng)科學(xué)相關(guān)工程與技術(shù)領(lǐng)域中廣泛應(yīng)用的科學(xué)儀器,其設(shè)計(jì)旨在提供更高的信號(hào)分辨率和更精細(xì)的信號(hào)分析能力。以下是對(duì)高分辨率示波器的詳細(xì)解析,包括其定義、優(yōu)勢(shì)以及可能涉及的多個(gè)方面。
    的頭像 發(fā)表于 08-08 11:49 ?1853次閱讀