一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

阿里云開源視覺語言大模型Qwen-VL ,支持圖文雙模態(tài)輸入

jf_WZTOguxH ? 來源:AI前線 ? 2023-08-25 15:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

繼 8 月初阿里云開源通義千問 70 億參數(shù)通用模型 Qwen-7B 和對話模型 Qwen-7B-Chat 后,又一大模型實(shí)現(xiàn)了開源。 阿里云開源通義千問多模態(tài)大模型 Qwen-VL

InfoQ 獲悉,8 月 25 日,阿里云開源通義千問多模態(tài)大模型 Qwen-VL。這是繼 8 月初阿里云開源通義千問 70 億參數(shù)通用模型 Qwen-7B 和對話模型 Qwen-7B-Chat 后,又開源的一大模型。

據(jù)介紹,Qwen-VL 是支持中英文等多種語言的視覺語言(Vision Language,VL)模型。相較于此前的 VL 模型,Qwen-VL 除了具備基本的圖文識別、描述、問答及對話能力之外,還新增了視覺定位、圖像中文字理解等能力。

0f7b6358-4309-11ee-a2ef-92fbcf53809c.png

具體來說,Qwen-VL 可以以圖像、文本、檢測框作為輸入,并以文本和檢測框作為輸出,可用于知識問答、圖像標(biāo)題生成、圖像問答、文檔問答、細(xì)粒度視覺定位等多種場景。比如,一位不懂中文的外國游客到醫(yī)院看病,不知道怎么去往對應(yīng)科室,他拍下樓層導(dǎo)覽圖問 Qwen-VL“骨科在哪層”“耳鼻喉科去哪層”,Qwen-VL 會根據(jù)圖片信息給出文字回復(fù)。

0fc6260e-4309-11ee-a2ef-92fbcf53809c.png

此外,Qwen-VL 還是業(yè)界首個支持中文開放域定位的通用模型,可以通過中文開放域語言表達(dá)進(jìn)行檢測框標(biāo)注。開放域視覺定位能力決定了大模型“視力”的精準(zhǔn)度,這意味著具備該能力的大模型能在畫面中精準(zhǔn)地找出想找的事物。比如,輸入一張上海外灘的照片,讓 Qwen-VL 找出東方明珠,Qwen-VL 能用檢測框準(zhǔn)確圈出對應(yīng)建筑。

0fecc17e-4309-11ee-a2ef-92fbcf53809c.png

據(jù)了解,Qwen-VL 以 Qwen-7B 為基座語言模型研發(fā),在模型架構(gòu)上引入視覺編碼器,使得模型支持視覺信號輸入,并通過設(shè)計訓(xùn)練過程,讓模型具備對視覺信號的細(xì)粒度感知和理解能力。更高分辨率可以提升細(xì)粒度的文字識別、文檔問答和檢測框標(biāo)注,相比于目前其它開源 LVLM 使用的 224 分辨率,Qwen-VL 是首個開源的 448 分辨率的 LVLM 模型。

阿里云通義千問團(tuán)隊(duì)算法專家、Qwen-VL 開源模型負(fù)責(zé)人白金澤在接受 InfoQ 采訪時表示,Qwen-VL 模型的訓(xùn)練分為三個階段:

在預(yù)訓(xùn)練階段,團(tuán)隊(duì)主要利用大規(guī)模、弱標(biāo)注的圖像 - 文本樣本對進(jìn)行訓(xùn)練;

在多任務(wù)訓(xùn)練階段,團(tuán)隊(duì)整理了大量高質(zhì)量多任務(wù)的細(xì)粒度圖文標(biāo)注數(shù)據(jù)進(jìn)行混合訓(xùn)練,并升高了圖像的輸入分辨率,降低圖像縮放引起的信息損失,增強(qiáng)模型對圖像細(xì)節(jié)的感知能力,得到 Qwen-VL 預(yù)訓(xùn)練模型;

在指令微調(diào)階段,團(tuán)隊(duì)使用合成標(biāo)注的對話數(shù)據(jù)進(jìn)行指令微調(diào),激發(fā)模型的指令跟隨和對話能力,得到具有交互能力的 Qwen-VL-Chat 對話模型。

白金澤表示,Qwen-VL 模型的研發(fā)難點(diǎn)主要體現(xiàn)在數(shù)據(jù)、訓(xùn)練、框架三個層面?!皵?shù)據(jù)方面,多模態(tài)的數(shù)據(jù)整理和清洗是個難點(diǎn),有效的數(shù)據(jù)清洗可以提高訓(xùn)練效率以及提升最終收斂后的效果。訓(xùn)練方面,在多模態(tài)大模型的訓(xùn)練中,一般認(rèn)為大 batch 和較大學(xué)習(xí)率可以提升訓(xùn)練收斂效率和最終結(jié)果,但其訓(xùn)練過程可能更加不穩(wěn)定。我們通過一些訓(xùn)練技巧有效提升了訓(xùn)練穩(wěn)定性,具體細(xì)節(jié)將在相關(guān)論文中公布??蚣芊矫?,目前多模態(tài)大模型的并行訓(xùn)練框架支持并不完善,我們對多模態(tài)大模型的 3D 并行技術(shù)進(jìn)行了優(yōu)化,可穩(wěn)定訓(xùn)練更大規(guī)模的多模態(tài)模型?!?/p>

除了 Qwen-VL,本次阿里云還開源了 Qwen-VL-Chat。Qwen-VL-Chat 是在 Qwen-VL 的基礎(chǔ)上,使用對齊機(jī)制打造的基于大語言模型的視覺 AI 助手,可讓開發(fā)者快速搭建具備多模態(tài)能力的對話應(yīng)用。

白金澤補(bǔ)充說,團(tuán)隊(duì)主要通過兩類方式評估了多模態(tài)大模型的效果。其一是使用標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集來評測每個多模態(tài)子任務(wù)的效果。例如評測圖片描述(Image Captioning)、圖片問答(Visual Question Answering, VQA)、文檔問答(Document VQA)、圖表問答(Chart VQA)、少樣本問答(Few-shot VQA)、參照物標(biāo)注(Referring Expression Comprehension)等。其二是使用人工或借助 GPT-4 打分來評測多模態(tài)大模型的整體對話能力和對齊水平。通義千問團(tuán)隊(duì)構(gòu)建了一套基于 GPT-4 打分機(jī)制的基準(zhǔn)“試金石”( TouchStone),總計涵蓋 300+ 張圖片、800+ 道題目、27 個題目類別。

在四大類多模態(tài)任務(wù)(Zero-shot Caption/VQA/DocVQA/Grounding)的標(biāo)準(zhǔn)英文測評中,Qwen-VL 取得了同等尺寸開源 LVLM 的最好效果。為了測試模型的多模態(tài)對話能力,通義千問團(tuán)隊(duì)構(gòu)建了一套基于 GPT-4 打分機(jī)制的測試集“試金石”,對 Qwen-VL-Chat 及其他模型進(jìn)行對比測試,Qwen-VL-Chat 在中英文的對齊評測中均取得了開源 LVLM 最好結(jié)果。

104f1252-4309-11ee-a2ef-92fbcf53809c.png

目前,Qwen-VL 及其視覺 AI 助手 Qwen-VL-Chat 均已上線 ModelScope 魔搭社區(qū),開源、免費(fèi)、可商用。用戶可從魔搭社區(qū)直接下載模型,也可通過阿里云靈積平臺訪問調(diào)用 Qwen-VL 和 Qwen-VL-Chat,阿里云為用戶提供包括模型訓(xùn)練、推理、部署、精調(diào)等在內(nèi)的全方位服務(wù)。

大模型發(fā)展的下一站:多模態(tài)大模型

多模態(tài)大模型是指能夠理解文字、圖像、視頻、音頻等多種模態(tài)信息的大模型,與僅能理解單一文本模態(tài)的語言模型相比,多模態(tài)大模型的優(yōu)勢就在于可以充分利用語言模型的指令理解能力,來做圖像、語音、視頻等各種模態(tài)中的開放域任務(wù),從而具備處理不同模態(tài)信息的通用能力。而單一模態(tài)大模型的任務(wù)形式通常都是預(yù)先定義好的,比如圖像 / 視頻 / 語音分類任務(wù),需要提前知道這些類別,然后針對性的找訓(xùn)練數(shù)據(jù)去訓(xùn)練模型。

有觀點(diǎn)認(rèn)為,多模態(tài)是預(yù)訓(xùn)練大模型最重要的技術(shù)演進(jìn)方向之一。

業(yè)界普遍認(rèn)為,從單一感官的、僅支持文本輸入的語言模型,到“五官全開”的,支持文本、圖像、音頻等多種信息輸入的多模態(tài)模型,蘊(yùn)含著大模型智能躍升的巨大可能。多模態(tài)能夠提升大模型對世界的理解程度,充分拓展大模型的使用場景。比如,以 GPT-4、PaLM-E 為代表的一批模型,通過賦予大語言模型感知、理解視覺信號的能力,展現(xiàn)出大規(guī)模視覺語言模型在解決以視覺為中心的實(shí)際問題的前景,并顯示出進(jìn)一步拓展到具身智能、通向通用人工智能的廣闊前景。

其中,視覺作為人類的第一感官能力,也是研究者首先希望賦予大模型的多模態(tài)能力。因此,繼此前推出 M6、OFA 系列多模態(tài)模型之后,阿里云通義千問團(tuán)隊(duì)又開源了基于 Qwen-7B 的大規(guī)模視覺語言模型 Qwen-VL。

不過,多模態(tài)大模型的開發(fā)并非易事,白金澤表示,多模態(tài)大模型的開發(fā)難度包括但不限于以下幾點(diǎn):

模態(tài)間表征差異大:大規(guī)模純語言模型的輸入輸出一般是離散表征,而圖像、語音等內(nèi)容通常是連續(xù)表征,其模態(tài)間的信息密度、表征空間、輸入輸出方式等都存在巨大差異,這導(dǎo)致了設(shè)計的復(fù)雜性。

多模態(tài)大模型收斂不穩(wěn)定:由于模態(tài)間表征差異大、各模態(tài)網(wǎng)絡(luò)異構(gòu)等因素,相比純文本大模型,多模態(tài)大模型的訓(xùn)練具有更多的挑戰(zhàn),更有可能出現(xiàn)訓(xùn)練不穩(wěn)定的情況。

缺乏穩(wěn)定開源框架支持:目前常見的開源大模型訓(xùn)練框架,都只對純語言模型的訓(xùn)練效率進(jìn)行了極致的優(yōu)化。為了處理多模態(tài)輸入輸出,多模態(tài)模型通常有非對稱的網(wǎng)絡(luò)結(jié)構(gòu),導(dǎo)致無法直接用常見開源訓(xùn)練框架擴(kuò)展到超大參數(shù)量。通義千問團(tuán)隊(duì)對多模態(tài)的并行訓(xùn)練框架進(jìn)行了多重優(yōu)化,可穩(wěn)定訓(xùn)練更大規(guī)模的多模態(tài)模型。

“多模態(tài)是我們很看好的技術(shù)方向,這個領(lǐng)域還有很多技術(shù)難題有待解決,未來我們也會持續(xù)研究。就 Qwen-VL 來說,接下來的工作包括支持更高分辨率的圖像輸入,無監(jiān)督地從圖像中學(xué)習(xí)更多的世界知識,擴(kuò)展更多模態(tài),加深對多模態(tài)數(shù)據(jù)的理解,等等?!卑捉饾烧f道。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10799
  • 阿里云
    +關(guān)注

    關(guān)注

    3

    文章

    1014

    瀏覽量

    44207
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3147

    瀏覽量

    4078

原文標(biāo)題:通義千問能看圖了!阿里云開源視覺語言大模型Qwen-VL ,支持圖文雙模態(tài)輸入

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    阿里PAI上快速部署NVIDIA Cosmos Reason-1模型

    NVIDIA 近期發(fā)布了 Cosmos Reason-1 的 7B 和 56B 兩款多模態(tài)語言模型 (MLLM),它們經(jīng)過了“物理 AI 監(jiān)督微調(diào)”和“物理 AI 強(qiáng)化學(xué)習(xí)”兩個階段的訓(xùn)練。其中
    的頭像 發(fā)表于 06-04 13:43 ?309次閱讀

    寒武紀(jì)率先支持Qwen3全系列模型

    近日,阿里Qwen團(tuán)隊(duì)一口氣上新8大模型,Qwen3正式發(fā)布并全部開源。
    的頭像 發(fā)表于 05-07 15:51 ?424次閱讀

    壁仞科技完成阿里巴巴通義千問Qwen3全系列模型支持

    4月29日,阿里巴巴通義千問發(fā)布并開源8款新版Qwen3系列“混合推理模型”(簡稱“Qwen3”)。Qw
    的頭像 發(fā)表于 04-30 15:19 ?774次閱讀

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態(tài)模型

    熟悉愛芯通元NPU的網(wǎng)友很清楚,從去年開始我們在端側(cè)多模態(tài)模型適配上一直處于主動緊跟的節(jié)奏。先后適配了國內(nèi)最早開源的多模態(tài)大模MiniCPM V 2.0,上海人工智能實(shí)驗(yàn)室的書生多
    的頭像 發(fā)表于 04-21 10:56 ?1450次閱讀
    愛芯通元NPU適配<b class='flag-5'>Qwen2.5-VL</b>-3B<b class='flag-5'>視覺</b>多<b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多
    的頭像 發(fā)表于 03-17 15:32 ?4139次閱讀
    ?VLM(<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    利用英特爾OpenVINO在本地運(yùn)行Qwen2.5-VL系列模型

    近期阿里通義實(shí)驗(yàn)室在 Hugging Face 和 ModelScope 上開源Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72B 在內(nèi)的
    的頭像 發(fā)表于 03-12 13:42 ?1025次閱讀
    利用英特爾OpenVINO在本地運(yùn)行<b class='flag-5'>Qwen2.5-VL</b>系列<b class='flag-5'>模型</b>

    阿里通義Qwen2.5-Max模型全新升級

    )模型領(lǐng)域的最新探索成果。該模型經(jīng)過了超過20萬億tokens的預(yù)訓(xùn)練數(shù)據(jù)洗禮,展現(xiàn)出了極強(qiáng)勁的綜合性能。在多項(xiàng)公開主流模型評測基準(zhǔn)上,Qwen2.5-Max均取得了高分,全面超越了目
    的頭像 發(fā)表于 02-05 14:07 ?743次閱讀

    阿里通義開源長文本新模型Qwen2.5-1M

    近日,阿里通義宣布了一項(xiàng)重大開源舉措,推出了支持100萬Tokens上下文的Qwen2.5-1M模型
    的頭像 發(fā)表于 02-05 14:01 ?527次閱讀

    阿里發(fā)布開源模態(tài)推理模型QVQ-72B-Preview

    近日,阿里宣布了一項(xiàng)重大技術(shù)突破,正式發(fā)布了業(yè)界首個開源模態(tài)推理模型——QVQ-72B-Preview。這一
    的頭像 發(fā)表于 12-27 10:28 ?617次閱讀

    阿里開源推理大模型QwQ

    推理能力,尤其在數(shù)學(xué)和編程方面表現(xiàn)突出。其整體推理水平已經(jīng)可以與OpenAI的o1模型相媲美,這充分展示了QwQ的強(qiáng)大實(shí)力和潛力。 QwQ(Qwen with Questions)是通義千問Qwen
    的頭像 發(fā)表于 11-29 11:30 ?1174次閱讀

    阿里開源Qwen2.5-Coder代碼模型系列

    近日,阿里通義大模型團(tuán)隊(duì)宣布開源其通義千問代碼模型全系列,共包含6款Qwen2.5-Coder
    的頭像 發(fā)表于 11-14 11:28 ?989次閱讀

    PerfXCloud重磅升級 阿里開源最強(qiáng)視覺語言模型Qwen2-VL-7B強(qiáng)勢上線!

    體驗(yàn)吧! Qwen2-VL Qwen2-VL模型阿里推出,在描述圖像、理解視頻以及解答視覺相關(guān)問題等方面表現(xiàn)極為卓越。該
    的頭像 發(fā)表于 10-23 11:07 ?776次閱讀
    PerfXCloud重磅升級  <b class='flag-5'>阿里</b><b class='flag-5'>開源</b>最強(qiáng)<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>Qwen2-VL</b>-7B強(qiáng)勢上線!

    號稱全球最強(qiáng)開源模型 ——Qwen2.5 系列震撼來襲!PerfXCloud同步上線,快來體驗(yàn)!

    9月19日凌晨,阿里通義千問 正式開源Qwen2.5系列大模型 ,最新發(fā)布包括了語言模型
    的頭像 發(fā)表于 09-25 16:52 ?1581次閱讀
    號稱全球最強(qiáng)<b class='flag-5'>開源</b><b class='flag-5'>模型</b> ——<b class='flag-5'>Qwen</b>2.5 系列震撼來襲!PerfXCloud同步上線,快來體驗(yàn)!

    通義千問發(fā)布第二代視覺語言模型Qwen2-VL

    阿里巴巴旗下的通義千問近日宣布,其第二代視覺語言模型Qwen2-VL正式問世,并宣布旗艦模型
    的頭像 發(fā)表于 09-03 16:31 ?862次閱讀

    基于Qwen-Agent與OpenVINO構(gòu)建本地AI智能體

    Qwen2 是阿里巴巴集團(tuán) Qwen 團(tuán)隊(duì)研發(fā)的大語言模型和大型多模態(tài)
    的頭像 發(fā)表于 07-26 09:54 ?1263次閱讀
    基于<b class='flag-5'>Qwen</b>-Agent與OpenVINO構(gòu)建本地AI智能體