一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

最新基準(zhǔn)測(cè)試錯(cuò)誤率竟高達(dá)90%:紅綠燈認(rèn)錯(cuò)、勾股定理也不會(huì)

OpenCV學(xué)堂 ? 來源:新智元 ? 2023-11-02 16:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)讀】馬里蘭大學(xué)發(fā)布首個(gè)專為VLM設(shè)計(jì)的基準(zhǔn)測(cè)試HallusionBench,全面測(cè)試GPT-4V視覺錯(cuò)誤和語(yǔ)言幻覺。

GPT-4被吹的神乎其神,作為具備視覺能力的GPT-4版本——GPT-4V,也被大眾寄于了厚望。 但如果告訴你,初中生都知道的勾股定理,只適用于直角三角形。 然而GPT-4V卻自信將其用于鈍角三角形中計(jì)算斜邊長(zhǎng)度。

0d2da384-78cb-11ee-939d-92fbcf53809c.png

還有更離譜的,GPT-4V直接犯了致命的安全錯(cuò)誤,竟然認(rèn)為紅燈可以行駛。

0d324808-78cb-11ee-939d-92fbcf53809c.png

這到底是怎么回事呢? 馬里蘭大學(xué)的研究團(tuán)隊(duì)在探索過程中發(fā)現(xiàn)了這些問題,并在此基礎(chǔ)上提出了兩種主要的錯(cuò)誤類型:語(yǔ)言幻覺和視覺錯(cuò)覺,以此來闡釋這些錯(cuò)誤的原因。

0d458e36-78cb-11ee-939d-92fbcf53809c.png

論文鏈接:https://arxiv.org/abs/2310.14566

項(xiàng)目主頁(yè):https://github.com/tianyi-lab/HallusionBench

研究人員依據(jù)上述分析,創(chuàng)建了一個(gè)名為HallusionBench的圖像-語(yǔ)境推理基準(zhǔn)測(cè)試,旨在深入探討圖像與語(yǔ)境推理的復(fù)雜性。 基于他們的對(duì)于視覺能力的測(cè)試,GPT4V在回答視覺問題組的錯(cuò)誤率高達(dá)近90%。

0d4d8280-78cb-11ee-939d-92fbcf53809c.jpg

研究者們還對(duì)新發(fā)布的GPT-4V(ision)和LLaVA-1.5進(jìn)行了詳細(xì)的研究,深入分析了它們?cè)谝曈X理解方面的能力。 HallusionBench是第一個(gè)專為VLM設(shè)計(jì)的基準(zhǔn)測(cè)試,主要關(guān)注視覺錯(cuò)覺和知識(shí)幻覺。這個(gè)測(cè)試包括約200組視覺問答,其中近一半是由人工專家創(chuàng)作的。 目前數(shù)據(jù)已經(jīng)開源, 并且還在更新中。 涉及的圖片類型多樣,包括原始的錯(cuò)覺圖片、圖表、地圖、海報(bào)、視頻及手動(dòng)制作或修改的圖片,涵蓋數(shù)學(xué)、計(jì)數(shù)、文化、動(dòng)漫、體育和地理等多個(gè)領(lǐng)域。 論文中,作者初步闡述了HallusionBench中的兩種視覺問題分類:視覺依賴型(Visual Dependent)和視覺補(bǔ)充型(Visual Supplement),并討論了實(shí)驗(yàn)對(duì)照組的設(shè)計(jì)方法。 隨后,他們分析了可能導(dǎo)致答案錯(cuò)誤的兩大主要原因:視覺錯(cuò)覺(Visual Illusion)和語(yǔ)言幻覺(Language Hallucination)。 在文末,作者通過不同的子類別詳細(xì)展示了各主要類別中的失敗案例,并進(jìn)行了深入的分析。關(guān)鍵點(diǎn): 1. 「語(yǔ)言幻覺」:在GPT-4V和LLaVA-1.5中會(huì)誤導(dǎo)90%的樣本推理。視覺與語(yǔ)言之間的微妙平衡至關(guān)重要! 2. 「視覺錯(cuò)覺」:LVLMs中的視覺模塊容易受到復(fù)雜視覺上下文的影響,語(yǔ)言模型的錯(cuò)誤被夸大。 3. 簡(jiǎn)單的圖像修改就能欺騙GPT-4V和LLaVA-1.5,暴露了對(duì)更強(qiáng)大的圖像分析能力的需求。 4. GPT-4V在推理多個(gè)圖像之間的時(shí)間關(guān)系方面存在困難。 5. LLaVA-1.5有時(shí)會(huì)在常識(shí)查詢上犯錯(cuò),需要改進(jìn)其語(yǔ)言模型先驗(yàn)。

視覺問題類型

視覺依賴型問題(Visual Dependent):

這類問題的答案完全依賴于視覺內(nèi)容,缺乏圖像信息時(shí)無法確切回答。

這些問題通常關(guān)聯(lián)到圖像本身或其顯示的內(nèi)容。例如,在沒有圖像的情況下,無法準(zhǔn)確回答諸如「圖中右側(cè)的橙色圓圈是否與左側(cè)的同樣大小?」之類的問題。

視覺補(bǔ)充型問題(Visual Supplement):

這些問題即使在沒有視覺內(nèi)容的情況下也能得到回答。在這種類型的問題中,視覺元素僅提供附加信息。

比如,即便沒有圖片輔助,GPT-4V仍能回答「新墨西哥州是否比德克薩斯州大?」等問題。

測(cè)試的核心在于判斷GPT-4V和LLaVA-1.5能否利用圖像內(nèi)容來作答,而不是僅憑它們的參數(shù)化記憶。

錯(cuò)誤分類

作者對(duì)錯(cuò)誤回答進(jìn)行了分析,并將其原因分為兩大類:

視覺錯(cuò)誤(Language Hallucination):

這類錯(cuò)誤產(chǎn)生于對(duì)輸入圖像的錯(cuò)誤視覺識(shí)別和解釋。模型未能從圖像中提取準(zhǔn)確信息或?qū)ζ溥M(jìn)行正確推斷。語(yǔ)言幻覺(Visual Illusion):

模型基于其參數(shù)化知識(shí)庫(kù),對(duì)問題輸入和圖像背景作出不恰當(dāng)?shù)南热霝橹鞯募僭O(shè)。模型應(yīng)當(dāng)針對(duì)問題的具體環(huán)境作出反應(yīng),而不是忽略問題本身或?qū)D像作出錯(cuò)誤解讀。

范例

從圖1所展示的經(jīng)典視覺錯(cuò)覺案例中可見,GPT-4V在識(shí)別各種錯(cuò)覺圖像及其名稱上顯示出比LLaVA-1.5更豐富的知識(shí)儲(chǔ)備。

0d60089c-78cb-11ee-939d-92fbcf53809c.png

圖1 然而,在回答經(jīng)過編輯處理的圖像相關(guān)問題時(shí),GPT-4V未能提供精確答案。 這種現(xiàn)象可能源于GPT-4V更多地依賴于其參數(shù)化存儲(chǔ)的知識(shí),而不是實(shí)際對(duì)圖像進(jìn)行分析。 與此相反,無論是處理原始圖像還是編輯后的圖像,LLaVA-1.5的表現(xiàn)都相對(duì)較差,這反映出LLaVA-1.5在視覺識(shí)別方面的能力較為有限。 觀察圖2提供的樣本,可以發(fā)現(xiàn)GPT-4V和LLaVA-1.5均未能正確識(shí)別平行線、正三角形、多邊形及其他數(shù)學(xué)定理。 這一現(xiàn)象揭示了,對(duì)GPT-4V而言,在處理幾何和數(shù)學(xué)問題方面仍面臨較大挑戰(zhàn)。

0d659690-78cb-11ee-939d-92fbcf53809c.png

圖2 在圖3的展示中,作者指出了幾則海報(bào),展示的是一些知名的地方美食,但這些美食的地理特征遭到了改動(dòng)。 面對(duì)這樣的場(chǎng)景,GPT-4V和LLaVA-1.5都未能充分考慮上下文信息,忽略了圖像內(nèi)容,繼續(xù)根據(jù)文本中提及的知名產(chǎn)地來回答相關(guān)問題。

0d7b57aa-78cb-11ee-939d-92fbcf53809c.png

圖3 在圖4的案例中,作者進(jìn)一步探討了對(duì)多張圖片序列的處理能力。 圖片的順序排列和倒序排列在語(yǔ)義上常表現(xiàn)出對(duì)立的意義,例如「出現(xiàn)與消失」和「后退與前進(jìn)」。

0d8bc216-78cb-11ee-939d-92fbcf53809c.png

圖4 研究比較表明,盡管這些圖片序列描繪了不同的動(dòng)態(tài),GPT-4V依然未能區(qū)分這些圖片的順序和逆序排列。 這一發(fā)現(xiàn)指出,在視頻序列推理方面,GPT-4V仍需大幅度的優(yōu)化和提高。 圖5展示了一個(gè)案例,其中在缺乏圖像背景信息的情境下,GPT-4V提供了一個(gè)斷定性的回答。

0d9066d6-78cb-11ee-939d-92fbcf53809c.png

圖5 相對(duì)地,LLaVA-1.5,由于對(duì)文本的理解不足,提出了一個(gè)技術(shù)上無誤但與問題無關(guān)的答回答。 當(dāng)以修改后的π值作為視覺輸入,兩個(gè)模型均未能從圖像中正確識(shí)別和解釋這個(gè)值。 圖6中的情形顯示,當(dāng)缺少視覺輸入時(shí),GPT-4V和LLaVA-1.5都能準(zhǔn)確且斷定地作出回答。

0de0d288-78cb-11ee-939d-92fbcf53809c.png

圖6 然而,在表格作為視覺輸入的情況下,GPT-4V嘗試依據(jù)視覺信息解答,卻誤取了錯(cuò)誤數(shù)據(jù)。 例如,GPT-4V錯(cuò)誤地答道「中國(guó)贏得了36枚金牌」,盡管圖表實(shí)際顯示的是美國(guó)獲得了這些金牌。 相比之下,LLaVA-1.5更依賴于其參數(shù)化記憶,在分別處理問題和表格時(shí)表現(xiàn)不同。 在圖7的場(chǎng)景中,即使沒有視覺輔助,GPT-4V和LLaVA-1.5都作出了斷定性的答復(fù),其中GPT-4V的答案更為準(zhǔn)確和精確。

0e05426c-78cb-11ee-939d-92fbcf53809c.png

圖7 當(dāng)引入圖表作為視覺輸入,GPT-4V能精準(zhǔn)地根據(jù)圖表中的數(shù)據(jù)給出答案,而LLaVA-1.5則依賴于其參數(shù)化知識(shí)進(jìn)行回答。 但是,一旦圖表被翻轉(zhuǎn),GPT-4V對(duì)答案的預(yù)測(cè)發(fā)生了根本性變化。這個(gè)錯(cuò)誤可以被解釋為由視覺錯(cuò)覺引起的。 根據(jù)圖8,在缺乏圖像支持的情形下,GPT-4V和LLaVA-1.5均提供了確定的回答,但正確答案僅由GPT-4V給出。

0e2776fc-78cb-11ee-939d-92fbcf53809c.png

圖8 由此可以推斷,GPT-4V在知識(shí)層面上優(yōu)于LLaVA-1.5。 然而,當(dāng)?shù)貓D的視覺呈現(xiàn)發(fā)生改變時(shí),兩種模型由于其強(qiáng)大的參數(shù)記憶能力,均未能正確推斷出四個(gè)州的相對(duì)位置。

總結(jié)

近年來,隨著大規(guī)模語(yǔ)言模型和多模態(tài)研究的快速發(fā)展,人工智能領(lǐng)域經(jīng)歷了重大的變革。 自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(CV)的結(jié)合,不僅促成了大型視覺語(yǔ)言模型(LVLM)的誕生,而且顯著提高了圖像推理任務(wù)的性能。 但是,LVLM仍面臨著一些挑戰(zhàn),如語(yǔ)言幻覺和視覺錯(cuò)覺等問題。 本研究通過推出HallusionBench,旨在為VLM提供一個(gè)基準(zhǔn)測(cè)試,特別是在那些容易因語(yǔ)言幻覺或視覺錯(cuò)覺而失敗的復(fù)雜情況下。 我們對(duì)GPT-4V和LLaVA-1.5的不同示例和失敗案例進(jìn)行了深入探討,包括: 1. 在HallusionBench中,GPT-4V和LLaVA-1.5在處理含有先驗(yàn)知識(shí)的問題時(shí),往往會(huì)受到語(yǔ)言幻覺的影響。這些模型更傾向于依賴先驗(yàn)知識(shí),導(dǎo)致在我們的分析的例子中,超過90%的答案是錯(cuò)誤的。因此,模型需要在參數(shù)化記憶和輸入文本圖片之間找到一個(gè)平衡點(diǎn)。 2. 即便是在GPT-4V和LLaVA-1.5缺乏參數(shù)化記憶或先驗(yàn)知識(shí)的情況下,它們?nèi)匀蝗菀资艿揭曈X錯(cuò)覺的影響。這些模型常常在處理幾何圖形、數(shù)學(xué)圖像、視頻(多圖像場(chǎng)景)、復(fù)雜圖表等問題時(shí)給出錯(cuò)誤答案。目前,視覺語(yǔ)言模型在視覺處理方面的能力還很有限。 3. GPT-4V和LLaVA-1.5在HallusionBench中容易被一些基本的圖像操作所誤導(dǎo),如圖像翻轉(zhuǎn)、顛倒順序、遮擋、物體編輯以及顏色的修改等。目前的視覺語(yǔ)言模型尚未能有效處理這些圖像操作。 4. 雖然GPT-4V支持處理多圖,但在分析涉及時(shí)間線索的多圖像問題時(shí),它未能展現(xiàn)出有效的時(shí)間推理能力,在HallusionBench中表現(xiàn)欠佳。 5. 在HallusionBench的測(cè)試中,LLaVA-1.5由于知識(shí)庫(kù)相對(duì)較少,有時(shí)會(huì)犯下一些基本的錯(cuò)誤。 作者表示,他們的數(shù)據(jù)集已經(jīng)開源,并正在繼續(xù)擴(kuò)展數(shù)據(jù)庫(kù)。最新的數(shù)據(jù)會(huì)在Github (https://github.com/tianyi-lab/HallusionBench)上不斷更新。 這項(xiàng)研究為未來更加強(qiáng)大、平衡和精準(zhǔn)的LVLM奠定了基礎(chǔ),并期待通過這些詳細(xì)的案例研究,為未來研究提供一些可能方向。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41173
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3512

    瀏覽量

    50288
  • 視覺
    +關(guān)注

    關(guān)注

    1

    文章

    158

    瀏覽量

    24336

原文標(biāo)題:GPT-4V連小學(xué)生都不如?最新基準(zhǔn)測(cè)試錯(cuò)誤率竟高達(dá)90%:紅綠燈認(rèn)錯(cuò)、勾股定理也不會(huì)

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用PLC實(shí)現(xiàn)紅綠燈控制示例

    如圖為一個(gè)紅綠燈的控制時(shí)序圖,啟動(dòng)信號(hào)導(dǎo)通后,紅綠燈程序開始動(dòng)作。
    的頭像 發(fā)表于 05-29 09:45 ?477次閱讀
    使用PLC實(shí)現(xiàn)<b class='flag-5'>紅綠燈</b>控制示例

    紅綠燈小程序

    `初學(xué),搞個(gè)紅綠燈小程序。勿拍。。。`
    發(fā)表于 08-30 15:02

    交通紅綠燈

    本帖最后由 samuergao 于 2014-7-3 14:13 編輯 交通燈,并顯示當(dāng)前時(shí)間和倒計(jì)時(shí),包含了單條路遇到人行道的紅綠燈,還有十字路口的紅綠燈,大家?guī)涂纯从械母倪M(jìn)沒有。
    發(fā)表于 07-03 12:12

    紅綠燈問題求助?

    求做個(gè)紅綠燈 就一個(gè)路的紅綠燈
    發(fā)表于 10-22 10:53

    【分享】紅綠燈的設(shè)計(jì)

    本帖最后由 elecfans跑堂 于 2015-9-16 10:49 編輯 紅綠燈 的設(shè)計(jì),大神看看
    發(fā)表于 09-15 22:37

    紅綠燈

    `功能:1實(shí)現(xiàn)倒計(jì)時(shí)2實(shí)現(xiàn)黃燈閃爍3實(shí)現(xiàn)人行道紅綠燈提示 `
    發(fā)表于 12-28 14:55

    紅綠燈

    簡(jiǎn)單的紅綠燈狀態(tài)機(jī)做CLD練習(xí)用的,比較簡(jiǎn)單,發(fā)出來和大家交流一下
    發(fā)表于 12-21 14:32

    基于51單片機(jī)的紅綠燈設(shè)計(jì)

    這是一個(gè)基于51單片機(jī)的紅綠燈設(shè)計(jì),可以實(shí)現(xiàn)紅綠燈的功能,同時(shí)還有特殊情況是單向通行。
    發(fā)表于 01-06 14:30 ?67次下載

    005——帶時(shí)間顯示的紅綠燈

    005——帶時(shí)間顯示的紅綠燈.........................
    發(fā)表于 04-28 09:49 ?18次下載

    紅綠燈源程序

    紅綠燈源程序,感興趣的小伙伴們可以看看。
    發(fā)表于 06-17 15:42 ?34次下載

    紅綠燈的供電狀況解析

    很多紅綠燈則是“黑戶”(并不代表違規(guī)哦),它們的電則是從附近“借”來的,來源也是五花八門:附近的路燈、企業(yè)、公變臺(tái)區(qū)等等……這些紅綠燈,供電公司一般是不知道它的運(yùn)行情況的
    的頭像 發(fā)表于 12-04 16:53 ?7056次閱讀

    雙路紅綠燈開源分享

    電子發(fā)燒友網(wǎng)站提供《雙路紅綠燈開源分享.zip》資料免費(fèi)下載
    發(fā)表于 10-31 11:14 ?1次下載
    雙路<b class='flag-5'>紅綠燈</b>開源分享

    Arduino迷你紅綠燈

    電子發(fā)燒友網(wǎng)站提供《Arduino迷你紅綠燈.zip》資料免費(fèi)下載
    發(fā)表于 06-30 14:30 ?0次下載
    Arduino迷你<b class='flag-5'>紅綠燈</b>

    用樹莓派控制交通紅綠燈(進(jìn)階版)

    哇奧,今天才發(fā)現(xiàn)上一次建造的紅綠燈居然不對(duì),綠燈一般在下方,當(dāng)紅燈變綠燈時(shí)黃燈閃爍,我做的是綠燈變紅燈時(shí)黃燈閃爍!。這在我們開發(fā)時(shí)會(huì)碰到,
    的頭像 發(fā)表于 07-02 15:10 ?2408次閱讀
    用樹莓派控制交通<b class='flag-5'>紅綠燈</b>(進(jìn)階版)

    揭秘 “紅綠燈倒計(jì)時(shí)” 原理

    如今,高德“紅綠燈倒計(jì)時(shí)”功能已服務(wù)遍布全國(guó)范圍內(nèi)近240個(gè)城市的8萬多個(gè)紅綠燈路口,未來還將進(jìn)一步拓展至更高數(shù)量級(jí)。
    的頭像 發(fā)表于 02-21 17:19 ?4030次閱讀