一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

VISPROG:以神經(jīng)符號(hào)方式將人工智能推向更廣泛、更復(fù)雜的任務(wù)領(lǐng)域

CVer ? 來源:AI Around ? 2023-07-10 15:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文將為大家介紹CVPR 2023年最佳論文兩篇中的Visual Programming: Compositional visual reasoning without training (視覺編程:無需訓(xùn)練的組合式視覺推理),代碼已開源。

16ef7da6-1ec7-11ee-962d-dac502259ad0.png

Title:

VisualProgramming:Compositionalvisualreasoningwithouttraining

Paper:

https://openaccess.thecvf.com/content/CVPR2023/html/Gupta_Visual_Programming_Compositional_Visual_Reasoning_Without_Training_CVPR_2023_paper.html

Code:

https://github.com/allenai/visprog

01

/導(dǎo)讀/

VISPROG是一種神經(jīng)符號(hào)方法,可利用自然語言指令解決復(fù)雜的組合式視覺任務(wù)。VISPROG避免了任何特定于任務(wù)的訓(xùn)練需求。相反,它利用大型語言模型的上下文學(xué)習(xí)能力生成類似Python的可組合程序,這些程序?qū)⒈粓?zhí)行以獲得解決方案和全面可解釋的推理結(jié)果。生成的程序的每一行可以調(diào)用多個(gè)現(xiàn)成的計(jì)算機(jī)視覺模型、圖像處理子程序或Python函數(shù)以生成中間輸出,后續(xù)程序部分可以使用這些中間輸出。在四項(xiàng)不同的任務(wù)中展示了VISPROG的靈活性:組合式視覺問答、基于圖像對的零樣本推理、實(shí)際知識(shí)對象標(biāo)注和語言引導(dǎo)圖像編輯。類似VISPROG這樣的神經(jīng)符號(hào)方法是擴(kuò)展人工智能系統(tǒng)范圍、為人們提供執(zhí)行復(fù)雜任務(wù)的有效途徑。

1710c09c-1ec7-11ee-962d-dac502259ad0.png

VISPROG是一種可組合和可解釋的神經(jīng)符號(hào)系統(tǒng),用于進(jìn)行組合式視覺推理。給定自然語言指令和高層次程序的幾個(gè)示例,VISPROG利用GPT-3的上下文學(xué)習(xí)功能針對任何新指令生成程序,并在輸入的圖像上執(zhí)行程序以獲取預(yù)測結(jié)果。VISPROG還將中間輸出總結(jié)為可以解釋的視覺說明。

02

/模塊/

VisProg目前支持20個(gè)模塊,可實(shí)現(xiàn)圖像理解、圖像操作(包括生成)、知識(shí)檢索和算術(shù)和邏輯操作等能力。在這里顯示的紅色模塊是使用經(jīng)過訓(xùn)練的最先進(jìn)神經(jīng)模型實(shí)現(xiàn)的,而藍(lán)色模塊是使用多種Python庫(如PIL、OpenCV和AugLy)實(shí)現(xiàn)的非神經(jīng)Python函數(shù)。

174af37a-1ec7-11ee-962d-dac502259ad0.png

在VISPROG中,每個(gè)模塊都被實(shí)現(xiàn)為一個(gè)Python類,見下述代碼,其具有以下方法:

(i)解析行以提取輸入?yún)?shù)的名稱和值以及輸出變量的名稱;

(ii)執(zhí)行必要的計(jì)算,可能涉及訓(xùn)練過的神經(jīng)模型,并更新程序狀態(tài)以獲得輸出變量的名稱和值;

(iii)使用HTML方式以可視方式總結(jié)該步驟的計(jì)算(用于創(chuàng)建visual rationales)。

要向VISPROG添加新模塊,只需要實(shí)現(xiàn)并注冊一個(gè)模塊類,程序的執(zhí)行使用該模塊將由VISPROG解釋器自動(dòng)處理。

1774fae4-1ec7-11ee-962d-dac502259ad0.png

03

/VISPROG中的程序生成/

VisProg通過向LLM GPT-3提供指令及其相關(guān)的示例指令和對應(yīng)程序,來生成程序。與以前的方法如神經(jīng)模塊網(wǎng)絡(luò)(Neural Module Network)不同,VisProg利用大規(guī)模語言模型的上下文學(xué)習(xí)能力來生成程序,而不是使用預(yù)先定義的模塊。這使生成的程序更加靈活且能夠處理更多的組合式視覺任務(wù)。

179e0772-1ec7-11ee-962d-dac502259ad0.png

04

/可解釋性/

VisProg不僅生成高度可解釋的程序,還通過將每個(gè)步驟的輸入和輸出的摘要拼接在一起生成visual rationales,以幫助理解和調(diào)試程序執(zhí)行期間的信息流。下面是兩個(gè)visual rationales的示例。

使用自然語言進(jìn)行圖像編輯

17fd64f6-1ec7-11ee-962d-dac502259ad0.png

關(guān)于圖像對的推理(自然語言視覺推理)

1867dd7c-1ec7-11ee-962d-dac502259ad0.png

04

/結(jié)果可視化/

在組合式視覺問答、基于零樣本的圖像對推理(僅使用單張圖像VQA模型)、實(shí)際知識(shí)對象標(biāo)記和語言引導(dǎo)的圖像編輯等復(fù)雜視覺任務(wù)上展示了VisProg。下圖展示了VisProg在對象標(biāo)記和圖像編輯任務(wù)上的能力。

1895ef0a-1ec7-11ee-962d-dac502259ad0.png

更多關(guān)于所有任務(wù)的定性結(jié)果以及相應(yīng)的視覺說明,包括由于程序生成中的邏輯錯(cuò)誤或模塊預(yù)測錯(cuò)誤而導(dǎo)致的失敗案例,請根據(jù)下面鏈接下載查閱:

https://openaccess.thecvf.com/content/CVPR2023/supplemental/Gupta_Visual_Programming_Compositional_CVPR_2023_supplemental.zip

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模塊
    +關(guān)注

    關(guān)注

    7

    文章

    2788

    瀏覽量

    50389
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49028

    瀏覽量

    249521
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4827

    瀏覽量

    86756

原文標(biāo)題:CVPR 2023 最佳論文!VISPROG:以神經(jīng)符號(hào)方式將人工智能推向更廣泛、更復(fù)雜的任務(wù)領(lǐng)域

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    嵌入式和人工智能究竟是什么關(guān)系?

    嵌入式和人工智能究竟是什么關(guān)系? 嵌入式系統(tǒng)是一種特殊的系統(tǒng),它通常被嵌入到其他設(shè)備或機(jī)器中,實(shí)現(xiàn)特定功能。嵌入式系統(tǒng)具有非常強(qiáng)的適應(yīng)性和靈活性,能夠根據(jù)用戶需求進(jìn)行定制化設(shè)計(jì)。它廣泛應(yīng)用于各種
    發(fā)表于 11-14 16:39

    未來的人工智能技術(shù)趨勢是什么?

    隨著Google、Microsoft和Facebook等巨頭的大力投入,深度學(xué)習(xí)正在超越機(jī)器學(xué)習(xí),人工智能來勢兇猛。那么,如今人工智能最熱門的技術(shù)趨勢是什么?黑匣認(rèn)為,復(fù)雜神經(jīng)網(wǎng)絡(luò)、L
    發(fā)表于 12-23 14:21

    人工智能事實(shí)上是一種生物進(jìn)化歷程的壓縮

    ,執(zhí)行化合生命體無法執(zhí)行的或復(fù)雜或規(guī)模龐大的任務(wù)等等。值得一提的是,機(jī)器翻譯是人工智能的重要分支和最先應(yīng)用領(lǐng)域。不過就已有的機(jī)譯成就來看,機(jī)譯系統(tǒng)的譯文質(zhì)量離終極目標(biāo)仍相差甚遠(yuǎn);而機(jī)譯
    發(fā)表于 03-08 10:56

    百度總裁:百度在人工智能領(lǐng)域已有重大突破

      隨著阿法狗大戰(zhàn)李世石,人工智能引發(fā)越來越多的關(guān)注。百度總裁張亞勤28日表示,百度長期堅(jiān)持技術(shù)創(chuàng)新,2015年研發(fā)投入超過100億元,目前在人工智能領(lǐng)域已有重大突破?! 垇喦谠谔旖蛳募具_(dá)沃斯論壇
    發(fā)表于 07-01 15:22

    人工智能已經(jīng)進(jìn)入醫(yī)療領(lǐng)域

    方式保存起來,當(dāng)需要的時(shí)候在一定的授權(quán)下能夠很快的調(diào)回使用,同時(shí)增加一些輔助診斷管理功能。如今,隨著人工智能技術(shù)的逐步興起,為放射科醫(yī)生提高工作效率提供了更多可能。通過人工智能算法,機(jī)器可以自動(dòng)讀取
    發(fā)表于 05-24 15:07

    人工智能到底用 GPU?還是用 FPGA?

    `我思故我在 亮出你的觀點(diǎn)自從類神經(jīng)網(wǎng)絡(luò)算法可以用強(qiáng)大的運(yùn)算能力加以模擬之后,強(qiáng)人工智能才開始出現(xiàn)。即便如此,目前 CPU 的運(yùn)算能力來講,模擬類神經(jīng)網(wǎng)絡(luò)算法的代價(jià)非常之大,于是有人
    發(fā)表于 08-23 15:42

    人工智能和機(jī)器學(xué)習(xí)的前世今生

    可以交替使用的概念,這或多或少地加重了與這些概念相關(guān)聯(lián)的已經(jīng)存在的混淆程度。讓我們領(lǐng)會(huì)這些概念,直截了當(dāng)?shù)乩斫馑鼈兊膬?nèi)涵和之間的細(xì)微差別。人工智能是一個(gè)比機(jī)器學(xué)習(xí)更廣泛的概念。它是關(guān)于人類的認(rèn)知
    發(fā)表于 08-27 10:16

    全語音人工智能AI耳機(jī),或引爆智能耳機(jī)市場

    ,阿里巴巴集團(tuán)董事局主席馬云人工智能重新定義為:未來的一種生活方式。人工智能正在改變一切,在未來將會(huì)顛覆所有的商業(yè)應(yīng)用,影響每一個(gè)人的生活。那么,當(dāng)
    發(fā)表于 11-02 11:55

    人工智能:超越炒作

    。對于人工智能用例在當(dāng)前物聯(lián)網(wǎng)環(huán)境中變?yōu)楝F(xiàn)實(shí),必須滿足三個(gè)條件:非常大的真實(shí)數(shù)據(jù)集具有重要處理能力的硬件架構(gòu)和環(huán)境開發(fā)新的強(qiáng)大算法和人工神經(jīng)網(wǎng)絡(luò)(ANN)充分利用上述內(nèi)容很明顯,后兩
    發(fā)表于 05-29 10:46

    人工智能后續(xù)什么形式發(fā)展?

    從2014年開始,人工智能逐漸成為科技領(lǐng)域最熱門的概念,被科技界,企業(yè)界和媒體廣泛關(guān)注。作為一個(gè)學(xué)術(shù)領(lǐng)域,人工智能是在1956年夏季,
    發(fā)表于 08-12 07:53

    人工智能的應(yīng)用領(lǐng)域有哪些?

    ` 本帖最后由 cdhqyj 于 2020-10-23 11:09 編輯 人工智能的應(yīng)用領(lǐng)域有哪些?人工智能的定義可以分為兩部分,即“人工”和“
    發(fā)表于 10-23 11:07

    中國人工智能的現(xiàn)狀與未來

    中國人工智能的現(xiàn)狀與未來,人工智能是目前最火熱的技術(shù)領(lǐng)域,也是一門極富挑戰(zhàn)性的科學(xué),從事這項(xiàng)工作的人必須懂得計(jì)算機(jī)知識(shí),數(shù)學(xué)、心理學(xué),甚至哲學(xué)。人工智能是包括十分
    發(fā)表于 07-27 06:40

    什么是人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理?

    ,機(jī)器人現(xiàn)在可以與具有多任務(wù)處理能力的人類工作者一起工作。計(jì)算機(jī)視覺、傳感器網(wǎng)絡(luò)和人工智能廣泛應(yīng)用于數(shù)控機(jī)床和裝配線,減少誤差,實(shí)現(xiàn)自動(dòng)修正和提高生產(chǎn)率。交通: 基于應(yīng)用程序的出租車
    發(fā)表于 03-22 11:19

    《移動(dòng)終端人工智能技術(shù)與應(yīng)用開發(fā)》人工智能的發(fā)展與AI技術(shù)的進(jìn)步

    人工智能打發(fā)展是算法優(yōu)先于實(shí)際應(yīng)用。近幾年隨著人工智能的不斷普及,許多深度學(xué)習(xí)算法涌現(xiàn),從最初的卷積神經(jīng)網(wǎng)絡(luò)(CNN)到機(jī)器學(xué)習(xí)算法的時(shí)代。由于應(yīng)用環(huán)境的差別衍生出不同的學(xué)習(xí)算法:線性回歸,分類與回歸樹
    發(fā)表于 02-17 11:00

    神經(jīng)符號(hào)人工智能如何書寫未來

    符號(hào)人工智能神經(jīng)網(wǎng)絡(luò)還是完完全全的兩個(gè)世界,相互對立。人工智能領(lǐng)域的大佬們常常各執(zhí)一詞,在支持一種方法的同時(shí),必將否定另一種方法。
    發(fā)表于 01-07 13:38 ?2366次閱讀