一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

VizWiz數(shù)據(jù)集:用計算機(jī)視覺回答盲人的問題

zhKF_jqr_AI ? 來源:未知 ? 作者:李建兵 ? 2018-03-16 11:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

計算機(jī)視覺的應(yīng)用可以用來幫助盲人,無論是改善視力缺陷還是打破社交障礙。例如TapTapSee和CamFind等物體識別工具可以讓人們拍攝圖像,并識別目標(biāo)物體是什么,以及哪里能買到。另外,F(xiàn)acebook和Twitter推出的新功能可以識別和標(biāo)記圖片中的好友,讓人們與朋友保持聯(lián)系。計算機(jī)視覺應(yīng)用的下一個理想目標(biāo)是讓有視力障礙的人更自然地接收到關(guān)于周圍世界的信息。這一目標(biāo)的出現(xiàn)引起了人們對通用視覺問題解答(visual question answering)的興趣,該問題旨在準(zhǔn)確地回答任何有關(guān)圖像的問題。

在過去三年里,計算機(jī)視覺領(lǐng)域已經(jīng)涌現(xiàn)出了14種VQA數(shù)據(jù)集,但他們都是人工創(chuàng)建設(shè)置的,并且沒有一個數(shù)據(jù)集的圖片是來自盲人的或服務(wù)于盲人的。然而,可以這么說,盲人能夠產(chǎn)生訓(xùn)練算法所需的大量數(shù)據(jù)。近十年來,盲人群體通過拍照詢問他們拍的是什么,并且盲人通常是計算機(jī)視覺技術(shù)早期的使用者,這項(xiàng)技術(shù)將為他們的生活帶來極大的便利。

中國科學(xué)技術(shù)大學(xué)和美國卡內(nèi)基梅隆大學(xué)等高校的研究人員共同提出了第一個由盲人產(chǎn)生的視覺數(shù)據(jù)庫“VizWiz”,他們通過數(shù)據(jù)庫創(chuàng)建了一個手機(jī)程序,可以讓盲人通過拍照和詢問得到超過七萬個問題的答案。數(shù)據(jù)集剛開始構(gòu)建時嚴(yán)格對內(nèi)容進(jìn)行過濾,消除有可能侵犯個人隱私的視覺問題。之后通過眾包獲取圖像的答案來訓(xùn)練和評估算法,接著通過實(shí)驗(yàn)對圖像進(jìn)行特征分類、問題回答,最終發(fā)現(xiàn)了VizWiz與其他現(xiàn)有VQA數(shù)據(jù)集不同的地方。

VizWiz介紹

該VQA數(shù)據(jù)集由盲人提出的視覺問題組成,在四年時間里積累了72205個問題。表一總結(jié)了VizWiz收集數(shù)據(jù)的過程與其他數(shù)據(jù)庫的不同,其中明顯的區(qū)別是VizWiz包含來自盲人攝影師的圖像,并且提問方式是口頭而非文字。

表一

這種圖像質(zhì)量帶來了一般數(shù)據(jù)集中沒有的挑戰(zhàn),例如會有大量的模糊、光線不足、圖像內(nèi)容缺失等。另外,因?yàn)椤疤釂栒摺币彩恰芭臄z者”,所以有時問題可能與圖像無關(guān),如圖所示。

在對數(shù)據(jù)集的圖像進(jìn)行篩選時,研究人員將可能會泄露隱私的圖片分成以下幾類:

暴露個人信息,例如人臉、財務(wù)狀況、藥品處方。

某個地點(diǎn),例如郵箱地址、商業(yè)地點(diǎn)。

不雅內(nèi)容,例如***、褻瀆。

可疑的復(fù)雜場景,審查人員懷疑其中可能包括個人信息,但沒有找到明確的地方。

可疑的低質(zhì)量圖像,審查人員懷疑增強(qiáng)圖像質(zhì)量可能會暴露個人信息。

最終,研究人員通過IQ引擎、Facebook、Twitter或電子郵件公開接收圖像的答案。

VizWiz數(shù)據(jù)庫分析

接著,研究人員將對VizWiz中的問題和答案進(jìn)行可視化,他們分析了自然語言問題的類型、圖像都有哪幾類、答案分為哪幾類以及視覺問題無法回答的情況。

首先,問題的類別如下圖所示:

表中統(tǒng)計了所有問題的前六個字母。最內(nèi)環(huán)代表第一個字母,以此類推。可以看出,“這是什么?(What is this)”這個問題是最常見的。

然后,我們來分析數(shù)據(jù)庫中的圖像多樣性。尤其值得關(guān)注的是,我們的數(shù)據(jù)集中高質(zhì)量的圖像可以顯示單個標(biāo)志性的對象,因?yàn)樵谑占瘯r過濾掉了可疑圖像。在之前工作的基礎(chǔ)上,我們首先計算了VizWiz中所有圖像的平均圖像。如下圖所示:

接著,我們來分析答案的多樣性。我們首先用詞匯地圖將不同答案進(jìn)行可視化,如下圖所示:

文字越大,答案出現(xiàn)的頻率就越高。

VizWiz評估結(jié)果

研究人員用現(xiàn)有算法測試了VizWiz數(shù)據(jù)集的難度。首先是用現(xiàn)代VQA算法預(yù)測VizWiz數(shù)據(jù)集中視覺問題的答案,結(jié)果如下表所示:

可以看出前兩行的表現(xiàn)非常糟糕,而VizWiz的表現(xiàn)還是不錯的。

接著他們測試了算法是夠能區(qū)分某一問題是否可答的精確度,結(jié)果如下圖所示:

結(jié)果可見,研究人員提出的方法比現(xiàn)有方法的精確度提高了至少25%。

結(jié)語

在這篇論文中,研究人員介紹了一種VQA數(shù)據(jù)集——VizWiz,與一般數(shù)據(jù)集不同的是,其中的內(nèi)容都來自盲人拍攝的圖片,并由盲人對內(nèi)容進(jìn)行提問。通過對數(shù)據(jù)集的分析,研究人員對計算機(jī)視覺以及自然語言處理又有了新的認(rèn)識。更重要的一點(diǎn)是,VizWiz的出現(xiàn)能讓更多人關(guān)注針對盲人的技術(shù)需求,為開發(fā)專門的技術(shù)提供了新機(jī)會。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7256

    瀏覽量

    91897
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249601

原文標(biāo)題:VizWiz數(shù)據(jù)集:用計算機(jī)視覺回答盲人的問題

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    自動駕駛系統(tǒng)要完成哪些計算機(jī)視覺任務(wù)?

    Geiger 的研究主要集中在用于自動駕駛系統(tǒng)的三維視覺理解、分割、重建、材質(zhì)與動作估計等方面。他主導(dǎo)了自動駕駛領(lǐng)域著名數(shù)據(jù) KITTI 及多項(xiàng)自動駕駛計算機(jī)
    發(fā)表于 07-30 06:49

    用于計算機(jī)視覺訓(xùn)練的圖像數(shù)據(jù)介紹

    用于計算機(jī)視覺訓(xùn)練的圖像數(shù)據(jù)
    發(fā)表于 02-26 07:35

    計算機(jī)視覺講義

    計算機(jī)視覺講義:機(jī)器視覺是研究用計算機(jī)來模擬生物外顯或宏觀視覺功能的科學(xué)和技術(shù).機(jī)器視覺系統(tǒng)的首
    發(fā)表于 03-19 08:08 ?0次下載

    計算機(jī)視覺與機(jī)器視覺區(qū)別

     “計算機(jī)視覺”,是指用計算機(jī)實(shí)現(xiàn)人的視覺功能,對客觀世界的三維場景的感知、識別和理解。計算機(jī)視覺
    的頭像 發(fā)表于 12-08 09:27 ?1.3w次閱讀

    計算機(jī)視覺與圖像處理兩者之間是什么關(guān)系

    計算機(jī)視覺(computer vision),用計算機(jī)來模擬人的視覺機(jī)理獲取和處理信息的能力。
    發(fā)表于 11-26 16:11 ?8422次閱讀

    使用計算機(jī)視覺和人工智能來識別X射線中的計算機(jī)模型

    這些模型使用計算機(jī)視覺和人工智能(AI)分析胸部X射線圖像。它可以對肉眼通常無法識別的信息進(jìn)行分類,并有助于診斷。
    發(fā)表于 05-29 11:07 ?1099次閱讀

    計算機(jī)視覺常用算法_計算機(jī)視覺有哪些分類

    本文主要介紹了計算機(jī)視覺常用算法及計算機(jī)視覺的分類。
    的頭像 發(fā)表于 07-30 17:34 ?1.4w次閱讀

    用于計算機(jī)視覺訓(xùn)練的圖像數(shù)據(jù)

    角度的不同的攝像機(jī)查看圖像或來自醫(yī)療掃描儀的多維數(shù)據(jù)。 ? 用于計算機(jī)視覺訓(xùn)練的圖像數(shù)據(jù) Labelme:麻省理工學(xué)院
    的頭像 發(fā)表于 12-31 09:33 ?2649次閱讀

    用于計算機(jī)視覺訓(xùn)練的圖像數(shù)據(jù)

    計算機(jī)視覺使計算機(jī)能夠理解圖像和視頻的內(nèi)容。計算機(jī)視覺的目標(biāo)是使人類視覺系統(tǒng)可以實(shí)現(xiàn)任務(wù)自動化。
    的頭像 發(fā)表于 02-12 16:13 ?1634次閱讀

    機(jī)器學(xué)習(xí)和計算機(jī)視覺的前20個圖像數(shù)據(jù)

    計算機(jī)視覺使計算機(jī)能夠理解圖像和視頻的內(nèi)容。計算機(jī)視覺的目標(biāo)是使人類視覺系統(tǒng)可以實(shí)現(xiàn)任務(wù)自動化。
    發(fā)表于 01-28 07:40 ?5次下載
    機(jī)器學(xué)習(xí)和<b class='flag-5'>計算機(jī)</b><b class='flag-5'>視覺</b>的前20個圖像<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>

    如何使用計算機(jī)視覺技術(shù)識別棋子及其在棋盤上的位置

    本期我們將一起學(xué)習(xí)如何使用計算機(jī)視覺技術(shù)識別棋子及其在棋盤上的位置
    的頭像 發(fā)表于 03-21 13:16 ?3591次閱讀

    使用計算機(jī)視覺為工業(yè)工人進(jìn)行跌倒檢測

    電子發(fā)燒友網(wǎng)站提供《使用計算機(jī)視覺為工業(yè)工人進(jìn)行跌倒檢測.zip》資料免費(fèi)下載
    發(fā)表于 06-12 16:00 ?0次下載
    使<b class='flag-5'>用計算機(jī)</b><b class='flag-5'>視覺</b>為工業(yè)工人進(jìn)行跌倒檢測

    使用計算機(jī)視覺進(jìn)行電梯乘客計數(shù)

    電子發(fā)燒友網(wǎng)站提供《使用計算機(jī)視覺進(jìn)行電梯乘客計數(shù).zip》資料免費(fèi)下載
    發(fā)表于 06-12 15:35 ?0次下載
    使<b class='flag-5'>用計算機(jī)</b><b class='flag-5'>視覺</b>進(jìn)行電梯乘客計數(shù)

    工業(yè)計算機(jī)與商用計算機(jī)的區(qū)別

    與商用計算機(jī)的區(qū)別。 一、功能和設(shè)計 工業(yè)計算機(jī)通常用于工業(yè)控制和自動化系統(tǒng)中,其主要功能是提供數(shù)據(jù)采集、實(shí)時控制和監(jiān)測等功能。它們通常需要具備高可靠性、穩(wěn)定性和冗余性,以適應(yīng)惡劣的工業(yè)環(huán)境。工業(yè)
    的頭像 發(fā)表于 12-27 10:50 ?1022次閱讀

    機(jī)器視覺計算機(jī)視覺有什么區(qū)別

    。機(jī)器視覺的研究目標(biāo)是讓機(jī)器具有類似人類的視覺能力,能夠自動、準(zhǔn)確地完成各種視覺任務(wù)。 計算機(jī)視覺 計算
    的頭像 發(fā)表于 07-16 10:23 ?1169次閱讀