一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Google推出地標實例識別和圖像檢索人物數(shù)據(jù)集

汽車玩家 ? 來源: OFweek人工智能網(wǎng) ? 作者:將門創(chuàng)投 ? 2020-04-17 16:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著圖像檢索和實例識別技術的迅速發(fā)展,急需有效的基準數(shù)據(jù)來對不斷出現(xiàn)算法的性能進行有效測評。來自谷歌的研究人員為此設計并推出了Google Landmarks Dataset v2(GLDv2)數(shù)據(jù)集用于大規(guī)模、細粒度的地標實例識別和圖像檢索人物。這一數(shù)據(jù)集包含了200k個不同實例標簽共5M張圖像,其中包括測試集為檢索人物標注的118k張圖像。

這一數(shù)據(jù)集的特點不僅在于規(guī)模,而且在于考慮了許多真實應用中會遇到的問題,包括長尾特性、域外圖像、類內(nèi)豐富多樣性等特點。這一數(shù)據(jù)集除了可以作為檢索和識別人物的有效基準外,研究人員還通過學習圖像嵌入呈現(xiàn)了其用于遷移學習的潛力。

Google推出地標實例識別和圖像檢索人物數(shù)據(jù)集

圖像檢索與實例識別

圖像檢索和實例識別是計算機視覺研究領域的基本課題已經(jīng)有很長的研究歷史。其中圖像檢索的目的是基于查詢圖像來排序出最為相關的圖像,而實例識別則是為了識別出目標類別中的特定實例(例如從“油畫”類別中識別出“蒙娜麗莎”實例)。

但隨著技術的發(fā)展,兩種任務開始結合提高了技術額魯棒性和規(guī)模性,早期的數(shù)據(jù)集越來越不足以支撐算法的發(fā)展。此外在圖像分類、目標檢測等領域都出現(xiàn)了像ImageNet、COCO、OpenImages等大規(guī)模的數(shù)據(jù)集,而圖像檢索領域還在使用Oxford5k和Paris6k等數(shù)據(jù)較少、時間較老的數(shù)據(jù)集。由于其大多只包含了單個城市的數(shù)據(jù),使其訓練的結果難以大規(guī)模的泛化。

世界范圍內(nèi)的數(shù)據(jù)采集點的分布

很多現(xiàn)有的數(shù)據(jù)集都沒有涵蓋真實條件下的挑戰(zhàn)。例如用于視覺檢索的地標識別app會收到大量非地標的查詢圖像,包括動植物或各類產(chǎn)品等,這些查詢圖像原則上不應該得到任何查詢結果。此外絕大多數(shù)實例識別數(shù)據(jù)集僅僅有專題查詢能力,同時無法測量域外數(shù)據(jù)的假陽性率。

研究人員迫切需要更大、更具挑戰(zhàn)的數(shù)據(jù)來測評技術的發(fā)展,同時為將來的研究提供足夠的挑戰(zhàn)和動力。這一領域缺乏大規(guī)模數(shù)據(jù)的原因在于上千個標簽和上百萬圖像中進行數(shù)千個標簽的細粒度標注十分耗費人力,同時也不是簡單的外包可以完成,需要專業(yè)知識才能有效標注。為了解決這些問題,新的數(shù)據(jù)呼之欲出!

GLDv2

這一新數(shù)據(jù)集的主要目的是為了盡可能的模擬和覆蓋真實工業(yè)場景地標識別系統(tǒng)所面臨的挑戰(zhàn)。為了盡可能地覆蓋真實世界,需要非常多的圖像,因此這一數(shù)據(jù)集首先需要滿足大規(guī)模的特性;其次為了適應多種光照條件和視角,還需要每一個類別或實例標簽中的圖像具有豐富的類內(nèi)多樣性。真實情況下絕大多數(shù)圖像來源于著名的地標,而還有很多來源于不那么知名的地點,所以數(shù)據(jù)集還需要具備長尾特性。最后一個問題,在實際使用中,用戶會上傳各種各樣的查詢圖像,只有非常少的一部分圖像存在于數(shù)據(jù)集中,那么這些數(shù)據(jù)需要滿足域外查找特性(即能夠在不包含在訓練集中的查詢圖像上依然有效運行)。這些實際情況中的特點為識別算法的魯棒性提出了非常大的要求。

在這些因素的指導下,研究人員們開始收集對應的圖像并進行標注。數(shù)據(jù)主要來源于Wikimedia Commons,這是Wikipedia背后支撐的媒體資源庫。它覆蓋了世界范圍內(nèi)大部分的地標,同時還包括了Wiki Loves Monuments來自世界各地的文化遺跡高質量細粒度照片。此外研究人員還從眾包中獲取了真實的查詢照片。

在獲取了圖像后就需要標記數(shù)據(jù)集建立索引了。下圖顯示了從Wikimedia Commons中挖掘地標圖像的流程。

Wikimedia Commons中是按照分類學的方式組織資源。每一個分類有獨特的URL其中包含了所有相關的圖像列表。但這種方式并沒有合適的頂級分類來映射人造和自然地標的,于是研究人員采用了谷歌知識圖譜來發(fā)掘世界范圍內(nèi)的地標。

為了獲取WikiCommons中與地標相關的分類,研究人員從谷歌知識圖譜中查詢了“l(fā)andmarks”,“tourist attractions”,“points of interest”等等詞條,每次查詢都會返回圖譜實體,利用這一實體來獲取Wikipedia中的文章,并跟隨文章中的鏈接找到Wikimedia Commons分類頁面。隨后將所有圖像下載下來,并利用嚴格的分類來確定每一張圖像對應一種分類,并利用Wikimedia Commons中的url作為典型的類別標簽。依照這樣的方式獲取了訓練和索引集。而查詢數(shù)據(jù)集的構建則包含了包含地標的positive查詢和不包含地標的negative查詢。

由于視覺上的檢查發(fā)現(xiàn)檢索和識別結果出現(xiàn)了一些錯誤,主要由于遺漏了基準標注,原因源于以下幾個方面:眾包帶來的錯誤和遺漏、某些查詢圖像包含多個地標,但基準只有一個結果、某一圖像在不同層次具有不同的標簽、某些negative查詢圖像實際上是地標圖像。為了解決這些問題,需要對測試集進行重新標注。

Google推出地標實例識別和圖像檢索人物數(shù)據(jù)集

GLDv2數(shù)據(jù)集與其他數(shù)據(jù)的比較

最終研究人員得到了五百萬張超過二十萬個不同實例地點的數(shù)據(jù)集,成為了目前領域內(nèi)最大的實例識別數(shù)據(jù)。它最終分為三個部分,一部分是118k包含基準標注的查詢數(shù)據(jù)、4.1M圖像包含203k地標標簽的訓練數(shù)據(jù)、包含101k地標的762k張索引圖像。此外還給出了一個小型的數(shù)據(jù)集包括1.2M圖像和15k地標。與其他數(shù)據(jù)集相比,這一新數(shù)據(jù)集的規(guī)模和多樣性都是無可比擬的:

Google推出地標實例識別和圖像檢索人物數(shù)據(jù)集

Google推出地標實例識別和圖像檢索人物數(shù)據(jù)集

采集自世界范圍內(nèi)的圖像,分類圖顯示了超過25k地點類別直方圖

強有力的數(shù)據(jù)集

為了檢驗這一數(shù)據(jù)集的能力,研究人員進行了一系列實驗。首先在GLDv2數(shù)據(jù)上進行訓練,測試了模型的遷移能力。通過學習全局描述子并測評他們在獨立地標檢索數(shù)據(jù)中的表現(xiàn)(Revisited Oxford,ROxf 和 Revisited Paris, RPar) 。下表顯示了這一數(shù)據(jù)集可以顯著提高模型的性能,mAP的提升將近5%。

Google推出地標實例識別和圖像檢索人物數(shù)據(jù)集

針對識別和檢索任務下面兩個表展示了基于不同模型和數(shù)據(jù)集上的比較結果可以看到基于GLDv2數(shù)據(jù)集的模型性能得到了顯著提升。

Google推出地標實例識別和圖像檢索人物數(shù)據(jù)集

此外在檢索挑戰(zhàn)任務上進行了測評,包括了全局特征搜索和局域特征匹配重排等技術。結果顯示,即使使用了復雜的技術,這一數(shù)據(jù)集仍然具有可以挖掘提升的空間。

Google推出地標實例識別和圖像檢索人物數(shù)據(jù)集

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6231

    瀏覽量

    108183
  • 數(shù)據(jù)集

    關注

    4

    文章

    1224

    瀏覽量

    25459
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Google Fast Pair服務簡介

    其谷歌賬號,并嘗試配對已保存到其谷歌賬號的設備時所發(fā)生的一系列事件。在此過程中,新手機會識別出廣播里的Model ID ,它已保存到用戶的 Google 帳號中,并提供一條通知,以加快將該設備與這部
    發(fā)表于 06-29 19:28

    數(shù)據(jù)下載失敗的原因?

    數(shù)據(jù)下載失敗什么原因太大了嗎,小的可以下載,想把大的下載去本地訓練報錯網(wǎng)絡錯誤 大的數(shù)據(jù)多大?數(shù)據(jù)量有多少?
    發(fā)表于 06-18 07:04

    Gemini API集成Google圖像生成模型Imagen 3

    開發(fā)者現(xiàn)在可以通過 Gemini API 訪問 Google 最先進的圖像生成模型 Imagen 3。該模型最初僅對付費用戶開放,不久后也將面向免費用戶推出
    的頭像 發(fā)表于 05-14 16:53 ?447次閱讀

    NVIDIA推出開源物理AI數(shù)據(jù)

    標準化合成數(shù)據(jù)的初始版本預計將成為世界上最大的此類數(shù)據(jù),目前已作為開源版本提供給機器人開發(fā)人員。
    的頭像 發(fā)表于 03-24 17:52 ?624次閱讀

    請問NanoEdge AI數(shù)據(jù)該如何構建?

    我想用NanoEdge來識別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數(shù)據(jù)的問題,請問我該怎么構建數(shù)據(jù)?或者生成模型失敗還會有哪
    發(fā)表于 03-10 08:20

    如何開發(fā)一款Google Find My Tag?

    一:Apple Find My 是蘋果公司推出的一項設備定位和追蹤服務,旨在幫助用戶查找丟失的 Apple 設備(如 iPhone、iPad、Mac、Apple Watch)以及其他支持 Find
    發(fā)表于 03-05 17:39

    ??低曃乃汛鎯ο盗校嚎缒B(tài)檢索,安防新境界

    ??低?b class='flag-5'>推出的文搜存儲系列產(chǎn)品,引領了安防領域的信息檢索新革命。該產(chǎn)品憑借多模態(tài)大模型技術,實現(xiàn)了自然語言與視頻圖像的跨模態(tài)信息檢索,將安防錄像回溯帶入了全新的智能時代。 用戶只需輸入
    的頭像 發(fā)表于 02-18 14:08 ?705次閱讀

    Google Play如何幫助您的應用變現(xiàn)

    海外市場等。本文將重點介紹 Google Play 如何幫助您的應用變現(xiàn)。 ? 靈活便捷的變現(xiàn)工具 "Google Play 已經(jīng)推出和即將推出的眾多變現(xiàn)工具一
    的頭像 發(fā)表于 01-21 11:21 ?701次閱讀
    <b class='flag-5'>Google</b> Play如何幫助您的應用變現(xiàn)

    依托新的全球數(shù)據(jù)識別人工智能領域新一輪涌現(xiàn)的杰出女性

    總部位于英國的人才數(shù)據(jù)和分析公司Zeki Data今日宣布推出一款新的數(shù)據(jù)洞察產(chǎn)品Talent Multiplier,該產(chǎn)品能精準識別那些企業(yè)希望招募、資助或投資的處于人工智能創(chuàng)新前沿
    的頭像 發(fā)表于 01-19 09:39 ?341次閱讀

    采用華為云 Flexus 云服務器 X 實例部署 YOLOv3 算法完成目標檢測

    YOLOv3 在圖像識別和目標檢測領域展現(xiàn)出了卓越的性能。為了滿足日益增長的數(shù)據(jù)處理需求,本項目利用華為云最新推出的 Flexus 云服務器 X 實例的強大計算能力,部署 YOLOv
    的頭像 發(fā)表于 01-02 12:00 ?545次閱讀
    采用華為云 Flexus 云服務器 X <b class='flag-5'>實例</b>部署 YOLOv3 算法完成目標檢測

    卡爾曼濾波在圖像處理中的應用實例 如何調(diào)優(yōu)卡爾曼濾波參數(shù)

    卡爾曼濾波在圖像處理中的應用實例 卡爾曼濾波在圖像處理中主要應用于目標跟蹤、噪聲消除和圖像恢復等方面。以下是一些具體的應用實例: 目標跟蹤
    的頭像 發(fā)表于 12-16 09:11 ?1838次閱讀

    AI圖像識別攝像機

    隨著科技的迅猛發(fā)展,人工智能(AI)在各個領域的應用越來越廣泛,其中圖像識別技術尤為引人注目。AI圖像識別攝像機作為這一技術的重要應用之一,正在逐步改變我們的生活和工作方式。什么是AI圖像識別攝像機
    的頭像 發(fā)表于 11-08 10:38 ?879次閱讀
    AI<b class='flag-5'>圖像識別</b>攝像機

    AI大模型在圖像識別中的優(yōu)勢

    AI大模型在圖像識別中展現(xiàn)出了顯著的優(yōu)勢,這些優(yōu)勢主要源于其強大的計算能力、深度學習算法以及大規(guī)模的數(shù)據(jù)處理能力。以下是對AI大模型在圖像識別中優(yōu)勢的介紹: 一、高效性與準確性 處理速度 :AI
    的頭像 發(fā)表于 10-23 15:01 ?2446次閱讀

    軟件系統(tǒng)的數(shù)據(jù)檢索設計

    軟件系統(tǒng)的數(shù)據(jù)檢索設計 隨著業(yè)務量加大,數(shù)據(jù)檢索量也會日益增多,為了減輕數(shù)據(jù)庫壓力,本系統(tǒng)采用ElasticSearch來實現(xiàn)數(shù)據(jù)檢索功能。 簡單來說,Elasticsearch 是一
    的頭像 發(fā)表于 08-22 14:08 ?493次閱讀
    軟件系統(tǒng)的<b class='flag-5'>數(shù)據(jù)檢索</b>設計

    成都微光電發(fā)布車規(guī)級MIA2001圖像傳感器

    成都微光電近日隆重推出了其專為汽車視覺系統(tǒng)設計的旗艦產(chǎn)品——MIA2001圖像傳感器。這款高性能傳感器融合了成都微光電的最新科技成果,專為提升駕駛安全與視覺體驗而生。
    的頭像 發(fā)表于 07-26 16:36 ?1087次閱讀