一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌發(fā)布查找在線數(shù)據(jù)的搜索引擎Dataset Search

KIyT_gh_211d74f ? 來源:未知 ? 作者:胡薇 ? 2018-09-11 16:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

9 月 5 日,谷歌發(fā)布了一個(gè)幫助研究者查找在線數(shù)據(jù)的免費(fèi)搜索引擎 Dataset Search。谷歌表示,該引擎面向「科學(xué)家、數(shù)據(jù)記者、數(shù)據(jù)極客等人群」。該引擎有助于促進(jìn)數(shù)據(jù)的開放利用和重復(fù)利用。

Dataset Search 與谷歌的其他專用搜索引擎(如用于搜索新聞和圖像的引擎,以及 Google Scholar 和 Google Books)一樣可以免費(fèi)使用,它基于擁有者對(duì)文件和數(shù)據(jù)庫的分類方式來查找文件和數(shù)據(jù)集。該引擎讀取文件內(nèi)容的方式與搜索引擎搜索網(wǎng)頁的方式不同。有專家表示,該引擎填補(bǔ)了這一領(lǐng)域的空白,可以極大地促進(jìn)開放數(shù)據(jù)運(yùn)動(dòng)的發(fā)展,這一運(yùn)動(dòng)旨在實(shí)現(xiàn)數(shù)據(jù)的開放利用和重復(fù)利用。

政府機(jī)構(gòu)、科學(xué)出版社、研究機(jī)構(gòu)甚至是個(gè)人研究者在全世界維護(hù)著成千上萬的開源數(shù)據(jù)資源庫,包含了數(shù)百萬個(gè)數(shù)據(jù)集。

但那些想知道哪些類型的數(shù)據(jù)可用,或者那些希望定位已經(jīng)存在的數(shù)據(jù)的研究者,通常依賴于口耳相傳的信息。來自加州山景城的 Google AI 計(jì)算機(jī)科學(xué)家 Natasha Noy 說。

對(duì)于那些處于研究生涯早期階段且還沒有建立專業(yè)聯(lián)系網(wǎng)絡(luò)的研究者而言,這個(gè)問題尤其嚴(yán)重,Noy 說。這對(duì)于那些做交叉學(xué)科研究的人而言也是個(gè)嚴(yán)重的缺陷。例如,流行病學(xué)家需要訪問氣候數(shù)據(jù),其可能與某種病毒的傳播相關(guān)。

分類搜索

2017 年 1 月,Noy 及其谷歌同事 Dan Brickley 在一篇谷歌博客(https://ai.googleblog.com/2017/01/facilitating-discovery-of-public.html)中首次介紹了解決該問題的策略。

典型的搜索引擎分兩個(gè)階段運(yùn)行。第一個(gè)階段是通過在互聯(lián)網(wǎng)上持續(xù)搜索來索引可用網(wǎng)頁。第二個(gè)階段是對(duì)索引網(wǎng)頁進(jìn)行排序,以使用戶輸入搜索詞時(shí),搜索引擎能夠按相關(guān)度排序來提供搜索結(jié)果。

Noy 和 Brickley 寫道,為了幫助搜索引擎索引現(xiàn)有數(shù)據(jù)集,擁有數(shù)據(jù)集的人應(yīng)該使用一個(gè)叫作 Schema.org 的標(biāo)準(zhǔn)化詞匯表來「標(biāo)記」數(shù)據(jù)集,Schema.org 是谷歌和另外三個(gè)搜索引擎巨頭(微軟、雅虎和 Yandex)一起發(fā)起的項(xiàng)目,由 Brickley 管理。谷歌團(tuán)隊(duì)還開發(fā)了一種特殊算法來對(duì)搜索結(jié)果中的數(shù)據(jù)集進(jìn)行排序。

由于谷歌在網(wǎng)頁搜索中的主導(dǎo)地位,谷歌正在快速轉(zhuǎn)入數(shù)據(jù)生態(tài)系統(tǒng)的消息刺激主要搜索引擎巨頭進(jìn)入該戰(zhàn)場,對(duì)元數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,倫敦?cái)?shù)據(jù)共享公司 Figshare CEO Mark Hahnel 說道。(Figshare 由霍爾茨布林克出版集團(tuán)管理,該集團(tuán)也對(duì) Nature 的出版公司持有大量股份。)

「到 11 月,我們接觸的所有大學(xué)的數(shù)據(jù)都已經(jīng)標(biāo)記完成。我認(rèn)為這對(duì)學(xué)界的開放數(shù)據(jù)而言是一項(xiàng)重要變革?!笻ahnel 說道。

Hahnel 認(rèn)為,融資機(jī)構(gòu)有時(shí)強(qiáng)制要求研究數(shù)據(jù)必須可獲取,而只要信息能夠高效獲取,他們就能達(dá)到其最終目的?!高@使得投資機(jī)構(gòu)一直嘗試做的事合法化?!?/p>

谷歌為用戶提供了能夠同時(shí)搜索多個(gè)存儲(chǔ)區(qū)的單個(gè)界面,希望借此改變用戶發(fā)布和運(yùn)用數(shù)據(jù)的方式。谷歌表示這個(gè)項(xiàng)目能夠帶來下列好處:

形成數(shù)據(jù)共享生態(tài)系統(tǒng),鼓勵(lì)數(shù)據(jù)發(fā)布者依照最佳做法來存儲(chǔ)和發(fā)布數(shù)據(jù);

為科學(xué)家提供相應(yīng)平臺(tái),方便大眾引用他們創(chuàng)建的數(shù)據(jù)集,展現(xiàn)他們的研究成果所帶來的影響力。

搜索試驗(yàn)

目前谷歌已經(jīng)正式對(duì)外測試開源數(shù)據(jù)集搜索引擎,用戶在鍵入數(shù)據(jù)集名稱或關(guān)鍵信息后,該搜索引擎會(huì)給出一系列數(shù)據(jù)源列表,每一個(gè)數(shù)據(jù)源都會(huì)有簡要的介紹,例如更新日期、作者、版權(quán)和內(nèi)容說明等。值得注意的是,除了數(shù)據(jù)集資源,該搜索引擎還能檢索到很多 Kaggle 上的預(yù)訓(xùn)練模型。在機(jī)器之心的嘗試中,我們分別以 CIFAR-10、Object Detection 和 SQuAD 為關(guān)鍵詞搜索數(shù)據(jù)集,發(fā)現(xiàn)了一些很有意思的結(jié)果。

首先我們檢索了十分常用的圖像分類數(shù)據(jù)集 CIFAR-10,該數(shù)據(jù)集包含 10 個(gè)類別共 60000 張 32x32 的彩色圖像,且分為 50000 張訓(xùn)練圖像和 10000 張測試圖像。搜索結(jié)果共給出了 9 項(xiàng)來源,包括數(shù)據(jù)集、預(yù)訓(xùn)練模型和對(duì)比結(jié)果。

例如在排名第一的搜索結(jié)果中,數(shù)據(jù)集來自 Kaggle 的 CIFAR-10 Python。在搜索引擎的簡介頁中,除了給出該數(shù)據(jù)集的簡要信息(包括引用此數(shù)據(jù)集的論文),它甚至還展示了該數(shù)據(jù)集的使用指南。例如,如下展示頁介紹了該數(shù)據(jù)集在 Keras 的使用方法:

fromosimportlistdir,makedirsfromos.pathimportjoin,exists,expandusercache_dir=expanduser(join('~','.keras'))ifnotexists(cache_dir):makedirs(cache_dir)datasets_dir=join(cache_dir,'datasets')#/cifar-10-batches-pyifnotexists(datasets_dir):makedirs(datasets_dir)#Ifyouhavemultipleinputdatasets,changethebelowcpcommandaccordingly,typically:#!cp../input/cifar10-python/cifar-10-python.tar.gz~/.keras/datasets/!cp../input/cifar-10-python.tar.gz~/.keras/datasets/!ln-s~/.keras/datasets/cifar-10-python.tar.gz~/.keras/datasets/cifar-10-batches-py.tar.gz!tarxzvf~/.keras/datasets/cifar-10-python.tar.gz-C~/.keras/datasets/

點(diǎn)擊第一條數(shù)據(jù)源就能跳轉(zhuǎn)到對(duì)應(yīng)的 Kaggle 頁面,下載和額外信息都展示在原頁面中。

在采用關(guān)鍵詞「Object Detection」進(jìn)行搜索的過程中,我們會(huì)發(fā)現(xiàn)搜索結(jié)果遠(yuǎn)遠(yuǎn)要比上面多得多,大約會(huì)有上百條數(shù)據(jù)來源。依靠關(guān)鍵詞同樣檢索到了非常多流行的開源數(shù)據(jù)集,它們都適用于目標(biāo)檢測這一領(lǐng)域。例如 Microsoft COCO、Face Detection 和 Vehicle Number Plate Detection 等。

從「Object Detection」的搜索結(jié)果來看,來自 Kaggle 的數(shù)據(jù)集占了一小半,它們都會(huì)在 Kaggle 上提供下載與使用指南。其實(shí)瀏覽這么多數(shù)據(jù)源,搜索引擎給出的簡介頁面就顯得非常重要了。我們不需要跳轉(zhuǎn)到每一個(gè)數(shù)據(jù)集的原地址,僅根據(jù)簡介就能了解該數(shù)據(jù)集的大概應(yīng)用領(lǐng)域與內(nèi)容。如下展示了 COCO 數(shù)據(jù)集的簡介頁面:

最后我們檢索了斯坦福的問答數(shù)據(jù)集「SQuAD」,搜索結(jié)果不僅給出了挑戰(zhàn)賽地址和數(shù)據(jù)集地址,同時(shí)還提供了相似數(shù)據(jù)集和挑戰(zhàn)賽的地址。但是在我們檢索「SQuAD 2.0」的時(shí)候,并沒有搜索到斯坦福大學(xué)發(fā)布的機(jī)器閱讀理解問答數(shù)據(jù)集 SQuAD 2.0,也可能是該數(shù)據(jù)集太新,還沒有被搜索引擎收錄。

合作機(jī)構(gòu)

谷歌這一嘗試的早期支持者是美國國家海洋和大氣管理局(NOAA)。該機(jī)構(gòu)的職權(quán)范圍從漁業(yè)到日冕,其檔案包含近 7 萬個(gè)數(shù)據(jù)集,包括 19 世紀(jì)的船舶日志。這些數(shù)據(jù)的總?cè)萘砍^ 35 PB,相當(dāng)于 35000 個(gè)典型硬盤的容量。

谷歌這一工具 Dataset Search 將幫助 NOAA 完成數(shù)據(jù)開放的使命,NOAA 首席數(shù)據(jù)官 Edward Kearns 表示。「我們想探索新的方法,使其他人也能使用這些數(shù)據(jù)?!?/p>

與數(shù)據(jù)擁有者展開合作是運(yùn)行 Dataset Search 的關(guān)鍵步驟。盡管這一系統(tǒng)未來可能變得更加復(fù)雜,谷歌目前不打算像處理網(wǎng)頁和圖像那樣讀取或分析數(shù)據(jù)。Noy 表示,「只有數(shù)據(jù)發(fā)布者提供的元數(shù)據(jù)足夠好,這種搜索工具才能夠好?!?/p>

和 Google Scholar 一樣,Dataset Search 目前不提供自動(dòng)化查詢或應(yīng)用程序編程接口(API),盡管谷歌表示將來可能會(huì)增加這一功能。

Noy 表示當(dāng)研究人員開始使用 Dataset Search 時(shí),谷歌將會(huì)觀察他們?nèi)绾闻c其交互,并利用這些信息來改進(jìn)搜索結(jié)果。她還表示,公司尚未打算把該服務(wù)商業(yè)化。

隨著 Dataset Search 的不斷改進(jìn),未來它也許會(huì)跟 Google Scholar 整合,將特定研究領(lǐng)域的搜索結(jié)果關(guān)聯(lián)到相關(guān)數(shù)據(jù)集。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6230

    瀏覽量

    107829
  • 搜索引擎
    +關(guān)注

    關(guān)注

    0

    文章

    120

    瀏覽量

    13589

原文標(biāo)題:AI研發(fā)者福利!谷歌推出數(shù)據(jù)集搜索專用引擎Dataset Search

文章出處:【微信號(hào):gh_211d74f707ff,微信公眾號(hào):重慶人工智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    微軟面臨法國反壟斷機(jī)構(gòu)調(diào)查

    依賴必應(yīng)(Bing)搜索數(shù)據(jù)的小型搜索引擎提供劣質(zhì)搜索結(jié)果,從而對(duì)這些小型搜索引擎的業(yè)務(wù)發(fā)展造成不利影響。這一指控如果成立,將對(duì)微軟在
    的頭像 發(fā)表于 02-11 10:57 ?548次閱讀

    LZO Data Compression,高性能LZO無損數(shù)據(jù)壓縮加速器介紹,F(xiàn)PGA&ASIC

    無損數(shù)據(jù)壓縮2.可配置的數(shù)據(jù)塊分段和搜索窗口大小[8KB,16KB,32KB]3.可配置的并行處理等級(jí)[搜索引擎的數(shù)量,1~32]4.可配置的字典深度[8K,16KB],字典RAM類型
    發(fā)表于 01-24 23:53

    蘋果為谷歌支付數(shù)十億美元辯護(hù),參與搜索案反壟斷審判

    近日,蘋果公司已正式要求參與谷歌即將在美國舉行的在線搜索反壟斷審判,此舉旨在為其與谷歌之間的收入分成協(xié)議進(jìn)行辯護(hù)。該協(xié)議使得谷歌成為Safa
    的頭像 發(fā)表于 12-26 10:41 ?491次閱讀

    SSR的優(yōu)勢和劣勢分析

    SSR(Server-Side Rendering,服務(wù)器端渲染)的優(yōu)勢和劣勢分析如下: SSR的優(yōu)勢 SEO友好 : 由于搜索引擎爬蟲的性質(zhì),更容易識(shí)別和抓取服務(wù)端渲染的頁面內(nèi)容,因此提升了網(wǎng)站
    的頭像 發(fā)表于 11-18 11:27 ?1645次閱讀

    阿里國際推出全球首個(gè)B2B AI搜索引擎Accio

    近日,在歐洲科技峰會(huì)Web Summit上,阿里國際正式推出了全球首個(gè)B2B領(lǐng)域的AI搜索引擎——Accio。這一創(chuàng)新產(chǎn)品面向全球商家開放,標(biāo)志著阿里國際正式入局當(dāng)前備受矚目的AI Search賽道。
    的頭像 發(fā)表于 11-15 16:53 ?1173次閱讀

    阿里國際推出B2B領(lǐng)域AI搜索引擎Accio

    近日,阿里國際宣布正式進(jìn)軍AI搜索領(lǐng)域,并面向全球商家推出了首個(gè)B2B領(lǐng)域的AI搜索引擎——Accio。這一創(chuàng)新產(chǎn)品的推出,標(biāo)志著阿里國際在電子商務(wù)和人工智能技術(shù)結(jié)合方面邁出了重要一步。 Accio
    的頭像 發(fā)表于 11-14 11:47 ?848次閱讀

    OpenAI推出ChatGPT搜索功能

    查找網(wǎng)絡(luò)信息時(shí),往往需要通過傳統(tǒng)的搜索引擎進(jìn)行檢索,然后從中篩選出有價(jià)值的內(nèi)容。而現(xiàn)在,有了ChatGPT搜索,用戶可以更加便捷地獲取所需信息。 OpenAI表示,ChatGPT搜索
    的頭像 發(fā)表于 11-04 10:34 ?653次閱讀

    Meta開發(fā)新搜索引擎,減少對(duì)谷歌和必應(yīng)的依賴

    將基于Meta AI聊天機(jī)器人進(jìn)行生成。 據(jù)一位曾與Meta搜索引擎團(tuán)隊(duì)交流過的人士透露,Meta希望通過這款搜索引擎降低對(duì)谷歌搜索和微軟必應(yīng)的依賴。目前,這兩家
    的頭像 發(fā)表于 10-29 11:49 ?775次閱讀

    榮耀手機(jī)新增谷歌Circle to Search功能

    近日,全球知名科技品牌榮耀宣布,在其旗艦智能手機(jī)HONOR Magic V3及HONOR 200系列上,正式推出谷歌(Google)Circle to Search功能。這一創(chuàng)新功能將為用戶帶來更加便捷、直觀的搜索體驗(yàn)。
    的頭像 發(fā)表于 10-17 18:16 ?1147次閱讀

    月訪問量超2億,增速113%!360AI搜索成為全球增速最快的AI搜索引擎

    與傳統(tǒng)搜索引擎不同,作為AI原生搜索引擎的360AI搜索基于公開網(wǎng)絡(luò)、知識(shí)庫、大模型三大支柱。借助首創(chuàng)的 CoE 技術(shù)架構(gòu),360AI搜索整合了國內(nèi)主流的16家廠商51款大模型,支持用
    的頭像 發(fā)表于 09-09 13:44 ?849次閱讀
    月訪問量超2億,增速113%!360AI<b class='flag-5'>搜索</b>成為全球增速最快的AI<b class='flag-5'>搜索引擎</b>

    恒訊科技分析:香港站群服務(wù)器為什么要做偽靜態(tài)處理呢?

    提高搜索引擎優(yōu)化(SEO)效果:偽靜態(tài)處理可以使得動(dòng)態(tài)網(wǎng)頁URL看起來像是靜態(tài)網(wǎng)頁的URL,這有助于搜索引擎更好地索引網(wǎng)站內(nèi)容。搜索引擎通常偏好靜態(tài)網(wǎng)頁,因?yàn)樗鼈冋J(rèn)為靜態(tài)網(wǎng)頁更穩(wěn)定、內(nèi)
    的頭像 發(fā)表于 07-31 12:49 ?494次閱讀

    OpenAI推出SearchGPT原型,正式向Google搜索引擎發(fā)起挑戰(zhàn)

    在人工智能領(lǐng)域的持續(xù)探索中,OpenAI 邁出了重大一步,發(fā)布了其最新的 SearchGPT 原型,直接瞄準(zhǔn)了 Google 的核心業(yè)務(wù)——搜索引擎。這一舉動(dòng)不僅標(biāo)志著 OpenAI 在技術(shù)上的又一次飛躍,也預(yù)示著搜索引擎市場即
    的頭像 發(fā)表于 07-26 15:11 ?781次閱讀

    微軟計(jì)劃在搜索引擎Bing中引入AI摘要功能

    近期,科技界傳來新動(dòng)向,微軟緊隨百度與谷歌的步伐,宣布計(jì)劃在其搜索引擎Bing中引入先進(jìn)的AI摘要功能,旨在為用戶帶來更加智能、豐富的搜索體驗(yàn)。
    的頭像 發(fā)表于 07-26 14:23 ?735次閱讀

    AI搜索新貴彎道超車難

    新玩家高調(diào)入場,老玩家默默升級(jí),搜索市場進(jìn)入新一輪洗牌階段。最近一段時(shí)間,老舊的搜索行業(yè)開出了新花。從2009年開始,谷歌、百度成了搜索領(lǐng)域繞不開的存在,它們占據(jù)了全球
    的頭像 發(fā)表于 07-09 08:05 ?231次閱讀
    AI<b class='flag-5'>搜索</b>新貴彎道超車難

    AI搜索挑戰(zhàn)百度谷歌,重塑信息檢索的市場?

    ? ? 作者:一號(hào) 編輯:美美 AI正在顛覆傳統(tǒng)的搜索引擎市場。 隨著ChatGPT等大型語言模型的火爆,AI搜索技術(shù)成為了公眾和業(yè)界關(guān)注的焦點(diǎn)。這些技術(shù)不僅能夠提供快速、準(zhǔn)確的信息檢索,還能夠通過
    的頭像 發(fā)表于 07-04 21:15 ?495次閱讀
    AI<b class='flag-5'>搜索</b>挑戰(zhàn)百度<b class='flag-5'>谷歌</b>,重塑信息檢索的市場?