繼 Google Scholar(Google 學(xué)術(shù)搜索)之后,Google 又為科研工作者推出了一款重磅產(chǎn)品—— Google Dataset Search(Google 數(shù)據(jù)集搜索)。
為什么說這款產(chǎn)品如此重要?因為數(shù)據(jù)從未如此重要。由于深度學(xué)習(xí)的興起,AI 研究員需要大量的數(shù)據(jù)來訓(xùn)練他們的模型,吳恩達就曾表示,深度學(xué)習(xí)像火箭,計算是引擎,數(shù)據(jù)是燃料。有時候,數(shù)據(jù)可能比算法更重要。
然而,數(shù)據(jù)集和相關(guān)數(shù)據(jù)往往分布在網(wǎng)上的多個數(shù)據(jù)存儲區(qū)中。在大多數(shù)情況下,搜索引擎既無法提供這些數(shù)據(jù)庫相關(guān)信息的鏈接,也不會將這些信息編入索引,這會導(dǎo)致數(shù)據(jù)尋找變得無比繁瑣,或者在某些情況下無法實現(xiàn)。
一些掌握了大量數(shù)據(jù)的互聯(lián)網(wǎng)公司也因此擁有很大的優(yōu)勢,而高校的學(xué)者除了一些公開的知名數(shù)據(jù)集,想要擁有大量的數(shù)據(jù)則非常困難,因此 Google 的這款產(chǎn)品可謂是及時雨。當然,其他需要各種數(shù)據(jù)的工作者也能從中受益。
Google Dataset Search 為用戶提供了能夠同時搜索多個存儲區(qū)的單個界面,希望借此改變用戶發(fā)布和運用數(shù)據(jù)的方式。
現(xiàn)在,就讓我們來一起看下這款搜索工具。
與 Google Scholar 類似,Google Dataset Search 可方便用戶查找托管在任何位置的數(shù)據(jù)集,無論是出版網(wǎng)站、數(shù)字圖書館還是作者的個人網(wǎng)頁。
為了創(chuàng)建 Dataset Search,Google 還為數(shù)據(jù)集提供方制定了一套數(shù)據(jù)指南(https://developers.google.com/search/docs/data-types/dataset)。這些指南包括有關(guān)數(shù)據(jù)集的重要信息:數(shù)據(jù)集的作者,發(fā)布時間,數(shù)據(jù)收集方式,使用數(shù)據(jù)的條款等等。然后,Google 收集并鏈接這些信息,分析同一數(shù)據(jù)集的不同版本可能在哪里,并找到可能描述或討論這一數(shù)據(jù)集的出版物。
Google 的指南是基于一個數(shù)據(jù)集的開放標準(schema.org),任何發(fā)布數(shù)據(jù)的人都可以通過這種方式描述他們的數(shù)據(jù)集。
在這個新版本中,用戶可以找到很多環(huán)境和社會科學(xué)相關(guān)的數(shù)據(jù)集,以及其他學(xué)科的數(shù)據(jù),包括政府數(shù)據(jù)和新聞機構(gòu)提供的數(shù)據(jù),如 ProPublica。隨著越來越多的數(shù)據(jù)倉庫使用 schema.org 標準來描述他們的數(shù)據(jù)集,Google Dataset Search 能夠搜索到的數(shù)據(jù)集的種類和覆蓋面將持續(xù)增長。
目前 Google Dataset Search 已經(jīng)支持多種語言,筆者嘗試了下,除了英文,還支持中文。
我們先嘗試下英文搜索,如果你想分析天氣記錄,那么就可以在 Google Dataset Search 的輸入欄里嘗試輸入“daily weather”,結(jié)果如下圖所示:
可以看到,左邊欄呈現(xiàn)的是各種數(shù)據(jù)源,右邊則是相應(yīng)的介紹,包括數(shù)據(jù)集的名稱、下載鏈接、更新日期、提供者、說明等等,非常清晰。
現(xiàn)在,我們來嘗試下中文,在搜索欄輸入“房價”,第一條就是中國房價的數(shù)據(jù)集,該數(shù)據(jù)集由 CEIC 提供,涵蓋的時間段從 2017年7月1日 —2018 年 6 月 1 日,算是非常新的數(shù)據(jù)了。
打開該數(shù)據(jù)集的鏈接,嗯,是個收費網(wǎng)站。不過,花錢能解決的事,總比毫無頭緒來得好。
Dataset Search 的發(fā)布凸顯了 Google 對數(shù)據(jù)集的重視。最近,Google 也對自家的 Google Search 也進行了改進,使得用戶搜索結(jié)果中發(fā)現(xiàn)表格數(shù)據(jù)變得更加容易,不過該計劃更側(cè)重于新聞機構(gòu)和數(shù)據(jù)記者,而 Dataset Search 的受眾則更加廣泛。
Google 表示,這個項目能夠帶來下列好處:
a) 形成數(shù)據(jù)共享生態(tài)系統(tǒng),鼓勵數(shù)據(jù)發(fā)布者依照最佳做法來存儲和發(fā)布數(shù)據(jù);
b) 為科學(xué)家提供相應(yīng)平臺,方便大眾引用他們創(chuàng)建的數(shù)據(jù)集,展現(xiàn)他們的研究成果所帶來的影響力。
當然,Google Dataset Search 的搜索質(zhì)量取決于數(shù)據(jù)發(fā)布者,因此,如果大家都用開放標準來描述自己的數(shù)據(jù),那么搜索結(jié)果肯定會越來越好。
Google Dataset Search 目前仍處于測試階段,雖然支持中文搜索,但中國大陸的用戶想要使用依然需要“梯子”,不過這么好的工具,錯過豈不可惜!
針對 Google Scholar,2014 年 6 月百度上線了“百度學(xué)術(shù)”,不過大家似乎仍對 Google Scholar 情有獨鐘。這次,百度怎么看?
-
Google
+關(guān)注
關(guān)注
5文章
1789瀏覽量
59044 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25447
原文標題:Google推出數(shù)據(jù)集搜索!百度,你怎么看?
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
俄羅斯科技巨頭Yandex推出一款智能音箱 售價160美元
分享一款驅(qū)動超聲波換能器的超聲波驅(qū)動電源
mil與mm換算的一個小軟件(對LAYOUT工作者是個不錯的工具)
基于活躍度的工作者信譽模型實現(xiàn)眾包平臺的質(zhì)量控制
Google-CH出現(xiàn),搜索結(jié)果與Google搜索一致,Google搜索“重返中國”?
英集芯推出一款最新的SOC芯片IP6515
HumanEyes科技推出VR Horizons教育項目,將VR攝像頭植入工作者手中
谷歌推出數(shù)據(jù)集搜索黑科技,再也不用發(fā)愁找數(shù)據(jù)!
武漢大學(xué)研發(fā)出一款迷你軟體機器人
Python爬蟲:工作者常用的動態(tài)IP代理
OPPO推出針對新冠肺炎的輔助診斷科研平臺 99.76%識別準確率
訊維KVM坐席管理系統(tǒng)在科研機構(gòu)多屏幕管理中的應(yīng)用
剖析SOLIDWORKS科研版的功能優(yōu)勢

如何解決研究院的科研工作者在實驗室身穿防護服可以解放雙手內(nèi)部高效溝通等問題—TIKOOL太酷無線內(nèi)通

評論