旨在整合全球互聯(lián)網(wǎng)信息的谷歌,其首要目標本來是林林總總的商業(yè)網(wǎng)站。但最近,它推出了一種新型的數(shù)據(jù)集搜索引擎,將服務目標延展到了科研社群。這就是屬于科研工作者等數(shù)據(jù)狂的黑科技——Google Dataset Search(谷歌數(shù)據(jù)集搜索)。
谷歌數(shù)據(jù)集搜索發(fā)起了一次數(shù)據(jù)搜索的革命,它讓人們能夠迅速獲取分散在全互聯(lián)網(wǎng)的各式數(shù)據(jù)集。無論是網(wǎng)站、數(shù)字圖書館還是專業(yè)數(shù)據(jù)庫,只要是存在于線上的共享數(shù)據(jù)集,就能夠被引擎找到。用戶鍵入搜索信息后,谷歌會分析比對相同數(shù)據(jù)集的不同版本,并盡可能地檢索有價值的相關信息。
實際上,這次革命的核心工具非常純粹,就是一個可以將各式數(shù)據(jù)集集中在一起加以描述檢索的開放標準(http://schema.org)。數(shù)據(jù)發(fā)布者按照這個標準所定義的標簽框架,對發(fā)布的數(shù)據(jù)內(nèi)容進行標簽式的描述。定義的標簽包括發(fā)布時間、發(fā)布方、數(shù)據(jù)收集方式等等。而引擎隨后會將這些標簽信息編入索引,并與谷歌知識譜圖結合使用,從而使本來分布零散的數(shù)據(jù)集成為一個能夠統(tǒng)一檢索的強大系統(tǒng)。
Figure.1Google Dataset Search使用實例
Figure.2Google Dataset Search使用實例
谷歌的人工智能科學家娜塔莎·諾伊(Natasha Noy)接受采訪時表示,創(chuàng)建數(shù)據(jù)集搜索的目標是將數(shù)以萬計的在線數(shù)據(jù)集統(tǒng)合展示,并非自行建立數(shù)據(jù)庫收集數(shù)據(jù),她說:“我們只是希望這些數(shù)據(jù)能夠被人們輕松獲取,并不是想將其收集挪動到其他地方。“
目前,互聯(lián)網(wǎng)上的數(shù)據(jù)集資料分布極其零散。不同的學科領域各自擁有自己的首選資源庫,各政府機構和地方當局更是如此。諾伊說:“科學家們當然知道能在哪些專業(yè)數(shù)據(jù)庫找到他們自己領域的數(shù)據(jù),但他們有時想要的并不是這一類數(shù)據(jù)。而一旦他們將視野拓展到專業(yè)領域之外,數(shù)據(jù)搜尋就會變得十分困難?!?/p>
諾伊舉了一個她親歷親聞的例子,一位氣象學家在為即將開展的研究尋找海洋溫度的特定數(shù)據(jù)集,但怎么也找不到。她沒有繼續(xù)追蹤,直到她在遇到了相關方面的同事,在同事的幫助下她才找到那個數(shù)據(jù)庫。然后她的研究工作才得以繼續(xù)。諾伊說:“雖然保存數(shù)據(jù)的地方算是很顯見,數(shù)據(jù)描述也寫得很清晰,但仍然很難被找到?!?/p>
該搜索引擎的初始版本主要包括來自ProPublica等新聞機構以及政府機構的數(shù)據(jù)和數(shù)據(jù)集。 但是,如果這項搜索服務最終流行起來,那么隨著機構和科學家爭相開放數(shù)據(jù)的訪問權限,它所囊括的數(shù)據(jù)量肯定會呈現(xiàn)滾雪球式的成長。
而近年來,世界各地關于數(shù)據(jù)開放共享的倡議正在蓬勃發(fā)展,這將有助于數(shù)據(jù)集搜索引擎的實現(xiàn)。諾伊認為,在過去的幾年里,可共享數(shù)據(jù)的存量已經(jīng)爆炸,她將此歸功于科學文獻中數(shù)據(jù)的重要性在日益增長——因為期刊會要求作者將數(shù)據(jù)集發(fā)布出來。而除此之外,美國政府和歐洲政府的法律法規(guī)也在進一步引導數(shù)據(jù)開放共享。
開放數(shù)據(jù)研究所(ODI)首席執(zhí)行官Jeni Tennison表示,Google參與到開放數(shù)據(jù)行動中來,將更有利于這項運動獲得成功。數(shù)據(jù)集搜索一直是一個很困難的事情,希望谷歌能讓它變得更加容易。她進一步說,要創(chuàng)建一個像樣的搜索引擎,你需要知道如何構建對用戶友好的系統(tǒng),并了解人們在鍵入某些短語時的真實所想。而谷歌對這些了如指掌。事實上,對于搜索引擎來說,最重要的是用戶所產(chǎn)生的行為數(shù)據(jù),這才是促進引擎快速成長的活力源泉。所以,雖然搜索引擎賴以抓取數(shù)據(jù)集的元數(shù)據(jù)標簽是一個開放標準,任何競爭對手(如Bing或Yandex等)都可以使用它來構建自己的競爭服務,但谷歌從沒有喪失自己的真正優(yōu)勢。Tennison也表示:“直觀地了解人們的搜索方式很重要,譬如,他們在檢索時會使用什么樣的術語,又會如何表述這些術語。從了解人們?nèi)绾嗡阉鲾?shù)據(jù),并據(jù)此進一步推進數(shù)據(jù)開放的角度說,如果谷歌能夠開放自己的用戶行為數(shù)據(jù),將會大有裨益?!?/p>
總而言之,更多的數(shù)據(jù)開放共享是值得期待的潮流,而谷歌無疑又一次扛起了領頭的大旗。當然,在谷歌完全回歸中國之前,我們距離便利還會多一個梯子的距離。
-
谷歌
+關注
關注
27文章
6231瀏覽量
108110 -
搜索引擎
+關注
關注
0文章
120瀏覽量
13604
原文標題:谷歌新推數(shù)據(jù)搜索,科學研究還爬樓么?
文章出處:【微信號:zhishexueshuquan,微信公眾號:知社學術圈】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
使用AICube導入數(shù)據(jù)集點創(chuàng)建后提示數(shù)據(jù)集不合法怎么處理?
數(shù)據(jù)集下載失敗的原因?
不用編程不用聯(lián)網(wǎng),PLC和儀表直接對SQL接數(shù)據(jù)庫,有異常時還可先將數(shù)據(jù)緩存

如何高效定制智能座艙內(nèi)合成數(shù)據(jù)集?加速測試車內(nèi)監(jiān)控系統(tǒng)安全# 座艙# 汽車# AD# 仿真# 安全# 合成數(shù)據(jù)
NVIDIA推出開源物理AI數(shù)據(jù)集
請問NanoEdge AI數(shù)據(jù)集該如何構建?
無法將自定義COCO數(shù)據(jù)集導入到OpenVINO? DL Workbench怎么解決?

AI艙內(nèi)監(jiān)控虛擬驗證平臺:巧破座艙數(shù)據(jù)集困境,速啟高效生成新程!#智能座艙#數(shù)據(jù)集#虛擬驗證#AI#AD
lmp91200 spi只接收數(shù)據(jù),不用返回數(shù)據(jù)嗎?
LDC1614EVM在UPLOAD固件過程中意外斷開連接,然后就再也不能正常連接了,怎么處理?
蘋果為谷歌支付數(shù)十億美元辯護,參與搜索案反壟斷審判
OpenAI在ChatGPT增添搜索功能
谷歌取消“站點鏈接搜索框”,適應新搜索需求
PLC遠程控制網(wǎng)關再也不用勞累出差

評論