隨著經(jīng)濟社會加速數(shù)字化轉(zhuǎn)型,大數(shù)據(jù)、云計算、人工智能、區(qū)塊鏈等新一代信息技術快速興起,智慧政務、金融科技、智慧交通、遠程教育、智慧醫(yī)療等應用加速落地,包含各種辦公文檔、圖片、視頻、音頻、設計文檔、日志文件、機器數(shù)據(jù)等的非結構化數(shù)據(jù)爆發(fā)式增長,企業(yè)和組織愈發(fā)重視海量非結構化數(shù)據(jù)的管理與應用。如何依靠底層技術讓海量非結構化數(shù)據(jù)的管理和使用更簡單?無處不在的元數(shù)據(jù)給出了答案。
什么是元數(shù)據(jù)?
元數(shù)據(jù)是關于數(shù)據(jù)的數(shù)據(jù),人們身邊的一切信息和資源都可以用數(shù)據(jù)來描述,元數(shù)據(jù)則是從數(shù)據(jù)資源中抽取用來說明其特征和內(nèi)容的結構化數(shù)據(jù),用于組織、管理、保存、檢索信息和資源。雖然人們看不見元數(shù)據(jù)的存在,但它卻無時無刻不伴隨左右。人們平時所津津樂道的大數(shù)據(jù),也是基于元數(shù)據(jù)來計算的。
企業(yè)和組織用戶可以基于元數(shù)據(jù)對海量非結構化數(shù)據(jù)進行管理,例如獲取后綴名為jpeg的所有圖片文件列表、獲取文件大小大于10M的文件列表、獲取給定日期之前創(chuàng)建的文件列表,在快速獲取符合條件的文件之后高效管理對應的數(shù)據(jù)。而如何更方便快捷地查找到非結構化的文件成為了分布式存儲全新的挑戰(zhàn)。
原始的數(shù)據(jù)檢索方式較為簡單粗暴,難以應對文件多、目錄層次深、檢索條件復雜等問題。例如Linux中的find查找,對象存儲中的前綴檢索,都只能遍歷所有文件進行篩選。功能上不能滿足多樣化的檢索需求,檢索字段有限,檢索方式單一;性能上也挑戰(zhàn)了底層元數(shù)據(jù)管理服務的檢索能力和檢索效率。
浪潮分布式存儲基于對元數(shù)據(jù)檢索的研究,在分布式存儲平臺AS13000上進行技術創(chuàng)新,在對象、文件、大數(shù)據(jù)三大非結構化存儲場景,研發(fā)了元數(shù)據(jù)檢索功能。支持對文件名稱、路徑、類型、大小、自定義元數(shù)據(jù)、創(chuàng)建時間、修改時間、用戶(組)、桶等關鍵字段進行檢索,支持基礎檢索和邏輯關系自定義等高級檢索功能。百億級文件,亞分鐘級檢索。
浪潮分布式存儲
元數(shù)據(jù)檢索的四大優(yōu)勢
浪潮分布式存儲AS13000元數(shù)據(jù)檢索能夠同時兼容對象、文件、大數(shù)據(jù)三大非結構化存儲場景,引入Elasticsearch作為元數(shù)據(jù)檢索引擎,支持NFS、CIFS、S3、Swift、HDFS協(xié)議。
Elasticsearch是一個可擴展的RESTful風格的分布式數(shù)據(jù)檢索和分析引擎,它能夠快速且近實時地存儲、檢索、分析海量數(shù)據(jù),通常用作具有復雜檢索應用的底層引擎。傳統(tǒng)的分布式存儲+Elasticsearch,即為浪潮分布式非結構化存儲AS13000元數(shù)據(jù)檢索的核心。
文件的元數(shù)據(jù)信息會同步至Elasticsearch引擎中,基于此,用戶的元數(shù)據(jù)檢索命令通過協(xié)議轉(zhuǎn)換,在Elasticsearch中檢索出符合要求的文件信息,返回給用戶。
比如,浪潮分布式存儲具有更全面的協(xié)議支撐。浪潮分布式存儲AS13000能夠同時支持NFS、CIFS、S3、Swift、HDFS協(xié)議進行檢索;同時支持客戶自己的RESTful風格訪問程序進行自定義元數(shù)據(jù)信息檢索。
又如,具備更靈活便捷的檢索方式。基于上述的結構,浪潮分布式存儲AS13000支持了更為豐富的檢索手段和快捷的檢索速度,對數(shù)據(jù)存儲本身的讀寫影響更小。支持的檢索內(nèi)容包括兩個方面,其一,豐富的檢索字段,包括文件名稱、路徑、類型、大小、創(chuàng)建時間、最后修改時間、用戶名、用戶組名、桶名,以及用戶自定義的元數(shù)據(jù)信息,都可以作為檢索字段。其二,多樣的檢索邏輯;支持大于、大于等于、小于、小于等于、不等于、等于等算術比較運算符,邏輯支持“并且”“或者”等邏輯運算符。企業(yè)可以根據(jù)需求在檢索界面上進行檢索式的組裝,且檢索結果支持分頁展示。
再如,更安全的元數(shù)據(jù)保護。為了保護用戶的元數(shù)據(jù)信息,避免非法的RESTful請求惡意獲取Elasticsearch中的元數(shù)據(jù)信息,浪潮分布式存儲AS13000同時針對Elasticsearch進行了安全限制,針對Elasticsearch提供 數(shù)據(jù)流加密,同時基于角色進行訪問安全校驗,保障元數(shù)據(jù)信息的網(wǎng)絡安全。
最后,更便捷的對接方式。浪潮分布式存儲AS13000不僅自身能夠提供元數(shù)據(jù)檢索服務,同時能夠輕松對接客戶的Elasticsearch引擎。如果客戶原本就有元數(shù)據(jù)檢索引擎,則可以直接部署浪潮分布式存儲,對接客戶的Elasticsearch,不需要客戶更改原本的檢索手段,實現(xiàn)無縫切換。
具備元數(shù)據(jù)檢索功能的浪潮分布式非結構化存儲AS13000,已經(jīng)在金融、通信、教科研、醫(yī)療等行業(yè)規(guī)模部署。為企業(yè)提供更簡單、更豐富、更便捷的元數(shù)據(jù)檢索方式,讓企業(yè)輕松應對數(shù)字經(jīng)濟時代的海量數(shù)據(jù)挑戰(zhàn)。
審核編輯:湯梓紅
-
存儲
+關注
關注
13文章
4531瀏覽量
87436 -
浪潮
+關注
關注
1文章
475瀏覽量
24685 -
元數(shù)據(jù)
+關注
關注
0文章
32瀏覽量
9275
原文標題:浪潮分布式存儲:元數(shù)據(jù)檢索的四大優(yōu)勢
文章出處:【微信號:inspurstorage,微信公眾號:浪潮存儲】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
Ceph分布式存儲系統(tǒng)解析
曙光存儲領跑中國分布式存儲市場
兆芯+圖云創(chuàng)智—可信分布式存儲系統(tǒng)解決方案

分布式存儲數(shù)據(jù)恢復—虛擬機上hbase和hive數(shù)據(jù)庫數(shù)據(jù)恢復案例
分布式站點設備出現(xiàn)異常故障如何快速定位并進行維護

分布式存儲有哪幾種類型?
分布式云化數(shù)據(jù)庫有哪些類型
HarmonyOS Next 應用元服務開發(fā)-分布式數(shù)據(jù)對象遷移數(shù)據(jù)權限與基礎數(shù)據(jù)
分布式存儲費用高嗎?大概需要多少錢
探秘IO分布式模塊設計:讓大數(shù)據(jù)處理更高效

評論