一、硬件故障檢測
因為HDFS系統(tǒng)(分布式文件系統(tǒng))可由數(shù)百或數(shù)千個存儲文件數(shù)據(jù)片段的服務器組成,即HDFS系統(tǒng)包含較多的硬件設備,所以HDFS系統(tǒng)的硬件故障是常態(tài),而非異常態(tài)。因此,HDFS系統(tǒng)的設計框架需包含故障檢測和數(shù)據(jù)自動快速恢復。
HDFS系統(tǒng)故障檢測和數(shù)據(jù)自動快速恢復功能具體過程如下:HDFS系統(tǒng)將數(shù)據(jù)分塊,即數(shù)據(jù)塊的形式存儲于不同硬件設備中。通常,每個數(shù)據(jù)塊在HDFS系統(tǒng)被存放于三個硬件設備中,即每個數(shù)據(jù)塊的份數(shù)是三份。當某一硬件設備出現(xiàn)故障時,HDFS系統(tǒng)在檢測到該設備故障后,可根據(jù)其他硬件設備的備份,將該硬件設備的數(shù)據(jù)再復制一遍,使HDFS系統(tǒng)中每個數(shù)據(jù)塊的份數(shù)保持在三份。
二、數(shù)據(jù)訪問
HDFS系統(tǒng)被設計為適合批量處理數(shù)據(jù),具有較大的數(shù)據(jù)吞吐量。HDFS系統(tǒng)不適合交互式訪問。交互式訪問是指用戶在客戶端輸入命令,系統(tǒng)可立即對用戶命令做出反應。交互式訪問需要系統(tǒng)具有較快速的反應時間,而HDFS系統(tǒng)處理數(shù)據(jù)的速度可能是幾個小時或幾天,因此,HDFS系統(tǒng)的速度不足以支持交互式訪問。
圖片來源:學堂在線《大數(shù)據(jù)導論》
三、大數(shù)據(jù)集
HDFS系統(tǒng)(分布式文件系統(tǒng))的數(shù)據(jù)集群被設計為可包含數(shù)百個節(jié)點(個人理解:計算機或服務器均可作為HDFS系統(tǒng)的節(jié)點),百度最大的HDFS系統(tǒng)數(shù)據(jù)集群可能包含4000個節(jié)點。
HDFS系統(tǒng)的數(shù)據(jù)存儲量可達至100TB的數(shù)量級,一些HDFS系統(tǒng)的數(shù)據(jù)存儲量可超過該數(shù)量級。
HDFS系統(tǒng)被設計為可支持大文件存儲。數(shù)據(jù)量越大,HDFS系統(tǒng)的支持量越好。相對于大文件存儲,HDFS系統(tǒng)比較不適合存儲零散的小文件,這是因為所存儲的文件越小,主節(jié)點記錄文件存儲節(jié)點的日志文件(個人理解:存儲節(jié)點的日志文件包含數(shù)據(jù)的存儲位置等信息)越大,主節(jié)點的壓力越大。
四、簡單一致性模型
HDFS系統(tǒng)被設計為簡單一致性模型。簡單一致性模型是指多數(shù)HDFS系統(tǒng)的文件操作模式是一次寫入多次讀取,即文件一旦被創(chuàng)建、寫入、關閉后,就不再需要修改。HDFS系統(tǒng)不適合對文件進行頻繁的修改和刪除。
五、將計算移動至數(shù)據(jù)
數(shù)據(jù)計算的最理想狀態(tài)是在靠近數(shù)據(jù)的存儲位置計算,如果不能實現(xiàn)數(shù)據(jù)計算的最理想狀態(tài),則需要通過將數(shù)據(jù)移動至計算或將計算移動至數(shù)據(jù)后再進行數(shù)據(jù)計算。
HDFS系統(tǒng)的數(shù)據(jù)計算方式是通過將計算移動至數(shù)據(jù)后再進行數(shù)據(jù)計算。將HDFS系統(tǒng)的數(shù)據(jù)存儲于多個數(shù)據(jù)節(jié)點,在計算過程中,可根據(jù)數(shù)據(jù)節(jié)點所存儲的數(shù)據(jù)進行相應計算,各數(shù)據(jù)節(jié)點計算結束后,再將各數(shù)據(jù)節(jié)點計算結果匯總。
HDFS系統(tǒng)的數(shù)據(jù)計算方式適合大數(shù)據(jù)的計算,并且可以消除網(wǎng)絡擁堵,提高系統(tǒng)整體的吞吐量,數(shù)據(jù)計算的成本更低。如果將超過100TB的數(shù)據(jù)移動至計算中心,數(shù)據(jù)計算的速度將低于HDFS系統(tǒng)的數(shù)據(jù)計算方式,而且由于數(shù)據(jù)量大,網(wǎng)絡需要承受較大的壓力,容易造成擁堵,數(shù)據(jù)計算的成本更高。
六、異構軟硬件平臺間的可移植性
HDFS系統(tǒng)被設計為可簡便地實現(xiàn)平臺間的遷移,即不同的操作系統(tǒng)均可使用HDFS系統(tǒng)。該特點可推動大數(shù)據(jù)集應用更多采用HDFS系統(tǒng)。
審核編輯:劉清
-
服務器
+關注
關注
13文章
9795瀏覽量
87977 -
存儲數(shù)據(jù)
+關注
關注
0文章
90瀏覽量
14326 -
HDFS
+關注
關注
1文章
31瀏覽量
9885
原文標題:大數(shù)據(jù)相關介紹(20)——分布式文件系統(tǒng)的設計框架
文章出處:【微信號:行業(yè)學習與研究,微信公眾號:行業(yè)學習與研究】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
一文解讀在RTThread平臺上使用DFS分布式文件系統(tǒng)
HarmonyOS分布式文件系統(tǒng)開發(fā)指導
采用信任管理的分布式文件系統(tǒng)TrustFs
海量郵件分布式文件系統(tǒng)的設計與實現(xiàn)
基于分布式文件系統(tǒng)元數(shù)據(jù)操作優(yōu)化

盤點一下這些常見的分布式文件系統(tǒng)

AFS,GFS ,QKFile主流分布式存儲文件系統(tǒng)
解析夸克分布式文件系統(tǒng)如何實現(xiàn)資源共享
分布式文件存儲系統(tǒng)GFS的基礎知識

分布式文件系統(tǒng)主從式的伸縮性架構設計

常見的分布式文件存儲系統(tǒng)的優(yōu)缺點

評論