x86服務(wù)器的Hadoop集群配置參考
基于Hadoop的大數(shù)據(jù)方案越來(lái)越多地被企業(yè)所采用。但是,如何進(jìn)行合理地規(guī)劃和配置Hadoop平臺(tái)是很多用戶頭痛的事情。在我們接觸或合作的很大一部分客戶,他們?cè)诮oHadoop配置硬件的時(shí)候,通常沒有考慮到對(duì)大數(shù)據(jù)處理的特性,造成后續(xù)Hadoop集群的性能無(wú)法滿足要求。典型的配置問(wèn)題包括:
數(shù)據(jù)節(jié)點(diǎn)的CPU和內(nèi)存配置很高,但磁盤數(shù)量很少(少于6塊磁盤)
按容量考慮而選擇單盤容量非常大的磁盤(大于8TB),但磁盤數(shù)量偏少
數(shù)據(jù)接收速度和查詢性能要求高,但配置的是1GbE網(wǎng)絡(luò)
高可用性要求高場(chǎng)景下管理節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)混合在一起,或者管理節(jié)點(diǎn)數(shù)量偏少(少于4個(gè))
本文通過(guò)三種不同場(chǎng)景的Hadoop集群方案,對(duì)其配置進(jìn)行說(shuō)明以便為用戶提供參考。
方案一:低成本的互聯(lián)網(wǎng)分析(IA)
該方案是為互聯(lián)網(wǎng)分析(Internet Analysis,縮寫成IA)或一般非結(jié)構(gòu)化數(shù)據(jù)處理而設(shè)計(jì)的Hadoop集群,具有以下特點(diǎn):
支持非結(jié)構(gòu)化數(shù)據(jù)的接收和分析
WebServer日志文件,點(diǎn)擊流量,Twitter或Facebook的流入
支持使用DataClick、BigInsights或Scoop進(jìn)行數(shù)據(jù)注入
運(yùn)行Map/Reduce作業(yè)
數(shù)據(jù)的臨時(shí)存儲(chǔ)或輕量存儲(chǔ)的要求
432 TB 裸存儲(chǔ)
超過(guò)100 TB 可用存儲(chǔ)空間(數(shù)據(jù)非壓縮)
靈活的壓縮選項(xiàng)(文件格式類型)
1 Gb 以太網(wǎng)數(shù)據(jù)網(wǎng)絡(luò)
結(jié)合數(shù)據(jù)和管理網(wǎng)絡(luò)
單獨(dú)的監(jiān)控網(wǎng)絡(luò)支持xCat
可靠的硬件,無(wú)需硬件冗余的成本
HDFS數(shù)據(jù)復(fù)制機(jī)制實(shí)現(xiàn)數(shù)據(jù)保護(hù)
支持xCat快速部署
方案二:通用型的數(shù)據(jù)落地區(qū)或數(shù)據(jù)湖(LZ)
該方案是為通用型的數(shù)據(jù)落地區(qū)(Landing Zone,縮寫成LZ)或數(shù)據(jù)湖而設(shè)計(jì),主要特點(diǎn)如下:
非結(jié)構(gòu)化數(shù)據(jù)的快速接收、分析和存儲(chǔ)
ETL 工作負(fù)載,包括 DataStage, Informatica
DataClick, BigInsights Console 和Scoop
運(yùn)行Map/Reduce 和Hive作業(yè)
每GB數(shù)據(jù)的成本低且數(shù)據(jù)完全保護(hù)
數(shù)據(jù)的長(zhǎng)期存儲(chǔ)和企業(yè)級(jí)的保護(hù)
每個(gè)機(jī)架1.344 PB裸存儲(chǔ)!
超過(guò)400 TB 可用存儲(chǔ)空間(數(shù)據(jù)非壓縮)
壓縮和加密選項(xiàng)
靈活的存儲(chǔ)框架 – HDFS 或GPFS
靈活的網(wǎng)絡(luò)和安全選項(xiàng)
完全冗余的路由或私有網(wǎng)絡(luò)
10/40 Gb 混合的以太網(wǎng)數(shù)據(jù)網(wǎng)絡(luò)
基于硬件和軟件冗余的可靠構(gòu)造
OS、電源、網(wǎng)絡(luò)和Name Node服務(wù)
HDFS數(shù)據(jù)復(fù)制機(jī)制實(shí)現(xiàn)數(shù)據(jù)保護(hù)
方案三:強(qiáng)大的NoSQL或復(fù)雜分析(NS/CA)
該方案支持NoSQL或復(fù)雜分析(Complex Analysis),對(duì)可靠性、性能等要求比前面兩個(gè)方案更高。它具有以下特點(diǎn):
非結(jié)構(gòu)化數(shù)據(jù)的快速接收、分析和查詢
使用BigSQL代替DW & RDBMS
Hbase, Accumulo, Hive 和 Map/Reduce 作業(yè)
BigR, R 或SPSS數(shù)據(jù)挖掘
每GB數(shù)據(jù)的成本低且數(shù)據(jù)完全保護(hù)
數(shù)據(jù)的長(zhǎng)期存儲(chǔ)和企業(yè)級(jí)的保護(hù)
每個(gè)機(jī)架896 TB裸存儲(chǔ)!
超過(guò)300 TB 可用存儲(chǔ)空間(數(shù)據(jù)非壓縮)
壓縮和加密選項(xiàng)
靈活的存儲(chǔ)框架 – HDFS 或GPFS
靈活的網(wǎng)絡(luò)和安全選項(xiàng)
完全冗余的路由或私有網(wǎng)絡(luò)
10/40 Gb 混合的以太網(wǎng)數(shù)據(jù)網(wǎng)絡(luò)
基于硬件和軟件冗余的可靠構(gòu)造
OS、電源、網(wǎng)絡(luò)和Name Node服務(wù)
HDFS數(shù)據(jù)復(fù)制機(jī)制實(shí)現(xiàn)數(shù)據(jù)保護(hù)
結(jié)束語(yǔ)
上述內(nèi)容是IBM根據(jù)實(shí)踐經(jīng)驗(yàn)推薦的配置參考模型,用戶在實(shí)踐使用時(shí)可以數(shù)據(jù)量進(jìn)行增刪數(shù)據(jù)節(jié)點(diǎn),服務(wù)器和網(wǎng)絡(luò)設(shè)備也可用換成類似性能其它廠商的產(chǎn)品。
評(píng)論