背景
近年來,隨著寬帶接入技術(shù)、移動(dòng)通信技術(shù)的發(fā)展,互聯(lián)網(wǎng)業(yè)務(wù)應(yīng)用迅速擴(kuò)張,其中移網(wǎng)和固網(wǎng)的網(wǎng)絡(luò)與業(yè)務(wù)發(fā)展更為迅猛。工信部印發(fā)的《上網(wǎng)日志留存規(guī)范》通知明確要求,全量數(shù)據(jù)的留存元素包括:NAT后用戶公網(wǎng)IP地址、NAT后源端口、用戶私網(wǎng)IP地址、WLAN上網(wǎng)帳號(hào)、用戶訪問URL、目的IP、目的端口、訪問時(shí)間等。根據(jù)相關(guān)的政策法規(guī),中國移動(dòng)河南分公司率先開始了日志溯源技術(shù)措施的建設(shè),不僅實(shí)現(xiàn)了全網(wǎng)范圍內(nèi)上網(wǎng)用戶的日志查詢、內(nèi)容審計(jì)功能,同時(shí)滿足大量相關(guān)需求。
| 舊挑戰(zhàn),新思路
在最初的日志建設(shè)中,方向是重存儲(chǔ),輕分析。采用以Hadoop技術(shù)體系為主,整合MR+Hive SQL+HDFS+Flum的傳統(tǒng)架構(gòu)方案進(jìn)行支撐:
這一策略帶來了三個(gè)顯著問題:首先由于存儲(chǔ)的數(shù)據(jù)激增帶來數(shù)據(jù)有效利用率降低的問題,數(shù)據(jù)存儲(chǔ)的成本持續(xù)升高 ; 其次,因?yàn)橛?jì)算能力和存儲(chǔ)緊密的耦合,系統(tǒng)無法靈活擴(kuò)容存儲(chǔ)空間,集群架構(gòu)的數(shù)據(jù)分析能力較弱,從而導(dǎo)致應(yīng)用端無法實(shí)現(xiàn)多種數(shù)據(jù)融合分析,且多并發(fā)能力不足、查詢效率不高;最后,存儲(chǔ)訪問也存在較大瓶頸,無法支持海量數(shù)據(jù)按需擴(kuò)展,產(chǎn)生的運(yùn)維和建設(shè)成本難以滿足海量日志分析需求。
面臨多重挑戰(zhàn),中國移動(dòng)河南分公司明確了新建設(shè)思路:按照集中化的方式建設(shè)日志留存系統(tǒng),在滿足相關(guān)政策和業(yè)務(wù)的前提下應(yīng)考慮后期的系統(tǒng)擴(kuò)展,將采集數(shù)據(jù)統(tǒng)一上報(bào)至省日志留存平臺(tái),完成省日志數(shù)據(jù)的統(tǒng)一存儲(chǔ)、數(shù)據(jù)關(guān)聯(lián)分析、以及匯聚分發(fā)等功能,按需向各種應(yīng)用提供各類數(shù)據(jù)服務(wù)。
新的思路對(duì)架構(gòu)重構(gòu)提出了更高的目標(biāo),希望實(shí)現(xiàn)以下四個(gè)能力:
1. 滿足數(shù)據(jù)量大,可采集匯總現(xiàn)網(wǎng)用戶網(wǎng)絡(luò)行為數(shù)據(jù);
2. 實(shí)時(shí)性強(qiáng),數(shù)據(jù)處理以批處理和準(zhǔn)實(shí)時(shí)處理為主,數(shù)據(jù)可持續(xù)不斷的接入?yún)R總 ;
3. 數(shù)據(jù)查詢處理以SQL查詢?yōu)橹鳎嘧侄侮P(guān)聯(lián)查詢需求多,單表大;
同時(shí)面向多個(gè)應(yīng)用系統(tǒng)或者數(shù)據(jù)需求方,具備高處理性能和資源隔離性。
| 高可用、高彈性、高擴(kuò)展性的新一代HashData架構(gòu)方案
為實(shí)現(xiàn)這一目標(biāo),HashData以對(duì)象存儲(chǔ)為基礎(chǔ),計(jì)算集群和存儲(chǔ)集群分離,集群擴(kuò)容業(yè)務(wù)不停,產(chǎn)品架構(gòu)如下:
在確保計(jì)算單元與數(shù)據(jù)存儲(chǔ)有著明確的邏輯對(duì)應(yīng)關(guān)系和集群I/O吞吐不下降的前提下,通過巧妙的緩存策略設(shè)計(jì)可以享受計(jì)算存儲(chǔ)分離帶來的好處,包括高可用性、多維度彈性、高擴(kuò)展性等。
其中獨(dú)立元數(shù)據(jù)服務(wù)是完全創(chuàng)新性的云原生架構(gòu),元數(shù)據(jù)狀態(tài)從計(jì)算節(jié)點(diǎn)中消除,使得計(jì)算節(jié)點(diǎn)變得完全沒有狀態(tài)(新型的shared-everything MPP架構(gòu)與傳統(tǒng)的shared-nothing架構(gòu)對(duì)應(yīng)) 。盡管每個(gè)計(jì)算節(jié)點(diǎn)都沒有狀態(tài),但面臨需要增加節(jié)點(diǎn)數(shù)量時(shí),仍可以訪問到系統(tǒng)中的任何數(shù)據(jù)與任何元數(shù)據(jù)。
新架構(gòu)的主要策略是在滿足數(shù)據(jù)快速增長的情況下實(shí)現(xiàn)“存儲(chǔ)資源虛擬化,計(jì)算資源最大化”,對(duì)日志留存平臺(tái)的數(shù)據(jù)轉(zhuǎn)發(fā)和數(shù)據(jù)分析提供最大限度的支撐。
| 節(jié)省 40% 的集群規(guī)模,降本提效
HashData產(chǎn)品使用了自帶ETL工具代替Flume,對(duì)象存儲(chǔ)代替HDFS;計(jì)算包含Hadoop方案中的清洗+計(jì)算, 通過自定義函數(shù)UDF代替Hadoop方案中的清洗和計(jì)算,自帶有向無環(huán)圖的數(shù)據(jù)結(jié)構(gòu)和算法以方便替換;同時(shí)標(biāo)準(zhǔn)SQL和自定義函數(shù)UDF代替MR,產(chǎn)品實(shí)現(xiàn)日志留存功能技術(shù)路徑如下:
綜上所述,在計(jì)算和存儲(chǔ)分離的產(chǎn)品架構(gòu)中,獨(dú)立擴(kuò)展的計(jì)算和存儲(chǔ)表現(xiàn)更加靈活,可顯著降低存儲(chǔ)成本。HashData整體實(shí)現(xiàn)了日志留存系統(tǒng),在保證和原Hadoop體系存儲(chǔ)數(shù)據(jù)相同的情況下僅使用原集群規(guī)模的40%左右,應(yīng)用開發(fā)周期縮短了50%,查詢性能提升了一個(gè)數(shù)量級(jí),充分實(shí)現(xiàn)了降本提效的目的。
| 小結(jié)
HashData融合了MPP數(shù)據(jù)庫的高性能與豐富的分析功能、大數(shù)據(jù)平臺(tái)的擴(kuò)展性和靈活性,以及云計(jì)算的彈性和敏捷性等優(yōu)勢(shì)。在此項(xiàng)目的建設(shè)中為中國移動(dòng)河南分公司構(gòu)筑了新一代企業(yè)級(jí)云端數(shù)據(jù)倉庫,真正實(shí)現(xiàn)了降本提效,未來雙方將在共筑通信技術(shù)的數(shù)字化之路上繼續(xù)攜手前行!
責(zé)任編輯:lq
-
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11219瀏覽量
105192 -
移動(dòng)通信技術(shù)
+關(guān)注
關(guān)注
0文章
46瀏覽量
13626 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1469瀏覽量
34713
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論