国产麻豆人妻一区二区,久久伊人免费视影

數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)，英文名稱(chēng)為DataWarehouse，可簡(jiǎn)寫(xiě)為DW或DWH。數(shù)據(jù)倉(cāng)庫(kù)，是為企業(yè)所有級(jí)別的決策制定過(guò)程，提供所有類(lèi)型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個(gè)數(shù)據(jù)存儲(chǔ)，出于分析性報(bào)告和決策支持目的而創(chuàng)建。為需要業(yè)務(wù)智能的企業(yè)，提供指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時(shí)間、成本、質(zhì)量以及控制。

數(shù)據(jù)倉(cāng)庫(kù)的用途

1.整合公司所有業(yè)務(wù)數(shù)據(jù)，建立統(tǒng)一的數(shù)據(jù)中心

2.產(chǎn)生業(yè)務(wù)報(bào)表，用于作出決策

3.為網(wǎng)站運(yùn)營(yíng)提供運(yùn)營(yíng)上的數(shù)據(jù)支持

4.可以作為各個(gè)業(yè)務(wù)的數(shù)據(jù)源，形成業(yè)務(wù)數(shù)據(jù)互相反饋的良性循環(huán)

5.分析用戶(hù)行為數(shù)據(jù)，通過(guò)數(shù)據(jù)挖掘來(lái)降低投入成本，提高投入效果

6.開(kāi)發(fā)數(shù)據(jù)產(chǎn)品，直接或間接地為公司盈利

數(shù)據(jù)倉(cāng)庫(kù)的基本架構(gòu)及架構(gòu)圖介紹

數(shù)據(jù)倉(cāng)庫(kù)分層的原因

1通過(guò)數(shù)據(jù)預(yù)處理提高效率，因?yàn)轭A(yù)處理，所以會(huì)存在冗余數(shù)據(jù)

2如果不分層而業(yè)務(wù)系統(tǒng)的業(yè)務(wù)規(guī)則發(fā)生變化，就會(huì)影響整個(gè)數(shù)據(jù)清洗過(guò)程，工作量巨大

3通過(guò)分層管理來(lái)實(shí)現(xiàn)分步完成工作，這樣每一層的處理邏輯就簡(jiǎn)單了

標(biāo)準(zhǔn)的數(shù)據(jù)倉(cāng)庫(kù)分層：ods（臨時(shí)存儲(chǔ)層），pdw（數(shù)據(jù)倉(cāng)庫(kù)層），mid（數(shù)據(jù)集市層），app（應(yīng)用層）

ods：歷史存儲(chǔ)層，它和源系統(tǒng)數(shù)據(jù)是同構(gòu)的，而且這一層數(shù)據(jù)粒度是最細(xì)的，這層的表分為兩種，一種是存儲(chǔ)當(dāng)前需要加載的數(shù)據(jù)，一種是用于存儲(chǔ)處理完后的數(shù)據(jù)。

pdw：數(shù)據(jù)倉(cāng)庫(kù)層，它的數(shù)據(jù)是干凈的數(shù)據(jù)，是一致的準(zhǔn)確的，也就是清洗后的數(shù)據(jù)，它的數(shù)據(jù)一般都遵循數(shù)據(jù)庫(kù)第三范式，數(shù)據(jù)粒度和ods的粒度相同，它會(huì)保存bi系統(tǒng)中所有歷史數(shù)據(jù)

mid：數(shù)據(jù)集市層，它是面向主題組織數(shù)據(jù)的，通常是星狀和雪花狀數(shù)據(jù)，從數(shù)據(jù)粒度將，它是輕度匯總級(jí)別的數(shù)據(jù)，已經(jīng)不存在明細(xì)的數(shù)據(jù)了，從廣度來(lái)說(shuō)，它包含了所有業(yè)務(wù)數(shù)量。從分析角度講，大概就是近幾年

app：應(yīng)用層，數(shù)據(jù)粒度高度匯總，倒不一定涵蓋所有業(yè)務(wù)數(shù)據(jù)，只是mid層數(shù)據(jù)的一個(gè)子集。

數(shù)據(jù)倉(cāng)庫(kù)的基本架構(gòu)及架構(gòu)圖介紹

數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)圖介紹

1、數(shù)據(jù)采集

數(shù)據(jù)采集層的任務(wù)就是把數(shù)據(jù)從各種數(shù)據(jù)源中采集和存儲(chǔ)到數(shù)據(jù)存儲(chǔ)上，期間有可能會(huì)做一些ETL操作。

數(shù)據(jù)源種類(lèi)可以有多種：

日志：所占份額最大，存儲(chǔ)在備份服務(wù)器上

業(yè)務(wù)數(shù)據(jù)庫(kù)：如Mysql、Oracle

來(lái)自HTTP/FTP的數(shù)據(jù)：合作伙伴提供的接口

其他數(shù)據(jù)源：如Excel等需要手工錄入的數(shù)據(jù)

2、數(shù)據(jù)存儲(chǔ)與分析

HDFS是大數(shù)據(jù)環(huán)境下數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)平臺(tái)最完美的數(shù)據(jù)存儲(chǔ)解決方案。

離線數(shù)據(jù)分析與計(jì)算，也就是對(duì)實(shí)時(shí)性要求不高的部分，Hive是不錯(cuò)的選擇。

使用Hadoop框架自然而然也提供了MapReduce接口，如果真的很樂(lè)意開(kāi)發(fā)Java，或者對(duì)SQL不熟，那么也可以使用MapReduce來(lái)做分析與計(jì)算。

Spark性能比MapReduce好很多，同時(shí)使用SparkSQL操作Hive。

3、數(shù)據(jù)共享

前面使用Hive、MR、Spark、SparkSQL分析和計(jì)算的結(jié)果，還是在HDFS上，但大多業(yè)務(wù)和應(yīng)用不可能直接從HDFS上獲取數(shù)據(jù)，那么就需要一個(gè)數(shù)據(jù)共享的地方，使得各業(yè)務(wù)和產(chǎn)品能方便的獲取數(shù)據(jù)。

這里的數(shù)據(jù)共享，其實(shí)指的是前面數(shù)據(jù)分析與計(jì)算后的結(jié)果存放的地方，其實(shí)就是關(guān)系型數(shù)據(jù)庫(kù)和NOSQL數(shù)據(jù)庫(kù)。

4、數(shù)據(jù)應(yīng)用

報(bào)表：報(bào)表所使用的數(shù)據(jù)，一般也是已經(jīng)統(tǒng)計(jì)匯總好的，存放于數(shù)據(jù)共享層。

接口：接口的數(shù)據(jù)都是直接查詢(xún)數(shù)據(jù)共享層即可得到。

即席查詢(xún)：即席查詢(xún)通常是現(xiàn)有的報(bào)表和數(shù)據(jù)共享層的數(shù)據(jù)并不能滿(mǎn)足需求，需要從數(shù)據(jù)存儲(chǔ)層直接查詢(xún)。一般都是通過(guò)直接操作SQL得到。

理想的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)

增加了以下內(nèi)容：

數(shù)據(jù)采集：采用Flume收集日志，采用Sqoop將RDBMS以及NoSQL中的數(shù)據(jù)同步到HDFS上

消息系統(tǒng)：可以加入Kafka防止數(shù)據(jù)丟失

實(shí)時(shí)計(jì)算：實(shí)時(shí)計(jì)算使用SparkStreaming消費(fèi)Kafka中收集的日志數(shù)據(jù)，實(shí)時(shí)計(jì)算結(jié)果大多保存在Redis中

機(jī)器學(xué)習(xí)：使用了SparkMLlib提供的機(jī)器學(xué)習(xí)算法

多維分析OLAP：使用Kylin作為OLAP引擎

數(shù)據(jù)可視化：提供可視化前端頁(yè)面，方便運(yùn)營(yíng)等非開(kāi)發(fā)人員直接查詢(xún)

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴