一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)倉(cāng)庫(kù)的基本架構(gòu)及架構(gòu)圖介紹

姚小熊27 ? 來(lái)源:網(wǎng)絡(luò)整理 ? 2018-02-11 10:08 ? 次閱讀

數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù),英文名稱(chēng)為DataWarehouse,可簡(jiǎn)寫(xiě)為DW或DWH。數(shù)據(jù)倉(cāng)庫(kù),是為企業(yè)所有級(jí)別的決策制定過(guò)程,提供所有類(lèi)型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個(gè)數(shù)據(jù)存儲(chǔ),出于分析性報(bào)告和決策支持目的而創(chuàng)建。為需要業(yè)務(wù)智能的企業(yè),提供指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時(shí)間、成本、質(zhì)量以及控制。

數(shù)據(jù)倉(cāng)庫(kù)的用途

1.整合公司所有業(yè)務(wù)數(shù)據(jù),建立統(tǒng)一的數(shù)據(jù)中心

2.產(chǎn)生業(yè)務(wù)報(bào)表,用于作出決策

3.為網(wǎng)站運(yùn)營(yíng)提供運(yùn)營(yíng)上的數(shù)據(jù)支持

4.可以作為各個(gè)業(yè)務(wù)的數(shù)據(jù)源,形成業(yè)務(wù)數(shù)據(jù)互相反饋的良性循環(huán)

5.分析用戶行為數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘來(lái)降低投入成本,提高投入效果

6.開(kāi)發(fā)數(shù)據(jù)產(chǎn)品,直接或間接地為公司盈利

數(shù)據(jù)倉(cāng)庫(kù)的基本架構(gòu)及架構(gòu)圖介紹

數(shù)據(jù)倉(cāng)庫(kù)分層的原因

1通過(guò)數(shù)據(jù)預(yù)處理提高效率,因?yàn)轭A(yù)處理,所以會(huì)存在冗余數(shù)據(jù)

2如果不分層而業(yè)務(wù)系統(tǒng)的業(yè)務(wù)規(guī)則發(fā)生變化,就會(huì)影響整個(gè)數(shù)據(jù)清洗過(guò)程,工作量巨大

3通過(guò)分層管理來(lái)實(shí)現(xiàn)分步完成工作,這樣每一層的處理邏輯就簡(jiǎn)單了

標(biāo)準(zhǔn)的數(shù)據(jù)倉(cāng)庫(kù)分層:ods(臨時(shí)存儲(chǔ)層),pdw(數(shù)據(jù)倉(cāng)庫(kù)層),mid(數(shù)據(jù)集市層),app(應(yīng)用層)

ods:歷史存儲(chǔ)層,它和源系統(tǒng)數(shù)據(jù)是同構(gòu)的,而且這一層數(shù)據(jù)粒度是最細(xì)的,這層的表分為兩種,一種是存儲(chǔ)當(dāng)前需要加載的數(shù)據(jù),一種是用于存儲(chǔ)處理完后的數(shù)據(jù)。

pdw:數(shù)據(jù)倉(cāng)庫(kù)層,它的數(shù)據(jù)是干凈的數(shù)據(jù),是一致的準(zhǔn)確的,也就是清洗后的數(shù)據(jù),它的數(shù)據(jù)一般都遵循數(shù)據(jù)庫(kù)第三范式,數(shù)據(jù)粒度和ods的粒度相同,它會(huì)保存bi系統(tǒng)中所有歷史數(shù)據(jù)

mid:數(shù)據(jù)集市層,它是面向主題組織數(shù)據(jù)的,通常是星狀和雪花狀數(shù)據(jù),從數(shù)據(jù)粒度將,它是輕度匯總級(jí)別的數(shù)據(jù),已經(jīng)不存在明細(xì)的數(shù)據(jù)了,從廣度來(lái)說(shuō),它包含了所有業(yè)務(wù)數(shù)量。從分析角度講,大概就是近幾年

app:應(yīng)用層,數(shù)據(jù)粒度高度匯總,倒不一定涵蓋所有業(yè)務(wù)數(shù)據(jù),只是mid層數(shù)據(jù)的一個(gè)子集。

數(shù)據(jù)倉(cāng)庫(kù)的基本架構(gòu)及架構(gòu)圖介紹

數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)圖介紹

數(shù)據(jù)倉(cāng)庫(kù)的基本架構(gòu)及架構(gòu)圖介紹

1、數(shù)據(jù)采集

數(shù)據(jù)采集層的任務(wù)就是把數(shù)據(jù)從各種數(shù)據(jù)源中采集和存儲(chǔ)到數(shù)據(jù)存儲(chǔ)上,期間有可能會(huì)做一些ETL操作。

數(shù)據(jù)源種類(lèi)可以有多種:

日志:所占份額最大,存儲(chǔ)在備份服務(wù)器上

業(yè)務(wù)數(shù)據(jù)庫(kù):如Mysql、Oracle

來(lái)自HTTP/FTP的數(shù)據(jù):合作伙伴提供的接口

其他數(shù)據(jù)源:如Excel等需要手工錄入的數(shù)據(jù)

2、數(shù)據(jù)存儲(chǔ)與分析

HDFS是大數(shù)據(jù)環(huán)境下數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)平臺(tái)最完美的數(shù)據(jù)存儲(chǔ)解決方案。

離線數(shù)據(jù)分析與計(jì)算,也就是對(duì)實(shí)時(shí)性要求不高的部分,Hive是不錯(cuò)的選擇。

使用Hadoop框架自然而然也提供了MapReduce接口,如果真的很樂(lè)意開(kāi)發(fā)Java,或者對(duì)SQL不熟,那么也可以使用MapReduce來(lái)做分析與計(jì)算。

Spark性能比MapReduce好很多,同時(shí)使用SparkSQL操作Hive。

3、數(shù)據(jù)共享

前面使用Hive、MR、Spark、SparkSQL分析和計(jì)算的結(jié)果,還是在HDFS上,但大多業(yè)務(wù)和應(yīng)用不可能直接從HDFS上獲取數(shù)據(jù),那么就需要一個(gè)數(shù)據(jù)共享的地方,使得各業(yè)務(wù)和產(chǎn)品能方便的獲取數(shù)據(jù)。

這里的數(shù)據(jù)共享,其實(shí)指的是前面數(shù)據(jù)分析與計(jì)算后的結(jié)果存放的地方,其實(shí)就是關(guān)系型數(shù)據(jù)庫(kù)和NOSQL數(shù)據(jù)庫(kù)。

4、數(shù)據(jù)應(yīng)用

報(bào)表:報(bào)表所使用的數(shù)據(jù),一般也是已經(jīng)統(tǒng)計(jì)匯總好的,存放于數(shù)據(jù)共享層。

接口:接口的數(shù)據(jù)都是直接查詢數(shù)據(jù)共享層即可得到。

即席查詢:即席查詢通常是現(xiàn)有的報(bào)表和數(shù)據(jù)共享層的數(shù)據(jù)并不能滿足需求,需要從數(shù)據(jù)存儲(chǔ)層直接查詢。一般都是通過(guò)直接操作SQL得到。

理想的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)

數(shù)據(jù)倉(cāng)庫(kù)的基本架構(gòu)及架構(gòu)圖介紹

增加了以下內(nèi)容:

數(shù)據(jù)采集:采用Flume收集日志,采用Sqoop將RDBMS以及NoSQL中的數(shù)據(jù)同步到HDFS上

消息系統(tǒng):可以加入Kafka防止數(shù)據(jù)丟失

實(shí)時(shí)計(jì)算:實(shí)時(shí)計(jì)算使用SparkStreaming消費(fèi)Kafka中收集的日志數(shù)據(jù),實(shí)時(shí)計(jì)算結(jié)果大多保存在Redis中

機(jī)器學(xué)習(xí):使用了SparkMLlib提供的機(jī)器學(xué)習(xí)算法

多維分析OLAP:使用Kylin作為OLAP引擎

數(shù)據(jù)可視化:提供可視化前端頁(yè)面,方便運(yùn)營(yíng)等非開(kāi)發(fā)人員直接查詢

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于阿里云數(shù)加MaxCompute的企業(yè)大數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)建設(shè)思路

    摘要:數(shù)加大數(shù)據(jù)直播系列課程主要以基于阿里云數(shù)加MaxCompute的企業(yè)大數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)建設(shè)思路為主題分享阿里巴巴的大數(shù)據(jù)是怎么演變以及怎樣利用大數(shù)
    發(fā)表于 03-15 12:43

    應(yīng)用部署架構(gòu)圖

    筆者一個(gè)項(xiàng)目中用到的架構(gòu)圖,Linux+Tomcat應(yīng)用服務(wù)器兩臺(tái),MSSQL2012數(shù)據(jù)庫(kù)服務(wù)器3臺(tái)做成了故障轉(zhuǎn)移集群。
    發(fā)表于 07-15 06:58

    上海邏迅丨節(jié)能降耗 系統(tǒng)架構(gòu)圖

    上海邏迅丨節(jié)能降耗 系統(tǒng)架構(gòu)圖
    發(fā)表于 10-09 13:58

    RT-Thread 架構(gòu)圖

    RT-Thread 架構(gòu)圖:RT-Thread開(kāi)發(fā)指南開(kāi)源地址內(nèi)核層:RT-Thread 內(nèi)核,是 RT-Thread 的核心部分,包括了內(nèi)核系統(tǒng)中對(duì)象的實(shí)現(xiàn),例如多線程及其調(diào)度、信號(hào)量、郵箱
    發(fā)表于 12-16 08:15

    PCIE基本概念與拓?fù)?b class='flag-5'>架構(gòu)圖

    1 PCIE基本概念1.1 PCIE拓?fù)?b class='flag-5'>架構(gòu)圖1.2 PCIE Switch內(nèi)部結(jié)構(gòu)圖1.3 PCIE協(xié)議結(jié)構(gòu)圖2 PCIE枚舉原理2.1 Type0&Type1配置頭空間2.2 拓?fù)涫纠?/div>
    發(fā)表于 02-16 06:08

    電信數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)

    本文針對(duì)佳木斯電信的業(yè)務(wù)需求,設(shè)計(jì)了佳木斯電信數(shù)據(jù)倉(cāng)庫(kù)的總體架構(gòu),并以營(yíng)業(yè)受理情況主題為例介紹了佳木斯電信數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型的設(shè)計(jì)過(guò)程。
    發(fā)表于 12-18 17:01 ?14次下載

    電腦主板架構(gòu)圖

    主板架構(gòu)圖1(早期主板)
    發(fā)表于 05-31 14:15 ?1.1w次閱讀
    電腦主板<b class='flag-5'>架構(gòu)圖</b>

    主板架構(gòu)圖1(早期主板)

    主板架構(gòu)圖1(早期主板)
    發(fā)表于 05-21 11:02 ?1726次閱讀
    主板<b class='flag-5'>架構(gòu)圖</b>1(早期主板)

    主板架構(gòu)圖2(P2.P3.P4主板)

    主板架構(gòu)圖2(P2.P3.P4主板)
    發(fā)表于 05-21 11:03 ?1557次閱讀
    主板<b class='flag-5'>架構(gòu)圖</b>2(P2.P3.P4主板)

    深圳市圣奇仕科技有限公司組織架構(gòu)圖

    深圳市圣奇仕科技有限公司組織架構(gòu)圖
    發(fā)表于 11-04 15:53 ?1533次閱讀

    什么是paas平臺(tái)_paas邏輯架構(gòu)圖

    本文開(kāi)始介紹了什么是PAAS平臺(tái)和PAAS的特點(diǎn),其次分析了PAAS平臺(tái)的發(fā)展前景,最后介紹了詳細(xì)的介紹paas邏輯架構(gòu)圖
    的頭像 發(fā)表于 01-30 18:00 ?3w次閱讀
    什么是paas平臺(tái)_paas邏輯<b class='flag-5'>架構(gòu)圖</b>

    數(shù)據(jù)倉(cāng)庫(kù)是什么_數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)_數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)區(qū)別

    本文開(kāi)始介紹數(shù)據(jù)倉(cāng)庫(kù)是什么,其次詳細(xì)介紹數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)、數(shù)據(jù)倉(cāng)庫(kù)的基本架構(gòu)
    的頭像 發(fā)表于 02-11 10:42 ?2.6w次閱讀
    <b class='flag-5'>數(shù)據(jù)倉(cāng)庫(kù)</b>是什么_<b class='flag-5'>數(shù)據(jù)倉(cāng)庫(kù)</b>的特點(diǎn)_<b class='flag-5'>數(shù)據(jù)倉(cāng)庫(kù)</b>與<b class='flag-5'>數(shù)據(jù)</b>庫(kù)區(qū)別

    如何畫(huà)架構(gòu)圖

    維基百科、百度百科其實(shí)都沒(méi)有關(guān)于它的直接定義。不過(guò)我們可以進(jìn)行拆分理解:架構(gòu)圖=架構(gòu)+圖這樣問(wèn)題就轉(zhuǎn)化成,什么是架構(gòu),以及什么是圖?關(guān)于架構(gòu),百度百科上是這樣定義的
    的頭像 發(fā)表于 01-13 14:38 ?1699次閱讀

    如何畫(huà)技術(shù)架構(gòu)圖

    在我們做系統(tǒng)架構(gòu)設(shè)計(jì)時(shí),如何快速的向外界傳達(dá)我們的設(shè)計(jì)思路。4+1試圖適合我們厘清思路、表達(dá)自己的想法。在我們匯報(bào),爭(zhēng)取領(lǐng)導(dǎo)層的認(rèn)同支持更適合用架構(gòu)圖來(lái)表述我們的觀點(diǎn)。架構(gòu)圖包括總體架構(gòu)
    的頭像 發(fā)表于 02-06 17:39 ?3494次閱讀

    校園智慧燈桿大樣圖_基礎(chǔ)CAD圖紙_系統(tǒng)架構(gòu)圖下載

    校園智慧燈桿大樣圖_基礎(chǔ)CAD圖紙_系統(tǒng)架構(gòu)圖_下載
    發(fā)表于 08-02 16:11 ?3次下載