一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)湖是什么

汽車電子技術(shù) ? 來源:碼農(nóng)與軟件時(shí)代 ? 作者:碼農(nóng)與軟件時(shí)代 ? 2023-02-15 10:22 ? 次閱讀

1.為什么出現(xiàn)數(shù)據(jù)湖?

支撐業(yè)務(wù)的IT軟件系統(tǒng)最簡(jiǎn)單的數(shù)據(jù)鏈路是:操作業(yè)務(wù)APP的界面或者調(diào)用其API接口,將交易數(shù)據(jù)記錄到關(guān)系型數(shù)據(jù)庫中。

說其簡(jiǎn)單,是因?yàn)檫@樣的系統(tǒng)能夠支撐業(yè)務(wù)交易。業(yè)務(wù)APP上的每筆交易數(shù)據(jù)都會(huì)記錄在數(shù)據(jù)庫中。

這對(duì)業(yè)務(wù)交易員來說,已經(jīng)足夠了。但對(duì)業(yè)務(wù)管理者來說,期望看到的是“自己關(guān)心的、宏觀的、能夠反應(yīng)歷史變化的數(shù)據(jù)”,并且最好是可視化的界面,一目了然。

于是,“數(shù)據(jù)倉庫”出現(xiàn)了,它就是一個(gè)面向主題的、集成的、反映歷史變化的數(shù)據(jù)集合。

那么,數(shù)據(jù)是如何從業(yè)務(wù)數(shù)據(jù)庫到達(dá)數(shù)據(jù)倉庫的呢?

首先,要理解的是業(yè)務(wù)數(shù)據(jù)庫和數(shù)據(jù)倉庫的Schema(表結(jié)構(gòu))大部分情況下是不同的,前者用來記錄實(shí)時(shí)交易信息,后者用來記錄歷史匯總信息。

其次,表結(jié)構(gòu)的不同,就需要進(jìn)行數(shù)據(jù)處理的三板斧--“抽取、轉(zhuǎn)換和加載”,即Extract-Transform-Load,簡(jiǎn)稱ETL。具體來說就是抽取管理者關(guān)心的(面向主題)、轉(zhuǎn)換數(shù)據(jù)、加載到數(shù)據(jù)倉庫中。

最后,根據(jù)業(yè)務(wù)規(guī)則,提取數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行可視化提取與展示(報(bào)表)。

數(shù)據(jù)倉庫的使用思路是:業(yè)務(wù)管理者知道“自己關(guān)心哪些數(shù)據(jù)”,在創(chuàng)建數(shù)據(jù)倉庫時(shí),便可以將這些數(shù)據(jù)提取并記錄下來。這樣,數(shù)據(jù)倉庫記錄的是經(jīng)過加工過的數(shù)據(jù),而非原始數(shù)據(jù)。

注意到數(shù)據(jù)倉庫的數(shù)據(jù)是結(jié)構(gòu)化的。對(duì)于半結(jié)構(gòu)化(CSVXMLJSON)和非結(jié)構(gòu)化(e-mail文檔)的數(shù)據(jù)來說,也蘊(yùn)含著有價(jià)值的信息,同樣需要分析,或者現(xiàn)在不知道怎么分析,也可以先存儲(chǔ)起來。

那么就需要有一種方法:不但可以存儲(chǔ)原始數(shù)據(jù),也可以存儲(chǔ)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu) 化的數(shù)據(jù),并且還能支撐數(shù)據(jù)的分析。

時(shí)勢(shì)的呼喚下,“數(shù)據(jù)湖(Data Lake)”便產(chǎn)生了。

2.數(shù)據(jù)湖是什么?

數(shù)據(jù)湖是一個(gè)以原始格式存儲(chǔ)數(shù)據(jù)的存儲(chǔ)庫或系統(tǒng)。

“數(shù)據(jù)”可以是各種格式的,結(jié)構(gòu)化、半結(jié)構(gòu)化的、非結(jié)構(gòu)化的。并且數(shù)據(jù)是未經(jīng)加工的,像大自然的水,流入到“湖”中。也就是數(shù)據(jù)的存儲(chǔ),無需像數(shù)據(jù)倉庫那樣事先設(shè)計(jì)Schema,也無需事先有明確的分析需求(有了想法,再延遲分析,稱為讀時(shí)模式Schema-On-Read)。

3.數(shù)據(jù)湖如何實(shí)現(xiàn)?

數(shù)據(jù)湖是一種方法論,探討如何以原始形態(tài)存儲(chǔ)各種格式的數(shù)據(jù),并能支持后續(xù)的分析。

數(shù)據(jù)湖的開源實(shí)現(xiàn)有:Hadoop、Delta、Apache Iceberg 和 Apache Hudi。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)庫
    +關(guān)注

    關(guān)注

    7

    文章

    3884

    瀏覽量

    65593
  • 數(shù)據(jù)鏈路
    +關(guān)注

    關(guān)注

    0

    文章

    26

    瀏覽量

    9048
  • 軟件系統(tǒng)
    +關(guān)注

    關(guān)注

    0

    文章

    64

    瀏覽量

    9599
  • API接口
    +關(guān)注

    關(guān)注

    1

    文章

    85

    瀏覽量

    10739
收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    數(shù)據(jù)是什么

    點(diǎn)擊“藍(lán)字”關(guān)注我們來源 |談數(shù)據(jù)作者丨石秀峰一、認(rèn)識(shí)數(shù)據(jù)1、初識(shí)數(shù)據(jù)Data lake,筆者第一次接觸這個(gè)概念,是在2014年IBM組
    發(fā)表于 07-12 08:14

    數(shù)據(jù)的定義是什么?如何去構(gòu)建數(shù)據(jù)

    數(shù)據(jù)的定義是什么?數(shù)據(jù)數(shù)據(jù)倉庫的區(qū)別在哪?如何去構(gòu)建數(shù)據(jù)
    發(fā)表于 07-12 07:04

    數(shù)據(jù)可以用來解決大數(shù)據(jù)的挑戰(zhàn)嗎

    數(shù)據(jù)是機(jī)器學(xué)習(xí)和人工智能的強(qiáng)大基礎(chǔ)),因?yàn)樗鼈冊(cè)诖笮?,多樣化?b class='flag-5'>數(shù)據(jù)集上蓬勃發(fā)展。
    發(fā)表于 02-25 09:01 ?810次閱讀
    <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>可以用來解決大<b class='flag-5'>數(shù)據(jù)</b>的挑戰(zhàn)嗎

    數(shù)據(jù)是什么,它的快速搭建方法介紹

    數(shù)據(jù)概念最早是在2011年提出,到現(xiàn)在也就9年左右的時(shí)間,算是一個(gè)較新的概念。雖然各方理解上有些差異,也存在一些爭(zhēng)議,但概念不重要,關(guān)鍵是否能真正幫助企業(yè)解決在業(yè)務(wù)快速發(fā)展過程中不斷遭遇的新問題。
    的頭像 發(fā)表于 04-03 20:38 ?4372次閱讀

    AWS數(shù)據(jù)怎么脫穎而出的

    在AWS 數(shù)據(jù)平臺(tái)中有很多非常出色的組件,可以幫助用戶解決數(shù)據(jù)中典型的挑戰(zhàn)。比如,Amazon EMR大數(shù)據(jù)處理組件,可以在AWS上輕松
    的頭像 發(fā)表于 04-12 19:34 ?2113次閱讀

    結(jié)合阿里云上的EMR JindoFS優(yōu)化和實(shí)踐,數(shù)據(jù)怎么玩“加速”?

    那么為什么需要加速呢?這和數(shù)據(jù)架構(gòu)分層,以及相關(guān)技術(shù)演進(jìn)具有很大關(guān)系。接下來,我們從三個(gè)方面的介紹來尋找答案。分別是:基礎(chǔ)版,要適配;標(biāo)配版,做緩存;高配版,深度定制。JindoFS同時(shí)涵蓋這三個(gè)層次,實(shí)現(xiàn)
    的頭像 發(fā)表于 09-16 11:56 ?2485次閱讀
    結(jié)合阿里云上的EMR JindoFS優(yōu)化和實(shí)踐,<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>怎么玩“加速”?

    阿里云為什么要重構(gòu)數(shù)據(jù)解決方案 主推下一代技術(shù)

    數(shù)據(jù)并不是一個(gè)新概念,大概在十多年前,從有Hadoop開始,就有很多人提出這樣的設(shè)想。面對(duì)海量數(shù)據(jù)增長,要想挖掘數(shù)據(jù)價(jià)值,首先得有一個(gè)能夠存儲(chǔ)各類
    的頭像 發(fā)表于 11-11 14:38 ?1211次閱讀

    阿里云宣布推出業(yè)內(nèi)首個(gè)云原生企業(yè)級(jí)數(shù)據(jù)解決方案

    據(jù)悉,阿里云云原生企業(yè)級(jí)數(shù)據(jù)解決方案采用了存儲(chǔ)計(jì)算分離架構(gòu),基于阿里云對(duì)象存儲(chǔ)OSS構(gòu)建,并與阿里云數(shù)據(jù)分析Data Lake Analytics(DLA)、
    的頭像 發(fā)表于 12-21 14:07 ?2804次閱讀

    數(shù)據(jù)倉庫、數(shù)據(jù)以及中心化數(shù)據(jù)所有權(quán)的問題

    數(shù)據(jù)和分析領(lǐng)域中,數(shù)據(jù)網(wǎng)格(Data Mesh)范式是取代數(shù)據(jù)、成為主要架構(gòu)模式的強(qiáng)勢(shì)候選者。
    的頭像 發(fā)表于 10-18 16:23 ?2170次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>倉庫、<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>以及中心化<b class='flag-5'>數(shù)據(jù)</b>所有權(quán)的問題

    易華錄提出面向數(shù)據(jù)數(shù)據(jù)安全治理框架

    在“十四五”規(guī)劃明確提出加快構(gòu)建全國一體化大數(shù)據(jù)中心體系的背景下,易華錄數(shù)據(jù)以低能耗、跨領(lǐng)域、跨系統(tǒng)的特性提供了全新的技術(shù)架構(gòu)。此外,《數(shù)據(jù)安全法》等法律法規(guī)的相繼出臺(tái),對(duì)
    的頭像 發(fā)表于 04-22 08:23 ?2481次閱讀

    數(shù)據(jù)生態(tài)與數(shù)據(jù)智能峰會(huì)來襲 24日易華錄有約

    ·數(shù)據(jù)生態(tài)與數(shù)據(jù)智能峰會(huì)來襲 6月24日易華錄有約 ? · ? · · ? · · ? · · ? · · ? ? ? ?
    的頭像 發(fā)表于 06-23 17:51 ?1578次閱讀

    如何將SAP歸檔數(shù)據(jù)合并到數(shù)據(jù)

    存儲(chǔ)在傳統(tǒng) SAP 歸檔解決方案中的數(shù)據(jù)無法幫助企業(yè)做出更好的商業(yè)決策 SAP系統(tǒng)已經(jīng)存在了幾十年,與大多數(shù)本地(Hadoop)或基于云的(Google, Azure, AWS)數(shù)據(jù)不同。這就
    的頭像 發(fā)表于 02-14 09:50 ?1058次閱讀

    Azure Data Lake數(shù)據(jù)指南

    Azure Data Lake Storage Gen2 (ADLS Gen2) 是用于大數(shù)據(jù)分析的高度可擴(kuò)展且經(jīng)濟(jì)高效的數(shù)據(jù)解決方案。隨著我們繼續(xù)與客戶合作,利用 ADLS Gen2 從他們
    的頭像 發(fā)表于 05-22 18:01 ?796次閱讀
    Azure Data Lake<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>指南

    數(shù)據(jù)真的能取代數(shù)據(jù)倉庫嗎?【SNP SAP數(shù)據(jù)轉(zhuǎn)型 】

    數(shù)據(jù)數(shù)據(jù)倉庫的存在并不沖突,也并不是取代的關(guān)系,而是相互的融合關(guān)系。 數(shù)據(jù)是近兩年中比較新的技術(shù)在大
    的頭像 發(fā)表于 07-03 15:48 ?688次閱讀
    <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>真的能取代<b class='flag-5'>數(shù)據(jù)</b>倉庫嗎?【SNP SAP<b class='flag-5'>數(shù)據(jù)</b>轉(zhuǎn)型 】

    什么是數(shù)據(jù)?數(shù)據(jù)數(shù)據(jù)倉庫有什么區(qū)別?

    從本質(zhì)上說,數(shù)據(jù)就是一個(gè)信息資源庫。人們常常將數(shù)據(jù)數(shù)據(jù)倉庫混為一談,但兩者在架構(gòu)和滿足的業(yè)務(wù)需求上都不一樣。尤其是,隨著社交媒體
    的頭像 發(fā)表于 05-20 12:38 ?850次閱讀
    什么是<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>?<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>和<b class='flag-5'>數(shù)據(jù)</b>倉庫有什么區(qū)別?