一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)湖是什么

汽車(chē)電子技術(shù) ? 來(lái)源:碼農(nóng)與軟件時(shí)代 ? 作者:碼農(nóng)與軟件時(shí)代 ? 2023-02-15 10:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1.為什么出現(xiàn)數(shù)據(jù)湖?

支撐業(yè)務(wù)的IT軟件系統(tǒng)最簡(jiǎn)單的數(shù)據(jù)鏈路是:操作業(yè)務(wù)APP的界面或者調(diào)用其API接口,將交易數(shù)據(jù)記錄到關(guān)系型數(shù)據(jù)庫(kù)中。

說(shuō)其簡(jiǎn)單,是因?yàn)檫@樣的系統(tǒng)能夠支撐業(yè)務(wù)交易。業(yè)務(wù)APP上的每筆交易數(shù)據(jù)都會(huì)記錄在數(shù)據(jù)庫(kù)中。

這對(duì)業(yè)務(wù)交易員來(lái)說(shuō),已經(jīng)足夠了。但對(duì)業(yè)務(wù)管理者來(lái)說(shuō),期望看到的是“自己關(guān)心的、宏觀(guān)的、能夠反應(yīng)歷史變化的數(shù)據(jù)”,并且最好是可視化的界面,一目了然。

于是,“數(shù)據(jù)倉(cāng)庫(kù)”出現(xiàn)了,它就是一個(gè)面向主題的、集成的、反映歷史變化的數(shù)據(jù)集合。

那么,數(shù)據(jù)是如何從業(yè)務(wù)數(shù)據(jù)庫(kù)到達(dá)數(shù)據(jù)倉(cāng)庫(kù)的呢?

首先,要理解的是業(yè)務(wù)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的Schema(表結(jié)構(gòu))大部分情況下是不同的,前者用來(lái)記錄實(shí)時(shí)交易信息,后者用來(lái)記錄歷史匯總信息。

其次,表結(jié)構(gòu)的不同,就需要進(jìn)行數(shù)據(jù)處理的三板斧--“抽取、轉(zhuǎn)換和加載”,即Extract-Transform-Load,簡(jiǎn)稱(chēng)ETL。具體來(lái)說(shuō)就是抽取管理者關(guān)心的(面向主題)、轉(zhuǎn)換數(shù)據(jù)、加載到數(shù)據(jù)倉(cāng)庫(kù)中。

最后,根據(jù)業(yè)務(wù)規(guī)則,提取數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行可視化提取與展示(報(bào)表)。

數(shù)據(jù)倉(cāng)庫(kù)的使用思路是:業(yè)務(wù)管理者知道“自己關(guān)心哪些數(shù)據(jù)”,在創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)時(shí),便可以將這些數(shù)據(jù)提取并記錄下來(lái)。這樣,數(shù)據(jù)倉(cāng)庫(kù)記錄的是經(jīng)過(guò)加工過(guò)的數(shù)據(jù),而非原始數(shù)據(jù)

注意到數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是結(jié)構(gòu)化的。對(duì)于半結(jié)構(gòu)化(CSVXMLJSON)和非結(jié)構(gòu)化(e-mail文檔)的數(shù)據(jù)來(lái)說(shuō),也蘊(yùn)含著有價(jià)值的信息,同樣需要分析,或者現(xiàn)在不知道怎么分析,也可以先存儲(chǔ)起來(lái)。

那么就需要有一種方法:不但可以存儲(chǔ)原始數(shù)據(jù),也可以存儲(chǔ)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu) 化的數(shù)據(jù),并且還能支撐數(shù)據(jù)的分析。

時(shí)勢(shì)的呼喚下,“數(shù)據(jù)湖(Data Lake)”便產(chǎn)生了。

2.數(shù)據(jù)湖是什么?

數(shù)據(jù)湖是一個(gè)以原始格式存儲(chǔ)數(shù)據(jù)的存儲(chǔ)庫(kù)或系統(tǒng)。

“數(shù)據(jù)”可以是各種格式的,結(jié)構(gòu)化、半結(jié)構(gòu)化的、非結(jié)構(gòu)化的。并且數(shù)據(jù)是未經(jīng)加工的,像大自然的水,流入到“湖”中。也就是數(shù)據(jù)的存儲(chǔ),無(wú)需像數(shù)據(jù)倉(cāng)庫(kù)那樣事先設(shè)計(jì)Schema,也無(wú)需事先有明確的分析需求(有了想法,再延遲分析,稱(chēng)為讀時(shí)模式Schema-On-Read)。

3.數(shù)據(jù)湖如何實(shí)現(xiàn)?

數(shù)據(jù)湖是一種方法論,探討如何以原始形態(tài)存儲(chǔ)各種格式的數(shù)據(jù),并能支持后續(xù)的分析。

數(shù)據(jù)湖的開(kāi)源實(shí)現(xiàn)有:Hadoop、Delta、Apache Iceberg 和 Apache Hudi。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)庫(kù)
    +關(guān)注

    關(guān)注

    7

    文章

    3917

    瀏覽量

    66080
  • 數(shù)據(jù)鏈路
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    9084
  • 軟件系統(tǒng)
    +關(guān)注

    關(guān)注

    0

    文章

    66

    瀏覽量

    9656
  • API接口
    +關(guān)注

    關(guān)注

    1

    文章

    85

    瀏覽量

    10855
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    數(shù)據(jù)是什么

    點(diǎn)擊“藍(lán)字”關(guān)注我們來(lái)源 |談數(shù)據(jù)作者丨石秀峰一、認(rèn)識(shí)數(shù)據(jù)1、初識(shí)數(shù)據(jù)Data lake,筆者第一次接觸這個(gè)概念,是在2014年IBM組
    發(fā)表于 07-12 08:14

    數(shù)據(jù)的定義是什么?如何去構(gòu)建數(shù)據(jù)?

    數(shù)據(jù)的定義是什么?數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別在哪?如何去構(gòu)建數(shù)據(jù)
    發(fā)表于 07-12 07:04

    數(shù)據(jù)可以用來(lái)解決大數(shù)據(jù)的挑戰(zhàn)嗎

    數(shù)據(jù)是機(jī)器學(xué)習(xí)和人工智能的強(qiáng)大基礎(chǔ)),因?yàn)樗鼈冊(cè)诖笮停鄻踊?b class='flag-5'>數(shù)據(jù)集上蓬勃發(fā)展。
    發(fā)表于 02-25 09:01 ?825次閱讀
    <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>可以用來(lái)解決大<b class='flag-5'>數(shù)據(jù)</b>的挑戰(zhàn)嗎

    數(shù)據(jù)是什么,它的快速搭建方法介紹

    數(shù)據(jù)概念最早是在2011年提出,到現(xiàn)在也就9年左右的時(shí)間,算是一個(gè)較新的概念。雖然各方理解上有些差異,也存在一些爭(zhēng)議,但概念不重要,關(guān)鍵是否能真正幫助企業(yè)解決在業(yè)務(wù)快速發(fā)展過(guò)程中不斷遭遇的新問(wèn)題。
    的頭像 發(fā)表于 04-03 20:38 ?4451次閱讀

    AWS數(shù)據(jù)怎么脫穎而出的

    在A(yíng)WS 數(shù)據(jù)平臺(tái)中有很多非常出色的組件,可以幫助用戶(hù)解決數(shù)據(jù)中典型的挑戰(zhàn)。比如,Amazon EMR大數(shù)據(jù)處理組件,可以在A(yíng)WS上輕松
    的頭像 發(fā)表于 04-12 19:34 ?2164次閱讀

    結(jié)合阿里云上的EMR JindoFS優(yōu)化和實(shí)踐,數(shù)據(jù)怎么玩“加速”?

    那么為什么需要加速呢?這和數(shù)據(jù)架構(gòu)分層,以及相關(guān)技術(shù)演進(jìn)具有很大關(guān)系。接下來(lái),我們從三個(gè)方面的介紹來(lái)尋找答案。分別是:基礎(chǔ)版,要適配;標(biāo)配版,做緩存;高配版,深度定制。JindoFS同時(shí)涵蓋這三個(gè)層次,實(shí)現(xiàn)
    的頭像 發(fā)表于 09-16 11:56 ?2556次閱讀
    結(jié)合阿里云上的EMR JindoFS優(yōu)化和實(shí)踐,<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>怎么玩“加速”?

    阿里云為什么要重構(gòu)數(shù)據(jù)解決方案 主推下一代技術(shù)

    數(shù)據(jù)并不是一個(gè)新概念,大概在十多年前,從有Hadoop開(kāi)始,就有很多人提出這樣的設(shè)想。面對(duì)海量數(shù)據(jù)增長(zhǎng),要想挖掘數(shù)據(jù)價(jià)值,首先得有一個(gè)能夠存儲(chǔ)各類(lèi)
    的頭像 發(fā)表于 11-11 14:38 ?1287次閱讀

    阿里云宣布推出業(yè)內(nèi)首個(gè)云原生企業(yè)級(jí)數(shù)據(jù)解決方案

    據(jù)悉,阿里云云原生企業(yè)級(jí)數(shù)據(jù)解決方案采用了存儲(chǔ)計(jì)算分離架構(gòu),基于阿里云對(duì)象存儲(chǔ)OSS構(gòu)建,并與阿里云數(shù)據(jù)分析Data Lake Analytics(DLA)、
    的頭像 發(fā)表于 12-21 14:07 ?2881次閱讀

    數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)以及中心化數(shù)據(jù)所有權(quán)的問(wèn)題

    數(shù)據(jù)和分析領(lǐng)域中,數(shù)據(jù)網(wǎng)格(Data Mesh)范式是取代數(shù)據(jù)、成為主要架構(gòu)模式的強(qiáng)勢(shì)候選者。
    的頭像 發(fā)表于 10-18 16:23 ?2258次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>倉(cāng)庫(kù)、<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>以及中心化<b class='flag-5'>數(shù)據(jù)</b>所有權(quán)的問(wèn)題

    易華錄提出面向數(shù)據(jù)數(shù)據(jù)安全治理框架

    在“十四五”規(guī)劃明確提出加快構(gòu)建全國(guó)一體化大數(shù)據(jù)中心體系的背景下,易華錄數(shù)據(jù)以低能耗、跨領(lǐng)域、跨系統(tǒng)的特性提供了全新的技術(shù)架構(gòu)。此外,《數(shù)據(jù)安全法》等法律法規(guī)的相繼出臺(tái),對(duì)
    的頭像 發(fā)表于 04-22 08:23 ?2594次閱讀

    數(shù)據(jù)生態(tài)與數(shù)據(jù)智能峰會(huì)來(lái)襲 24日易華錄有約

    ·數(shù)據(jù)生態(tài)與數(shù)據(jù)智能峰會(huì)來(lái)襲 6月24日易華錄有約 ? · ? · · ? · · ? · · ? · · ? ? ? ?
    的頭像 發(fā)表于 06-23 17:51 ?1642次閱讀

    如何將SAP歸檔數(shù)據(jù)合并到數(shù)據(jù)

    存儲(chǔ)在傳統(tǒng) SAP 歸檔解決方案中的數(shù)據(jù)無(wú)法幫助企業(yè)做出更好的商業(yè)決策 SAP系統(tǒng)已經(jīng)存在了幾十年,與大多數(shù)本地(Hadoop)或基于云的(Google, Azure, AWS)數(shù)據(jù)不同。這就
    的頭像 發(fā)表于 02-14 09:50 ?1138次閱讀

    Azure Data Lake數(shù)據(jù)指南

    Azure Data Lake Storage Gen2 (ADLS Gen2) 是用于大數(shù)據(jù)分析的高度可擴(kuò)展且經(jīng)濟(jì)高效的數(shù)據(jù)解決方案。隨著我們繼續(xù)與客戶(hù)合作,利用 ADLS Gen2 從他們
    的頭像 發(fā)表于 05-22 18:01 ?888次閱讀
    Azure Data Lake<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>指南

    數(shù)據(jù)真的能取代數(shù)據(jù)倉(cāng)庫(kù)嗎?【SNP SAP數(shù)據(jù)轉(zhuǎn)型 】

    數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的存在并不沖突,也并不是取代的關(guān)系,而是相互的融合關(guān)系。 數(shù)據(jù)是近兩年中比較新的技術(shù)在大
    的頭像 發(fā)表于 07-03 15:48 ?761次閱讀
    <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>真的能取代<b class='flag-5'>數(shù)據(jù)</b>倉(cāng)庫(kù)嗎?【SNP SAP<b class='flag-5'>數(shù)據(jù)</b>轉(zhuǎn)型 】

    什么是數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)有什么區(qū)別?

    從本質(zhì)上說(shuō),數(shù)據(jù)就是一個(gè)信息資源庫(kù)。人們常常將數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)混為一談,但兩者在架構(gòu)和滿(mǎn)足的業(yè)務(wù)需求上都不一樣。尤其是,隨著社交媒體
    的頭像 發(fā)表于 05-20 12:38 ?953次閱讀
    什么是<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>?<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>和<b class='flag-5'>數(shù)據(jù)</b>倉(cāng)庫(kù)有什么區(qū)別?