一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)湖是什么,它的快速搭建方法介紹

獨(dú)愛72H ? 來源:ITPUB ? 作者:ITPUB ? 2020-04-03 20:38 ? 次閱讀

(文章來源:ITPUB)

數(shù)據(jù)湖概念最早是在2011年提出,到現(xiàn)在也就9年左右的時(shí)間,算是一個(gè)較新的概念。雖然各方理解上有些差異,也存在一些爭(zhēng)議,但概念不重要,關(guān)鍵是否能真正幫助企業(yè)解決在業(yè)務(wù)快速發(fā)展過程中不斷遭遇的新問題。對(duì)于希望從數(shù)據(jù)資產(chǎn)中獲取更多經(jīng)濟(jì)價(jià)值的企業(yè)而言,數(shù)據(jù)湖可能是一個(gè)可行的選擇。但對(duì)不少國內(nèi)企業(yè)來說,數(shù)據(jù)湖顯然還是一個(gè)未知的領(lǐng)域。

數(shù)據(jù)顯示,全球數(shù)據(jù)湖市場(chǎng)在2019年的規(guī)模為37.4億美元,預(yù)計(jì)到2025年將達(dá)到176億美元,預(yù)計(jì)2020 - 2025年期間的復(fù)合年增長(zhǎng)率為29.9%。在國外,尤其是北美,數(shù)據(jù)湖應(yīng)用已經(jīng)比較成熟,但在國內(nèi),還屬于初期階段。因此,第一次搭建數(shù)據(jù)湖,從哪里開始?如何成功搭建數(shù)據(jù)湖?對(duì)一些企業(yè)而言可能很難獲知,無論從時(shí)間還是投入上來說,試錯(cuò)的成本都很高,那么,企業(yè)應(yīng)該怎么做才能最大程度的降低風(fēng)險(xiǎn)并確保獲得回報(bào)?而這將是本文要探討的。

什么是數(shù)據(jù)湖,簡(jiǎn)單的說,數(shù)據(jù)湖更像是數(shù)據(jù)倉庫的進(jìn)化,比傳統(tǒng)數(shù)據(jù)倉庫涉及面更廣。但這并不是說數(shù)據(jù)湖能直接代替數(shù)據(jù)倉庫,兩者可以互補(bǔ),大量案例顯示,數(shù)據(jù)倉庫作為數(shù)據(jù)湖的一類“數(shù)據(jù)應(yīng)用”存在,協(xié)同工作。

眾所周知,傳統(tǒng)數(shù)據(jù)倉庫都是由數(shù)據(jù)庫發(fā)展而來,因此,無論是傳統(tǒng)的還是新型數(shù)據(jù)倉庫(分布式、云原生數(shù)倉),主要應(yīng)用于結(jié)構(gòu)化數(shù)據(jù)。而數(shù)據(jù)湖是多結(jié)構(gòu)數(shù)據(jù)的存儲(chǔ)庫,無論是結(jié)構(gòu)化、非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),都能以其原始格式存儲(chǔ),不需要進(jìn)行初始轉(zhuǎn)換過程,因此,更加靈活,并且存儲(chǔ)與計(jì)算是分離的,數(shù)據(jù)存儲(chǔ)在便宜的對(duì)象存儲(chǔ)中,如Hadoop或Amazon S3,能更好的優(yōu)化成本,而各種工具和服務(wù)(如Apache Presto、Elasticsearch和Amazon Athena)可以用來查詢這些數(shù)據(jù)。

數(shù)據(jù)湖的產(chǎn)生,源于大數(shù)據(jù)時(shí)代企業(yè)面臨的一系列挑戰(zhàn),例如:數(shù)據(jù)孤島,分析各種數(shù)據(jù)集的難度,數(shù)據(jù)管理,數(shù)據(jù)安全等。而云計(jì)算、人工智能則是推動(dòng)數(shù)據(jù)湖發(fā)展的重要因素,云計(jì)算提供了快速查詢、海量存儲(chǔ)的能力,而機(jī)器學(xué)習(xí)需要原始數(shù)據(jù)做分析,而用到的數(shù)據(jù),也不止于結(jié)構(gòu)化數(shù)據(jù),用戶的評(píng)論、圖像這些非結(jié)構(gòu)化數(shù)據(jù),也都可以應(yīng)用到機(jī)器學(xué)習(xí)中。目前,數(shù)據(jù)湖最為人所知的應(yīng)用,當(dāng)屬亞馬遜Galaxy(內(nèi)部代號(hào)),如今已經(jīng)成為了亞馬遜核心競(jìng)爭(zhēng)力之一。

Galaxy數(shù)據(jù)湖建于2019年,構(gòu)建的原因是亞馬遜運(yùn)營團(tuán)隊(duì)需要做大量的數(shù)據(jù)分析,但基于傳統(tǒng)的數(shù)據(jù)倉庫無法滿足擴(kuò)展的需要,并且維護(hù)的復(fù)雜度和成本都很高。基于自身強(qiáng)大的技術(shù)能力,亞馬遜Galaxy實(shí)施了基于Amazon S3的數(shù)據(jù)湖方案,使用Amazon Redshift,Redshift Spectrum,和Amazon EMR運(yùn)行分析的操作。下圖展示了Galaxy使用的一些AWS服務(wù):Galaxy的部署,讓數(shù)據(jù)存儲(chǔ)量從50PB提升至100PB,在減少成本的同時(shí)加快了從數(shù)據(jù)中挖掘有用信息的速度。

數(shù)據(jù)湖是什么,它的快速搭建方法介紹

目前,每天在Galaxy上執(zhí)行的分析任務(wù)高達(dá)60萬個(gè),涉及各個(gè)方面,如為用戶推薦、運(yùn)營信息、庫存信息、購買信息、物價(jià)信息等。再來看一個(gè)國內(nèi)的應(yīng)用,出海電商新秀Club Factory。Club Factory 是2016年由嘉云數(shù)據(jù)在杭州成立, 定位于創(chuàng)新型出口電商、輕自營跨境電商平臺(tái)。或許國內(nèi)很多人都沒聽說過這家公司,但這家公司很厲害,手握的全球用戶已經(jīng)超過1億,其APP在超過10個(gè)國家APP購物榜單排名前5,14個(gè)國家排名前10。

在數(shù)據(jù)湖的構(gòu)建上,Club Factory采用了基于AWS數(shù)據(jù)湖的解決方案,通過使用數(shù)據(jù)湖來實(shí)現(xiàn)基于用戶在平臺(tái)上的所有行為做實(shí)時(shí)自動(dòng)推薦,BI報(bào)表(內(nèi)部運(yùn)營、分析),供應(yīng)鏈管理創(chuàng)新。據(jù)公開資料顯示,其數(shù)據(jù)湖平臺(tái)日均處理15億條行為數(shù)據(jù)分析,支撐80多位數(shù)據(jù)工程師的分析和算法需求,支撐180個(gè)活躍的數(shù)據(jù)分析調(diào)度任務(wù),每日同步4000多個(gè)業(yè)務(wù)數(shù)據(jù)到數(shù)據(jù)倉庫,支撐的數(shù)據(jù)總量達(dá)到約600TB。

如何快速搭建數(shù)據(jù)湖?搭建數(shù)據(jù)湖無非2種選擇,一種是基于開源解決方案,一種是基于商業(yè)解決方案。開源解決方案的優(yōu)勢(shì)是沒有授權(quán)成本,但有個(gè)前提,即你所在的企業(yè)得有一個(gè)能夠駕馭開源技術(shù)的團(tuán)隊(duì),有能力自己解決問題。因?yàn)?,開源解決方案通常都比較零散,不成系統(tǒng)。對(duì)于初次搭建數(shù)據(jù)湖的企業(yè)而言,復(fù)雜性很高,成功搭建難度大?;谏虡I(yè)的解決方案則相反,對(duì)于較小或剛開始使用數(shù)據(jù)湖的公司來說,基于公有云的數(shù)據(jù)湖解決方案實(shí)現(xiàn)數(shù)據(jù)湖的快速構(gòu)建是可行的選擇。

不僅搭建和管理維護(hù)的復(fù)雜性降低,并且成本可監(jiān)控。其次,基于云的數(shù)據(jù)湖解決方案技術(shù)成熟度更高。能得到更為成熟的技術(shù)環(huán)境支持,包括工具的多樣性。最后,可擴(kuò)展性和安全也是重要原因之一。目前,數(shù)據(jù)湖已經(jīng)在公有云上得到了完美的實(shí)現(xiàn)和應(yīng)用,例如:可以基于Amazon S3、AWS Glue等多個(gè)基本云服務(wù)快速構(gòu)建出一套數(shù)據(jù)湖服務(wù) 。近期,AWS宣布,AWS Glue、Amazon Athena在由西云數(shù)據(jù)運(yùn)營的AWS中國(寧夏)區(qū)域正式上線。

AWS Glue是一種全托管的數(shù)據(jù)提取、轉(zhuǎn)換和加載 (ETL) 服務(wù)及元數(shù)據(jù)目錄。它的價(jià)值在于,能讓準(zhǔn)備數(shù)據(jù)更容易加載數(shù)據(jù)到數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖,用于數(shù)據(jù)分析。Amazon Athena則是一種交互式查詢服務(wù),使用標(biāo)準(zhǔn)的SQL,可以直接對(duì)Amazon S3上的數(shù)據(jù)做交互查詢。而這兩種服務(wù)都是無服務(wù)器服務(wù),意味著不需要管理基礎(chǔ)設(shè)施,只需要為運(yùn)行的查詢付費(fèi)。

官方已經(jīng)給出了如何使用 AWS Glue 和 Amazon S3 構(gòu)建數(shù)據(jù)湖基礎(chǔ)和如何使用Amazon Athena 分析數(shù)據(jù)的具體教程,本文就不再贅述。當(dāng)然,如果你覺得這種方式還有些復(fù)雜,那么接下來的一項(xiàng)服務(wù),可以重點(diǎn)關(guān)注。去年,AWS發(fā)布了一項(xiàng)名為AWS Lake Formation的新服務(wù),進(jìn)一步降低了數(shù)據(jù)湖搭建的門檻,該服務(wù)簡(jiǎn)化了數(shù)據(jù)湖的創(chuàng)建過程,并在幾天(而不是幾個(gè)月)內(nèi)構(gòu)建一個(gè)安全的數(shù)據(jù)湖。

不過,該服務(wù)目前還未在中國正式推出。當(dāng)然,你也可以視自身情況自行選擇其他供應(yīng)商,本文推薦基于AWS數(shù)據(jù)湖解決方案來實(shí)現(xiàn)快速搭建數(shù)據(jù)湖,是因?yàn)?,到目前為止,AWS數(shù)據(jù)湖/數(shù)據(jù)分析解決方案是最完整,提供服務(wù)最豐富的,也是成功案例最多的。
(責(zé)任編輯:fqj)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7233

    瀏覽量

    90794
  • 云計(jì)算
    +關(guān)注

    關(guān)注

    39

    文章

    7957

    瀏覽量

    139082
收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    搭建算力中心,從了解的GPU 特性開始

    ABSTRACT摘要本文介紹如何搭建算力,并介紹A100、H100、H200和B200這些GPU的特性。JAEALOT2025年4月23日隨著人工智能、大數(shù)據(jù)和高性能計(jì)算(HPC)的
    的頭像 發(fā)表于 04-24 11:08 ?273次閱讀
    <b class='flag-5'>搭建</b>算力中心,從了解的GPU 特性開始

    低代碼平臺(tái):快速搭建與優(yōu)化MES系統(tǒng),提升生產(chǎn)效率

    一、低代碼平臺(tái)概述 低代碼平臺(tái)是一種可視化的軟件高效開發(fā)平臺(tái),通過抽象和最小化手工編碼的方式,為開發(fā)和部署定制化應(yīng)用提速。低代碼平臺(tái)的主要特點(diǎn)是讓使用者通過可視化的方式,以更少的編碼、更快速地構(gòu)建
    的頭像 發(fā)表于 01-23 09:37 ?267次閱讀
    低代碼平臺(tái):<b class='flag-5'>快速</b><b class='flag-5'>搭建</b>與優(yōu)化MES系統(tǒng),提升生產(chǎn)效率

    電腦搭建虛擬云,電腦搭建虛擬云電腦的具體方法

    ? ? 從早期的簡(jiǎn)單遠(yuǎn)程登錄到如今的高清視頻遠(yuǎn)程協(xié)作,遠(yuǎn)程連接技術(shù)經(jīng)歷了漫長(zhǎng)的發(fā)展歷程。這次給大家介紹電腦搭建虛擬云電腦的具體方法? ? ?電腦搭建虛擬云電腦的具體
    的頭像 發(fā)表于 01-22 10:27 ?427次閱讀
    電腦<b class='flag-5'>搭建</b>虛擬云,電腦<b class='flag-5'>搭建</b>虛擬云電腦的具體<b class='flag-5'>方法</b>

    蘋果電腦搭建私有云,蘋果電腦搭建私有云的詳細(xì)操作步驟

    ? ? 隨著云計(jì)算技術(shù)的飛速發(fā)展,云電腦逐漸走進(jìn)了人們的視野。像一朵神奇的云,承載著我們的數(shù)據(jù)和應(yīng)用,讓我們隨時(shí)隨地都能享受到高效的計(jì)算服務(wù)。今天就為大家介紹蘋果電腦搭建私有云的詳細(xì)
    的頭像 發(fā)表于 01-17 10:17 ?844次閱讀
    蘋果電腦<b class='flag-5'>搭建</b>私有云,蘋果電腦<b class='flag-5'>搭建</b>私有云的詳細(xì)操作步驟

    搭建家庭云平臺(tái)電腦,搭建家庭云平臺(tái)電腦的操作方法

    在數(shù)字化浪潮的洶涌沖擊下,傳統(tǒng)電腦逐漸顯露出局限性,而云電腦猶如一顆璀璨的新星,在信息技術(shù)的天空中冉冉升起,以其獨(dú)特的魅力吸引著眾多目光。今天就為大家介紹搭建家庭云平臺(tái)電腦的操作方法。 ? ?
    的頭像 發(fā)表于 01-13 14:26 ?601次閱讀
    <b class='flag-5'>搭建</b>家庭云平臺(tái)電腦,<b class='flag-5'>搭建</b>家庭云平臺(tái)電腦的操作<b class='flag-5'>方法</b>

    舊電腦搭建私有云群暉,怎么用群暉搭建舊電腦私有云

    存儲(chǔ)服務(wù)器,支持數(shù)據(jù)存儲(chǔ),文件共享,虛擬機(jī)備份,異地容災(zāi)備份等功能。低成本,可擴(kuò)展的數(shù)據(jù)存儲(chǔ)產(chǎn)品,提供專業(yè)的存儲(chǔ)解決方案,滿足不同存儲(chǔ)場(chǎng)景。接下來將介紹的使用
    的頭像 發(fā)表于 01-13 14:06 ?907次閱讀
    舊電腦<b class='flag-5'>搭建</b>私有云群暉,怎么用群暉<b class='flag-5'>搭建</b>舊電腦私有云

    基于華為云 Flexus 云服務(wù)器 X 實(shí)例快速搭建 Halo 博客平臺(tái)

    如何基于華為云 Flexus 云服務(wù)器 X 實(shí)例快速搭建 Halo 博客平臺(tái),幫助大家掌握從選購服務(wù)器到部署應(yīng)用的完整流程。 一、Flexus 云服務(wù)器 X 介紹 1.1 Flexus 云服務(wù)器 X 實(shí)例簡(jiǎn)介 Flexus云服務(wù)
    的頭像 發(fā)表于 01-08 11:46 ?380次閱讀
    基于華為云 Flexus 云服務(wù)器 X 實(shí)例<b class='flag-5'>快速</b><b class='flag-5'>搭建</b> Halo 博客平臺(tái)

    云電腦需要怎么去搭建,云電腦需要怎么快速搭建

    搭建云電腦可以讓您隨時(shí)隨地通過網(wǎng)絡(luò)訪問強(qiáng)大的計(jì)算資源,無論是用于遠(yuǎn)程辦公、娛樂還是開發(fā),都能提供靈活的解決方案。以下是快速搭建云電腦的詳細(xì)步驟: ? ?1.硬件準(zhǔn)備 ? ?選擇合適的硬件:需要一臺(tái)
    的頭像 發(fā)表于 01-06 15:46 ?410次閱讀
    云電腦需要怎么去<b class='flag-5'>搭建</b>,云電腦需要怎么<b class='flag-5'>快速</b>去<b class='flag-5'>搭建</b>

    電腦怎么搭建云存儲(chǔ),電腦怎么搭建云存儲(chǔ)的教程,個(gè)人云電腦是什么以及怎么連接

    ? ? 遠(yuǎn)程連接助力企業(yè)市場(chǎng)調(diào)研精準(zhǔn)洞察需求。調(diào)研人員通過線上問卷、視頻訪談等方式遠(yuǎn)程連接目標(biāo)客戶群體,覆蓋范圍廣、樣本量大,快速收集反饋數(shù)據(jù);利用大數(shù)據(jù)分析平臺(tái)遠(yuǎn)程接入多源數(shù)據(jù),挖掘
    的頭像 發(fā)表于 12-30 14:06 ?438次閱讀
    電腦怎么<b class='flag-5'>搭建</b>云存儲(chǔ),電腦怎么<b class='flag-5'>搭建</b>云存儲(chǔ)的教程,個(gè)人云電腦是什么以及怎么連接

    搭建開源大語言模型服務(wù)的方法

    本文我們將總結(jié)5種搭建開源大語言模型服務(wù)的方法,每種都附帶詳細(xì)的操作步驟,以及各自的優(yōu)缺點(diǎn)。
    的頭像 發(fā)表于 10-29 09:17 ?580次閱讀

    TI RF Transceiver EVM自動(dòng)化環(huán)境搭建方法

    電子發(fā)燒友網(wǎng)站提供《TI RF Transceiver EVM自動(dòng)化環(huán)境搭建方法.pdf》資料免費(fèi)下載
    發(fā)表于 09-04 09:35 ?0次下載
    TI RF Transceiver EVM自動(dòng)化環(huán)境<b class='flag-5'>搭建</b><b class='flag-5'>方法</b>

    滴水中國RISC-V產(chǎn)業(yè)論壇:去年推介10款芯片9款量產(chǎn)

    電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)8月19日,第四屆滴水中國RISC-V產(chǎn)業(yè)論壇(簡(jiǎn)稱“滴水論壇”)正式開幕,論壇以“匯聚創(chuàng)新力量,共筑RISC-V生態(tài)”為主題,旨在搭建一個(gè)高效、務(wù)實(shí)的交流平臺(tái)
    的頭像 發(fā)表于 08-19 10:15 ?1346次閱讀

    pytorch環(huán)境搭建詳細(xì)步驟

    PyTorch作為一個(gè)廣泛使用的深度學(xué)習(xí)框架,其環(huán)境搭建對(duì)于從事機(jī)器學(xué)習(xí)和深度學(xué)習(xí)研究及開發(fā)的人員來說至關(guān)重要。以下將介紹PyTorch環(huán)境搭建的詳細(xì)步驟,包括安裝Anaconda、配置清華鏡像源
    的頭像 發(fā)表于 08-01 15:38 ?1550次閱讀

    什么是數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)倉庫有什么區(qū)別?

    從本質(zhì)上說,數(shù)據(jù)就是一個(gè)信息資源庫。人們常常將數(shù)據(jù)數(shù)據(jù)倉庫混為一談,但兩者在架構(gòu)和滿足的業(yè)務(wù)需求上都不一樣。尤其是,隨著社交媒體
    的頭像 發(fā)表于 05-20 12:38 ?852次閱讀
    什么是<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>?<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>和<b class='flag-5'>數(shù)據(jù)</b>倉庫有什么區(qū)別?

    HarmonyOS開發(fā)案例:【搭建關(guān)系型數(shù)據(jù)庫】(4)

    本節(jié)將介紹如何調(diào)用關(guān)系型數(shù)據(jù)庫接口在本地搭建數(shù)據(jù)庫,并讀寫相應(yīng)的用戶數(shù)據(jù)
    的頭像 發(fā)表于 05-11 10:27 ?1263次閱讀
    HarmonyOS開發(fā)案例:【<b class='flag-5'>搭建</b>關(guān)系型<b class='flag-5'>數(shù)據(jù)</b>庫】(4)