一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數(shù)據(jù)倉庫、數(shù)據(jù)湖以及中心化數(shù)據(jù)所有權的問題

茶棚小二a ? 來源:Thoughtworks ? 作者:茶棚小二的專欄 ? 2021-10-18 16:23 ? 次閱讀

在數(shù)據(jù)和分析領域中,數(shù)據(jù)網(wǎng)格(Data Mesh)范式是取代數(shù)據(jù)湖、成為主要架構模式的強勢候選者。 重要的是,數(shù)據(jù)網(wǎng)格引入了新的組織視角,并且它與特定技術無關。 其關鍵思想是將領域驅動設計(DDD)和產(chǎn)品思維,應用到數(shù)據(jù)和分析領域的難題中。與引入DevOps文化相比,建立數(shù)據(jù)網(wǎng)格文化包含人與人的連接,同理心,以及聯(lián)合責任結構的建立。 通過這種方式,從數(shù)據(jù)中產(chǎn)生業(yè)務價值能夠實現(xiàn)可持續(xù)的規(guī)?;?。

隨著各個公司在關鍵業(yè)務領域進行數(shù)字化,他們收集了越來越多的有關其自身流程和客戶的數(shù)據(jù)。 因此,他們希望使用這些數(shù)據(jù)來推動基于事實的決策,以便更好地滿足客戶的需求。 在某些行業(yè)中,數(shù)據(jù)驅動的水平,即公司能夠基于數(shù)據(jù)而不是憑直覺做出決策的速度,已經(jīng)成為決定性的競爭優(yōu)勢。

數(shù)據(jù)倉庫、數(shù)據(jù)湖以及關于中心化數(shù)據(jù)所有權的問題

在傳統(tǒng)的商業(yè)智能(BI)中,集中維護的數(shù)據(jù)倉庫是許多商業(yè)決策的基礎,例如:通過最新的報表來支持這些商業(yè)決策。 隨著大數(shù)據(jù)技術的成熟以及數(shù)據(jù)科學的日益普及,許多公司投資建設了中央數(shù)據(jù)湖——有些是為了替代數(shù)據(jù)倉庫,但更多情況下是對現(xiàn)有數(shù)據(jù)倉庫的補充。 二者的主要區(qū)別在于集展和建模的不同:通過數(shù)據(jù)倉庫的方式,數(shù)據(jù)在攝取時,已經(jīng)根據(jù)特定的應用進行了轉換; 對于數(shù)據(jù)湖,這種轉換僅在數(shù)據(jù)用于消費時發(fā)生。 但是,這兩種方法的共同特點是中心化。 而正是這種中心化導致了問題的反復出現(xiàn)。

我一次又一次看到,一個模式是不堪重負、壓力重重的中央“數(shù)據(jù)團隊”。 這個團隊維護著中央數(shù)據(jù)基礎設施,無論是數(shù)據(jù)倉庫還是數(shù)據(jù)湖。然而,更重要的是,該團隊孤立地負責向利益相關者,產(chǎn)品團隊和數(shù)據(jù)科學家提供及時可靠的數(shù)據(jù)集或報表。 我故意稱其為數(shù)據(jù)團隊,而不是更具體地稱為數(shù)據(jù)工程或數(shù)據(jù)洞察團隊,是因為它反映了這個團隊經(jīng)常要處理的不明確的責任組合。

因此,該數(shù)據(jù)團隊的成員經(jīng)常會陷入困境。 他們花費大量時間進行“消防員”式的救急工作,也修復數(shù)據(jù)生產(chǎn)團隊引入的問題,但也很難使數(shù)據(jù)的消費者滿意。 尤其令人悲傷的是,這些團隊成員通常是公司中最精通數(shù)據(jù)的人。并且經(jīng)??梢钥吹降氖牵哼@種長期的壓力會導致生產(chǎn)力下降,工作場所滿意度降低,甚至員工流失率增加。

如今有能力的工程師為什么無法解決這種問題? 原因在于這不是技術問題,而是組織問題。 主要問題之一是參與各方的職責劃分不當。

數(shù)據(jù)生產(chǎn)者一方,具有領域專業(yè)知識,即他們了解數(shù)據(jù)的含義,并且可以直接更改數(shù)據(jù)的形式; 而數(shù)據(jù)使用者一方,是數(shù)據(jù)的既得利益者,了解數(shù)據(jù)的業(yè)務潛力,因此可以清楚地描述需求,包括數(shù)據(jù)質量的相關需求。 數(shù)據(jù)團隊的成員夾于這兩方之間:他們有責任交付可靠和高質量的數(shù)據(jù),但他們既沒有領域專業(yè)知識,也無法直接影響數(shù)據(jù)如何產(chǎn)生。 此外,他們并不是最終使用數(shù)據(jù)的決策者。 這意味著利益,責任和能力分布在三個不同的方面,這導致了摩擦,沮喪和誤解。

poYBAGFlU9uAXB-tAAEizWBNfA8068.png

圖一,處理數(shù)據(jù)的傳統(tǒng)方式切斷了數(shù)據(jù)負責人與數(shù)據(jù)使用者的關系

Data Mesh:去中心化的領域所有權,共享的基礎設施

相反,數(shù)據(jù)網(wǎng)格的目標狀態(tài)是讓數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)使用者盡可能緊密地合作。從組織的角度來看,理想的情況是同一團隊同時生產(chǎn)和使用相同的數(shù)據(jù),以便能夠在同一個團隊中考量利益,責任和能力。在實踐中,這通常是不可行的,因為數(shù)據(jù)生產(chǎn)團隊已經(jīng)在其特定領域承擔了太多責任,以至于他們也無法完全負責數(shù)據(jù)消費應用。因此,將這些角色分成兩個直接溝通無需中間人的團隊,已經(jīng)是向前邁出了一大步。數(shù)據(jù)生產(chǎn)團隊的目標應該是提供數(shù)據(jù),以便其他人可以在不需要詳細領域知識的前提下就能從該數(shù)據(jù)中獲得價值,即數(shù)據(jù)產(chǎn)生者應隱藏“實施細節(jié)”。當然,這樣的數(shù)據(jù)生產(chǎn)團隊也可以同時處于數(shù)據(jù)消費者的位置。有一些面向消費者的數(shù)據(jù)領域非常復雜,足以證明整個領域專家團隊的價值,但是這些專家自己使用的數(shù)據(jù)與數(shù)據(jù)源對齊。

單純從組織角度來看,這種數(shù)據(jù)生產(chǎn)者和消費者的雙邊關系結構將特定領域的一切交給了一個團隊,有利于減少摩擦,增加了所有權,從而能夠高質量地擴展。如果我們接受這個前提,那為什么有著集中所有權的中央數(shù)據(jù)團隊的模式如此普遍?以我的經(jīng)驗,有三個主要的關注點,它們在很大程度上驅動了企業(yè)中不幸的中心化數(shù)據(jù)所有權模式:

擔心團隊中沒有足夠的數(shù)據(jù)工程師和數(shù)據(jù)科學專家來組成多個團隊。相反,中央團隊被認為可以更有效地利用那些稀缺的專家,并可以更平等地支持多個團隊。

擔心失去對數(shù)據(jù)質量的控制,例如建立去中心化所有權的全局標準似乎很困難。

擔心重復的基礎設施投資,因為每個團隊都需要創(chuàng)建和維護類似的基礎設施,例如管道,服務和存儲。

通常,中心化數(shù)據(jù)所有權和中心化數(shù)據(jù)基礎設施之間缺乏概念上的分離, 阻礙了去中心化數(shù)據(jù)所有權的優(yōu)勢。 實際上,在上述所有三種情況下,創(chuàng)建專注于自助服務工具的共享數(shù)據(jù)基礎設施平臺可以幫助緩解此類擔憂。但是,至關重要的是,與領域無關的自助服務工具要能夠使該數(shù)據(jù)架構平臺脫離中心化的領域數(shù)據(jù)所有權。 然而,通過使用領域無關的自助服務工具,能夠與讓數(shù)據(jù)基礎設施平臺脫離中心化的領域數(shù)據(jù)所有權。否則,數(shù)據(jù)基礎設施平臺將存在迅速成為具有中心化數(shù)據(jù)所有權的中央數(shù)據(jù)平臺的風險,這正是我們首先要擺脫的境況。 最后,此方法還需要與建立針對數(shù)據(jù)的產(chǎn)品思維相結合,以確保去中心化的數(shù)據(jù)所有權是可持續(xù)的。

pYYBAGFlU9yATVu5AAGQCRv0808307.png

圖2:與領域無關的數(shù)據(jù)平臺

領域無關基礎架構以及產(chǎn)品思維

為什么說數(shù)據(jù)基礎設施平臺確實是領域無關且專注于自助服務的呢?一個標志是,無需聯(lián)系數(shù)據(jù)基礎設施平臺團隊,團隊即可通過提供領域數(shù)據(jù)來共享其專業(yè)知識。這意味著,那些數(shù)據(jù)基礎設施平臺的開發(fā)人員在完成本職工作時,并不需要詳細的領域知識。

另一方面,該平臺必須提供工具,讓領域數(shù)據(jù)專家在無需深厚的數(shù)據(jù)工程專業(yè)知識的情況下管理其數(shù)據(jù)交付物的整個生命周期。這意味著必須使他們能夠創(chuàng)建數(shù)據(jù)領域產(chǎn)品,對其進行描述和演進升級,觀察其使用情況以及適時銷毀數(shù)據(jù)。

創(chuàng)建提供這種使能水平的自助服務平臺是一項巨大的技術和產(chǎn)品開發(fā)挑戰(zhàn)。不過,它的核心是傳統(tǒng)的內部軟件產(chǎn)品開發(fā)可以從實現(xiàn)最常見的用例開始,再逐步地擴展平臺的功能。

這樣,可以避免了構建重復的基礎設施,因為沒有將基礎設施平臺團隊拉入中心化的數(shù)據(jù)所有權中。這樣一個與領域無關的平臺團隊可以更好地進行擴展,因為其成員不需要跟進特定領域的難題和所有業(yè)務領域的需求。相反,那些領域數(shù)據(jù)團隊應該積極地培養(yǎng)和維護這些詳盡的領域知識。因此,如果能夠正確地關注重點,一個中型團隊就能夠可持續(xù)地開發(fā)和維護共享的數(shù)據(jù)基礎設施平臺。

共享的自助服務數(shù)據(jù)基礎設施平臺的另一個重要優(yōu)點是,除了避免重復工作外,還關乎數(shù)據(jù)治理和標準化。如果對于領域數(shù)據(jù)團隊而言,使用平臺的工具提供數(shù)據(jù)要比通過構建自己的基礎設施還方便,那么通過這些平臺工具來實施某些標準將變得很容易。這樣,標準化和一定程度上的治理就會由便利性驅動。

因此,在上面概述的關于去中心化數(shù)據(jù)所有權的三個問題中,僅剩下一個數(shù)據(jù)質量的相關問題。現(xiàn)在,中心化團隊無法承擔數(shù)據(jù)質量的責任。如今,數(shù)據(jù)質量的責任無論如何也不能由一個中心化的團隊以可擴展和可持續(xù)的方式來承擔。沒有任何一個團隊可以針對所有業(yè)務領域建立足夠的領域專業(yè)知識來確保數(shù)據(jù)質量。這就是數(shù)據(jù)質量的意義:它不是對數(shù)據(jù)形態(tài)的普遍保證,而是與數(shù)據(jù)的具體內容,語義和演進的息息相關。

但是,單純以去中心化的責任制還不能解決這一挑戰(zhàn)。為此,產(chǎn)品思維開始發(fā)揮作用。需要激勵領域數(shù)據(jù)團隊以可靠的方式提供高質量的數(shù)據(jù),例如通過使預算與數(shù)據(jù)消費者的數(shù)量和消費滿意度相匹配。這樣,領域數(shù)據(jù)團隊將嘗試提高其數(shù)據(jù)的價值,并嘗試滿足其數(shù)據(jù)消費者的需求。

最后總結一下,我們需要建立三種方法,以實現(xiàn)具有去中心化數(shù)據(jù)所有權的可擴展和可持續(xù)的數(shù)據(jù)格局:

使用領域驅動設計作為主要手段構建數(shù)據(jù),并將領域(或子域)的完整端到端所有權分配給一個能夠滿足其職責所需的跨職能團隊。

利用平臺思維,投資創(chuàng)建共享且與領域無關的自助數(shù)據(jù)基礎設施平臺。該平臺沒有中心化的數(shù)據(jù)所有權,而是專注于支持和促進數(shù)據(jù)生產(chǎn)者和消費者者之間的直接協(xié)作。

利用產(chǎn)品思維,激勵領域數(shù)據(jù)團隊提高高質量的數(shù)據(jù)以滿足數(shù)據(jù)消費團隊的需求。

fqj

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    華為發(fā)布AI數(shù)據(jù)解決方案加速行業(yè)智能 AI時代數(shù)據(jù)覺醒

    正式發(fā)布AI數(shù)據(jù)解決方案,加速AI行業(yè)落地。 華為公司副總裁、華為數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰博士 數(shù)字轉型已經(jīng)進行了幾十年,很多事發(fā)生了
    的頭像 發(fā)表于 04-30 18:01 ?950次閱讀
    華為發(fā)布AI<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>解決方案加速行業(yè)智能<b class='flag-5'>化</b> AI時代<b class='flag-5'>數(shù)據(jù)</b>覺醒

    數(shù)據(jù)中心發(fā)展與改造

    全球多數(shù)數(shù)據(jù)中心基礎設施已超六年,能耗高而效率低。隨著AI的發(fā)展,企業(yè)正致力于整合與提升能效的現(xiàn)代改造。同時數(shù)據(jù)中心呈現(xiàn)規(guī)模、高密、綠
    的頭像 發(fā)表于 02-28 16:50 ?268次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>發(fā)展與改造

    Deno Land 請愿剝奪甲骨文 JavaScript 商標所有權

    去年11月,Deno Land 公司向美國商標和專利局(USPTO)提交了一份請愿書,要求剝奪甲骨文公司對 JavaScript 商標的所有權,并指控甲骨文存在欺詐行為。 Deno Land 公司
    的頭像 發(fā)表于 01-15 15:37 ?284次閱讀

    戴爾數(shù)據(jù)倉助力企業(yè)數(shù)字轉型

    在數(shù)字轉型的浪潮下,企業(yè)正面臨著前所未有的數(shù)據(jù)挑戰(zhàn)。從傳統(tǒng)的結構數(shù)據(jù)到如今的非結構數(shù)據(jù)、半
    的頭像 發(fā)表于 12-20 09:31 ?379次閱讀

    可與MES系統(tǒng)集成的數(shù)據(jù)采集監(jiān)控平臺

    ,確保數(shù)據(jù)的全面接入。 數(shù)據(jù)存儲與管理: 采用數(shù)據(jù)庫或數(shù)據(jù)倉庫存儲采集到的數(shù)據(jù)。 提供高效的數(shù)據(jù)
    發(fā)表于 12-16 15:08

    云計算與數(shù)據(jù)中心的關系

    設備,以及冗余的數(shù)據(jù)通信連接、環(huán)境控制設備、監(jiān)控設備和各種安全裝置。數(shù)據(jù)中心是全球協(xié)作的特定設備網(wǎng)絡,基于互聯(lián)網(wǎng)的相關服務增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴展且經(jīng)常是虛擬
    的頭像 發(fā)表于 10-24 16:15 ?1258次閱讀

    如何選擇數(shù)據(jù)中心服務

    的規(guī)模、所需的服務類型(如托管服務、云服務、存儲服務等)、數(shù)據(jù)處理和存儲的需求、安全性要求以及預算等。這些需求將直接影響選擇數(shù)據(jù)中心服務的方向和重點。 二、考察數(shù)據(jù)中心的位置
    的頭像 發(fā)表于 10-24 16:14 ?435次閱讀

    數(shù)據(jù)中心虛擬應用案例

    數(shù)據(jù)中心虛擬應用案例展示了虛擬技術在提高資源利用率、降低成本、增強系統(tǒng)靈活性和快速響應等方面的顯著優(yōu)勢。以下是一些具體的數(shù)據(jù)中心虛擬
    的頭像 發(fā)表于 10-24 15:18 ?979次閱讀

    解鎖SAP數(shù)據(jù)的潛力:SNP Glue與SAP Datasphere的協(xié)同作用

    ,實現(xiàn)與基于云的數(shù)據(jù)倉庫數(shù)據(jù)的無縫連接。通過近乎實時的數(shù)據(jù)傳輸和增強的數(shù)據(jù)共享能力,企業(yè)可以更有效地管理內外部
    的頭像 發(fā)表于 09-11 17:23 ?569次閱讀
    解鎖SAP<b class='flag-5'>數(shù)據(jù)</b>的潛力:SNP Glue與SAP Datasphere的協(xié)同作用

    數(shù)據(jù)倉庫數(shù)據(jù)庫的主要區(qū)別

    數(shù)據(jù)倉庫數(shù)據(jù)庫是兩個在信息技術領域中常見的概念,它們在數(shù)據(jù)管理和分析方面發(fā)揮著重要作用。盡管它們在某些方面有相似之處,但它們在設計、目的和功能上存在顯著差異。本文將介紹數(shù)據(jù)倉庫
    的頭像 發(fā)表于 07-05 14:57 ?812次閱讀

    工業(yè)數(shù)據(jù)中臺的功能和應用場景

    。 實時數(shù)據(jù)流處理和批量數(shù)據(jù)處理。 2.數(shù)據(jù)存儲與管理: 提供分布式存儲解決方案,如Hadoop、HBase等。 數(shù)據(jù)
    的頭像 發(fā)表于 07-04 16:18 ?658次閱讀

    DDS重要特性之--以數(shù)據(jù)中心#DDS

    數(shù)據(jù)中心DDS
    北匯信息POLELINK
    發(fā)布于 :2024年05月20日 18:18:28

    什么是數(shù)據(jù)?數(shù)據(jù)數(shù)據(jù)倉庫有什么區(qū)別?

    從本質上說,數(shù)據(jù)就是一個信息資源庫。人們常常將數(shù)據(jù)數(shù)據(jù)倉庫混為一談,但兩者在架構和滿足的業(yè)務需求上都不一樣。尤其是,隨著社交媒體
    的頭像 發(fā)表于 05-20 12:38 ?851次閱讀
    什么是<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>?<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>和<b class='flag-5'>數(shù)據(jù)倉庫</b>有什么區(qū)別?

    數(shù)據(jù)中臺、數(shù)據(jù)倉庫、數(shù)據(jù)治理與主數(shù)據(jù)的定位與差異

    在數(shù)字化時代,大數(shù)據(jù)已經(jīng)成為企業(yè)運營和決策的重要資產(chǎn)。為了更好地管理和利用這些數(shù)據(jù),數(shù)據(jù)中臺、數(shù)據(jù)倉庫、數(shù)據(jù)治理和主
    的頭像 發(fā)表于 05-08 10:40 ?607次閱讀