當前,全球大數(shù)據(jù)正進入加速發(fā)展時期,技術(shù)產(chǎn)業(yè)與應(yīng)用創(chuàng)新不斷邁向新高度。大數(shù)據(jù)通過數(shù)字化豐富要素供給,通過網(wǎng)絡(luò)化擴大組織邊界,通過智能化提升產(chǎn)出效能,成為實體經(jīng)濟質(zhì)量變革、效率變革、動力變革的技術(shù)依托之一,而大數(shù)據(jù)技術(shù)及其融合發(fā)展也已經(jīng)成為最重要的技術(shù)發(fā)展趨勢。
2019 年以來全球大數(shù)據(jù)發(fā)展在政策方面略顯平淡,其中,美國的發(fā)布的《聯(lián)邦數(shù)據(jù)戰(zhàn)略第一年度行動計劃(Federal Data StrategyYear-1 Action Plan)》意味著美國對于數(shù)據(jù)的重視程度繼續(xù)提升,并出現(xiàn)了聚焦點從“技術(shù)”到“資產(chǎn)”的轉(zhuǎn)變,其中更是著重提到了金融數(shù)據(jù)和地理信息數(shù)據(jù)的標準統(tǒng)一問題。此外,配套文件中“共享行動:政府范圍內(nèi)的數(shù)據(jù)服務(wù)”成為亮點,針對數(shù)據(jù)跨機構(gòu)協(xié)同與共享,從執(zhí)行機構(gòu)到時間節(jié)點都進行了戰(zhàn)略部署。同時,歐洲議會也通過決議敦促歐盟及其成員國創(chuàng)造一個“繁榮的數(shù)據(jù)驅(qū)動經(jīng)濟”。該決議預(yù)計,到 2020 年歐盟國內(nèi)生產(chǎn)總值將因更好的數(shù)據(jù)使用而增加 1.9%。不管是否有更多的大數(shù)據(jù)政策出臺,拓寬和深入大數(shù)據(jù)技術(shù)應(yīng)用已經(jīng)是各國數(shù)據(jù)戰(zhàn)略的共識。
盡管政策推進略顯緩慢,但大數(shù)據(jù)底層技術(shù)發(fā)展日漸成熟。在大數(shù)據(jù)發(fā)展的初期, ApacheHadoop 定義了最基礎(chǔ)的分布式批處理架構(gòu),打破了傳統(tǒng)數(shù)據(jù)庫一體化的模式,將計算與存儲分離,聚焦于解決海量數(shù)據(jù)的低成本存儲與規(guī)?;幚怼5斍?MPP 在擴展性方面不斷突破使得 MPP 在海量數(shù)據(jù)處理領(lǐng)域又重新獲得了一席之位。MapReduce 暴露的處理效率問題以及 Hadoop 體系龐大復(fù)雜的運維操作,推動計算框架不斷進行著升級演進。隨后出現(xiàn)的 Apache Spark 已逐步成為計算框架的事實標準。在解決了數(shù)據(jù)“大”的問題后,數(shù)據(jù)分析時效性的需求愈發(fā)突出,Apache Flink、Kafka Streams、Spark Structured Streaming等近年來備受關(guān)注的產(chǎn)品為流處理的基礎(chǔ)框架打下了基礎(chǔ)。在此基礎(chǔ)上,大數(shù)據(jù)技術(shù)產(chǎn)品不斷分層細化,在開源社區(qū)形成了豐富的技術(shù)棧,覆蓋存儲、計算、分析、集成、管理、運維等各個方面。據(jù)統(tǒng)計,目前大數(shù)據(jù)相關(guān)開源項目已達上百個。
隨著當前大數(shù)據(jù)體系的底層技術(shù)框架已基本成熟。大數(shù)據(jù)技術(shù)正逐步成為支撐型的基礎(chǔ)設(shè)施,其發(fā)展方向也開始向提升效率轉(zhuǎn)變,逐步向個性化的上層應(yīng)用聚焦,技術(shù)的融合趨勢愈發(fā)明顯?!叭诤稀背蔀榇髷?shù)據(jù)技術(shù)發(fā)展的最重要特征——
l 算力融合:多樣性算力提升整體效率
隨著大數(shù)據(jù)應(yīng)用的逐步深入,場景愈發(fā)豐富,數(shù)據(jù)平臺開始承載人工智能、物聯(lián)網(wǎng)、視頻轉(zhuǎn)碼、復(fù)雜分析、高性能計算等多樣性的任務(wù)負載。同時,數(shù)據(jù)復(fù)雜度不斷提升,以高維矩陣運算為代表的新型計算范式具有粒度更細、并行更強、高內(nèi)存占用、高帶寬需求、低延遲高實時性等特點,因此當前以 CPU 為調(diào)度核心,協(xié)同 GPU、FPGA、ASIC 及各類用于 AI 加速“xPU”的異構(gòu)算力平臺成為行業(yè)熱點解決方案,以 GPU為代表的計算加速單元能夠極大提升新業(yè)務(wù)計算效率。
不同硬件體系融合存在開發(fā)工具相互獨立、編程語言及接口體系不同、軟硬件協(xié)同缺失等工程問題。為此,產(chǎn)業(yè)界試圖從統(tǒng)一軟件開發(fā)平臺和開發(fā)工具的層面來實現(xiàn)對不同硬件底層的兼容,如 Intel公司正在設(shè)計支持跨多架構(gòu)(包括 CPU、GPU、FPGA 和其他加速器)開發(fā)的編程模型 oneAPI,它提供一套統(tǒng)一的編程語言和開發(fā)工具集,來實現(xiàn)對多樣性算力的調(diào)用,從根本上簡化開發(fā)模式,針對異構(gòu)計算形成一套全新的開放標準。
l 流批融合:平衡計算性價比的最優(yōu)解
流處理能夠有效處理即時變化的信息,從而反映出信息熱點的實時動態(tài)變化。而離線批處理則更能夠體現(xiàn)歷史數(shù)據(jù)的累加反饋??紤]到對于實時計算需求和計算資源之間的平衡,業(yè)界很早就有了 lambda架構(gòu)的理論來支撐批處理和流處理共同存在的計算場景。隨著技術(shù)架構(gòu)的演進,流批融合計算正在成為趨勢,并不斷在向更實時更高效的計算推進,以支撐更豐富的大數(shù)據(jù)處理需求。
流計算的產(chǎn)生來源于對數(shù)據(jù)加工時效性的嚴苛要求。數(shù)據(jù)的價值隨時間流逝而降低時,我們就必須在數(shù)據(jù)產(chǎn)生后盡可能快的對其進行處理,比如實時監(jiān)控、風控預(yù)警等。如,近年來出現(xiàn)的 Apache Flink,則使用了流處理的思想來實現(xiàn)批處理,很好地實現(xiàn)了流批融合的計算,國內(nèi)包括阿里、騰訊、百度、字節(jié)跳動,國外包括 Uber、Lyft、Netflix 等公司都是Flink 的使用者。
l TA 融合:混合事務(wù)/ 分析支撐即時決策
TA 融合是指事務(wù)(Transaction)與分析(Analysis)的融合機制。在數(shù)據(jù)驅(qū)動精細化運營的今天,海量實時的數(shù)據(jù)分析需求無法避免。分析和業(yè)務(wù)是強關(guān)聯(lián)的,但由于這兩類數(shù)據(jù)庫在數(shù)據(jù)模型、行列存儲模式和響應(yīng)效率等方面的區(qū)別,通常會造成數(shù)據(jù)的重復(fù)存儲以及數(shù)據(jù)時效性不足的問題。
混合事務(wù)/分析處理(HTAP)是實現(xiàn)在單一的數(shù)據(jù)源上不加區(qū)分的處理事務(wù)和分析任務(wù)。當前的方案主要有三種:一是基于傳統(tǒng)的行存關(guān)系型數(shù)據(jù)庫(類似 MySQL)實現(xiàn)事務(wù)特性,并在此基礎(chǔ)上通過引入計算引擎來增加復(fù)雜查詢的能力;二是在行存數(shù)據(jù)庫(如 Postgres-XC 版本)的基礎(chǔ)上增加列存的功能,來實現(xiàn)分析類業(yè)務(wù)的需求;三是基于列存為主的分析型數(shù)據(jù)庫(如 Greenplum),增加行存等功能優(yōu)化,提供事務(wù)的支持。但由于沒有從根本上改變數(shù)據(jù)的存儲模式,三種方案都會在事務(wù)或分析功能上有所側(cè)重,無法完美的在一套系統(tǒng)里互不干擾地處理事務(wù)和分析型任務(wù),無法避免對數(shù)據(jù)的轉(zhuǎn)換和復(fù)制,但能在一定程度上縮短分析型業(yè)務(wù)的時延。
l 模塊融合:一站式數(shù)據(jù)能力復(fù)用平臺
大數(shù)據(jù)的工具和技術(shù)棧已經(jīng)相對成熟,大公司在實戰(zhàn)經(jīng)驗中圍繞工具與數(shù)據(jù)的生產(chǎn)鏈條、數(shù)據(jù)的管理和應(yīng)用等逐漸形成了能力集合,并通過這一概念來統(tǒng)一數(shù)據(jù)資產(chǎn)的視圖和標準,提供通用數(shù)據(jù)的加工、管理和分析能力。
數(shù)據(jù)能力集成的趨勢打破了原有企業(yè)內(nèi)的復(fù)雜數(shù)據(jù)結(jié)構(gòu),使數(shù)據(jù)和業(yè)務(wù)更貼近,并能更快地使用數(shù)據(jù)驅(qū)動決策。主要針對性地解決三個問題:一是提高數(shù)據(jù)獲取的效率;二是打通數(shù)據(jù)共享的通道;三是提供統(tǒng)一的數(shù)據(jù)開發(fā)能力。這樣的“企業(yè)級數(shù)據(jù)能力復(fù)用平臺”是一個由多種工具和能力組合而成的數(shù)據(jù)應(yīng)用引擎、數(shù)據(jù)價值化的加工廠,來連接下層的數(shù)據(jù)和上層的數(shù)據(jù)應(yīng)用團隊,從而形成敏捷的數(shù)據(jù)驅(qū)動精細化運營的模式。其中,阿里巴巴提出的“中臺”概念和華為公司提出的“數(shù)據(jù)基礎(chǔ)設(shè)施”概念都是模塊融合趨勢的印證。
l 云數(shù)融合:云化趨勢降低技術(shù)使用門檻
大數(shù)據(jù)基礎(chǔ)設(shè)施向云上遷移是一個重要的趨勢。各大云廠商均開始提供各類大數(shù)據(jù)產(chǎn)品以滿足用戶需求,紛紛構(gòu)建自己的云上數(shù)據(jù)產(chǎn)品。比如 Amazon Web Service(AWS)和 Google CloudPlatform(GCP)很早就開始提供受管理的 MapReduce 或 Spark 服務(wù),以及國內(nèi)阿里云的 MaxCompute、騰訊云的彈性 MapReduce 等,大規(guī)??蓴U展的數(shù)據(jù)庫服務(wù)也紛紛上云,比如 Google BigQuery、AWS Redshift、阿里云的 PolarDB、騰訊云的 Sparkling 等,來為 PB 級的數(shù)據(jù)集提供分布式數(shù)據(jù)庫服務(wù)。華為也在近期注冊成立了華為云計算技術(shù)公司。早期的云化產(chǎn)品大部分是對已有大數(shù)據(jù)產(chǎn)品的云化改造,現(xiàn)在,越來越多的大數(shù)據(jù)產(chǎn)品從設(shè)計之初就遵循了云原生的概念進行開發(fā),生于云長于云,更適合云上生態(tài)。向云化解決方案演進的最大優(yōu)點是用戶不用再操心如何維護底層的硬件和網(wǎng)絡(luò),能夠更專注于數(shù)據(jù)和業(yè)務(wù)邏輯,在很大程度上降低了大數(shù)據(jù)技術(shù)的學習成本和使用門檻。
l 數(shù)智融合:數(shù)據(jù)與智能多方位深度整合
大數(shù)據(jù)與人工智能的融合則成為大數(shù)據(jù)領(lǐng)域當前最受關(guān)注的趨勢之一,這種融合主要體現(xiàn)在大數(shù)據(jù)平臺的智能化與數(shù)據(jù)治理的智能化。智能的平臺促成了大數(shù)據(jù)平臺和機器學習平臺深度整合的趨勢,大數(shù)據(jù)平臺在支持機器學習算法之外,還將支持更多的 AI 類應(yīng)用。如,Databricks 為數(shù)據(jù)科學家提供一站式的分析平臺 Data Science Workspace,Cloudera 也推出了相應(yīng)的分析平臺 Cloudera Data Science Workbench。其次,數(shù)據(jù)治理與人工智能的發(fā)展存在相輔相成的關(guān)系:一方面,數(shù)據(jù)治理為人工智能的應(yīng)用提供高質(zhì)量的合規(guī)數(shù)據(jù);另一方面,人工智能對數(shù)據(jù)治理存在諸多優(yōu)化作用。AI 使能數(shù)據(jù)治理,是通過智能化的數(shù)據(jù)治理使數(shù)據(jù)變得智能:通過智能元數(shù)據(jù)感知和敏感數(shù)據(jù)自動識別,對數(shù)據(jù)自動分級分類,形成全局統(tǒng)一的數(shù)據(jù)視圖。通過智能化的數(shù)據(jù)清洗和關(guān)聯(lián)分析,把關(guān)數(shù)據(jù)質(zhì)量,建立數(shù)據(jù)血緣關(guān)系。數(shù)據(jù)能夠自動具備類型、級別、血緣等標簽,在降低數(shù)據(jù)治理復(fù)雜性和成本的同時,得到智能的數(shù)據(jù)。
伴隨著技術(shù)融合與應(yīng)用的不斷深化與發(fā)展,大數(shù)據(jù)的產(chǎn)業(yè)規(guī)模也在近年穩(wěn)步提升。有機構(gòu)預(yù)測,到2020年,全球大數(shù)據(jù)市場的收入規(guī)模將達到 560 億美元,較2018 年的預(yù)期水平增長約 33.33%,較 2016 年的市場收入規(guī)模翻一倍。隨著市場整體的日漸成熟和新興技術(shù)的不斷融合發(fā)展,未來大數(shù)據(jù)市場將呈現(xiàn)穩(wěn)步發(fā)展的態(tài)勢,增速維持在 14%左右。在 2018-2020 年的預(yù)測期內(nèi),大數(shù)據(jù)市場整體的收入規(guī)模將保持每年約 70 億美元的增長。在具體的細分市場中,大數(shù)據(jù)硬件、軟件和服務(wù)的市場規(guī)模均保持較穩(wěn)定的增長,并隨著機器學習、高級分析算法等技術(shù)的成熟與融合,更多的數(shù)據(jù)應(yīng)用和場景正在落地,大數(shù)據(jù)軟件市場將繼續(xù)高速增長。
-
FPGA
+關(guān)注
關(guān)注
1645文章
22040瀏覽量
618159 -
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3925瀏覽量
66182 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8959瀏覽量
140154
發(fā)布評論請先 登錄
2016汽車與信息通信融合發(fā)展論壇
北斗模塊助力北斗導(dǎo)航系統(tǒng)加速推進軍民融合發(fā)展
常見大數(shù)據(jù)應(yīng)用有哪些?
大數(shù)據(jù)運用的技術(shù)
大數(shù)據(jù)開發(fā)核心技術(shù)詳解
NLPIR系統(tǒng)KGB知識圖譜技術(shù)助力大數(shù)據(jù)深度挖掘
BAW技術(shù)推進大數(shù)據(jù)發(fā)展
阿里巴巴高級技術(shù)專家章劍鋒:大數(shù)據(jù)發(fā)展的 8 個要點
大數(shù)據(jù)技術(shù)視閾下如何進行偵查工作的轉(zhuǎn)型
百度夯實“云智數(shù)”融合發(fā)展 助力企業(yè)智能化升級
物聯(lián)網(wǎng)是大數(shù)據(jù)的重要來源,大數(shù)據(jù)助力物聯(lián)網(wǎng)
如何推動區(qū)塊鏈與大數(shù)據(jù)的融合發(fā)展
互聯(lián)網(wǎng)中OT與IT融合發(fā)展的需求分析

評論