1?
什么是流處理?
流是從生產(chǎn)者到消費者的一系列無限事件。大量數(shù)據(jù)生成為金融交易、傳感器測量或 Web 服務器日志等事件流。流處理是對接收到的新數(shù)據(jù)事件的連續(xù)處理。
Streamz 等流處理庫有助于構(gòu)建用于管理連續(xù)數(shù)據(jù)流的流程,允許應用程序在事件發(fā)生時對其作出響應。
流處理流程通常涉及多個操作,例如過濾、聚合、計數(shù)、分析、轉(zhuǎn)換、充實、分支、連接、流量控制、早期階段反饋、回壓和存儲。
2?
為何選擇流處理?
數(shù)據(jù)流的持續(xù)處理在許多應用程序中都非常有幫助,例如:
醫(yī)療健康:持續(xù)監(jiān)控儀器數(shù)據(jù)
智慧城市:交通模式和擁塞管理
制造:優(yōu)化和預測性維護
運輸:優(yōu)化路線和燃料消耗
汽車:智能汽車
網(wǎng)絡安全和異常檢測:Web 或網(wǎng)絡日志處理
金融:股票上市時間序列
機器學習:實時預測
廣告:基于位置或動作的廣告
由于各企業(yè)高度依賴實時分析、推理、監(jiān)控等功能,因此流處理市場正經(jīng)歷指數(shù)級發(fā)展?,F(xiàn)在,基于流構(gòu)建的服務是日常業(yè)務的核心組成部分,結(jié)構(gòu)化遙測事件和非結(jié)構(gòu)化日志正以每年超過 5 倍的速度增長。在現(xiàn)代商業(yè)環(huán)境中,這種規(guī)模的大數(shù)據(jù)流愈加復雜并且難以有效地運行,因此,經(jīng)濟高效的可靠流對其至關重要。
3?
GPU 加速流處理
NVIDIA RAPIDScuStreamz 是 GPU 加速流數(shù)據(jù)處理庫,旨在加速流處理吞吐量并降低總擁有成本 (TCO)。NVIDIA 的 cuStreamz 制作流程每年可節(jié)省數(shù)十萬美元。cuStreamz 使用 Python 編寫,基于 RAPIDS(用于數(shù)據(jù)科學庫的 GPU 加速器)而構(gòu)建。通過添加 GPU 支持的 Flink 可以看出,端到端 GPU 加速正迅速成為行業(yè)標準,NVIDIA 很高興能成為此趨勢的一個組成部分。
cuStreamz 基于以下內(nèi)容構(gòu)建:
Streamz,一個能夠幫助構(gòu)建管理連續(xù)數(shù)據(jù)流流程的開源 Python 庫;
Dask,一個能夠并行處理流工作負載的穩(wěn)健可靠的調(diào)度程序;
RAPIDS,一種用于流計算的 GPU 加速庫套件。
cuStreamz 通過在后臺利用 RAPIDS cuDF 來加速 Streamz,從而使用 GPU 加速流數(shù)據(jù)計算。cuStreamz 還受益于 cuDF 的加速 JSON、Parquet 和 CSV 讀取器和寫入器。cuStreamz 團隊構(gòu)建了一個加速 Kafka 數(shù)據(jù)源連接器,能夠非??焖俚貙?Kafka 的數(shù)據(jù)直接讀取到 cuDF 數(shù)據(jù)幀中,從而顯著提升端到端性能。然后,可以使用 Dask 在分布式模式下并行運行流流程,從而大規(guī)模提高性能。
在下圖中對 cuStreamz 架構(gòu)進行了概括總結(jié)。cuStreamz 是連接 Python 流與 GPU 的橋梁,應用了檢查點和狀態(tài)管理等復雜可靠的流功能。cuStreamz 還提供了必要的基礎模塊來編寫流作業(yè),這些作業(yè)在 GPU 上安全運行,并且性能更好,成本更低。
4?
GPU 加速的端到端數(shù)據(jù)科學
基于 NVIDIA CUDA-X AI構(gòu)建的 RAPIDS 開源軟件庫,使您完全能夠在 GPU 上執(zhí)行端到端數(shù)據(jù)科學和分析流程。此套件依靠 NVIDIA CUDA基元進行低級別計算優(yōu)化,但通過用戶友好型 Python 接口能夠?qū)崿F(xiàn) GPU 并行化和高帶寬顯存速度。
借助 RAPIDS GPU DataFrame,數(shù)據(jù)可以通過一個類似 Pandas 的接口加載到 GPU 上,然后用于各種連接的機器學習和圖形分析算法,而無需離開 GPU。這種級別的互操作性是通過 Apache Arrow 這樣的庫實現(xiàn)的。允許加速數(shù)據(jù)準備、機器學習和深度學習等端到端流程。
RAPIDS cuML 的機器學習算法和數(shù)學基元遵循熟悉的類似于 scikit-learn 的 API。單塊 GPU 和大型數(shù)據(jù)中心部署均支持 XGBoost 等主流算法。針對大型數(shù)據(jù)集,相較于同等功效的 CPU,這些基于 GPU 的實施方案能夠以 10 到 50 倍的速度更快地完成任務。
RAPIDS 支持在許多熱門數(shù)據(jù)科學庫之間共享設備內(nèi)存。這樣可將數(shù)據(jù)保留在 GPU 上,并省去了來回復制主機內(nèi)存的高昂成本。
*與NVIDIA產(chǎn)品相關的圖片或視頻(完整或部分)的版權(quán)均歸NVIDIA Corporation所有。
審核編輯:劉清
-
傳感器
+關注
關注
2561文章
52240瀏覽量
761993 -
加速器
+關注
關注
2文章
821瀏覽量
38802 -
機器學習
+關注
關注
66文章
8481瀏覽量
133874 -
智能汽車
+關注
關注
30文章
3025瀏覽量
108076 -
GPU芯片
+關注
關注
1文章
304瀏覽量
6092
原文標題:麗臺科普丨什么是流處理?
文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
變頻器過流(oc)類故障原因分析及處理
AI工作流自動化是做什么的
微流控芯片鍵合技術

微流控技術的生物學應用
數(shù)據(jù)科學工作流原理
微流控陣列芯片和普通芯片的區(qū)別

評論