開源社區(qū)通過對NVIDIA GPU的原生支持加速Spark 3.0;
實現(xiàn)數(shù)百TB數(shù)據(jù)的飛速ETL和SQL處理;
Adobe在Databricks上使用Spark 3.0將模型訓(xùn)練速度提高7倍
加利福尼亞州圣克拉拉市 - GTC 2020大會 - 2020年5月14日 – NVIDIA于今日宣布其正在與開源社區(qū)合作,為Apache Spark 3.0帶來端到端的GPU加速。Apache Spark 3.0是一個熱門的分析引擎,被全球范圍內(nèi)超過50萬名數(shù)據(jù)科學(xué)家用于大數(shù)據(jù)處理。
隨著Spark 3.0預(yù)計將于春季晚些時候發(fā)布,數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師將首次能夠把革命性的GPU加速應(yīng)用于普遍使用SQL數(shù)據(jù)庫操作進行的ETL(提取、轉(zhuǎn)換和加載)數(shù)據(jù)處理工作負載中。
此外,他們還將首次能夠在同一Spark集群上處理AI模型訓(xùn)練任務(wù),而無需將工作負載作為單獨流程在單獨的基礎(chǔ)架構(gòu)上運行。這樣就可以對整個數(shù)據(jù)科學(xué)的處理流程進行高性能數(shù)據(jù)分析,對從數(shù)據(jù)湖到模型訓(xùn)練所涉及的數(shù)十、乃至數(shù)千TB的數(shù)據(jù)進行加速,而且無需對已被應(yīng)用于本地和云端Spark應(yīng)用程序的現(xiàn)有代碼進行修改。
NVIDIA企業(yè)計算主管Manuvir Das表示:“數(shù)據(jù)分析是當(dāng)今企業(yè)和研究者所面臨最大的高性能計算挑戰(zhàn)。從ETL到訓(xùn)練再到推理,整個Spark 3.0 方案的原生GPU加速為用戶提供了最終將大數(shù)據(jù)潛力與AI性能相連所需的性能和規(guī)模?!?/p>
作為NVIDIA的戰(zhàn)略AI合作伙伴,Adobe是最早在Databricks上運行Spark 3.0預(yù)覽版的公司之一。Adobe已在Adobe Experience Cloud中使用GPU加速數(shù)據(jù)分析技術(shù)進行產(chǎn)品開發(fā),并為各項推進數(shù)字化業(yè)務(wù)進程的功能提供支持。在初步測試中其已將性能提高了7倍,并節(jié)省了90%的成本。
性能提升后的Spark 3.0讓科學(xué)家能夠訓(xùn)練包含有更大數(shù)據(jù)集的模型,并增加反復(fù)訓(xùn)練模型的頻率,從而提高模型的精度?,F(xiàn)在,數(shù)據(jù)科學(xué)家每天可以處理數(shù)TB的新數(shù)據(jù),這對于需要為在線推薦系統(tǒng)提供支持或分析新研究數(shù)據(jù)的數(shù)據(jù)科學(xué)家們而言至關(guān)重要。此外,處理速度的加快,減少了交付結(jié)果所需的硬件資源,從而節(jié)省了大量成本。
Adob機器學(xué)習(xí)高級總監(jiān)William Yan表示:“相比于在CPU上運行Spark,NVIDIA加速的Spark 3.0性能速度得到了大幅提高。伴隨著GPU性能的飛躍性提升,也將為我們?nèi)譇dobe Experience Cloud應(yīng)用中AI功能的提升帶來新的可能性?!?/p>
Databricks和NVIDIA為Spark提速
Apache Spark最初是由Databricks的創(chuàng)始人創(chuàng)建。Databricks的云端統(tǒng)一數(shù)據(jù)分析平臺每天在一百多萬臺虛擬機上運行。NVIDIA與Databricks已開展合作,使用專為Databricks開發(fā)的RAPIDSTM軟件套件優(yōu)化Spark,將GPU加速應(yīng)用于在Databricks上運行的醫(yī)療、金融、零售等眾多行業(yè)的數(shù)據(jù)科學(xué)和機器學(xué)習(xí)工作負載中。
Apache Spark最初的創(chuàng)建者兼Databricks首席技術(shù)員Matei Zaharia表示:“我們與NVIDIA開展了長期合作,用專為Apache Spark 3.0和Databricks開發(fā)的RAPIDS相關(guān)優(yōu)化來提高性能,使得像Adobe這樣的我們兩家公司共同的客戶能夠得以受益。我們所作出的這些努力加快了數(shù)據(jù)處理流程、模型訓(xùn)練和評分的速度,直接為我們的數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家社區(qū)帶來更多的突破和洞見?!?/p>
NVIDIA GPU加速Spark中的ETL和數(shù)據(jù)傳輸
NVIDIA正在提供一種用于Apache Spark的全新開源RAPIDS加速器,幫助數(shù)據(jù)科學(xué)家提高其數(shù)據(jù)流程的端到端性能。該加速器能夠?qū)⒅靶枰贑PU上運行的功能,轉(zhuǎn)到GPU上運行,以發(fā)揮GPU的性能:
·在無需更改任何代碼的情況下顯著提高Spark SQL和DataFrame的運行性能,從而加速Spark中的ETL數(shù)據(jù)流程。
·無需獨立的機器學(xué)習(xí)和深度學(xué)習(xí)集群,即可在相同的基礎(chǔ)架構(gòu)上加速數(shù)據(jù)準(zhǔn)備和模型訓(xùn)練。
·加速Spark分布式集群中各節(jié)點之間的數(shù)據(jù)傳輸性能。這些資源庫使用UCF Consortium 的開源UCX(Unified Communication X)框架,并通過使數(shù)據(jù)直接在GPU內(nèi)存之間移動來最大程度地減少延遲。
Apache Software Foundation 上現(xiàn)已提供Spark 3.0的預(yù)覽版。該產(chǎn)品預(yù)計將在未來幾個月內(nèi)全面上市。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5304瀏覽量
106324 -
gpu
+關(guān)注
關(guān)注
28文章
4938瀏覽量
131193 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1472瀏覽量
35018 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8959瀏覽量
140142 -
SPARK
+關(guān)注
關(guān)注
1文章
106瀏覽量
20579
發(fā)布評論請先 登錄
NVIDIA推出行業(yè)領(lǐng)先輔助駕駛軟件平臺
NVIDIA發(fā)布AI優(yōu)先DGX個人計算系統(tǒng)
NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

NVIDIA GTC2025 亮點 NVIDIA推出 DGX Spark個人AI計算機

NVIDIA 宣布推出 DGX Spark 個人 AI 計算機

交通運輸領(lǐng)先企業(yè)率先采用NVIDIA Cosmos平臺
Mathematica 在數(shù)據(jù)分析中的應(yīng)用
數(shù)據(jù)可視化與數(shù)據(jù)分析的關(guān)系
NVIDIA助力百度提升數(shù)據(jù)分析效能
eda與傳統(tǒng)數(shù)據(jù)分析的區(qū)別
raid 在大數(shù)據(jù)分析中的應(yīng)用
智能制造中的數(shù)據(jù)分析應(yīng)用
云計算在大數(shù)據(jù)分析中的應(yīng)用
IP 地址大數(shù)據(jù)分析如何進行網(wǎng)絡(luò)優(yōu)化?

利用NVIDIA RAPIDS加速DolphinDB Shark平臺提升計算性能

評論