天天无码免费无码,高清无码不卡一区二区

開源社區(qū)通過對NVIDIA GPU的原生支持加速Spark 3.0；

實現(xiàn)數(shù)百TB數(shù)據(jù)的飛速ETL和SQL處理；

Adobe在Databricks上使用Spark 3.0將模型訓(xùn)練速度提高7倍

加利福尼亞州圣克拉拉市 - GTC 2020大會 - 2020年5月14日 – NVIDIA于今日宣布其正在與開源社區(qū)合作，為Apache Spark 3.0帶來端到端的GPU加速。Apache Spark 3.0是一個熱門的分析引擎，被全球范圍內(nèi)超過50萬名數(shù)據(jù)科學(xué)家用于大數(shù)據(jù)處理。

隨著Spark 3.0預(yù)計將于春季晚些時候發(fā)布，數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師將首次能夠把革命性的GPU加速應(yīng)用于普遍使用SQL數(shù)據(jù)庫操作進行的ETL（提取、轉(zhuǎn)換和加載）數(shù)據(jù)處理工作負載中。

此外，他們還將首次能夠在同一Spark集群上處理AI模型訓(xùn)練任務(wù)，而無需將工作負載作為單獨流程在單獨的基礎(chǔ)架構(gòu)上運行。這樣就可以對整個數(shù)據(jù)科學(xué)的處理流程進行高性能數(shù)據(jù)分析，對從數(shù)據(jù)湖到模型訓(xùn)練所涉及的數(shù)十、乃至數(shù)千TB的數(shù)據(jù)進行加速，而且無需對已被應(yīng)用于本地和云端Spark應(yīng)用程序的現(xiàn)有代碼進行修改。

NVIDIA企業(yè)計算主管Manuvir Das表示：“數(shù)據(jù)分析是當(dāng)今企業(yè)和研究者所面臨最大的高性能計算挑戰(zhàn)。從ETL到訓(xùn)練再到推理，整個Spark 3.0 方案的原生GPU加速為用戶提供了最終將大數(shù)據(jù)潛力與AI性能相連所需的性能和規(guī)模?！?/p>

作為NVIDIA的戰(zhàn)略AI合作伙伴，Adobe是最早在Databricks上運行Spark 3.0預(yù)覽版的公司之一。Adobe已在Adobe Experience Cloud中使用GPU加速數(shù)據(jù)分析技術(shù)進行產(chǎn)品開發(fā)，并為各項推進數(shù)字化業(yè)務(wù)進程的功能提供支持。在初步測試中其已將性能提高了7倍，并節(jié)省了90％的成本。

性能提升后的Spark 3.0讓科學(xué)家能夠訓(xùn)練包含有更大數(shù)據(jù)集的模型，并增加反復(fù)訓(xùn)練模型的頻率，從而提高模型的精度?，F(xiàn)在，數(shù)據(jù)科學(xué)家每天可以處理數(shù)TB的新數(shù)據(jù)，這對于需要為在線推薦系統(tǒng)提供支持或分析新研究數(shù)據(jù)的數(shù)據(jù)科學(xué)家們而言至關(guān)重要。此外，處理速度的加快，減少了交付結(jié)果所需的硬件資源，從而節(jié)省了大量成本。

Adob機器學(xué)習(xí)高級總監(jiān)William Yan表示：“相比于在CPU上運行Spark，NVIDIA加速的Spark 3.0性能速度得到了大幅提高。伴隨著GPU性能的飛躍性提升，也將為我們?nèi)譇dobe Experience Cloud應(yīng)用中AI功能的提升帶來新的可能性?！?/p>

Databricks和NVIDIA為Spark提速

Apache Spark最初是由Databricks的創(chuàng)始人創(chuàng)建。Databricks的云端統(tǒng)一數(shù)據(jù)分析平臺每天在一百多萬臺虛擬機上運行。NVIDIA與Databricks已開展合作，使用專為Databricks開發(fā)的RAPIDSTM軟件套件優(yōu)化Spark，將GPU加速應(yīng)用于在Databricks上運行的醫(yī)療、金融、零售等眾多行業(yè)的數(shù)據(jù)科學(xué)和機器學(xué)習(xí)工作負載中。

Apache Spark最初的創(chuàng)建者兼Databricks首席技術(shù)員Matei Zaharia表示：“我們與NVIDIA開展了長期合作，用專為Apache Spark 3.0和Databricks開發(fā)的RAPIDS相關(guān)優(yōu)化來提高性能，使得像Adobe這樣的我們兩家公司共同的客戶能夠得以受益。我們所作出的這些努力加快了數(shù)據(jù)處理流程、模型訓(xùn)練和評分的速度，直接為我們的數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家社區(qū)帶來更多的突破和洞見?！?/p>

NVIDIA GPU加速Spark中的ETL和數(shù)據(jù)傳輸

NVIDIA正在提供一種用于Apache Spark的全新開源RAPIDS加速器，幫助數(shù)據(jù)科學(xué)家提高其數(shù)據(jù)流程的端到端性能。該加速器能夠?qū)⒅靶枰贑PU上運行的功能，轉(zhuǎn)到GPU上運行，以發(fā)揮GPU的性能：

·在無需更改任何代碼的情況下顯著提高Spark SQL和DataFrame的運行性能，從而加速Spark中的ETL數(shù)據(jù)流程。

·無需獨立的機器學(xué)習(xí)和深度學(xué)習(xí)集群，即可在相同的基礎(chǔ)架構(gòu)上加速數(shù)據(jù)準(zhǔn)備和模型訓(xùn)練。

·加速Spark分布式集群中各節(jié)點之間的數(shù)據(jù)傳輸性能。這些資源庫使用UCF Consortium 的開源UCX（Unified Communication X）框架，并通過使數(shù)據(jù)直接在GPU內(nèi)存之間移動來最大程度地減少延遲。

Apache Software Foundation 上現(xiàn)已提供Spark 3.0的預(yù)覽版。該產(chǎn)品預(yù)計將在未來幾個月內(nèi)全面上市。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5304

瀏覽量
106324
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4938

瀏覽量
131193
數(shù)據(jù)分析

數(shù)據(jù)分析

+關(guān)注

關(guān)注
2

文章
1472

瀏覽量
35018
大數(shù)據(jù)

大數(shù)據(jù)

+關(guān)注

關(guān)注
64

文章
8959

瀏覽量
140142
SPARK

SPARK

+關(guān)注

關(guān)注
1

文章
106

瀏覽量
20579

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

NVIDIA為全球領(lǐng)先的數(shù)據(jù)分析平臺Apache Spark提速

評論