一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Apache Spark 3.2有哪些新特性

數(shù)據(jù)分析與開發(fā) ? 來源:過往記憶大數(shù)據(jù) ? 作者:過往記憶大數(shù)據(jù) ? 2021-11-17 14:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

經(jīng)過七輪投票, Apache Spark 3.2 終于正式發(fā)布了。Apache Spark 3.2 已經(jīng)是 Databricks Runtime 10.0 的一部分,感興趣的同學(xué)可以去試用一下。按照慣例,這個版本應(yīng)該不是穩(wěn)定版,所以建議大家不要在生產(chǎn)環(huán)境中使用。

Spark 的每月 Maven 下載數(shù)量迅速增長到 2000 萬,與去年同期相比,Spark 的月下載量翻了一番。Spark 已成為在單節(jié)點(diǎn)機(jī)器或集群上執(zhí)行數(shù)據(jù)工程、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的最廣泛使用的引擎。

Spark 3.2 繼續(xù)以使 Spark 更加統(tǒng)一、簡單、快速和可擴(kuò)展為目標(biāo),通過以下特性擴(kuò)展其范圍:

?在 Apache Spark 上引入 panda API,統(tǒng)一小數(shù)據(jù)API和大數(shù)據(jù)API。

?完成 ANSI SQL 兼容模式,簡化 SQL 工作負(fù)載的遷移。

?自適應(yīng)查詢執(zhí)行產(chǎn)品化完成,以在運(yùn)行時加速 Spark SQL。

?引入 RocksDB 狀態(tài)存儲以使?fàn)顟B(tài)處理更具可擴(kuò)展性。

在這篇博文中,我們總結(jié)了一些更高層次的特性和改進(jìn)。請關(guān)注即將發(fā)布的深入研究這些特性的文章。有關(guān)所有 Spark 組件的主要功能和已解決的 JIRA 的完整列表,請參閱 Apache Spark 3.2.0 release notes

統(tǒng)一小數(shù)據(jù) API 和大數(shù)據(jù) API

Python 是 Spark 上使用最廣泛的語言。為了使 Spark 更具 Python 風(fēng)格,Pandas API 被引入到 Spark,作為 Project Zen 的一部分(另請參閱 Data + AI Summit 2021 會議中的 Project Zen: Making Data Science Easier in PySpark 議題)。現(xiàn)在 pandas 的現(xiàn)有用戶可以通過一行更改來擴(kuò)展他們的 pandas 應(yīng)用程序。如下圖所示,得益于 Spark 引擎中的復(fù)雜優(yōu)化,單節(jié)點(diǎn)機(jī)器 [左] 和多節(jié)點(diǎn) Spark 集群 [右] 的性能都可以得到極大提升。

同時,Python 用戶還可以無縫利用 Spark 提供的統(tǒng)一分析功能,包括通過 SQL 查詢數(shù)據(jù)、流處理和可擴(kuò)展機(jī)器學(xué)習(xí) (ML)。新的 Pandas API 還提供了由 plotly 后端支持的交互式數(shù)據(jù)可視化。

簡化 SQL 遷移

添加了更多 ANSI SQL 功能(例如,支持 lateral join)。經(jīng)過一年多的發(fā)展,本次發(fā)布的 ANSI SQL 兼容處于 GA 狀態(tài)。為了避免大量破壞行為的更改,默認(rèn)情況下 spark.sql.ansi.enabled 依然是未啟用的。ANSI 模式包括以下主要行為更改:

?當(dāng) SQL 運(yùn)算符/函數(shù)的輸入無效時,會拋出運(yùn)行時錯誤,而不是返回為 null (SPARK-33275)。例如,算術(shù)運(yùn)算中的整數(shù)值溢出錯誤,或?qū)⒆址D(zhuǎn)換為數(shù)字/時間戳類型時的解析錯誤。

?標(biāo)準(zhǔn)化類型強(qiáng)制語法規(guī)則 (SPARK-34246)。新規(guī)則定義了給定數(shù)據(jù)類型的值是否可以基于數(shù)據(jù)類型優(yōu)先級列表隱式提升為另一種數(shù)據(jù)類型,這比默認(rèn)的非 ANSI 模式更直接。

?新的顯式轉(zhuǎn)換語法規(guī)則 (SPARK-33354)。當(dāng) Spark 查詢包含非法類型轉(zhuǎn)換(例如,日期/時間戳類型轉(zhuǎn)換為數(shù)字類型)時,會拋出編譯時錯誤,告知用戶轉(zhuǎn)換無效。

此版本還包括一些尚未完全完成的新計劃。例如,標(biāo)準(zhǔn)化 Spark 中的異常消息(SPARK-33539);引入 ANSI interval type (SPARK-27790) 并提高相關(guān)子查詢的覆蓋范圍 (SPARK-35553)。

在運(yùn)行時加速 Spark SQL

此版本 (SPARK-33679) 中默認(rèn)啟用自適應(yīng)查詢執(zhí)行 (AQE)。為了提高性能,AQE 可以根據(jù)在運(yùn)行時收集的準(zhǔn)確統(tǒng)計信息重新優(yōu)化查詢執(zhí)行計劃。在大數(shù)據(jù)中,維護(hù)和預(yù)先收集統(tǒng)計數(shù)據(jù)的成本很高。無論優(yōu)化器有多先進(jìn),缺乏準(zhǔn)確的統(tǒng)計信息通常會導(dǎo)致計劃效率低下。在這個版本中,AQE 與所有現(xiàn)有的查詢優(yōu)化技術(shù)(例如,動態(tài)分區(qū)修剪,Dynamic Partition Pruning)完全兼容,以重新優(yōu)化 JOIN 策略、傾斜 JOIN 和 shuffle分區(qū)合并。

小數(shù)據(jù)和大數(shù)據(jù)都應(yīng)該在統(tǒng)一的數(shù)據(jù)分析系統(tǒng)中以高效的方式處理。短查詢性能也變得至關(guān)重要。當(dāng)處理的數(shù)據(jù)量相當(dāng)小時,在復(fù)雜查詢中編譯 Spark 查詢的開銷非常大。為了進(jìn)一步降低查詢編譯延遲,Spark 3.2.0刪除了分析器/優(yōu)化器規(guī)則(SPARK-35042、SPARK-35103) 中不必要的查詢計劃遍歷,并加快了新查詢計劃的構(gòu)建 (SPARK-34989)。因此,與 Spark 3.1.2 相比,TPC-DS 查詢的編譯時間減少了 61%。

更可擴(kuò)展的狀態(tài)處理流

Structured Streaming 中狀態(tài)存儲的默認(rèn)實(shí)現(xiàn)是不可伸縮的,因?yàn)榭梢跃S護(hù)的狀態(tài)數(shù)量受執(zhí)行器堆大小的限制。在此版本中,Databricks 為 Spark 社區(qū)基于 RocksDB 的狀態(tài)存儲實(shí)現(xiàn)做出了貢獻(xiàn),該實(shí)現(xiàn)已在 Databricks 生產(chǎn)中使用了四年多。這種狀態(tài)存儲可以通過對鍵進(jìn)行排序來避免完全掃描,并在不依賴于執(zhí)行器堆大小的情況下從磁盤提供數(shù)據(jù)。

此外,狀態(tài)存儲 API 還包含用于前綴匹配掃描 (SPARK-35861) 的 API,以有效支持基于事件時間的會話 (SPARK-10816),允許用戶在 eventTime 上對會話窗口進(jìn)行聚合。更多細(xì)節(jié),請閱讀 Native support of session window in Apache Spark’s Structured Streaming 博文。

Spark 3.2 的其他更新

除了上面這些新功能外,這個版本還關(guān)注可用性、穩(wěn)定性和功能加強(qiáng),解決了大約 1700 個 JIRA tickets。這是 200 多名貢獻(xiàn)者貢獻(xiàn)的結(jié)果,包括個人和公司,如 Databricks,蘋果,Linkedin, Facebook,微軟,英特爾,阿里巴巴,英偉達(dá),Netflix, Adobe 等。我們在這篇博文中重點(diǎn)介紹了 Spark 中的許多關(guān)鍵 SQL、Python 和流數(shù)據(jù)改進(jìn),但 3.2 里程碑中還有許多其他功能,包括代碼生成覆蓋率的改進(jìn)和連接器的增強(qiáng),您可以在版本中了解更多信息。

開始使用 Spark 3.2

如果您想在 Databricks Runtime 10.0 中試用 Apache Spark 3.2,請注冊 Databricks 社區(qū)版或 Databricks 試用版,這兩者都是免費(fèi)的,并在幾分鐘內(nèi)就可以使用。如果你想自己搭建的話,可以到 這里 下載。

本文翻譯自 《Introducing Apache Spark 3.2》:https://databricks.com/blog/2021/10/19/introducing-apache-spark-3-2.html

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7256

    瀏覽量

    91823
  • API
    API
    +關(guān)注

    關(guān)注

    2

    文章

    1613

    瀏覽量

    64011

原文標(biāo)題:Apache Spark 3.2 正式發(fā)布,新特性詳解

文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    FVT-3SVCTCXO 3.2×2.5mm:GPS/IoT/移動設(shè)備應(yīng)用規(guī)格與特性概述

    內(nèi)容概要:本文檔詳細(xì)介紹了FVT-3S系列SMD VCTCXO(電壓控制溫度補(bǔ)償晶體振蕩器)的技術(shù)規(guī)格和應(yīng)用特性。該產(chǎn)品具有緊湊的3.2×2.5×0.9毫米陶瓷封裝,適用于低功耗、小型化和輕量化要求
    發(fā)表于 06-25 13:50 ?0次下載

    【電子元件】FVC-5X系列電壓控制晶體振蕩器(VCXO):5.0×3.2mm封裝規(guī)格與應(yīng)用特性介紹

    內(nèi)容概要:本文檔詳細(xì)介紹了FVC-5X系列電壓控制晶體振蕩器(VCXO)的技術(shù)規(guī)格和應(yīng)用特點(diǎn)。該系列器件采用標(biāo)準(zhǔn)CMOS輸出,表面貼裝(SMD)封裝,尺寸為5.0×3.2×1.25mm,具有6個焊盤
    發(fā)表于 05-20 16:58 ?0次下載

    NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

    隨著 NVIDIA 推出 Aether 項(xiàng)目,通過采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動加速其數(shù)據(jù)中心規(guī)模的分析工作負(fù)載,從而節(jié)省數(shù)百萬美元。
    的頭像 發(fā)表于 03-25 15:09 ?538次閱讀
    NVIDIA加速的<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>助力企業(yè)節(jié)省大量成本

    NVIDIA 宣布推出 DGX Spark 個人 AI 計算機(jī)

    的 DGX? 個人 AI 超級計算機(jī)。 ? DGX Spark(前身為 Project DIGITS)支持 AI 開發(fā)者、研究人員、數(shù)據(jù)科學(xué)家和學(xué)生,在臺式電腦上對大模型進(jìn)行原型設(shè)計、微調(diào)和推理。用
    發(fā)表于 03-19 09:59 ?317次閱讀
       NVIDIA 宣布推出 DGX <b class='flag-5'>Spark</b> 個人 AI 計算機(jī)

    IBM發(fā)布全新Granite 3.2 AI模型

    Granite 3.2 是小型的 AI 模型,通過對開發(fā)人員友好的授權(quán)條款,提供推理、視覺和護(hù)欄功能。
    的頭像 發(fā)表于 03-06 16:47 ?565次閱讀

    什么是 USB 3.2

    什么是USB3.2?USB3.2是一種USB(通用串行總線)標(biāo)準(zhǔn),它建立在之前的USB3.0和USB3.1標(biāo)準(zhǔn)之上。它的開發(fā)是為了提供更快的數(shù)據(jù)傳輸速度和更高的整體性能。提高數(shù)據(jù)傳輸速度
    的頭像 發(fā)表于 01-24 11:39 ?2170次閱讀
    什么是 USB <b class='flag-5'>3.2</b>?

    用Ollama輕松搞定Llama 3.2 Vision模型本地部署

    Ollama的安裝。 一,Llama3.2 Vision簡介 Llama 3.2 Vision是一個多模態(tài)大型語言模型(LLMs)的集合,它包括預(yù)訓(xùn)練和指令調(diào)整的圖像推理生成模型,兩種參數(shù)規(guī)模
    的頭像 發(fā)表于 11-23 17:22 ?3757次閱讀
    用Ollama輕松搞定Llama <b class='flag-5'>3.2</b> Vision模型本地部署

    使用NVIDIA TensorRT提升Llama 3.2性能

    Llama 3.2 模型集擴(kuò)展了 Meta Llama 開源模型集的模型陣容,包含視覺語言模型(VLM)、小語言模型(SLM)和支持視覺的更新版 Llama Guard 模型。與 NVIDIA 加速
    的頭像 發(fā)表于 11-20 09:59 ?794次閱讀

    @視覺工程師丨15分鐘上手《AIDI3.2腳本開發(fā)教程》視頻,請查收!

    平臺軟件的實(shí)際應(yīng)用,阿丘科技針對AIDI3.2版的功能特性,推出全新系列課——《AIDI3.2腳本開發(fā)教程》視頻!該教程視頻由阿丘科技算法總監(jiān)吳雨培主講,共分為上下
    的頭像 發(fā)表于 11-09 01:06 ?905次閱讀
    @視覺工程師丨15分鐘上手《AIDI<b class='flag-5'>3.2</b>腳本開發(fā)教程》視頻,請查收!

    亞馬遜云科技上線Meta Llama 3.2模型

    亞馬遜云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平臺上正式上線。該模型包括Meta首款多模態(tài)模型,現(xiàn)已在Amazon Bedrock和Amazon SageMaker中全面可用。
    的頭像 發(fā)表于 10-11 18:08 ?746次閱讀

    亞馬遜云科技正式上線Meta Llama 3.2模型

    亞馬遜云科技宣布,Meta的新一代模型Llama 3.2,包括其首款多模態(tài)模型,現(xiàn)已在Amazon Bedrock和Amazon SageMaker中正式可用。
    的頭像 發(fā)表于 10-11 09:20 ?869次閱讀

    USB 3.1和USB 3.2哪些區(qū)別

    USB由于標(biāo)準(zhǔn)眾多,即便是之前已經(jīng)確定的,隨著新一代的推出,標(biāo)準(zhǔn)又出現(xiàn)了新的變化。本期我們將單獨(dú)拿出USB 3.1和USB 3.2,它們外觀基本相似,但是在參數(shù)對比上有些區(qū)別,具體不同一起往下看。
    的頭像 發(fā)表于 09-09 14:59 ?4108次閱讀
    USB 3.1和USB <b class='flag-5'>3.2</b><b class='flag-5'>有</b>哪些區(qū)別

    spark為什么比mapreduce快?

    spark為什么比mapreduce快? 首先澄清幾個誤區(qū): 1:兩者都是基于內(nèi)存計算的,任何計算框架都肯定是基于內(nèi)存的,所以網(wǎng)上說的spark是基于內(nèi)存計算所以快,顯然是錯誤的 2;DAG計算模型
    的頭像 發(fā)表于 09-06 09:45 ?515次閱讀

    廣汽能源與泰國Spark EV簽訂合作框架協(xié)議

    近日,廣汽能源科技(泰國)有限公司與Spark EV Co.Ltd.宣布達(dá)成重要合作,雙方共同簽署了一項(xiàng)合作框架協(xié)議,旨在泰國境內(nèi)全面布局并運(yùn)營超級充電場站,為新能源汽車的普及與發(fā)展注入強(qiáng)勁動力。
    的頭像 發(fā)表于 07-19 17:08 ?1134次閱讀

    電容元件的特性哪些表現(xiàn)

    儲存電荷,電荷的大小與電壓成正比。這種儲存電荷的能力使得電容元件在電路中具有調(diào)節(jié)電壓、濾波、耦合等多種功能。 容抗特性 電容元件具有容抗特性,即對交流電具有阻礙作用。容抗的大小與電容元件的電容值和交流電的頻率
    的頭像 發(fā)表于 07-17 14:22 ?2241次閱讀