一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

MapReduce和Spark概要介紹

RG15206629988 ? 來源:行業(yè)學習與研究 ? 2023-03-20 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、MapReduce

(1)MapReduce概要介紹

MapReduce是一種編程模型,可用于大規(guī)模數(shù)據(jù)集(數(shù)據(jù)量大于1TB的數(shù)據(jù)集)的并行運算(根據(jù)百度百科:并行運算是一種一次可執(zhí)行多個指令的算法,可提高計算速度)。MapReduce可使程序的并行運算更加簡單。

Map(映射)是于各個節(jié)點對本地數(shù)據(jù)的預處理操作。 Reduce(歸約)是將Map預處理操作后的數(shù)據(jù)匯總。Reduce可使編程人員不必關心如何實現(xiàn)分布式并行程序,基于Reduce,編程人員可只關注業(yè)務數(shù)據(jù)處理。

(2)處理模型

MapReduce框架負責處理并行計算中的復雜問題,包括:分布式存儲、作業(yè)調度、負載均衡、容錯處理、網(wǎng)絡通信等。

MapReduce的處理流程如圖一所示。

首先,數(shù)據(jù)在數(shù)據(jù)節(jié)點被劃分為數(shù)據(jù)塊(個人理解:數(shù)據(jù)塊即圖一中的split),MapReduce確定待處理的數(shù)據(jù)塊數(shù)量并確定每個記錄(個人理解:此處記錄可被理解關系數(shù)據(jù)庫的一行數(shù)據(jù))在數(shù)據(jù)塊中的位置;

然后,劃分后的數(shù)據(jù)塊作為Map的輸入;

再然后,Map的輸出數(shù)據(jù)需要經(jīng)過sort(個人理解:分類)、copy(個人理解:復制)、merge(個人理解:合并)操作成為Reduce的輸入,Reduce的輸入數(shù)據(jù)間沒有交集,系統(tǒng)中處于Reduce運行的節(jié)點的數(shù)量等于merge操作后的數(shù)據(jù)數(shù)量;

最后,輸出Reduce運行后的數(shù)據(jù)。

53e687fe-c521-11ed-bfe3-dac502259ad0.png

圖一,圖片來源:學堂在線《大數(shù)據(jù)導論》

二、Spark

(1)Spark概要介紹

Spark是針對大規(guī)模數(shù)據(jù)處理的快速通用引擎,其功能是類似MapReduce的計算引擎。

(2)Spark的特點

1)計算速度快。Spark計算速度是Hadoop計算速度的一百倍。

2)可用性高。Spark可使用Java、Python、R、SQL等編程語言。

3)通用性。Spark由一系列解決處理復雜問題的組件構成,可處理多種類型有關數(shù)據(jù)庫的復雜問題。

4)可運行于多種環(huán)境中,運行環(huán)境包括Hadoop等。

圖片來源:學堂在線《大數(shù)據(jù)導論》

(3)Spark的體系架構

1)Cluster Manager:Cluster Manager是主節(jié)點,控制整個集群,監(jiān)控 Worker Node。

2)Worker Node:Worker Node是從節(jié)點,負責控制計算節(jié)點,啟動Executor 或者Driver

3)Driver:運行Application(個人理解:此處Application指某一應用)的main()函數(shù)

4)Executor:為Application運行Worker Node上的一個進程。

549d286a-c521-11ed-bfe3-dac502259ad0.png

圖片來源:學堂在線《大數(shù)據(jù)導論》

(4)RDD

RDD(Resilient Distributed Dataset)被稱為彈性分布式數(shù)據(jù)集,利用SparkContext實例(根據(jù)網(wǎng)絡資料理解:每個SparkContext實例是Spark的一個應用)創(chuàng)建的對象均為RDD。RDD是不可變、可分區(qū)、其內部元素可并行計算的集合,數(shù)據(jù)可在RDD中運行RDD的自有函數(shù)。

RDD的函數(shù)被稱為RDD算子,RDD算子分為Transformation和Action兩種類型。Transformation具有類似于MapReduce的功能,Action的功能包括:觸發(fā)RDD計算、統(tǒng)計RDD元素個數(shù)等。

RDD的特點包括:自動容錯、位置感知性調度、可伸縮性(個人理解:數(shù)據(jù)量的多少對RDD的運行影響較小)、可在已有RDD的基礎上創(chuàng)建新的RDD、延遲執(zhí)行(延遲執(zhí)行即Transformation只有在Action被觸發(fā)后才執(zhí)行)。

另外,RDD允許用戶在執(zhí)行多個查詢時可將工作集緩存在內存中,后續(xù)的查詢可重用工作集,可提升查詢速度。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SQL
    SQL
    +關注

    關注

    1

    文章

    782

    瀏覽量

    44952
  • 編程語言
    +關注

    關注

    10

    文章

    1955

    瀏覽量

    36379
  • RDD
    RDD
    +關注

    關注

    0

    文章

    7

    瀏覽量

    8089
  • SPARK
    +關注

    關注

    1

    文章

    106

    瀏覽量

    20502
  • MapReduce
    +關注

    關注

    0

    文章

    45

    瀏覽量

    6547

原文標題:大數(shù)據(jù)相關介紹(22)——MapReduce和Spark

文章出處:【微信號:行業(yè)學習與研究,微信公眾號:行業(yè)學習與研究】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    CMOS超大規(guī)模集成電路制造工藝流程的基礎知識

    本節(jié)將介紹 CMOS 超大規(guī)模集成電路制造工藝流程的基礎知識,重點將放在工藝流程的概要和不同工藝步驟對器件及電路性能的影響上。
    的頭像 發(fā)表于 06-04 15:01 ?587次閱讀
    CMOS超大規(guī)模集成電路制造工藝流程的基礎知識

    NVIDIA發(fā)布AI優(yōu)先DGX個人計算系統(tǒng)

    NVIDIA 宣布,多家行業(yè)領先系統(tǒng)制造商將打造 NVIDIA DGX Spark。
    的頭像 發(fā)表于 05-22 09:39 ?238次閱讀

    NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

    隨著 NVIDIA 推出 Aether 項目,通過采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動加速其數(shù)據(jù)中心規(guī)模的分析工作負載,從而節(jié)省數(shù)百萬美元。
    的頭像 發(fā)表于 03-25 15:09 ?498次閱讀
    NVIDIA加速的Apache <b class='flag-5'>Spark</b>助力企業(yè)節(jié)省大量成本

    CAN通信協(xié)議——中文版

    資料介紹: 本資料是面向 CAN 總線初學者的 CAN 入門書。對 CAN 是什么、CAN 的特征、標準規(guī)格下的位置分布等、 CAN 的概要及 CAN 的協(xié)議進行了說明。 純分享貼,有需要可以直接下載附件獲取完整資料! (如果內容有幫助可以關注、點贊、評論支持一下
    發(fā)表于 03-22 15:27

    NVIDIA GTC2025 亮點 NVIDIA推出 DGX Spark個人AI計算機

    和聯(lián)想)提供。 NVIDIA 發(fā)布了由 NVIDIA Grace Blackwell 平臺驅動的 DGX 個人 AI 超級計算機。 DGX Spark(前身為 Project DIGITS)支持 AI
    的頭像 發(fā)表于 03-20 18:59 ?849次閱讀
    NVIDIA GTC2025 亮點  NVIDIA推出 DGX <b class='flag-5'>Spark</b>個人AI計算機

    NVIDIA 宣布推出 DGX Spark 個人 AI 計算機

    的 DGX? 個人 AI 超級計算機。 ? DGX Spark(前身為 Project DIGITS)支持 AI 開發(fā)者、研究人員、數(shù)據(jù)科學家和學生,在臺式電腦上對大模型進行原型設計、微調和推理。用
    發(fā)表于 03-19 09:59 ?304次閱讀
       NVIDIA 宣布推出 DGX <b class='flag-5'>Spark</b> 個人 AI 計算機

    SHA105概要數(shù)據(jù)手冊

    電子發(fā)燒友網(wǎng)站提供《SHA105概要數(shù)據(jù)手冊.pdf》資料免費下載
    發(fā)表于 01-21 14:33 ?0次下載
    SHA105<b class='flag-5'>概要</b>數(shù)據(jù)手冊

    SHA106概要數(shù)據(jù)手冊

    電子發(fā)燒友網(wǎng)站提供《SHA106概要數(shù)據(jù)手冊.pdf》資料免費下載
    發(fā)表于 01-21 14:31 ?0次下載
    SHA106<b class='flag-5'>概要</b>數(shù)據(jù)手冊

    ECC206概要數(shù)據(jù)手冊

    電子發(fā)燒友網(wǎng)站提供《ECC206概要數(shù)據(jù)手冊.pdf》資料免費下載
    發(fā)表于 01-21 14:05 ?0次下載
    ECC206<b class='flag-5'>概要</b>數(shù)據(jù)手冊

    IEEE2030.5概要

    IEEE 2030.5IEEE 2030.5(Smart Energy Profile 2.0,SEP2)是一種智慧能源管理通信協(xié)議,最早由ZigBee聯(lián)盟開發(fā)。2013年IEEE在SEP2基礎上開發(fā)了IEEE2030.5。IEEE2030.5是一個應用層協(xié)議,支持TCP/IP。IEEE2030.5支持多種物理層接口如WIFI, HomePlug, ZigBee等。IEEE2030.5具有良好的互操作性。 IEEE 2030.5 CSIP加州 Rule 21 從Phase 2開始規(guī)定:電網(wǎng)運營商和分布式能源之間互操作需要通信支持,以保障公用事業(yè)單位能夠遠程管理和控制分布式能源。加州 Rule 21規(guī)定采用IEEE2030.5協(xié)議進行通信。IEEE2030.5 CSIP為采用IEEE230.5的詳細實施指南。SunSpec Alliance負責CA Rule 21 Certification Program,即IEEE2030.5 CSIP實施指南的認證。
    的頭像 發(fā)表于 11-21 14:44 ?1308次閱讀
    IEEE2030.5<b class='flag-5'>概要</b>

    spark為什么比mapreduce快?

    spark為什么比mapreduce快? 首先澄清幾個誤區(qū): 1:兩者都是基于內存計算的,任何計算框架都肯定是基于內存的,所以網(wǎng)上說的spark是基于內存計算所以快,顯然是錯誤的 2;DAG計算模型
    的頭像 發(fā)表于 09-06 09:45 ?494次閱讀

    PGA309正常只校準一個溫度點大概要多久時間呢?

    目前我采用的PGA309USB-EVM單個校準壓力傳感器,我只校準一個常溫25攝氏度的溫度,我發(fā)現(xiàn)校準的時候全部過程都要跑一遍,這樣時間需要花費幾分鐘(不需要等溫度達到25 的時間),請問正常只校準一個溫度點大概要多久時間呢?盼回復。感謝!
    發(fā)表于 08-16 07:13

    廣汽能源與泰國Spark EV簽訂合作框架協(xié)議

    近日,廣汽能源科技(泰國)有限公司與Spark EV Co.Ltd.宣布達成重要合作,雙方共同簽署了一項合作框架協(xié)議,旨在泰國境內全面布局并運營超級充電場站,為新能源汽車的普及與發(fā)展注入強勁動力。
    的頭像 發(fā)表于 07-19 17:08 ?1110次閱讀

    spark運行的基本流程

    前言: 由于最近對spark的運行流程非常感興趣,所以閱讀了《Spark大數(shù)據(jù)處理:技術、應用與性能優(yōu)化》一書。通過這本書的學習,了解了spark的核心技術、實際應用場景以及性能優(yōu)化的方法。本文旨在
    的頭像 發(fā)表于 07-02 10:31 ?719次閱讀
    <b class='flag-5'>spark</b>運行的基本流程

    Spark基于DPU的Native引擎算子卸載方案

    1.背景介紹 Apache Spark(以下簡稱Spark)是一個開源的分布式計算框架,由UC Berkeley AMP Lab開發(fā),可用于批處理、交互式查詢(Spark SQL)、實
    的頭像 發(fā)表于 06-28 17:12 ?1009次閱讀
    <b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸載方案