一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

快速學(xué)習(xí)Spark和Hadoop的架構(gòu)的方法

IT家園 ? 2019-07-18 09:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Spark和Hadoop的架構(gòu)區(qū)別是什么,什么是spark,什么是Hadoop,怎么樣學(xué)習(xí)這些知識點?

總的來說,Spark采用更先進的架構(gòu),使得靈活性、易用性、性能等方面都比Hadoop更有優(yōu)勢,有取代Hadoop的趨勢,但其穩(wěn)定性有待進一步提高。我總結(jié),具體表現(xiàn)在如下幾個方面。

Spark和Hadoop的架構(gòu)有什么不同之處

Q:Spark和Hadoop的架構(gòu)區(qū)別

A:

Hadoop:MapRedcue由Map和Reduce兩個階段,并通過shuffle將兩個階段連接起來的。但是套用MapReduce模型解決問題,不得不將問題分解為若干個有依賴關(guān)系的子問題,每個子問題對應(yīng)一個MapReduce作業(yè),最終所有這些作業(yè)形成一個DAG。

Spark:是通用的DAG框架,可以將多個有依賴關(guān)系的作業(yè)轉(zhuǎn)換為一個大的DAG。核心思想是將Map和Reduce兩個操作進一步拆分為多個元操作,這些元操作可以靈活組合,產(chǎn)生新的操作,并經(jīng)過一些控制程序組裝后形成一個大的DAG作業(yè)。

Q:Spark和Hadoop的中間計算結(jié)果處理區(qū)別

A:

Hadoop:在DAG中,由于有多個MapReduce作業(yè)組成,每個作業(yè)都會從HDFS上讀取一次數(shù)據(jù)和寫一次數(shù)據(jù)(默認寫三份),即使這些MapReduce作業(yè)產(chǎn)生的數(shù)據(jù)是中間數(shù)據(jù)也需要寫HDFS。這種表達作業(yè)依賴關(guān)系的方式比較低效,會浪費大量不必要的磁盤和網(wǎng)絡(luò)IO,根本原因是作業(yè)之間產(chǎn)生的數(shù)據(jù)不是直接流動的,而是借助HDFS作為共享數(shù)據(jù)存儲系統(tǒng)。

Spark:在Spark中,使用內(nèi)存(內(nèi)存不夠使用本地磁盤)替代了使用HDFS存儲中間結(jié)果。對于迭代運算效率更高。

Q:Spark和Hadoop的操作模型區(qū)別

A:

Hadoop:只提供了Map和Reduce兩種操作所有的作業(yè)都得轉(zhuǎn)換成Map和Reduce的操作。

Spark:提供很多種的數(shù)據(jù)集操作類型比如Transformations 包括map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues,sort,partionBy等多種操作類型,還提供actions操作包括Count,collect, reduce, lookup, save等多種。這些多種多樣的數(shù)據(jù)集操作類型,給開發(fā)上層應(yīng)用的用戶提供了方便。

Q:spark中的RDD是什么,有哪些特性?

A:

A list of partitions:一個分區(qū)列表,RDD中的數(shù)據(jù)都存儲在一個分區(qū)列表中

A function for computing each split:作用在每一個分區(qū)中的函數(shù)

A list of dependencies on other RDDs:一個RDD依賴于其他多個RDD,這個點很重要,RDD的容錯機制就是依據(jù)這個特性而來的

Optionally,a Partitioner for key-value RDDs(eg:to say that the RDD is hash-partitioned):可選的,針對于kv類型的RDD才有這個特性,作用是決定了數(shù)據(jù)的來源以及數(shù)據(jù)處理后的去向

可選項,數(shù)據(jù)本地性,數(shù)據(jù)位置最優(yōu)

Q:概述一下spark中的常用算子區(qū)別(map,mapPartitions,foreach,foreachPatition)

A:map:用于遍歷RDD,將函數(shù)應(yīng)用于每一個元素,返回新的RDD(transformation算子)

foreach:用于遍歷RDD,將函數(shù)應(yīng)用于每一個元素,無返回值(action算子)

mapPatitions:用于遍歷操作RDD中的每一個分區(qū),返回生成一個新的RDD(transformation算子)

foreachPatition:用于遍歷操作RDD中的每一個分區(qū),無返回值(action算子)

總結(jié):一般使用mapPatitions和foreachPatition算子比map和foreach更加高效,推薦使用。如果你想要學(xué)好編程技能,請留意內(nèi)蒙達內(nèi)官網(wǎng),學(xué)習(xí)技能快,我們只選對的機構(gòu)!



聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Hadoop
    +關(guān)注

    關(guān)注

    1

    文章

    90

    瀏覽量

    16462
  • SPARK
    +關(guān)注

    關(guān)注

    1

    文章

    106

    瀏覽量

    20587
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    零基礎(chǔ)學(xué)習(xí)LuatOS編程:快速上手開發(fā)實戰(zhàn)教程!

    無論你是剛接觸物聯(lián)網(wǎng)編程的新手,還是希望拓展技能的技術(shù)愛好者,本教程將為零基礎(chǔ)的讀者提供一條清晰的LuatOS學(xué)習(xí)路徑。從安裝開發(fā)工具到編寫第一個程序,我們將通過實例講解核心概念,助你快速實現(xiàn)從理論
    的頭像 發(fā)表于 06-13 17:27 ?203次閱讀
    零基礎(chǔ)<b class='flag-5'>學(xué)習(xí)</b>LuatOS編程:<b class='flag-5'>快速</b>上手開發(fā)實戰(zhàn)教程!

    常見的PFC拓撲架構(gòu)及控制方法

    本期,芯朋微技術(shù)團隊將為各位fans分享常見的PFC拓撲架構(gòu)及控制方法,為設(shè)計選型提供參考。
    的頭像 發(fā)表于 04-27 18:03 ?3219次閱讀
    常見的PFC拓撲<b class='flag-5'>架構(gòu)</b>及控制<b class='flag-5'>方法</b>

    汽車電氣架構(gòu)中的電源架構(gòu)

    隨著汽車電子化、智能化的快速發(fā)展,汽車電氣架構(gòu)(E/E架構(gòu))已成為現(xiàn)代汽車的核心技術(shù)之一。
    的頭像 發(fā)表于 03-29 11:25 ?373次閱讀

    NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

    隨著 NVIDIA 推出 Aether 項目,通過采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動加速其數(shù)據(jù)中心規(guī)模的分析工作負載,從而節(jié)省數(shù)百萬美元。
    的頭像 發(fā)表于 03-25 15:09 ?539次閱讀
    NVIDIA加速的Apache <b class='flag-5'>Spark</b>助力企業(yè)節(jié)省大量成本

    Hadoop 生態(tài)系統(tǒng)在大數(shù)據(jù)處理中的應(yīng)用與實踐

    隨著數(shù)據(jù)量的爆發(fā)式增長,大數(shù)據(jù)處理技術(shù)成為企業(yè)關(guān)注焦點,Hadoop 生態(tài)系統(tǒng)在其中扮演著核心角色。 Hadoop Distributed File System(HDFS)是其分布式文件存儲
    的頭像 發(fā)表于 01-21 17:48 ?416次閱讀

    如何快速學(xué)習(xí)硬件電路

    對于想要學(xué)習(xí)硬件電路的新手來說,一開始可能感到有些困難,但只要掌握了正確的學(xué)習(xí)方法和技巧,就能夠快速地成為一名優(yōu)秀的硬件電路工程師。 首先,新手需要了解基本的電路知識,例如電阻、電容、電感等。這些
    的頭像 發(fā)表于 01-20 11:11 ?1145次閱讀
    如何<b class='flag-5'>快速</b><b class='flag-5'>學(xué)習(xí)</b>硬件電路

    人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

    在上一篇文章中,我們介紹了傳統(tǒng)機器學(xué)習(xí)的基礎(chǔ)知識和多種算法。在本文中,我們會介紹人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法,供各位老師選擇。 01 人工神經(jīng)網(wǎng)絡(luò) ? 人工神經(jīng)網(wǎng)絡(luò)模型之所以得名,是因為
    的頭像 發(fā)表于 01-09 10:24 ?1184次閱讀
    人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)<b class='flag-5'>架構(gòu)</b><b class='flag-5'>方法</b>

    傳統(tǒng)機器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    用于開發(fā)生物學(xué)數(shù)據(jù)的機器學(xué)習(xí)方法。盡管深度學(xué)習(xí)(一般指神經(jīng)網(wǎng)絡(luò)算法)是一個強大的工具,目前也非常流行,但它的應(yīng)用領(lǐng)域仍然有限。與深度學(xué)習(xí)相比,傳統(tǒng)方法在給定問題上的開發(fā)和測試速度更快。
    的頭像 發(fā)表于 12-30 09:16 ?1184次閱讀
    傳統(tǒng)機器<b class='flag-5'>學(xué)習(xí)方法</b>和應(yīng)用指導(dǎo)

    LLM和傳統(tǒng)機器學(xué)習(xí)的區(qū)別

    和訓(xùn)練方法 LLM: 預(yù)訓(xùn)練和微調(diào): LLM通常采用預(yù)訓(xùn)練(Pre-training)和微調(diào)(Fine-tuning)的方法。預(yù)訓(xùn)練階段,模型在大規(guī)模的文本數(shù)據(jù)上學(xué)習(xí)語言的通用特征,微調(diào)階段則針對特定任務(wù)進行
    的頭像 發(fā)表于 11-08 09:25 ?1881次閱讀

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。
    的頭像 發(fā)表于 10-28 14:05 ?652次閱讀
    Pytorch深度<b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練的<b class='flag-5'>方法</b>

    如何學(xué)習(xí)ARM?

    學(xué)習(xí)者和專家進行交流和討論。通過互動可以獲得更多的學(xué)習(xí)資源、解決問題的方法,還可以結(jié)識志同道合的朋友。 7.持續(xù)學(xué)習(xí)和實踐: 學(xué)習(xí) AR
    發(fā)表于 10-11 10:42

    【「嵌入式Hypervisor:架構(gòu)、原理與應(yīng)用」閱讀體驗】+全文學(xué)習(xí)心得

    應(yīng)用,這本書為我構(gòu)建了一個完整的知識體系,讓我對嵌入式Hypervisor有了全新的認識和把握。 一、基礎(chǔ)架構(gòu)與原理 在書籍的前幾章,我詳細學(xué)習(xí)了嵌入式Hypervisor的基礎(chǔ)架構(gòu)和原理。我了解到,嵌入式
    發(fā)表于 10-09 19:11

    【「嵌入式Hypervisor:架構(gòu)、原理與應(yīng)用」閱讀體驗】+第7-8章學(xué)習(xí)心得

    這是一本很好的學(xué)習(xí)嵌入式的書籍。 在深入學(xué)習(xí)《嵌入式Hypervisor:架構(gòu)、原理與應(yīng)用》的第7-8章后,我對嵌入式Hypervisor的架構(gòu)、原理及其在實際應(yīng)用中的重要性有了更為深
    發(fā)表于 10-09 18:50

    基于Kepware的Hadoop大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價值利用效能

    背景 Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),它允許用戶在不需要深入了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。Hadoop充分利用集群的威力進行高速運算和存儲,特別適用于
    的頭像 發(fā)表于 10-08 15:12 ?352次閱讀
    基于Kepware的<b class='flag-5'>Hadoop</b>大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價值利用效能

    spark為什么比mapreduce快?

    spark為什么比mapreduce快? 首先澄清幾個誤區(qū): 1:兩者都是基于內(nèi)存計算的,任何計算框架都肯定是基于內(nèi)存的,所以網(wǎng)上說的spark是基于內(nèi)存計算所以快,顯然是錯誤的 2;DAG計算模型
    的頭像 發(fā)表于 09-06 09:45 ?516次閱讀