一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)應(yīng)用的開(kāi)發(fā)流程

RG15206629988 ? 來(lái)源:行業(yè)學(xué)習(xí)與研究 ? 2023-02-22 16:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大數(shù)據(jù)常見(jiàn)處理流程包括:原始數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)存儲(chǔ)、統(tǒng)計(jì)分析、存儲(chǔ)至數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)導(dǎo)出、導(dǎo)入數(shù)據(jù)庫(kù)、數(shù)據(jù)可視化。

49f2d180-b1d5-11ed-bfe3-dac502259ad0.png

圖片來(lái)源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》

一、原始數(shù)據(jù)采集

原始數(shù)據(jù)采集的方式包括:爬蟲(chóng)程序采集、應(yīng)用數(shù)據(jù)采集。

爬蟲(chóng)程序采集可在互聯(lián)網(wǎng)中爬取需要的數(shù)據(jù)。

應(yīng)用數(shù)據(jù)采集是指通過(guò)集群或分布式部署方式,將應(yīng)用程序的日志文件存儲(chǔ)于多個(gè)服務(wù)器中,再將日志文件數(shù)據(jù)集中存儲(chǔ)。

二、數(shù)據(jù)清洗和數(shù)據(jù)存儲(chǔ)

因?yàn)椴杉臄?shù)據(jù)中包含不符合要求的數(shù)據(jù),如格式?jīng)_突的數(shù)據(jù)、漏項(xiàng)的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)等,所以需要數(shù)據(jù)清洗將不符合要求的數(shù)據(jù)去除。

數(shù)據(jù)清洗過(guò)程可以較簡(jiǎn)單,也可以較復(fù)雜。可以通過(guò)向數(shù)據(jù)缺失位置添加某值的方式簡(jiǎn)單完成數(shù)據(jù)清洗(含個(gè)人理解);也可以通過(guò)復(fù)雜的機(jī)器學(xué)習(xí)模型清洗數(shù)據(jù)。

數(shù)據(jù)清洗可借助ETL軟件(根據(jù)百度百科:ETL是數(shù)據(jù)倉(cāng)庫(kù)技術(shù))。一般,數(shù)據(jù)被清洗后,數(shù)據(jù)量較大,無(wú)法存儲(chǔ)于計(jì)算機(jī)內(nèi)存中,因此,需將數(shù)據(jù)存儲(chǔ)于HDFS(數(shù)據(jù)存儲(chǔ))中或其他大數(shù)據(jù)存儲(chǔ)方式中。

三、統(tǒng)計(jì)分析和數(shù)據(jù)倉(cāng)庫(kù)

統(tǒng)計(jì)分析可通過(guò)選擇合適統(tǒng)計(jì)分析工具完成??墒褂肕apReduce技術(shù)實(shí)現(xiàn)并行統(tǒng)計(jì)分析,也可使用Hive數(shù)據(jù)倉(cāng)庫(kù)(Hive數(shù)據(jù)倉(cāng)庫(kù)具有數(shù)據(jù)整理、特殊查詢、分析存儲(chǔ)功能)、Python、R等進(jìn)行統(tǒng)計(jì)分析。

統(tǒng)計(jì)分析的難點(diǎn)不在于選擇統(tǒng)計(jì)分析工具,而在于需求和分析對(duì)象。個(gè)人理解:具體的需求和分析對(duì)象多樣導(dǎo)致統(tǒng)計(jì)分析不能簡(jiǎn)單地以某一方式解決所有統(tǒng)計(jì)分析問(wèn)題。

統(tǒng)計(jì)分析結(jié)束后,數(shù)據(jù)可被存儲(chǔ)于數(shù)據(jù)倉(cāng)庫(kù)中,可使用Hive數(shù)據(jù)倉(cāng)庫(kù)搭建所需的數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)不能直接向用戶呈現(xiàn)。

四、數(shù)據(jù)導(dǎo)出和數(shù)據(jù)庫(kù)

因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)不能直接向用戶呈現(xiàn),所以需要將數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)導(dǎo)出,并將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)中以實(shí)現(xiàn)數(shù)據(jù)可視化。數(shù)據(jù)導(dǎo)出可使用Sqoop(Sqoop可提供數(shù)據(jù)導(dǎo)入功能)。

數(shù)據(jù)庫(kù)一般為關(guān)系型數(shù)據(jù)庫(kù)。

五、數(shù)據(jù)可視化

數(shù)據(jù)可視化的目標(biāo)是使數(shù)據(jù)可被直觀展示,傳統(tǒng)圖形化展示方式種類較多(根據(jù)網(wǎng)絡(luò)資料理解:傳統(tǒng)圖形化展示方式包括條形圖、排列圖、餅圖、環(huán)形圖等)。大數(shù)據(jù)新型可視化方式包括:氣泡圖、數(shù)據(jù)畫像、地圖涂色等。

六、大數(shù)據(jù)應(yīng)用案例

下文介紹Hadoop自帶的MapReduce應(yīng)用案例WordCount,WordCount可統(tǒng)計(jì)文件的詞頻。

(1)啟動(dòng)Hadoop系統(tǒng)服務(wù),需啟動(dòng)HDFS與Yarn服務(wù)(根據(jù)百度百科:Yarn是新的Hadoop資源管理器,是通用資源管理系統(tǒng))。

4a33be2a-b1d5-11ed-bfe3-dac502259ad0.png

圖中紅框內(nèi)命令為HDFS啟動(dòng)命令,綠框內(nèi)命令為Yarn服務(wù)啟動(dòng)命令,圖片來(lái)源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作

(2)檢查Hadoop安全模式是否為“OFF”狀態(tài),如果Hadoop安全模式的狀態(tài)為“ON”,則只能讀取HDFS中的數(shù)據(jù),不能向HDFS中寫入數(shù)據(jù)。

(3)準(zhǔn)備需要處理的數(shù)據(jù),即查看文本文件中的內(nèi)容。

4a9bfe2c-b1d5-11ed-bfe3-dac502259ad0.png

圖中紅框內(nèi)命令為查看文件內(nèi)容命令,綠框內(nèi)為文件中的內(nèi)容,圖片來(lái)源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作

(4)執(zhí)行WordCount應(yīng)用程序。WordCount的具體命令是hadoopjar hadoopmapreduce-examples-2.9.2.jarwordcount 被統(tǒng)計(jì)文件的目錄名與文件名 統(tǒng)計(jì)結(jié)果輸出文件目錄名與文件名。

4ac8966c-b1d5-11ed-bfe3-dac502259ad0.png

圖中紅框內(nèi)為WordCount應(yīng)用程序統(tǒng)計(jì)結(jié)果輸出文件的內(nèi)容,圖片來(lái)源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)庫(kù)
    +關(guān)注

    關(guān)注

    7

    文章

    3910

    瀏覽量

    66010
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8499

    瀏覽量

    134371
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4825

    瀏覽量

    86497
  • HDFS
    +關(guān)注

    關(guān)注

    1

    文章

    31

    瀏覽量

    9859

原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(11)——大數(shù)據(jù)應(yīng)用的開(kāi)發(fā)流程

文章出處:【微信號(hào):行業(yè)學(xué)習(xí)與研究,微信公眾號(hào):行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于RV1126開(kāi)發(fā)板的AI算法開(kāi)發(fā)流程

    AI算法開(kāi)發(fā)流程由需求分析到準(zhǔn)備數(shù)據(jù),然后到選取模型,訓(xùn)練模型,接著模型轉(zhuǎn)換后進(jìn)行模型部署
    的頭像 發(fā)表于 04-18 14:03 ?1319次閱讀
    基于RV1126<b class='flag-5'>開(kāi)發(fā)</b>板的AI算法<b class='flag-5'>開(kāi)發(fā)</b><b class='flag-5'>流程</b>

    基于RV1126開(kāi)發(fā)板的AI算法開(kāi)發(fā)流程

    AI算法開(kāi)發(fā)流程由需求分析到準(zhǔn)備數(shù)據(jù),然后到選取模型,訓(xùn)練模型,接著模型轉(zhuǎn)換后進(jìn)行模型部署
    的頭像 發(fā)表于 04-18 10:47 ?249次閱讀
    基于RV1126<b class='flag-5'>開(kāi)發(fā)</b>板的AI算法<b class='flag-5'>開(kāi)發(fā)</b><b class='flag-5'>流程</b>

    大數(shù)據(jù)與云計(jì)算是干嘛的?

    大數(shù)據(jù)與云計(jì)算是支撐現(xiàn)代數(shù)字化技術(shù)的兩大核心。大數(shù)據(jù)專注于海量數(shù)據(jù)的采集、存儲(chǔ)、分析與價(jià)值挖掘;云計(jì)算通過(guò)虛擬化資源池提供彈性計(jì)算、存儲(chǔ)及服務(wù)能力。兩者結(jié)合,共同賦能企業(yè)決策、業(yè)務(wù)創(chuàng)新和效率提升。下面UU云小編將詳細(xì)剖析
    的頭像 發(fā)表于 02-20 14:48 ?556次閱讀

    大數(shù)據(jù)云計(jì)算都需要考什么證書?

    大數(shù)據(jù)和云計(jì)算領(lǐng)域包含多種專業(yè)證書,其中大數(shù)據(jù)領(lǐng)域涵蓋數(shù)據(jù)分析類證書、大數(shù)據(jù)工程類證書、數(shù)據(jù)治理類證書。云計(jì)算領(lǐng)域領(lǐng)域涵蓋云計(jì)算技術(shù)類證書、
    的頭像 發(fā)表于 02-19 11:05 ?587次閱讀

    工程大數(shù)據(jù)平臺(tái)

    由于無(wú)人駕駛系統(tǒng)開(kāi)發(fā)需要長(zhǎng)期迭代優(yōu)化,其過(guò)程需要大量的路試數(shù)據(jù)支撐,經(jīng)緯恒潤(rùn)針對(duì)無(wú)人駕駛系統(tǒng)持續(xù)運(yùn)營(yíng)和持續(xù)迭代的需求,開(kāi)發(fā)并在云端部署了車路云工程大數(shù)據(jù)平臺(tái),依托5G網(wǎng)絡(luò),具有遠(yuǎn)程
    的頭像 發(fā)表于 01-10 17:00 ?564次閱讀
    工程<b class='flag-5'>大數(shù)據(jù)</b>平臺(tái)

    緩存對(duì)大數(shù)據(jù)處理的影響分析

    緩存對(duì)大數(shù)據(jù)處理的影響顯著且重要,主要體現(xiàn)在以下幾個(gè)方面: 一、提高數(shù)據(jù)訪問(wèn)速度 在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)存儲(chǔ)通常采用分布式存儲(chǔ)系統(tǒng),數(shù)據(jù)量龐大
    的頭像 發(fā)表于 12-18 09:45 ?728次閱讀

    ADS1675最大數(shù)據(jù)吞吐率是是多少?

    ADS1675 24bit的ADC的采樣率最大是4Msps,請(qǐng)問(wèn)這款adc的最大數(shù)據(jù)吞吐率是是多少?怎么算的,在datasheet中有明確寫出來(lái)嗎
    發(fā)表于 11-28 07:56

    raid 在大數(shù)據(jù)分析中的應(yīng)用

    RAID(Redundant Array of Independent Disks,獨(dú)立磁盤冗余陣列)在大數(shù)據(jù)分析中的應(yīng)用主要體現(xiàn)在提高存儲(chǔ)系統(tǒng)的性能、可靠性和容量上。以下是RAID在大數(shù)據(jù)分析中
    的頭像 發(fā)表于 11-12 09:44 ?699次閱讀

    emc技術(shù)在大數(shù)據(jù)分析中的角色

    在當(dāng)今這個(gè)數(shù)據(jù)驅(qū)動(dòng)的世界中,大數(shù)據(jù)分析已經(jīng)成為企業(yè)獲取洞察力、優(yōu)化業(yè)務(wù)流程和提高競(jìng)爭(zhēng)力的關(guān)鍵工具。隨著數(shù)據(jù)量的爆炸性增長(zhǎng),企業(yè)面臨著如何有效存儲(chǔ)、處理和分析這些
    的頭像 發(fā)表于 11-01 15:22 ?661次閱讀

    MCU開(kāi)發(fā)流程中的注意事項(xiàng)

    以確保項(xiàng)目的順利進(jìn)行和最終產(chǎn)品的性能、可靠性和安全性。 1. 需求分析 在開(kāi)發(fā)流程的初期,需求分析是至關(guān)重要的。這一階段需要明確項(xiàng)目的目標(biāo)、功能、性能指標(biāo)和用戶需求。 明確功能需求 :確定MCU需要實(shí)現(xiàn)的具體功能,如數(shù)據(jù)處理、
    的頭像 發(fā)表于 11-01 13:52 ?810次閱讀

    智慧城市與大數(shù)據(jù)的關(guān)系

    智慧城市與大數(shù)據(jù)之間存在著密切的關(guān)系,這種關(guān)系體現(xiàn)在大數(shù)據(jù)對(duì)智慧城市建設(shè)的支撐和推動(dòng)作用,以及智慧城市產(chǎn)生的大量數(shù)據(jù)對(duì)大數(shù)據(jù)技術(shù)的應(yīng)用需求。 大數(shù)據(jù)
    的頭像 發(fā)表于 10-24 15:27 ?1270次閱讀

    電機(jī)控制方案開(kāi)發(fā)流程

    電機(jī)控制應(yīng)用廣泛,電機(jī)控制軟件方案核心是MCU,功率器件、驅(qū)動(dòng)器件;本文介紹電機(jī)控制方案開(kāi)發(fā)流程與需要解決的問(wèn)題。
    的頭像 發(fā)表于 10-12 16:36 ?1740次閱讀
    電機(jī)控制方案<b class='flag-5'>開(kāi)發(fā)</b><b class='flag-5'>流程</b>

    基于Kepware的Hadoop大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價(jià)值利用效能

    處理超大數(shù)據(jù)集。 Hadoop的生態(tài)系統(tǒng)非常豐富,包括許多相關(guān)工具和技術(shù),如Hive、Pig、HBase等,這些工具可以方便地構(gòu)建復(fù)雜的大數(shù)據(jù)應(yīng)用。Hadoop廣泛應(yīng)用于各種場(chǎng)景,包括數(shù)據(jù)處理和分析、
    的頭像 發(fā)表于 10-08 15:12 ?335次閱讀
    基于Kepware的Hadoop<b class='flag-5'>大數(shù)據(jù)</b>應(yīng)用構(gòu)建-提升<b class='flag-5'>數(shù)據(jù)</b>價(jià)值利用效能

    使用CYW20829的BLE進(jìn)行最大數(shù)據(jù)發(fā)送應(yīng)用,BLE丟失數(shù)據(jù)如何解決?

    我目前正在使用 CYW20829 的 BLE 進(jìn)行最大數(shù)據(jù)發(fā)送應(yīng)用,我使用的是 FREERTOS(例程 Bluetooth_LE_GATT_Throughput_Server 是我的參考),藍(lán)牙被
    發(fā)表于 07-23 07:56

    迪文串口屏ModBus開(kāi)發(fā)流程

    這里接前一章節(jié),繼續(xù)迪文屏的開(kāi)發(fā),前章主要講解基礎(chǔ)開(kāi)發(fā)流程,此章節(jié)開(kāi)始講解迪文ModBus協(xié)議棧的使用方法。前文指路:《迪文串口屏基礎(chǔ)GUI開(kāi)發(fā)流程
    的頭像 發(fā)表于 07-19 08:21 ?1113次閱讀
    迪文串口屏ModBus<b class='flag-5'>開(kāi)發(fā)</b><b class='flag-5'>流程</b>