大數(shù)據(jù)常見(jiàn)處理流程包括:原始數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)存儲(chǔ)、統(tǒng)計(jì)分析、存儲(chǔ)至數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)導(dǎo)出、導(dǎo)入數(shù)據(jù)庫(kù)、數(shù)據(jù)可視化。
圖片來(lái)源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》
一、原始數(shù)據(jù)采集
原始數(shù)據(jù)采集的方式包括:爬蟲(chóng)程序采集、應(yīng)用數(shù)據(jù)采集。
爬蟲(chóng)程序采集可在互聯(lián)網(wǎng)中爬取需要的數(shù)據(jù)。
應(yīng)用數(shù)據(jù)采集是指通過(guò)集群或分布式部署方式,將應(yīng)用程序的日志文件存儲(chǔ)于多個(gè)服務(wù)器中,再將日志文件數(shù)據(jù)集中存儲(chǔ)。
二、數(shù)據(jù)清洗和數(shù)據(jù)存儲(chǔ)
因?yàn)椴杉臄?shù)據(jù)中包含不符合要求的數(shù)據(jù),如格式?jīng)_突的數(shù)據(jù)、漏項(xiàng)的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)等,所以需要數(shù)據(jù)清洗將不符合要求的數(shù)據(jù)去除。
數(shù)據(jù)清洗過(guò)程可以較簡(jiǎn)單,也可以較復(fù)雜。可以通過(guò)向數(shù)據(jù)缺失位置添加某值的方式簡(jiǎn)單完成數(shù)據(jù)清洗(含個(gè)人理解);也可以通過(guò)復(fù)雜的機(jī)器學(xué)習(xí)模型清洗數(shù)據(jù)。
數(shù)據(jù)清洗可借助ETL軟件(根據(jù)百度百科:ETL是數(shù)據(jù)倉(cāng)庫(kù)技術(shù))。一般,數(shù)據(jù)被清洗后,數(shù)據(jù)量較大,無(wú)法存儲(chǔ)于計(jì)算機(jī)內(nèi)存中,因此,需將數(shù)據(jù)存儲(chǔ)于HDFS(數(shù)據(jù)存儲(chǔ))中或其他大數(shù)據(jù)存儲(chǔ)方式中。
三、統(tǒng)計(jì)分析和數(shù)據(jù)倉(cāng)庫(kù)
統(tǒng)計(jì)分析可通過(guò)選擇合適統(tǒng)計(jì)分析工具完成??墒褂肕apReduce技術(shù)實(shí)現(xiàn)并行統(tǒng)計(jì)分析,也可使用Hive數(shù)據(jù)倉(cāng)庫(kù)(Hive數(shù)據(jù)倉(cāng)庫(kù)具有數(shù)據(jù)整理、特殊查詢、分析存儲(chǔ)功能)、Python、R等進(jìn)行統(tǒng)計(jì)分析。
統(tǒng)計(jì)分析的難點(diǎn)不在于選擇統(tǒng)計(jì)分析工具,而在于需求和分析對(duì)象。個(gè)人理解:具體的需求和分析對(duì)象多樣導(dǎo)致統(tǒng)計(jì)分析不能簡(jiǎn)單地以某一方式解決所有統(tǒng)計(jì)分析問(wèn)題。
統(tǒng)計(jì)分析結(jié)束后,數(shù)據(jù)可被存儲(chǔ)于數(shù)據(jù)倉(cāng)庫(kù)中,可使用Hive數(shù)據(jù)倉(cāng)庫(kù)搭建所需的數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)不能直接向用戶呈現(xiàn)。
四、數(shù)據(jù)導(dǎo)出和數(shù)據(jù)庫(kù)
因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)不能直接向用戶呈現(xiàn),所以需要將數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)導(dǎo)出,并將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)中以實(shí)現(xiàn)數(shù)據(jù)可視化。數(shù)據(jù)導(dǎo)出可使用Sqoop(Sqoop可提供數(shù)據(jù)導(dǎo)入功能)。
數(shù)據(jù)庫(kù)一般為關(guān)系型數(shù)據(jù)庫(kù)。
五、數(shù)據(jù)可視化
數(shù)據(jù)可視化的目標(biāo)是使數(shù)據(jù)可被直觀展示,傳統(tǒng)圖形化展示方式種類較多(根據(jù)網(wǎng)絡(luò)資料理解:傳統(tǒng)圖形化展示方式包括條形圖、排列圖、餅圖、環(huán)形圖等)。大數(shù)據(jù)新型可視化方式包括:氣泡圖、數(shù)據(jù)畫像、地圖涂色等。
六、大數(shù)據(jù)應(yīng)用案例
下文介紹Hadoop自帶的MapReduce應(yīng)用案例WordCount,WordCount可統(tǒng)計(jì)文件的詞頻。
(1)啟動(dòng)Hadoop系統(tǒng)服務(wù),需啟動(dòng)HDFS與Yarn服務(wù)(根據(jù)百度百科:Yarn是新的Hadoop資源管理器,是通用資源管理系統(tǒng))。
圖中紅框內(nèi)命令為HDFS啟動(dòng)命令,綠框內(nèi)命令為Yarn服務(wù)啟動(dòng)命令,圖片來(lái)源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作
(2)檢查Hadoop安全模式是否為“OFF”狀態(tài),如果Hadoop安全模式的狀態(tài)為“ON”,則只能讀取HDFS中的數(shù)據(jù),不能向HDFS中寫入數(shù)據(jù)。
(3)準(zhǔn)備需要處理的數(shù)據(jù),即查看文本文件中的內(nèi)容。
圖中紅框內(nèi)命令為查看文件內(nèi)容命令,綠框內(nèi)為文件中的內(nèi)容,圖片來(lái)源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作
(4)執(zhí)行WordCount應(yīng)用程序。WordCount的具體命令是hadoopjar hadoopmapreduce-examples-2.9.2.jarwordcount 被統(tǒng)計(jì)文件的目錄名與文件名 統(tǒng)計(jì)結(jié)果輸出文件目錄名與文件名。
圖中紅框內(nèi)為WordCount應(yīng)用程序統(tǒng)計(jì)結(jié)果輸出文件的內(nèi)容,圖片來(lái)源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作
審核編輯:劉清
-
數(shù)據(jù)庫(kù)
+關(guān)注
關(guān)注
7文章
3910瀏覽量
66010 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8499瀏覽量
134371 -
python
+關(guān)注
關(guān)注
56文章
4825瀏覽量
86497 -
HDFS
+關(guān)注
關(guān)注
1文章
31瀏覽量
9859
原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(11)——大數(shù)據(jù)應(yīng)用的開(kāi)發(fā)流程
文章出處:【微信號(hào):行業(yè)學(xué)習(xí)與研究,微信公眾號(hào):行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
基于RV1126開(kāi)發(fā)板的AI算法開(kāi)發(fā)流程

基于RV1126開(kāi)發(fā)板的AI算法開(kāi)發(fā)流程

大數(shù)據(jù)與云計(jì)算是干嘛的?
大數(shù)據(jù)云計(jì)算都需要考什么證書?
工程大數(shù)據(jù)平臺(tái)

緩存對(duì)大數(shù)據(jù)處理的影響分析
ADS1675最大數(shù)據(jù)吞吐率是是多少?
raid 在大數(shù)據(jù)分析中的應(yīng)用
emc技術(shù)在大數(shù)據(jù)分析中的角色
MCU開(kāi)發(fā)流程中的注意事項(xiàng)
智慧城市與大數(shù)據(jù)的關(guān)系
電機(jī)控制方案開(kāi)發(fā)流程

基于Kepware的Hadoop大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價(jià)值利用效能

使用CYW20829的BLE進(jìn)行最大數(shù)據(jù)發(fā)送應(yīng)用,BLE丟失數(shù)據(jù)如何解決?
迪文串口屏ModBus開(kāi)發(fā)流程

評(píng)論