大數(shù)據(jù)常見處理流程包括:原始數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)存儲、統(tǒng)計(jì)分析、存儲至數(shù)據(jù)倉庫、數(shù)據(jù)導(dǎo)出、導(dǎo)入數(shù)據(jù)庫、數(shù)據(jù)可視化。
圖片來源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》
一、原始數(shù)據(jù)采集
原始數(shù)據(jù)采集的方式包括:爬蟲程序采集、應(yīng)用數(shù)據(jù)采集。
爬蟲程序采集可在互聯(lián)網(wǎng)中爬取需要的數(shù)據(jù)。
應(yīng)用數(shù)據(jù)采集是指通過集群或分布式部署方式,將應(yīng)用程序的日志文件存儲于多個(gè)服務(wù)器中,再將日志文件數(shù)據(jù)集中存儲。
二、數(shù)據(jù)清洗和數(shù)據(jù)存儲
因?yàn)椴杉臄?shù)據(jù)中包含不符合要求的數(shù)據(jù),如格式?jīng)_突的數(shù)據(jù)、漏項(xiàng)的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)等,所以需要數(shù)據(jù)清洗將不符合要求的數(shù)據(jù)去除。
數(shù)據(jù)清洗過程可以較簡單,也可以較復(fù)雜??梢酝ㄟ^向數(shù)據(jù)缺失位置添加某值的方式簡單完成數(shù)據(jù)清洗(含個(gè)人理解);也可以通過復(fù)雜的機(jī)器學(xué)習(xí)模型清洗數(shù)據(jù)。
數(shù)據(jù)清洗可借助ETL軟件(根據(jù)百度百科:ETL是數(shù)據(jù)倉庫技術(shù))。一般,數(shù)據(jù)被清洗后,數(shù)據(jù)量較大,無法存儲于計(jì)算機(jī)內(nèi)存中,因此,需將數(shù)據(jù)存儲于HDFS(數(shù)據(jù)存儲)中或其他大數(shù)據(jù)存儲方式中。
三、統(tǒng)計(jì)分析和數(shù)據(jù)倉庫
統(tǒng)計(jì)分析可通過選擇合適統(tǒng)計(jì)分析工具完成??墒褂肕apReduce技術(shù)實(shí)現(xiàn)并行統(tǒng)計(jì)分析,也可使用Hive數(shù)據(jù)倉庫(Hive數(shù)據(jù)倉庫具有數(shù)據(jù)整理、特殊查詢、分析存儲功能)、Python、R等進(jìn)行統(tǒng)計(jì)分析。
統(tǒng)計(jì)分析的難點(diǎn)不在于選擇統(tǒng)計(jì)分析工具,而在于需求和分析對象。個(gè)人理解:具體的需求和分析對象多樣導(dǎo)致統(tǒng)計(jì)分析不能簡單地以某一方式解決所有統(tǒng)計(jì)分析問題。
統(tǒng)計(jì)分析結(jié)束后,數(shù)據(jù)可被存儲于數(shù)據(jù)倉庫中,可使用Hive數(shù)據(jù)倉庫搭建所需的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的數(shù)據(jù)不能直接向用戶呈現(xiàn)。
四、數(shù)據(jù)導(dǎo)出和數(shù)據(jù)庫
因?yàn)閿?shù)據(jù)倉庫的數(shù)據(jù)不能直接向用戶呈現(xiàn),所以需要將數(shù)據(jù)從數(shù)據(jù)倉庫導(dǎo)出,并將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫中以實(shí)現(xiàn)數(shù)據(jù)可視化。數(shù)據(jù)導(dǎo)出可使用Sqoop(Sqoop可提供數(shù)據(jù)導(dǎo)入功能)。
數(shù)據(jù)庫一般為關(guān)系型數(shù)據(jù)庫。
五、數(shù)據(jù)可視化
數(shù)據(jù)可視化的目標(biāo)是使數(shù)據(jù)可被直觀展示,傳統(tǒng)圖形化展示方式種類較多(根據(jù)網(wǎng)絡(luò)資料理解:傳統(tǒng)圖形化展示方式包括條形圖、排列圖、餅圖、環(huán)形圖等)。大數(shù)據(jù)新型可視化方式包括:氣泡圖、數(shù)據(jù)畫像、地圖涂色等。
六、大數(shù)據(jù)應(yīng)用案例
下文介紹Hadoop自帶的MapReduce應(yīng)用案例WordCount,WordCount可統(tǒng)計(jì)文件的詞頻。
(1)啟動(dòng)Hadoop系統(tǒng)服務(wù),需啟動(dòng)HDFS與Yarn服務(wù)(根據(jù)百度百科:Yarn是新的Hadoop資源管理器,是通用資源管理系統(tǒng))。
圖中紅框內(nèi)命令為HDFS啟動(dòng)命令,綠框內(nèi)命令為Yarn服務(wù)啟動(dòng)命令,圖片來源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作
(2)檢查Hadoop安全模式是否為“OFF”狀態(tài),如果Hadoop安全模式的狀態(tài)為“ON”,則只能讀取HDFS中的數(shù)據(jù),不能向HDFS中寫入數(shù)據(jù)。
(3)準(zhǔn)備需要處理的數(shù)據(jù),即查看文本文件中的內(nèi)容。
圖中紅框內(nèi)命令為查看文件內(nèi)容命令,綠框內(nèi)為文件中的內(nèi)容,圖片來源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作
(4)執(zhí)行WordCount應(yīng)用程序。WordCount的具體命令是hadoopjar hadoopmapreduce-examples-2.9.2.jarwordcount 被統(tǒng)計(jì)文件的目錄名與文件名 統(tǒng)計(jì)結(jié)果輸出文件目錄名與文件名。
圖中紅框內(nèi)為WordCount應(yīng)用程序統(tǒng)計(jì)結(jié)果輸出文件的內(nèi)容,圖片來源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作
審核編輯:劉清
-
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3885瀏覽量
65596 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8481瀏覽量
133876 -
python
+關(guān)注
關(guān)注
56文章
4822瀏覽量
85896 -
HDFS
+關(guān)注
關(guān)注
1文章
31瀏覽量
9808
原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(11)——大數(shù)據(jù)應(yīng)用的開發(fā)流程
文章出處:【微信號:行業(yè)學(xué)習(xí)與研究,微信公眾號:行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于RV1126開發(fā)板的AI算法開發(fā)流程

基于RV1126開發(fā)板的AI算法開發(fā)流程

大數(shù)據(jù)與云計(jì)算是干嘛的?
工程大數(shù)據(jù)平臺

緩存對大數(shù)據(jù)處理的影響分析
ADS1675最大數(shù)據(jù)吞吐率是是多少?
raid 在大數(shù)據(jù)分析中的應(yīng)用
emc技術(shù)在大數(shù)據(jù)分析中的角色
智慧城市與大數(shù)據(jù)的關(guān)系
電機(jī)控制方案開發(fā)流程

基于Kepware的Hadoop大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價(jià)值利用效能

使用CYW20829的BLE進(jìn)行最大數(shù)據(jù)發(fā)送應(yīng)用,BLE丟失數(shù)據(jù)如何解決?
迪文串口屏ModBus開發(fā)流程

評論