數(shù)據(jù)的海嘯為企業(yè)提供了優(yōu)化流程和提供差異化??產(chǎn)品的機(jī)會(huì)。一套新的算法??和基礎(chǔ)設(shè)施已經(jīng)出現(xiàn),允許企業(yè)使用大數(shù)據(jù)或機(jī)器學(xué)習(xí)等關(guān)鍵數(shù)據(jù)分析技術(shù)來(lái)利用這些機(jī)會(huì)。
此外,大數(shù)據(jù)或機(jī)器學(xué)習(xí)背后的這種新基礎(chǔ)設(shè)施導(dǎo)致了許多不同的技術(shù),這些技術(shù)支持構(gòu)建數(shù)據(jù)分析算法的迭代過(guò)程。正是構(gòu)建算法的迭代過(guò)程的這個(gè)開始階段可以讓企業(yè)走向成功。這個(gè)迭代過(guò)程涉及嘗試多種策略,例如尋找其他數(shù)據(jù)源以及不同的機(jī)器學(xué)習(xí)方法和特征轉(zhuǎn)換。
鑒于要嘗試的組合可能無(wú)限多,因此快速迭代至關(guān)重要。領(lǐng)域?qū)<曳浅_m合快速迭代,因?yàn)樗麄兛梢岳盟麄兊闹R(shí)和直覺來(lái)避免不太可能產(chǎn)生強(qiáng)大結(jié)果的方法。具有領(lǐng)域知識(shí)的工程師越快將他們的知識(shí)應(yīng)用到支持快速迭代的工具中,企業(yè)就能越快獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。
但在深入研究支持這項(xiàng)活動(dòng)的技術(shù)之前,讓我們先來(lái)看看這個(gè)迭代過(guò)程的一個(gè)例子,以及在此過(guò)程中要問的一些問題。
迭代數(shù)據(jù)集
假肢公司知道,如果它知道客戶會(huì)做什么活動(dòng)(站立、坐著、走路等),它可以制造更智能的假肢。因此,它提出的第一個(gè)問題是:我們可以使用哪些數(shù)據(jù)來(lái)確定這一點(diǎn)?
該公司的工程師知道他們的大多數(shù)客戶都有智能手機(jī),因此他們希望使用來(lái)自智能手機(jī)傳感器的數(shù)據(jù)來(lái)確定他們的活動(dòng)。該公司的工程師首先記錄加速度計(jì)的數(shù)據(jù)。他們將機(jī)器學(xué)習(xí)算法直接應(yīng)用于數(shù)據(jù),但學(xué)習(xí)結(jié)果不如他們希望的那么好。迭代過(guò)程開始了,工程師接著問:我們是否有其他方法可以為機(jī)器學(xué)習(xí)準(zhǔn)備數(shù)據(jù),從而產(chǎn)生更好的結(jié)果?
該公司的工程師應(yīng)用信號(hào)處理技術(shù)從傳感器數(shù)據(jù)中提取頻率內(nèi)容,并再次嘗試機(jī)器學(xué)習(xí)技術(shù)。結(jié)果更好,但還沒有完全達(dá)到,所以他們問:我們可以使用其他數(shù)據(jù)來(lái)源來(lái)改進(jìn)我們的預(yù)測(cè)嗎?
他們決定還記錄來(lái)自智能手機(jī)的陀螺儀數(shù)據(jù),并將其與加速度計(jì)數(shù)據(jù)相結(jié)合。再次訓(xùn)練他們的機(jī)器學(xué)習(xí)模型,他們現(xiàn)在對(duì)結(jié)果感到滿意,并開始生產(chǎn)。
工程師在迭代過(guò)程中可能會(huì)問的其他問題包括:
有哪些可用數(shù)據(jù)?
還有其他數(shù)據(jù)源嗎?
可以使用哪些類型的流程從數(shù)據(jù)中提取高級(jí)信息?
該模型將在哪里運(yùn)行?
某些類型的錯(cuò)誤分類是否比其他類型的錯(cuò)誤分類成本更高?
我們?nèi)绾尾拍芸焖龠M(jìn)行實(shí)驗(yàn)來(lái)驗(yàn)證想法并回答上述問題?
既然您已經(jīng)看到了迭代過(guò)程的示例和要問的問題,那么這個(gè)過(guò)程背后的技術(shù)呢?
大數(shù)據(jù)迭代
隨著越來(lái)越多的數(shù)據(jù)產(chǎn)生,系統(tǒng)需要發(fā)展以處理所有數(shù)據(jù)。在這個(gè)“大數(shù)據(jù)”領(lǐng)域,兩個(gè)大型項(xiàng)目重塑了格局:Hadoop 和 Spark。這兩個(gè)項(xiàng)目都是 Apache 軟件基金會(huì)的一部分。它們共同使存儲(chǔ)和分析大量數(shù)據(jù)變得更容易、更便宜。
這些技術(shù)可以極大地影響工程師的工作。對(duì)于習(xí)慣于在臺(tái)式機(jī)、網(wǎng)絡(luò)驅(qū)動(dòng)器或傳統(tǒng)數(shù)據(jù)庫(kù)中處理文件中數(shù)據(jù)的工程師來(lái)說(shuō),這些新工具需要一種不同的方式來(lái)訪問數(shù)據(jù),然后才能考慮進(jìn)行分析。在許多情況下,可能會(huì)造成人為的數(shù)據(jù)孤島和低效率,例如每次執(zhí)行新分析時(shí)都需要聯(lián)系某人將數(shù)據(jù)從大數(shù)據(jù)系統(tǒng)中提取出來(lái)。
工程師在處理大數(shù)據(jù)時(shí)面臨的另一個(gè)挑戰(zhàn)是需要改變他們的計(jì)算方法。當(dāng)數(shù)據(jù)小到足以放入內(nèi)存時(shí),標(biāo)準(zhǔn)的工作流程是加載數(shù)據(jù)并執(zhí)行計(jì)算;計(jì)算通常會(huì)很快,因?yàn)閿?shù)據(jù)已經(jīng)在內(nèi)存中。但是對(duì)于大數(shù)據(jù),通常會(huì)有磁盤讀/寫,以及跨網(wǎng)絡(luò)的數(shù)據(jù)傳輸,這會(huì)減慢計(jì)算速度。
當(dāng)工程師設(shè)計(jì)一種新算法時(shí),他們需要能夠快速迭代許多設(shè)計(jì)。結(jié)果是一個(gè)新的工作流程,包括獲取數(shù)據(jù)樣本并在本地使用它,從而實(shí)現(xiàn)快速迭代和輕松使用有用的開發(fā)工具,如調(diào)試器。一旦算法在樣本上經(jīng)過(guò)審查,它就會(huì)針對(duì)大數(shù)據(jù)系統(tǒng)中的完整數(shù)據(jù)集運(yùn)行。
這些挑戰(zhàn)的解決方案是一個(gè)系統(tǒng),讓工程師可以使用熟悉的環(huán)境編寫代碼,該代碼既可以在本地?cái)?shù)據(jù)樣本上運(yùn)行,也可以在大數(shù)據(jù)系統(tǒng)中的完整數(shù)據(jù)集上運(yùn)行。MATLAB 等工具與 Hadoop 等大數(shù)據(jù)系統(tǒng)建立連接??梢韵螺d數(shù)據(jù)樣本,并在本地制作算法原型。利用延遲評(píng)估框架的新計(jì)算模型用于以性能優(yōu)化的方式在完整數(shù)據(jù)集上運(yùn)行算法。對(duì)于工程和數(shù)據(jù)科學(xué)工作流程中常見的迭代分析,這種延遲評(píng)估模型是減少完成完整數(shù)據(jù)集分析所需時(shí)間的關(guān)鍵,這通??赡苁菐追昼娀驇仔r(shí)的數(shù)量級(jí)。
大數(shù)據(jù)技術(shù)一直是數(shù)據(jù)科學(xué)發(fā)展的關(guān)鍵推動(dòng)力。隨著大量數(shù)據(jù)的收集,需要新的算法來(lái)對(duì)這些數(shù)據(jù)進(jìn)行推理,這導(dǎo)致了機(jī)器學(xué)習(xí)的使用熱潮。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)用于識(shí)別數(shù)據(jù)中的潛在趨勢(shì)和結(jié)構(gòu)。機(jī)器學(xué)習(xí)分為無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)。
在無(wú)監(jiān)督學(xué)習(xí)中,我們?cè)噲D發(fā)現(xiàn)數(shù)據(jù)中的關(guān)系,例如所有相似的數(shù)據(jù)點(diǎn)組。例如,我們可能想查看駕駛數(shù)據(jù),以了解人們駕駛汽車的模式是否不同。通過(guò)聚類分析,我們可能會(huì)發(fā)現(xiàn)不同的趨勢(shì),例如城市駕駛與高速公路駕駛,或者更有趣的是,不同風(fēng)格的駕駛員(例如,激進(jìn)的司機(jī))。
在監(jiān)督學(xué)習(xí)中,我們得到輸入和輸出數(shù)據(jù),目標(biāo)是訓(xùn)練一個(gè)模型,該模型在給定新輸入的情況下可以預(yù)測(cè)新輸出。監(jiān)督學(xué)習(xí)通常用于圖像中的預(yù)測(cè)性維護(hù)、欺詐檢測(cè)和面部識(shí)別等應(yīng)用。
機(jī)器學(xué)習(xí)的每個(gè)領(lǐng)域——無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)——都有幾十種流行的算法(還有數(shù)百種不太流行的算法)。但是,很難知道這些算法中的哪一種最適合您正在處理的特定問題。通常,最好的辦法就是嘗試一下并比較結(jié)果。這在某些環(huán)境中可能是相當(dāng)大的挑戰(zhàn),因?yàn)檠芯咳藛T根據(jù)他們的問題和偏好構(gòu)建具有不同接口的算法。
成熟的機(jī)器學(xué)習(xí)工具為各種算法提供一致的界面,并且可以輕松快速地嘗試不同的方法。這對(duì)于執(zhí)行數(shù)據(jù)科學(xué)的領(lǐng)域?qū)<襾?lái)說(shuō)至關(guān)重要,因?yàn)樗顾麄兡軌蜃R(shí)別機(jī)器學(xué)習(xí)比傳統(tǒng)方法提供改進(jìn)的“速贏”。這種方法還可以防止他們花費(fèi)數(shù)天或數(shù)周的時(shí)間將機(jī)器學(xué)習(xí)模型調(diào)整為不適合機(jī)器學(xué)習(xí)的數(shù)據(jù)集。MATLAB 等工具通過(guò)提供訓(xùn)練和比較多個(gè)機(jī)器學(xué)習(xí)模型的點(diǎn)擊式應(yīng)用??程序來(lái)解決這個(gè)問題。
迭代更快
大數(shù)據(jù)和機(jī)器學(xué)習(xí)相結(jié)合,有望為長(zhǎng)期存在的業(yè)務(wù)問題帶來(lái)新的解決方案。底層技術(shù)掌握在非常熟悉這些業(yè)務(wù)問題的領(lǐng)域?qū)<沂种?,可以產(chǎn)生顯著的成果。例如,貝克休斯的工程師使用機(jī)器學(xué)習(xí)技術(shù)來(lái)預(yù)測(cè)他們的天然氣和石油開采卡車上的泵何時(shí)會(huì)出現(xiàn)故障。他們從這些卡車上收集了近 1 TB 的數(shù)據(jù),然后使用信號(hào)處理技術(shù)來(lái)識(shí)別相關(guān)的頻率內(nèi)容。領(lǐng)域知識(shí)在這里至關(guān)重要,因?yàn)樗麄冃枰私饪ㄜ嚿峡赡艹霈F(xiàn)在傳感器讀數(shù)中的其他系統(tǒng),但這對(duì)預(yù)測(cè)泵故障沒有幫助。他們應(yīng)用了機(jī)器學(xué)習(xí)技術(shù),可以區(qū)分健康的泵和不健康的泵。由此產(chǎn)生的系統(tǒng)預(yù)計(jì)將減少 1000 萬(wàn)美元的總成本。在整個(gè)過(guò)程中,他們對(duì)泵車系統(tǒng)的了解使他們能夠深入挖掘數(shù)據(jù)并快速迭代。
利用處理大數(shù)據(jù)和應(yīng)用機(jī)器學(xué)習(xí)的工具,貝克休斯的工程師能夠很好地解決改善業(yè)務(wù)成果的問題。憑借對(duì)這些復(fù)雜系統(tǒng)的領(lǐng)域知識(shí),工程師們將這些工具遠(yuǎn)遠(yuǎn)超出了網(wǎng)絡(luò)和營(yíng)銷應(yīng)用程序的傳統(tǒng)用途。
審核編輯:郭婷
-
matlab
+關(guān)注
關(guān)注
189文章
3001瀏覽量
234097 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8502瀏覽量
134589 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8960瀏覽量
140175
發(fā)布評(píng)論請(qǐng)先 登錄
電力系統(tǒng)數(shù)據(jù)分析技術(shù)
智能焊接數(shù)據(jù)分析設(shè)備提升工業(yè)效率與精度
Mathematica 在數(shù)據(jù)分析中的應(yīng)用
數(shù)據(jù)可視化與數(shù)據(jù)分析的關(guān)系
深入解析:海外IP代理在跨境電商與數(shù)據(jù)分析中的應(yīng)用
LLM在數(shù)據(jù)分析中的作用
eda與傳統(tǒng)數(shù)據(jù)分析的區(qū)別
為什么選擇eda進(jìn)行數(shù)據(jù)分析
raid 在大數(shù)據(jù)分析中的應(yīng)用
SUMIF函數(shù)在數(shù)據(jù)分析中的應(yīng)用
智能制造中的數(shù)據(jù)分析應(yīng)用
emc技術(shù)在大數(shù)據(jù)分析中的角色
云計(jì)算在大數(shù)據(jù)分析中的應(yīng)用
使用AI大模型進(jìn)行數(shù)據(jù)分析的技巧
IP 地址大數(shù)據(jù)分析如何進(jìn)行網(wǎng)絡(luò)優(yōu)化?

評(píng)論