一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深入研究數(shù)據(jù)分析技術(shù)

星星科技指導(dǎo)員 ? 來(lái)源:嵌入式計(jì)算設(shè)計(jì) ? 作者:Seth DeLand ? 2022-07-06 14:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

數(shù)據(jù)的海嘯為企業(yè)提供了優(yōu)化流程和提供差異化??產(chǎn)品的機(jī)會(huì)。一套新的算法??和基礎(chǔ)設(shè)施已經(jīng)出現(xiàn),允許企業(yè)使用大數(shù)據(jù)或機(jī)器學(xué)習(xí)等關(guān)鍵數(shù)據(jù)分析技術(shù)來(lái)利用這些機(jī)會(huì)。

此外,大數(shù)據(jù)或機(jī)器學(xué)習(xí)背后的這種新基礎(chǔ)設(shè)施導(dǎo)致了許多不同的技術(shù),這些技術(shù)支持構(gòu)建數(shù)據(jù)分析算法的迭代過(guò)程。正是構(gòu)建算法的迭代過(guò)程的這個(gè)開始階段可以讓企業(yè)走向成功。這個(gè)迭代過(guò)程涉及嘗試多種策略,例如尋找其他數(shù)據(jù)源以及不同的機(jī)器學(xué)習(xí)方法和特征轉(zhuǎn)換。

鑒于要嘗試的組合可能無(wú)限多,因此快速迭代至關(guān)重要。領(lǐng)域?qū)<曳浅_m合快速迭代,因?yàn)樗麄兛梢岳盟麄兊闹R(shí)和直覺來(lái)避免不太可能產(chǎn)生強(qiáng)大結(jié)果的方法。具有領(lǐng)域知識(shí)的工程師越快將他們的知識(shí)應(yīng)用到支持快速迭代的工具中,企業(yè)就能越快獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。

但在深入研究支持這項(xiàng)活動(dòng)的技術(shù)之前,讓我們先來(lái)看看這個(gè)迭代過(guò)程的一個(gè)例子,以及在此過(guò)程中要問的一些問題。

迭代數(shù)據(jù)集

假肢公司知道,如果它知道客戶會(huì)做什么活動(dòng)(站立、坐著、走路等),它可以制造更智能的假肢。因此,它提出的第一個(gè)問題是:我們可以使用哪些數(shù)據(jù)來(lái)確定這一點(diǎn)?

該公司的工程師知道他們的大多數(shù)客戶都有智能手機(jī),因此他們希望使用來(lái)自智能手機(jī)傳感器的數(shù)據(jù)來(lái)確定他們的活動(dòng)。該公司的工程師首先記錄加速度計(jì)的數(shù)據(jù)。他們將機(jī)器學(xué)習(xí)算法直接應(yīng)用于數(shù)據(jù),但學(xué)習(xí)結(jié)果不如他們希望的那么好。迭代過(guò)程開始了,工程師接著問:我們是否有其他方法可以為機(jī)器學(xué)習(xí)準(zhǔn)備數(shù)據(jù),從而產(chǎn)生更好的結(jié)果?

該公司的工程師應(yīng)用信號(hào)處理技術(shù)從傳感器數(shù)據(jù)中提取頻率內(nèi)容,并再次嘗試機(jī)器學(xué)習(xí)技術(shù)。結(jié)果更好,但還沒有完全達(dá)到,所以他們問:我們可以使用其他數(shù)據(jù)來(lái)源來(lái)改進(jìn)我們的預(yù)測(cè)嗎?

他們決定還記錄來(lái)自智能手機(jī)的陀螺儀數(shù)據(jù),并將其與加速度計(jì)數(shù)據(jù)相結(jié)合。再次訓(xùn)練他們的機(jī)器學(xué)習(xí)模型,他們現(xiàn)在對(duì)結(jié)果感到滿意,并開始生產(chǎn)。

工程師在迭代過(guò)程中可能會(huì)問的其他問題包括:

有哪些可用數(shù)據(jù)?

還有其他數(shù)據(jù)源嗎?

可以使用哪些類型的流程從數(shù)據(jù)中提取高級(jí)信息?

該模型將在哪里運(yùn)行?

某些類型的錯(cuò)誤分類是否比其他類型的錯(cuò)誤分類成本更高?

我們?nèi)绾尾拍芸焖龠M(jìn)行實(shí)驗(yàn)來(lái)驗(yàn)證想法并回答上述問題?

既然您已經(jīng)看到了迭代過(guò)程的示例和要問的問題,那么這個(gè)過(guò)程背后的技術(shù)呢?

大數(shù)據(jù)迭代

隨著越來(lái)越多的數(shù)據(jù)產(chǎn)生,系統(tǒng)需要發(fā)展以處理所有數(shù)據(jù)。在這個(gè)“大數(shù)據(jù)”領(lǐng)域,兩個(gè)大型項(xiàng)目重塑了格局:Hadoop 和 Spark。這兩個(gè)項(xiàng)目都是 Apache 軟件基金會(huì)的一部分。它們共同使存儲(chǔ)和分析大量數(shù)據(jù)變得更容易、更便宜。

這些技術(shù)可以極大地影響工程師的工作。對(duì)于習(xí)慣于在臺(tái)式機(jī)、網(wǎng)絡(luò)驅(qū)動(dòng)器或傳統(tǒng)數(shù)據(jù)庫(kù)中處理文件中數(shù)據(jù)的工程師來(lái)說(shuō),這些新工具需要一種不同的方式來(lái)訪問數(shù)據(jù),然后才能考慮進(jìn)行分析。在許多情況下,可能會(huì)造成人為的數(shù)據(jù)孤島和低效率,例如每次執(zhí)行新分析時(shí)都需要聯(lián)系某人將數(shù)據(jù)從大數(shù)據(jù)系統(tǒng)中提取出來(lái)。

工程師在處理大數(shù)據(jù)時(shí)面臨的另一個(gè)挑戰(zhàn)是需要改變他們的計(jì)算方法。當(dāng)數(shù)據(jù)小到足以放入內(nèi)存時(shí),標(biāo)準(zhǔn)的工作流程是加載數(shù)據(jù)并執(zhí)行計(jì)算;計(jì)算通常會(huì)很快,因?yàn)閿?shù)據(jù)已經(jīng)在內(nèi)存中。但是對(duì)于大數(shù)據(jù),通常會(huì)有磁盤讀/寫,以及跨網(wǎng)絡(luò)的數(shù)據(jù)傳輸,這會(huì)減慢計(jì)算速度。

當(dāng)工程師設(shè)計(jì)一種新算法時(shí),他們需要能夠快速迭代許多設(shè)計(jì)。結(jié)果是一個(gè)新的工作流程,包括獲取數(shù)據(jù)樣本并在本地使用它,從而實(shí)現(xiàn)快速迭代和輕松使用有用的開發(fā)工具,如調(diào)試器。一旦算法在樣本上經(jīng)過(guò)審查,它就會(huì)針對(duì)大數(shù)據(jù)系統(tǒng)中的完整數(shù)據(jù)集運(yùn)行。

這些挑戰(zhàn)的解決方案是一個(gè)系統(tǒng),讓工程師可以使用熟悉的環(huán)境編寫代碼,該代碼既可以在本地?cái)?shù)據(jù)樣本上運(yùn)行,也可以在大數(shù)據(jù)系統(tǒng)中的完整數(shù)據(jù)集上運(yùn)行。MATLAB 等工具與 Hadoop 等大數(shù)據(jù)系統(tǒng)建立連接??梢韵螺d數(shù)據(jù)樣本,并在本地制作算法原型。利用延遲評(píng)估框架的新計(jì)算模型用于以性能優(yōu)化的方式在完整數(shù)據(jù)集上運(yùn)行算法。對(duì)于工程和數(shù)據(jù)科學(xué)工作流程中常見的迭代分析,這種延遲評(píng)估模型是減少完成完整數(shù)據(jù)集分析所需時(shí)間的關(guān)鍵,這通??赡苁菐追昼娀驇仔r(shí)的數(shù)量級(jí)。

大數(shù)據(jù)技術(shù)一直是數(shù)據(jù)科學(xué)發(fā)展的關(guān)鍵推動(dòng)力。隨著大量數(shù)據(jù)的收集,需要新的算法來(lái)對(duì)這些數(shù)據(jù)進(jìn)行推理,這導(dǎo)致了機(jī)器學(xué)習(xí)的使用熱潮。

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)用于識(shí)別數(shù)據(jù)中的潛在趨勢(shì)和結(jié)構(gòu)。機(jī)器學(xué)習(xí)分為無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)。

在無(wú)監(jiān)督學(xué)習(xí)中,我們?cè)噲D發(fā)現(xiàn)數(shù)據(jù)中的關(guān)系,例如所有相似的數(shù)據(jù)點(diǎn)組。例如,我們可能想查看駕駛數(shù)據(jù),以了解人們駕駛汽車的模式是否不同。通過(guò)聚類分析,我們可能會(huì)發(fā)現(xiàn)不同的趨勢(shì),例如城市駕駛與高速公路駕駛,或者更有趣的是,不同風(fēng)格的駕駛員(例如,激進(jìn)的司機(jī))。

在監(jiān)督學(xué)習(xí)中,我們得到輸入和輸出數(shù)據(jù),目標(biāo)是訓(xùn)練一個(gè)模型,該模型在給定新輸入的情況下可以預(yù)測(cè)新輸出。監(jiān)督學(xué)習(xí)通常用于圖像中的預(yù)測(cè)性維護(hù)、欺詐檢測(cè)和面部識(shí)別等應(yīng)用。

機(jī)器學(xué)習(xí)的每個(gè)領(lǐng)域——無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)——都有幾十種流行的算法(還有數(shù)百種不太流行的算法)。但是,很難知道這些算法中的哪一種最適合您正在處理的特定問題。通常,最好的辦法就是嘗試一下并比較結(jié)果。這在某些環(huán)境中可能是相當(dāng)大的挑戰(zhàn),因?yàn)檠芯咳藛T根據(jù)他們的問題和偏好構(gòu)建具有不同接口的算法。

成熟的機(jī)器學(xué)習(xí)工具為各種算法提供一致的界面,并且可以輕松快速地嘗試不同的方法。這對(duì)于執(zhí)行數(shù)據(jù)科學(xué)的領(lǐng)域?qū)<襾?lái)說(shuō)至關(guān)重要,因?yàn)樗顾麄兡軌蜃R(shí)別機(jī)器學(xué)習(xí)比傳統(tǒng)方法提供改進(jìn)的“速贏”。這種方法還可以防止他們花費(fèi)數(shù)天或數(shù)周的時(shí)間將機(jī)器學(xué)習(xí)模型調(diào)整為不適合機(jī)器學(xué)習(xí)的數(shù)據(jù)集。MATLAB 等工具通過(guò)提供訓(xùn)練和比較多個(gè)機(jī)器學(xué)習(xí)模型的點(diǎn)擊式應(yīng)用??程序來(lái)解決這個(gè)問題。

迭代更快

大數(shù)據(jù)和機(jī)器學(xué)習(xí)相結(jié)合,有望為長(zhǎng)期存在的業(yè)務(wù)問題帶來(lái)新的解決方案。底層技術(shù)掌握在非常熟悉這些業(yè)務(wù)問題的領(lǐng)域?qū)<沂种?,可以產(chǎn)生顯著的成果。例如,貝克休斯的工程師使用機(jī)器學(xué)習(xí)技術(shù)來(lái)預(yù)測(cè)他們的天然氣和石油開采卡車上的泵何時(shí)會(huì)出現(xiàn)故障。他們從這些卡車上收集了近 1 TB 的數(shù)據(jù),然后使用信號(hào)處理技術(shù)來(lái)識(shí)別相關(guān)的頻率內(nèi)容。領(lǐng)域知識(shí)在這里至關(guān)重要,因?yàn)樗麄冃枰私饪ㄜ嚿峡赡艹霈F(xiàn)在傳感器讀數(shù)中的其他系統(tǒng),但這對(duì)預(yù)測(cè)泵故障沒有幫助。他們應(yīng)用了機(jī)器學(xué)習(xí)技術(shù),可以區(qū)分健康的泵和不健康的泵。由此產(chǎn)生的系統(tǒng)預(yù)計(jì)將減少 1000 萬(wàn)美元的總成本。在整個(gè)過(guò)程中,他們對(duì)泵車系統(tǒng)的了解使他們能夠深入挖掘數(shù)據(jù)并快速迭代。

利用處理大數(shù)據(jù)和應(yīng)用機(jī)器學(xué)習(xí)的工具,貝克休斯的工程師能夠很好地解決改善業(yè)務(wù)成果的問題。憑借對(duì)這些復(fù)雜系統(tǒng)的領(lǐng)域知識(shí),工程師們將這些工具遠(yuǎn)遠(yuǎn)超出了網(wǎng)絡(luò)和營(yíng)銷應(yīng)用程序的傳統(tǒng)用途。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • matlab
    +關(guān)注

    關(guān)注

    189

    文章

    3001

    瀏覽量

    234097
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8502

    瀏覽量

    134589
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8960

    瀏覽量

    140175
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    電力系統(tǒng)數(shù)據(jù)分析技術(shù)

    隨著智能電網(wǎng)技術(shù)的發(fā)展和大數(shù)據(jù)時(shí)代的到來(lái),電力系統(tǒng)數(shù)據(jù)分析技術(shù)已成為電力行業(yè)不可或缺的一部分。這些技術(shù)能夠幫助電力公司更好地理解電網(wǎng)的運(yùn)行狀
    的頭像 發(fā)表于 01-18 09:46 ?746次閱讀

    智能焊接數(shù)據(jù)分析設(shè)備提升工業(yè)效率與精度

    隨著科技的不斷進(jìn)步,智能制造已經(jīng)成為推動(dòng)工業(yè)4.0發(fā)展的關(guān)鍵力量。在眾多的智能制造技術(shù)中,智能焊接數(shù)據(jù)分析設(shè)備因其在提高生產(chǎn)效率和焊接質(zhì)量方面的顯著效果而受到廣泛關(guān)注。本文將探討智能焊接數(shù)據(jù)分析設(shè)備
    的頭像 發(fā)表于 01-15 14:11 ?436次閱讀

    Mathematica 在數(shù)據(jù)分析中的應(yīng)用

    數(shù)據(jù)分析是現(xiàn)代科學(xué)研究和商業(yè)決策中不可或缺的一部分。隨著數(shù)據(jù)量的爆炸性增長(zhǎng),對(duì)數(shù)據(jù)分析工具的需求也在不斷增加。Mathematica,作為一種強(qiáng)大的計(jì)算軟件,以其獨(dú)特的符號(hào)計(jì)算能力和廣
    的頭像 發(fā)表于 12-26 15:41 ?702次閱讀

    數(shù)據(jù)可視化與數(shù)據(jù)分析的關(guān)系

    在當(dāng)今這個(gè)信息爆炸的時(shí)代,數(shù)據(jù)無(wú)處不在。無(wú)論是企業(yè)運(yùn)營(yíng)、科學(xué)研究還是個(gè)人決策,我們都需要從海量的數(shù)據(jù)中提取有價(jià)值的信息。數(shù)據(jù)分析數(shù)據(jù)可視化
    的頭像 發(fā)表于 12-06 17:09 ?961次閱讀

    深入解析:海外IP代理在跨境電商與數(shù)據(jù)分析中的應(yīng)用

    海外IP代理在跨境電商與數(shù)據(jù)分析中的應(yīng)用廣泛,其重要性不容忽視。
    的頭像 發(fā)表于 11-20 08:27 ?672次閱讀

    LLM在數(shù)據(jù)分析中的作用

    隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)分析已經(jīng)成為企業(yè)和組織決策的關(guān)鍵工具。數(shù)據(jù)科學(xué)家和分析師需要從海量數(shù)據(jù)中提取有價(jià)值的信息,以支持業(yè)務(wù)決策。在這個(gè)過(guò)
    的頭像 發(fā)表于 11-19 15:35 ?1117次閱讀

    eda與傳統(tǒng)數(shù)據(jù)分析的區(qū)別

    EDA(Exploratory Data Analysis,探索性數(shù)據(jù)分析)與傳統(tǒng)數(shù)據(jù)分析之間存在顯著的差異。以下是兩者的主要區(qū)別: 一、分析目的和方法論 EDA 目的 :EDA的主要目的是對(duì)
    的頭像 發(fā)表于 11-13 10:52 ?882次閱讀

    為什么選擇eda進(jìn)行數(shù)據(jù)分析

    數(shù)據(jù)科學(xué)領(lǐng)域,數(shù)據(jù)分析是一個(gè)復(fù)雜且多步驟的過(guò)程,它涉及到數(shù)據(jù)的收集、清洗、探索、建模和解釋。在這些步驟中,探索性數(shù)據(jù)分析(EDA)扮演著至關(guān)重要的角色。 1. 理解
    的頭像 發(fā)表于 11-13 10:41 ?754次閱讀

    raid 在大數(shù)據(jù)分析中的應(yīng)用

    的具體應(yīng)用: 一、提高性能 并行讀寫 :RAID技術(shù)通過(guò)并行讀寫多個(gè)磁盤,可以顯著提高數(shù)據(jù)的讀寫速度。在大數(shù)據(jù)分析環(huán)境中,數(shù)據(jù)讀寫速度是影響分析
    的頭像 發(fā)表于 11-12 09:44 ?723次閱讀

    SUMIF函數(shù)在數(shù)據(jù)分析中的應(yīng)用

    在商業(yè)和科學(xué)研究中,數(shù)據(jù)分析是一項(xiàng)基本且關(guān)鍵的技能。Excel作為最常用的數(shù)據(jù)分析工具之一,提供了多種函數(shù)來(lái)幫助用戶處理和分析數(shù)據(jù)。SUMI
    的頭像 發(fā)表于 11-11 09:14 ?883次閱讀

    智能制造中的數(shù)據(jù)分析應(yīng)用

    隨著工業(yè)4.0的推進(jìn),智能制造已經(jīng)成為制造業(yè)轉(zhuǎn)型升級(jí)的關(guān)鍵。數(shù)據(jù)分析作為智能制造的核心驅(qū)動(dòng)力,正逐步改變傳統(tǒng)的生產(chǎn)方式,為企業(yè)帶來(lái)更高的效率和更大的競(jìng)爭(zhēng)力。 一、數(shù)據(jù)分析在智能制造中的重要性 提高
    的頭像 發(fā)表于 11-07 09:56 ?875次閱讀

    emc技術(shù)在大數(shù)據(jù)分析中的角色

    數(shù)據(jù)分析通常涉及來(lái)自多個(gè)來(lái)源和格式的數(shù)據(jù)。這些數(shù)據(jù)可能包括結(jié)構(gòu)化數(shù)據(jù)(如數(shù)據(jù)庫(kù)中的表格數(shù)據(jù)
    的頭像 發(fā)表于 11-01 15:22 ?685次閱讀

    云計(jì)算在大數(shù)據(jù)分析中的應(yīng)用

    云計(jì)算在大數(shù)據(jù)分析中的應(yīng)用廣泛且深入,它為用戶提供了存儲(chǔ)、計(jì)算、分析和預(yù)測(cè)的強(qiáng)大能力。以下是對(duì)云計(jì)算在大數(shù)據(jù)分析中應(yīng)用的介紹: 一、存儲(chǔ)和處理海量數(shù)
    的頭像 發(fā)表于 10-24 09:18 ?1116次閱讀

    使用AI大模型進(jìn)行數(shù)據(jù)分析的技巧

    使用AI大模型進(jìn)行數(shù)據(jù)分析的技巧涉及多個(gè)方面,以下是一些關(guān)鍵的步驟和注意事項(xiàng): 一、明確任務(wù)目標(biāo)和需求 在使用AI大模型之前,首先要明確數(shù)據(jù)分析的任務(wù)目標(biāo),這將直接影響模型的選擇、數(shù)據(jù)收集和處理方式
    的頭像 發(fā)表于 10-23 15:14 ?2758次閱讀

    IP 地址大數(shù)據(jù)分析如何進(jìn)行網(wǎng)絡(luò)優(yōu)化?

    一、大數(shù)據(jù)分析在網(wǎng)絡(luò)優(yōu)化中的作用 1.流量分析數(shù)據(jù)分析可以對(duì)網(wǎng)絡(luò)中的流量進(jìn)行實(shí)時(shí)監(jiān)測(cè)和分析,了解網(wǎng)絡(luò)的使用情況和流量趨勢(shì)。通過(guò)對(duì)流量數(shù)據(jù)
    的頭像 發(fā)表于 10-09 15:32 ?571次閱讀
    IP 地址大<b class='flag-5'>數(shù)據(jù)分析</b>如何進(jìn)行網(wǎng)絡(luò)優(yōu)化?