一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)中的數(shù)據(jù)準(zhǔn)備,為什么它如此重要

獨(dú)愛72H ? 來源:百家號(hào) ? 作者:百家號(hào) ? 2019-11-11 16:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(文章來源:百家號(hào))

自動(dòng)駕駛汽車等基于AI的大規(guī)模技術(shù)革命到構(gòu)建非常簡(jiǎn)單的算法,您都需要正確格式的數(shù)據(jù)。實(shí)際上,特斯拉和福特一直在通過行車記錄儀,傳感器和倒車攝像頭收集數(shù)據(jù),并對(duì)其進(jìn)行分析以制造出無人駕駛和全自動(dòng)汽車,以確保安全的道路。

收集數(shù)據(jù)之后的下一步是準(zhǔn)備數(shù)據(jù)的過程,這將成為本文的重點(diǎn),并將在后續(xù)部分中詳細(xì)討論。在深入研究數(shù)據(jù)準(zhǔn)備過程的概念之前,讓我們首先了解其含義。作為基于AI創(chuàng)新的大腦的數(shù)據(jù)科學(xué)家,您需要了解數(shù)據(jù)準(zhǔn)備的重要性,以實(shí)現(xiàn)模型所需的認(rèn)知能力。

什么是數(shù)據(jù)準(zhǔn)備?數(shù)據(jù)是每個(gè)組織的寶貴資源。但是,如果我們不進(jìn)一步分析該聲明,它可能會(huì)否定自己。 企業(yè)將數(shù)據(jù)用于各種目的。從廣義上講,它用于制定明智的業(yè)務(wù)決策,執(zhí)行成功的銷售和營(yíng)銷活動(dòng)等。但是,這些不能僅用原始數(shù)據(jù)來實(shí)現(xiàn)。

數(shù)據(jù)只有經(jīng)過清洗,貼標(biāo)簽,注釋和準(zhǔn)備后,才能成為寶貴的資源。數(shù)據(jù)經(jīng)過適應(yīng)性測(cè)試的各個(gè)階段后,便最終具備進(jìn)行進(jìn)一步處理的資格。處理可以采用多種方法-將數(shù)據(jù)提取到BI工具,CRM數(shù)據(jù)庫,開發(fā)用于分析模型的算法,數(shù)據(jù)管理工具等。

現(xiàn)在,重要的是您從此信息的分析中收集的見解是準(zhǔn)確且值得信賴的。實(shí)現(xiàn)此輸出的基礎(chǔ)在于數(shù)據(jù)的健康狀況。此外,無論您是構(gòu)建自己的模型還是從第三方那里獲得模型,都必須確保標(biāo)記,擴(kuò)充,干凈,結(jié)構(gòu)化的整個(gè)過程背后的數(shù)據(jù)都經(jīng)過標(biāo)記,概括,即數(shù)據(jù)準(zhǔn)備。

正如Wikipedia所定義的,數(shù)據(jù)準(zhǔn)備是將原始數(shù)據(jù)(可能來自不同的數(shù)據(jù)源)操縱(或預(yù)處理)為可以方便,準(zhǔn)確地進(jìn)行分析的形式的行為,例如出于商業(yè)目的。數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)分析項(xiàng)目的第一步,可以包括許多離散任務(wù),例如加載數(shù)據(jù)或數(shù)據(jù)攝取,數(shù)據(jù)融合,數(shù)據(jù)清理,數(shù)據(jù)擴(kuò)充和數(shù)據(jù)交付。

根據(jù)Cognilytica的最新研究,其中記錄并分析了組織,機(jī)構(gòu)和最終用戶企業(yè)的響應(yīng),以識(shí)別在標(biāo)記,注釋,清理,擴(kuò)充和豐富機(jī)器學(xué)習(xí)模型的數(shù)據(jù)上花費(fèi)了大量時(shí)間。數(shù)據(jù)科學(xué)家80%以上的時(shí)間都花在準(zhǔn)備數(shù)據(jù)上。盡管這是一個(gè)好兆頭,但考慮到隨著良好的數(shù)據(jù)進(jìn)入建立分析模型,準(zhǔn)確的人會(huì)得到輸出。但是,理想情況下,數(shù)據(jù)科學(xué)家應(yīng)該將更多的時(shí)間花在與數(shù)據(jù)交互,高級(jí)分析,培訓(xùn)和評(píng)估模型以及部署到生產(chǎn)上。

只有20%的時(shí)間進(jìn)入流程的主要部分。為了克服時(shí)間限制,組織需要利用用于數(shù)據(jù)工程,標(biāo)記和準(zhǔn)備的專家解決方案來減少在清理,擴(kuò)充,標(biāo)記和豐富數(shù)據(jù)上花費(fèi)的時(shí)間(取決于項(xiàng)目的復(fù)雜性)。這將我們帶入了“垃圾中的垃圾”概念,即輸出的質(zhì)量取決于輸入的質(zhì)量。數(shù)據(jù)提取數(shù)據(jù)工作流程的第一階段是提取過程,通常是從非結(jié)構(gòu)化源(如網(wǎng)頁,PDF文檔,假脫機(jī)文件,電子郵件等)中檢索數(shù)據(jù)。部署從網(wǎng)絡(luò)中提取信息的過程稱為網(wǎng)絡(luò)刮。

數(shù)據(jù)概要分析是檢查現(xiàn)有數(shù)據(jù)以提高質(zhì)量并通過格式帶來結(jié)構(gòu)的過程。這有助于評(píng)估質(zhì)量和對(duì)特定標(biāo)準(zhǔn)的一致性。當(dāng)數(shù)據(jù)集不平衡且配置不當(dāng)時(shí),大多數(shù)機(jī)器學(xué)習(xí)模型將無法正常工作。數(shù)據(jù)清理可確保數(shù)據(jù)干凈,全面,無錯(cuò)誤,并提供準(zhǔn)確的信息,因?yàn)樗粌H可以檢測(cè)文本和數(shù)字的異常值,還可以檢測(cè)圖像中無關(guān)的像素。您可以消除偏見和過時(shí)的信息,以確保您的數(shù)據(jù)是干凈的。

數(shù)據(jù)轉(zhuǎn)換是對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換以使其均勻。地址,名稱和其他字段類型之類的數(shù)據(jù)以不同的格式表示,數(shù)據(jù)轉(zhuǎn)換有助于對(duì)此進(jìn)行標(biāo)準(zhǔn)化和規(guī)范化。數(shù)據(jù)匿名化是從數(shù)據(jù)集中刪除或加密個(gè)人信息以保護(hù)隱私的過程。數(shù)據(jù)擴(kuò)充用于使可用于訓(xùn)練模型的數(shù)據(jù)多樣化。在不提取新信息的情況下引入其他信息包括裁剪和填充以訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

數(shù)據(jù)采樣識(shí)別大型數(shù)據(jù)集中的代表性子集,以分析和處理數(shù)據(jù)。特征工程是將機(jī)器學(xué)習(xí)模型分類為好模型還是壞模型的主要決定因素。為了提高模型的準(zhǔn)確性,您可以將數(shù)據(jù)集合并以將其合并為一個(gè)。

(責(zé)任編輯:fqj)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章,我們介紹了機(jī)器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會(huì)介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)和多種算法特征,供各位老師選擇。 01 傳統(tǒng)
    的頭像 發(fā)表于 12-30 09:16 ?1173次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.全書概覽與第一章學(xué)習(xí)

    非常感謝電子發(fā)燒友提供的這次書籍測(cè)評(píng)活動(dòng)!最近,我一直在學(xué)習(xí)大模型和人工智能的相關(guān)知識(shí),深刻體會(huì)到機(jī)器人技術(shù)是一個(gè)極具潛力的未來方向,甚至可以說是推動(dòng)時(shí)代變革的重要力量。能參與這次活動(dòng)并有機(jī)會(huì)深入
    發(fā)表于 12-27 14:50

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+數(shù)據(jù)在具身人工智能的價(jià)值

    出現(xiàn)重大問題。此外,機(jī)器人在不同環(huán)境適應(yīng)和泛化的能力取決于處理的數(shù)據(jù)的多樣性。例如,家庭服務(wù)機(jī)器人必須適應(yīng)各種家庭環(huán)境和任務(wù),要求它們從
    發(fā)表于 12-24 00:33

    zeta在機(jī)器學(xué)習(xí)的應(yīng)用 zeta的優(yōu)缺點(diǎn)分析

    在探討ZETA在機(jī)器學(xué)習(xí)的應(yīng)用以及ZETA的優(yōu)缺點(diǎn)時(shí),需要明確的是,ZETA一詞在不同領(lǐng)域可能有不同的含義和應(yīng)用。以下是根據(jù)不同領(lǐng)域的ZETA進(jìn)行的分析: 一、ZETA在機(jī)器
    的頭像 發(fā)表于 12-20 09:11 ?1117次閱讀

    cmp在機(jī)器學(xué)習(xí)的作用 如何使用cmp進(jìn)行數(shù)據(jù)對(duì)比

    機(jī)器學(xué)習(xí)領(lǐng)域,"cmp"這個(gè)術(shù)語可能并不是一個(gè)常見的術(shù)語,它可能是指"比較"(comparison)的縮寫。 比較在機(jī)器學(xué)習(xí)的作用 模型
    的頭像 發(fā)表于 12-17 09:35 ?866次閱讀

    絕緣電阻測(cè)試的基礎(chǔ)以及為什么如此重要

    采取適當(dāng)?shù)念A(yù)防措施。讓我們來看看電阻測(cè)試的基本原理,是什么使如此重要,以及正確的設(shè)備如何能夠幫助我們。 絕緣電阻測(cè)量期間發(fā)生的情況 絕緣電阻試驗(yàn)是20世紀(jì)發(fā)展起來的,是評(píng)價(jià)絕緣質(zhì)量的最早方法之一。在
    發(fā)表于 12-09 10:24

    ASR和機(jī)器學(xué)習(xí)的關(guān)系

    自動(dòng)語音識(shí)別(ASR)技術(shù)的發(fā)展一直是人工智能領(lǐng)域的一個(gè)重要分支,使得機(jī)器能夠理解和處理人類語言。隨著機(jī)器學(xué)習(xí)(ML)技術(shù)的迅猛發(fā)展,AS
    的頭像 發(fā)表于 11-18 15:16 ?774次閱讀

    什么是機(jī)器學(xué)習(xí)?通過機(jī)器學(xué)習(xí)方法能解決哪些問題?

    計(jì)算機(jī)系統(tǒng)自身的性能”。事實(shí)上,由于“經(jīng)驗(yàn)”在計(jì)算機(jī)系統(tǒng)主要以數(shù)據(jù)的形式存在,因此機(jī)器學(xué)習(xí)需要設(shè)法對(duì)數(shù)據(jù)進(jìn)行分析
    的頭像 發(fā)表于 11-16 01:07 ?957次閱讀
    什么是<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>?通過<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問題?

    NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)算法是實(shí)現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對(duì)計(jì)算資源的需求也在不斷增長(zhǎng)。NPU作為一種專門為深度學(xué)習(xí)機(jī)
    的頭像 發(fā)表于 11-15 09:19 ?1191次閱讀

    eda在機(jī)器學(xué)習(xí)的應(yīng)用

    機(jī)器學(xué)習(xí)項(xiàng)目中,數(shù)據(jù)預(yù)處理和理解是成功構(gòu)建模型的關(guān)鍵。探索性數(shù)據(jù)分析(EDA)是這一過程不可或缺的一部分。 1.
    的頭像 發(fā)表于 11-13 10:42 ?883次閱讀

    魯棒性在機(jī)器學(xué)習(xí)重要

    金融風(fēng)險(xiǎn)評(píng)估。這些應(yīng)用場(chǎng)景對(duì)模型的魯棒性提出了極高的要求。 魯棒性的定義 魯棒性通常被定義為系統(tǒng)在面對(duì)不確定性和變化時(shí)仍能保持其功能的能力。在機(jī)器學(xué)習(xí),這意味著即使輸入數(shù)據(jù)包含錯(cuò)誤、
    的頭像 發(fā)表于 11-11 10:19 ?1253次閱讀

    具身智能與機(jī)器學(xué)習(xí)的關(guān)系

    (如機(jī)器人、虛擬代理等)通過與物理世界或虛擬環(huán)境的交互來獲得、發(fā)展和應(yīng)用智能的能力。這種智能不僅包括認(rèn)知和推理能力,還包括感知、運(yùn)動(dòng)控制和環(huán)境適應(yīng)能力。具身智能強(qiáng)調(diào)智能體的身體和環(huán)境在智能發(fā)展重要性。 2.
    的頭像 發(fā)表于 10-27 10:33 ?1042次閱讀

    【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 時(shí)間序列的信息提取

    本人有些機(jī)器學(xué)習(xí)的基礎(chǔ),理解起來一點(diǎn)也不輕松,加油。 作者首先說明了時(shí)間序列的信息提取是時(shí)間序列分析的一個(gè)重要環(huán)節(jié),目標(biāo)是從給定的時(shí)間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析
    發(fā)表于 08-14 18:00

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡(jiǎn)單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時(shí)間序列分析與機(jī)器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實(shí)地構(gòu)建了時(shí)間序列分析的基礎(chǔ)知識(shí),更巧妙地展示了機(jī)器學(xué)習(xí)如何在這一領(lǐng)域發(fā)揮巨
    發(fā)表于 08-12 11:21

    【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 了解時(shí)間序列

    收到《時(shí)間序列與機(jī)器學(xué)習(xí)》一書,彩色印刷,公式代碼清晰,非常精美。感謝作者,感謝電子發(fā)燒友提供了一個(gè)讓我學(xué)習(xí)時(shí)間序列及應(yīng)用的機(jī)會(huì)! 前言第一段描述了編寫背景: 由此可知,這是一本關(guān)于時(shí)間序列進(jìn)行大
    發(fā)表于 08-11 17:55