一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

機器學習特征工程的五個方面優(yōu)點

汽車玩家 ? 來源:今日頭條 ? 作者:不一樣的程序猿 ? 2020-03-15 16:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

特征工程是用數(shù)學轉(zhuǎn)換的方法將原始輸入數(shù)據(jù)轉(zhuǎn)換為用于機器學習模型的新特征。特征工程提高了機器學習模型的準確度和計算效率,體現(xiàn)在以下五個方面

1、把原始數(shù)據(jù)轉(zhuǎn)換成與目標相關的數(shù)據(jù)

我們可以使用特征工程對原始數(shù)據(jù)進行轉(zhuǎn)換,使其更接近目標變量,轉(zhuǎn)換后的特征對目標更有預測性。在這種情況下,雖然未加工輸入出現(xiàn)在原始數(shù)據(jù)集中,但如果將轉(zhuǎn)換后的特征作為輸入,則機器學習將提高預測的準確性。

2、引入額外的數(shù)據(jù)源

特征工程可以使從業(yè)者向機器學習模型引入額外的數(shù)據(jù)源。對于首次注冊的用戶,我們可以猜測該用戶的終生價值。在眾多指標中,我們可以捕捉每個用戶的地理位置。雖然這個數(shù)據(jù)可以直接作為分類特征(例如,IP地址和郵政編碼)提供,但模型基于這些來確定位置信息仍存在困難。

通過第三方的人口統(tǒng)計數(shù)據(jù),我們可以做的更好。例如,這將允許我們計算每個用戶區(qū)域的平均收入和人口密度,并把這些因素直接插入到訓練集中。現(xiàn)在,這些預測性因素立即變得更容易推斷,而不是依賴模型從原始位置數(shù)據(jù)推斷這種微妙的關系。更進一步,位置信息轉(zhuǎn)換成收入和人口密度的特征工程,可使我們估計這些位置衍生出的特征哪一個更為重要。

3、使用非結構化的數(shù)據(jù)源

特征工程可使我們在機器學習模型中使用非結構化的數(shù)據(jù)源。許多數(shù)據(jù)源本質(zhì)上并不是結構化的特征向量。非結構化數(shù)據(jù),如文本、時間序列、圖像、視頻、日志數(shù)據(jù)和點擊流等,占創(chuàng)建數(shù)據(jù)的絕大多數(shù)。特征工程使從業(yè)者從上述原始數(shù)據(jù)流中產(chǎn)生機器學習的特征向量。

4、創(chuàng)建更容易解釋的特征

特征工程使機器學習的從業(yè)者能夠創(chuàng)建更易于解釋和實用的特征。通常,使用機器學習發(fā)現(xiàn)數(shù)據(jù)中的模式,對于產(chǎn)生精確的預測十分有用,但會遇到模型的可解釋性和模型的最終應用的一些限制。這些情況下,在驅(qū)動數(shù)據(jù)生成、鏈接原始數(shù)據(jù)和目標變量的過程中,產(chǎn)生更有指示性的新特征,這樣更有價值。

5、用大特征集提高創(chuàng)造性

特征工程使得我們可以扔進大量的特征,觀察它們代表了什么。我們能創(chuàng)建盡可能多的數(shù)據(jù),觀察在訓練模型中哪些更有預測力。這使得機器學習的從業(yè)者在創(chuàng)建和測試特征時擺脫僵化心理,并能夠發(fā)現(xiàn)新的趨勢和模式。

雖然當幾十個甚至上百個特征用于訓練機器學習模型時,過擬合成為一個問題,但嚴謹?shù)奶卣鬟x擇算法,可減少特征使其易于管理。例如,我們可以自主選擇前10個特征的預測,與所有1000個特征的預測是一樣好,還是優(yōu)于后者。

特征工程

引自《機器學習實戰(zhàn)》

在機器學習應用領域中,特征工程扮演著非常重要的角色,可以說特征工程是機器學習應用的基礎。在機器學習業(yè)界流傳著這樣一句話:“數(shù)據(jù)和特征決定了機器學習算法的上限,而模型和算法只是不斷逼近而已?!痹跈C器學習應用中,特征工程介于“數(shù)據(jù)”和“模型”之間,特征工程是使用數(shù)據(jù)的專業(yè)領域知識創(chuàng)建能夠使機器學習算法工作的特征的過程,而好的數(shù)據(jù)勝于多的數(shù)據(jù)。美國計算機科學家Peter Norvig有兩句經(jīng)典名言:“基于大量數(shù)據(jù)的簡單模型勝于少量數(shù)據(jù)的復雜模型。”以及“更多的數(shù)據(jù)勝于聰明的算法,而好的數(shù)據(jù)勝于多的數(shù)據(jù)?!币虼?,特征工程的前提是收集足夠多的數(shù)據(jù),其次是從大量數(shù)據(jù)中提取關鍵信息并表示為模型所需要的形式。合適的特征可以讓模型預測更加容易,機器學習應用更有可能成功。

引自《美團機器學習》

在監(jiān)督機器學習過程中,我們使用數(shù)據(jù)教自動系統(tǒng)如何做出準確的決策。機器學習算法被設計成發(fā)現(xiàn)模式和歷史訓練數(shù)據(jù)間的聯(lián)系;它們從數(shù)據(jù)中學習并將學習結果編碼到模型中,從而對新數(shù)據(jù)的重要屬性做出準確的預測。因此,訓練數(shù)據(jù)是機器學習中的基本問題。有了高質(zhì)量的數(shù)據(jù),就可以捕捉到細微的差別和關聯(lián)關系,從而建立高保真的預測系統(tǒng)。相反,若訓練數(shù)據(jù)質(zhì)量不佳,則再好的機器學習算法也無濟于事。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8503

    瀏覽量

    134635
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    SOLIDWORKS教育版——全方面學習資源與教程

    功能,更以其全方面學習資源與教程,為學生構建了一從理論到實踐、從基礎到進階的完整學習體系。本文將深入探討SOLIDWORKS教育版如何憑借其豐富的
    的頭像 發(fā)表于 04-23 11:03 ?337次閱讀
    SOLIDWORKS教育版——全<b class='flag-5'>方面</b>的<b class='flag-5'>學習</b>資源與教程

    傳統(tǒng)機器學習方法和應用指導

    在上一篇文章中,我們介紹了機器學習的關鍵概念術語。在本文中,我們會介紹傳統(tǒng)機器學習的基礎知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)
    的頭像 發(fā)表于 12-30 09:16 ?1192次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    使用機器學習改善庫特征提取的質(zhì)量和運行時間

    有預期工作條件下按規(guī)范運行。但由于特征化數(shù)據(jù)的復雜性和數(shù)量,傳統(tǒng)的庫特征提取和驗證在計算和工程工作量方面的成本變得越來越高昂。
    的頭像 發(fā)表于 12-26 11:15 ?467次閱讀
    使用<b class='flag-5'>機器</b><b class='flag-5'>學習</b>改善庫<b class='flag-5'>特征</b>提取的質(zhì)量和運行時間

    cmp在機器學習中的作用 如何使用cmp進行數(shù)據(jù)對比

    機器學習領域,"cmp"這個術語可能并不是一常見的術語,它可能是指"比較"(comparison)的縮寫。 比較在機器學習中的作用 模型
    的頭像 發(fā)表于 12-17 09:35 ?883次閱讀

    構建云原生機器學習平臺流程

    構建云原生機器學習平臺是一復雜而系統(tǒng)的過程,涉及數(shù)據(jù)收集、處理、特征提取、模型訓練、評估、部署和監(jiān)控等多個環(huán)節(jié)。
    的頭像 發(fā)表于 12-14 10:34 ?435次閱讀

    人工智能工程師高頻面試題匯總——機器學習

    隨著人工智能技術的突飛猛進,AI工程師成為了眾多求職者夢寐以求的職業(yè)。想要拿下這份工作,面試的時候得展示出你不僅技術過硬,還得能解決問題。所以,提前準備一些面試常問的問題,比如機器學習的那些算法
    的頭像 發(fā)表于 12-04 17:00 ?1539次閱讀
    人工智能<b class='flag-5'>工程</b>師高頻面試題匯總——<b class='flag-5'>機器</b><b class='flag-5'>學習</b>篇

    ASR和機器學習的關系

    自動語音識別(ASR)技術的發(fā)展一直是人工智能領域的一重要分支,它使得機器能夠理解和處理人類語言。隨著機器學習(ML)技術的迅猛發(fā)展,ASR系統(tǒng)的性能和準確性得到了顯著提升。 ASR
    的頭像 發(fā)表于 11-18 15:16 ?784次閱讀

    eda在機器學習中的應用

    值和噪聲數(shù)據(jù)。通過繪制箱線圖、直方圖和散點圖,我們可以直觀地看到數(shù)據(jù)中的異常值和分布情況。例如,如果一數(shù)據(jù)集中的某個特征值遠高于其他值,這可能是一異常值,需要進一步調(diào)查。 2. 特征
    的頭像 發(fā)表于 11-13 10:42 ?905次閱讀

    LLM和傳統(tǒng)機器學習的區(qū)別

    在人工智能領域,LLM(Large Language Models,大型語言模型)和傳統(tǒng)機器學習是兩種不同的技術路徑,它們在處理數(shù)據(jù)、模型結構、應用場景等方面有著顯著的差異。 1. 模型結構
    的頭像 發(fā)表于 11-08 09:25 ?1899次閱讀

    MLOps平臺優(yōu)點

    MLOps平臺在提升機器學習模型的開發(fā)與部署效率、可擴展性與靈活性、透明度與可重復性以及降低風險和持續(xù)改進方面具有顯著優(yōu)點。
    的頭像 發(fā)表于 11-06 10:10 ?465次閱讀

    數(shù)據(jù)準備指南:10種基礎特征工程方法的實戰(zhàn)教程

    在數(shù)據(jù)分析和機器學習領域,從原始數(shù)據(jù)中提取有價值的信息是一關鍵步驟。這個過程不僅有助于輔助決策,還能預測未來趨勢。為了實現(xiàn)這一目標,特征工程
    的頭像 發(fā)表于 11-01 08:09 ?625次閱讀
    數(shù)據(jù)準備指南:10種基礎<b class='flag-5'>特征</b><b class='flag-5'>工程</b>方法的實戰(zhàn)教程

    特征工程實施步驟

    數(shù)據(jù)中提取數(shù)值表示以供無監(jiān)督模型使用的方法(例如,試圖從之前非結構化的數(shù)據(jù)集中提取結構)。特征工程包括這兩種情況,以及更多內(nèi)容。數(shù)據(jù)從業(yè)者通常依賴ML和深度學習算法
    的頭像 發(fā)表于 10-23 08:07 ?918次閱讀
    <b class='flag-5'>特征</b><b class='flag-5'>工程</b>實施步驟

    【「時間序列與機器學習」閱讀體驗】時間序列的信息提取

    重要環(huán)節(jié),目標是從給定的時間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析和預測任務。 特征工程(Feature Engineering)是將數(shù)據(jù)轉(zhuǎn)換為更好地表示潛在問題的
    發(fā)表于 08-17 21:12

    【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

    本人有些機器學習的基礎,理解起來一點也不輕松,加油。 作者首先說明了時間序列的信息提取是時間序列分析的一重要環(huán)節(jié),目標是從給定的時間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析
    發(fā)表于 08-14 18:00

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    數(shù)據(jù)中提取特征并將其轉(zhuǎn)化為交易策略,以及機器學習在其他金融領域(包括資產(chǎn)定價、資產(chǎn)配置、波動率預測)的應用。 全書彩版印刷,內(nèi)容結構嚴整,條理清晰,循序漸進,由淺入深,是很好的時間序列學習
    發(fā)表于 08-07 23:03