一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

快速掌握特征構(gòu)建的常用方法

格創(chuàng)東智 ? 2018-12-12 11:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在之前格物匯的文章中,我們介紹了工業(yè)數(shù)據(jù)預(yù)處理的方法以及特征工程的基本知識(shí),今天要帶大家來(lái)了解如何做特征構(gòu)建。


特征構(gòu)建常用方法


特征構(gòu)建的常用方法是屬性分割和結(jié)合,這一般根據(jù)我們具體的問(wèn)題所決定。我們通過(guò)具體的應(yīng)用場(chǎng)景來(lái)看看:


時(shí)間列處理

時(shí)間戳屬性通常需要分離成多個(gè)維度比如年、月、日、小時(shí)、分鐘、秒鐘。通常時(shí)間序列數(shù)據(jù)會(huì)含有一定的趨勢(shì)和周期性,這時(shí)需要我們?nèi)?/span>構(gòu)建趨勢(shì)因子和周期因子。


分解類別屬性

一些屬性是類別型而不是數(shù)值型,舉一個(gè)簡(jiǎn)單的例子,由{紅,綠、藍(lán)}組成的顏色屬性,最常用的方式是把每個(gè)類別屬性轉(zhuǎn)換成二元屬性,即從{0,1}取一個(gè)值。因此基本上增加的屬性等于相應(yīng)數(shù)目的類別,并且對(duì)于你數(shù)據(jù)集中的每個(gè)實(shí)例,只有一個(gè)是1(其他的為0),這也就是獨(dú)熱(one-hot)編碼方式。我們?cè)谇懊娴奈恼轮薪榻B過(guò)了,在此不再贅述。


分箱和分區(qū)

有時(shí)候,將數(shù)值型屬性轉(zhuǎn)換成類別呈現(xiàn)更有意義,同時(shí)能使算法減少噪聲的干擾,通過(guò)將一定范圍內(nèi)的數(shù)值劃分成確定的塊。舉個(gè)例子,我們預(yù)測(cè)一個(gè)人是否擁有某款衣服,這里年齡是一個(gè)確切的因子。其實(shí)年齡組是更為相關(guān)的因子,所以我們可以將年齡分布劃分成1-10,11-18,19-25,26-40等年齡段,分別表示 幼兒,青少年,青年,中年四個(gè)年齡組,讓相近的年齡組表現(xiàn)出相似的屬性。此外,我們還可以對(duì)分箱,分區(qū)做一些統(tǒng)計(jì)量字段作為數(shù)據(jù)的特征。


只有在了解屬性的領(lǐng)域知識(shí)的基礎(chǔ),確定屬性能夠劃分成簡(jiǎn)潔的范圍時(shí)分區(qū)才有意義。即所有的數(shù)值落入一個(gè)分區(qū)時(shí)能夠呈現(xiàn)出共同的特征。在實(shí)際應(yīng)用中,當(dāng)你不想讓你的模型總是嘗試區(qū)分值之間是否太近時(shí),分區(qū)能夠避免出現(xiàn)過(guò)擬合。例如,如果你所感興趣的是將一個(gè)城市作為整體,這時(shí)你可以將所有落入該城市的維度值進(jìn)行整合成一個(gè)整體。分箱也能減小小錯(cuò)誤的影響,通過(guò)將一個(gè)給定值劃入到最近的塊中。如果劃分范圍的數(shù)量和所有可能值相近,或?qū)δ銇?lái)說(shuō)準(zhǔn)確率很重要的話,此時(shí)分箱就不適合了。

交叉特征

交叉特征是特征工程中重要的方法之一,交叉特征是一種很獨(dú)特的方式,它將兩個(gè)或更多的類別屬性組合成一個(gè)。當(dāng)組合的特征要比單個(gè)特征更好時(shí),這是一項(xiàng)非常有用的技術(shù)。數(shù)學(xué)上來(lái)說(shuō),是對(duì)類別特征的所有可能值進(jìn)行交叉相乘。當(dāng)然我們不僅僅會(huì)去查找交叉項(xiàng)關(guān)系,還可以去尋找更加復(fù)雜的二次項(xiàng),三次項(xiàng)乃至更復(fù)雜的關(guān)系,這根據(jù)問(wèn)題求解的需要決定。


經(jīng)度與緯度的組合便是交叉特征的應(yīng)用實(shí)例,一個(gè)相同的經(jīng)度對(duì)應(yīng)了地圖上很多的地方,緯度也是一樣。但是一旦你將經(jīng)度和緯度組合到一起,它們就代表了地理上特定的一塊區(qū)域,區(qū)域中每一部分是擁有著類似的特性。

小結(jié)

一般我們會(huì)收集與問(wèn)題相關(guān)的數(shù)據(jù)作為我們的特征,但是這些特征有時(shí)不足以解釋我們的問(wèn)題,我們還是會(huì)通過(guò)特征構(gòu)建來(lái)增加解釋能力。這其實(shí)是對(duì)數(shù)據(jù)進(jìn)行升維操作,總的來(lái)說(shuō),特征構(gòu)建可以給我們的模型提供一些關(guān)鍵的信息,來(lái)解決模型解釋能力不足的情況。但如果我們收集的數(shù)據(jù)包含了過(guò)多的特征,如何對(duì)這些特征進(jìn)行提純呢?請(qǐng)繼續(xù)關(guān)注格物匯,我們將在之后的文章中詳細(xì)講解。


本文作者:格創(chuàng)東智 OT團(tuán)隊(duì) (轉(zhuǎn)載請(qǐng)注明來(lái)源及作者)


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    PLC梯形圖編程方法(PPT版)

    梯形圖經(jīng)驗(yàn)設(shè)計(jì)法 經(jīng)驗(yàn)設(shè)計(jì)方法也叫試湊法,經(jīng)驗(yàn)設(shè)計(jì)方法需要設(shè)計(jì)者掌握大量的典型電路,在掌握這些典型電路的基礎(chǔ)上,充分理解實(shí)際的控制問(wèn)題,將實(shí)際控制問(wèn)題分解成典型控制電路,然后用典型電路
    發(fā)表于 05-30 16:46

    瑞芯微RK平臺(tái)開(kāi)發(fā)必備的20個(gè)常用命令,幫您效率翻倍

    本文將系統(tǒng)地梳理飛凌嵌入式RK平臺(tái)主控產(chǎn)品在開(kāi)發(fā)過(guò)程中常用的命令,助力更多開(kāi)發(fā)者快速掌握RK系列芯片的開(kāi)發(fā)方法。
    的頭像 發(fā)表于 04-16 15:36 ?789次閱讀
    瑞芯微RK平臺(tái)開(kāi)發(fā)必備的20個(gè)<b class='flag-5'>常用</b>命令,幫您效率翻倍

    一種基于點(diǎn)、線和消失點(diǎn)特征的單目SLAM系統(tǒng)設(shè)計(jì)

    本文提出了一種穩(wěn)健的單目視覺(jué)SLAM系統(tǒng),該系統(tǒng)同時(shí)利用點(diǎn)、線和消失點(diǎn)特征來(lái)進(jìn)行精確的相機(jī)位姿估計(jì)和地圖構(gòu)建,有效解決了傳統(tǒng)基于點(diǎn)特征的SLAM的局限性。
    的頭像 發(fā)表于 03-21 17:07 ?441次閱讀
    一種基于點(diǎn)、線和消失點(diǎn)<b class='flag-5'>特征</b>的單目SLAM系統(tǒng)設(shè)計(jì)

    如意玲瓏應(yīng)用構(gòu)建的基礎(chǔ)知識(shí)

    在Linux生態(tài)中,軟件包的分發(fā)與管理一直是開(kāi)發(fā)者與用戶關(guān)注的焦點(diǎn)。如意玲瓏(Linyaps)作為一種新興的容器化應(yīng)用格式,憑借其輕量化、強(qiáng)隔離、跨發(fā)行版兼容等特性,正在為 Linux 應(yīng)用生態(tài)注入新的活力。無(wú)論是開(kāi)發(fā)者還是技術(shù)愛(ài)好者,掌握玲瓏應(yīng)用的構(gòu)建
    的頭像 發(fā)表于 03-03 09:53 ?427次閱讀
    如意玲瓏應(yīng)用<b class='flag-5'>構(gòu)建</b>的基礎(chǔ)知識(shí)

    以智能制造為導(dǎo)向的數(shù)字孿生工廠構(gòu)建方法與應(yīng)用

    數(shù)字孿生工廠的構(gòu)建方法與應(yīng)用,以期為制造企業(yè)實(shí)現(xiàn)智能制造提供參考與指導(dǎo)。 1?數(shù)字孿生的概念及內(nèi)涵 1.1?數(shù)字孿生的概念 數(shù)字孿生(Digital Twin,DT)是信息科學(xué)與物理工程學(xué)交叉領(lǐng)域中涌現(xiàn)的一個(gè)創(chuàng)新概念。其誕生可以追溯到
    的頭像 發(fā)表于 01-06 10:41 ?480次閱讀

    《HarmonyOS第一課》煥新升級(jí),賦能開(kāi)發(fā)者快速掌握鴻蒙應(yīng)用開(kāi)發(fā)

    《HarmonyOS第一課》煥新升級(jí),賦能開(kāi)發(fā)者快速掌握鴻蒙應(yīng)用開(kāi)發(fā) 隨著HarmonyOS NEXT發(fā)布,鴻蒙生態(tài)日益壯大,廣大開(kāi)發(fā)者對(duì)于系統(tǒng)化學(xué)習(xí)平臺(tái)和課程的需求愈發(fā)強(qiáng)烈。近日,華為精心打造
    發(fā)表于 01-02 14:24

    tmp117有快速測(cè)試的方法嗎?

    項(xiàng)目使用tmp117進(jìn)行腋下測(cè)溫時(shí),室溫22度,5S內(nèi)腋下可升溫到34度。但再往上上升就是0.01度的速度進(jìn)行,上升到36.5度需要一二十分鐘。 請(qǐng)教下有快速測(cè)試的方法嗎?
    發(fā)表于 12-05 07:08

    新能源磷酸鐵鋰電池充電正確方法,你掌握了嗎?

    磷酸鐵鋰電池133-2632-1310作為一種重要的動(dòng)力電池,其正確的充電方法至關(guān)重要。掌握正確的充電方式,不僅可以延長(zhǎng)電池的使用壽命,還能確保行車安全。下面就為大家詳細(xì)介紹新能源磷酸鐵鋰電池的正確充電方法。
    的頭像 發(fā)表于 11-26 17:07 ?5359次閱讀
    新能源磷酸鐵鋰電池充電正確<b class='flag-5'>方法</b>,你<b class='flag-5'>掌握</b>了嗎?

    Jtti:常用的網(wǎng)絡(luò)質(zhì)量監(jiān)控方法有哪些

    常用的網(wǎng)絡(luò)質(zhì)量監(jiān)控方法包括以下幾種: 1. ICMP探測(cè): ? 使用ICMP協(xié)議(如Ping)來(lái)檢測(cè)網(wǎng)絡(luò)連通性和質(zhì)量。這種方法通過(guò)發(fā)送探測(cè)數(shù)據(jù)包并分析回包結(jié)果來(lái)監(jiān)控網(wǎng)絡(luò),典型指標(biāo)包括丟包率、延遲等
    的頭像 發(fā)表于 11-15 15:50 ?901次閱讀

    特征工程實(shí)施步驟

    數(shù)據(jù)中提取數(shù)值表示以供無(wú)監(jiān)督模型使用的方法(例如,試圖從之前非結(jié)構(gòu)化的數(shù)據(jù)集中提取結(jié)構(gòu))。特征工程包括這兩種情況,以及更多內(nèi)容。數(shù)據(jù)從業(yè)者通常依賴ML和深度學(xué)習(xí)算法
    的頭像 發(fā)表于 10-23 08:07 ?893次閱讀
    <b class='flag-5'>特征</b>工程實(shí)施步驟

    常用的devops工具集成方法

    常用的devops工具集成方法涵蓋了軟件開(kāi)發(fā)和運(yùn)維的各個(gè)方面,從版本控制到自動(dòng)化構(gòu)建、測(cè)試、部署和監(jiān)控。這些工具的有效集成可以幫助團(tuán)隊(duì)提高協(xié)作效率,減少溝通障礙,實(shí)現(xiàn)快速、高質(zhì)量的軟件
    的頭像 發(fā)表于 10-09 11:21 ?516次閱讀

    特瑞仕DC/DC轉(zhuǎn)換器實(shí)機(jī)特性比較工具的特征和使用方法

    本篇文章說(shuō)明了特瑞仕在官網(wǎng)公開(kāi)的實(shí)機(jī)特性比較工具的特征和使用方法
    的頭像 發(fā)表于 09-26 17:03 ?2311次閱讀
    特瑞仕DC/DC轉(zhuǎn)換器實(shí)機(jī)特性比較工具的<b class='flag-5'>特征</b>和使用<b class='flag-5'>方法</b>

    高光譜成像的黃瓜病蟲(chóng)害識(shí)別和特征波長(zhǎng)提取方法

    高光譜成像的黃瓜病蟲(chóng)害識(shí)別和特征波長(zhǎng)提取方法黃瓜霜霉病和斑潛蠅是制約黃瓜產(chǎn)業(yè)發(fā)展的嚴(yán)重病蟲(chóng)害。
    的頭像 發(fā)表于 08-12 15:36 ?1138次閱讀
    高光譜成像的黃瓜病蟲(chóng)害識(shí)別和<b class='flag-5'>特征</b>波長(zhǎng)提取<b class='flag-5'>方法</b>

    手動(dòng)構(gòu)建Docker鏡像的方法

    不推薦使用docker commit命令,而應(yīng)該使用更靈活、更強(qiáng)大的dockerfile來(lái)構(gòu)建docker鏡像。
    的頭像 發(fā)表于 08-05 15:30 ?893次閱讀
    手動(dòng)<b class='flag-5'>構(gòu)建</b>Docker鏡像的<b class='flag-5'>方法</b>

    DC/DC模擬器的特征和使用方法

    本篇介紹了特瑞仕在官網(wǎng)提供的DC/DC模擬器的特征和使用方法。
    的頭像 發(fā)表于 07-18 16:17 ?1287次閱讀
    DC/DC模擬器的<b class='flag-5'>特征</b>和使用<b class='flag-5'>方法</b>