一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)中的特征選擇的5點(diǎn)詳細(xì)資料概述

lviY_AI_shequ ? 來源:未知 ? 作者:易水寒 ? 2018-06-18 17:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1 特征選擇問題的概念

我們能用很多屬性描述一個客觀世界中的對象,例如對于描述一個人來說,可以獲取到身高、體重、年齡、性別、學(xué)歷、收入等等,但對于評判一個人的信用級別來說,往往只需要獲取他的年齡、學(xué)歷、收入這些信息。換言之,對一個學(xué)習(xí)任務(wù)來說,給定屬性集,其中有些屬性可能很關(guān)鍵、很有用,另一些屬性則可能沒什么用。我們將屬性稱為“特征” (feature),對當(dāng)前學(xué)習(xí)任務(wù)有用的屬性稱為“相關(guān)特征” (relevant feature)、沒什么用的屬性稱為“無關(guān)特征” (irrelevant feature)。從給定的特征集合中選擇出相關(guān)特征子集的過程,稱為“特征選擇” (feature selection)。

特征選擇是一個重要的“數(shù)據(jù)預(yù)處理” (data preprocessing) 過程,在現(xiàn)實(shí)機(jī)器學(xué)習(xí)任務(wù)中,獲得數(shù)據(jù)之后通常先進(jìn)行特征選擇,此后再訓(xùn)練學(xué)習(xí)器。那么,為什么要進(jìn)行特征選擇呢?

有兩個很重要的原因:

我們在現(xiàn)實(shí)任務(wù)中經(jīng)常會遇到維數(shù)災(zāi)難問題,這是由于屬性過多造成的,若能從中選擇出重要的特征,使得后續(xù)學(xué)習(xí)過程僅需在一部分特征上構(gòu)建模型,則維數(shù)災(zāi)難問題會大為減輕。

去除不相關(guān)特征往往會降低學(xué)習(xí)任務(wù)的難度,這就像偵探破案一樣,若將紛繁復(fù)雜的因素抽絲剝繭,只留下關(guān)鍵因素,則真相往往更易看清。

需要注意的是,特征選擇過程必須確保不丟失重要特征,否則后續(xù)學(xué)習(xí)過程會因?yàn)橹匾畔⒌娜笔Ф鵁o法獲得更好的性能。給定數(shù)據(jù)集,若學(xué)習(xí)任務(wù)不同,則相關(guān)特征很可能不同,因此,特征選擇中所謂的“無關(guān)特征”是指與當(dāng)前學(xué)習(xí)任務(wù)無關(guān)。有一類特征稱為“冗余特征” (redundant feature),它們所包含的信息能從其他特征中推演出來。例如,考慮立方體對象,若已有特征“底面長”和“底面寬”,則“底面積”是冗余特征,因?yàn)樗軓那岸叩玫?。冗余特征在很多時候不起作用,去除它們會減輕學(xué)習(xí)過程的負(fù)擔(dān)。但有時冗余特征會降低學(xué)習(xí)任務(wù)的難度,例如若學(xué)習(xí)目標(biāo)是估算立方體的體積,則“底面積”這個冗余特征的存在將使得體積的估算更容易;更確切地說,若某個冗余特征恰好對應(yīng)了完成學(xué)習(xí)任務(wù)所需的“中間概念”,則該冗余特征是有益的。

2 子集搜索與評價

欲從初始的特征集合中選取一個包含了所有重要信息的特征子集,若沒有任何領(lǐng)域知識作為先驗(yàn)假設(shè),那就只好遍歷所有可能的子集了;然而這在計算上卻是不可行的,因?yàn)檫@樣做會遭遇組合爆炸,特征個數(shù)稍多就無法進(jìn)行。可行的做法是產(chǎn)生一個“候選子集”,評價出它的好壞,基于評價結(jié)果產(chǎn)生下一個候選子集,在對其進(jìn)行評價,…… 這個過程持續(xù)進(jìn)行下去,直至無法找到更好的候選子集為止。顯然,這里涉及兩個關(guān)鍵環(huán)節(jié):如何根據(jù)評價結(jié)果獲取下一個候選特征子集?如何評價候選特征子集的好壞?

第一個環(huán)節(jié)是“子集搜索” (subset search) 問題。給定特征集合{a1,a2,…,ad},我們可將每個特征看作一個候選子集,對這d個候選單特征子集進(jìn)行評價,假定{a2}最優(yōu),于是將{a2}作為第一輪的選定集;然后,在上一輪的選定集中加入一個特征,構(gòu)成包含兩個特征的候選子集,假定在這d?1個候選兩特征子集中{a2,a4}最優(yōu),且優(yōu)于{a2},于是將{a2,a4}作為本輪的選定集;…… 假定在第k+1輪時,最優(yōu)的候選(k+1)特征子集不如上一輪的選定集,則停止生成候選子集,并將上一輪選定的k特征集合作為特征選擇結(jié)果。這樣逐漸增加相關(guān)特征的策略稱為“前向” (forward) 搜索。類似的,若我們從完整的特征集合開始,每次嘗試去掉一個無關(guān)特征,這樣逐漸減少特征的策略稱為“后向” (backward) 搜索。還可將前向與后向搜索結(jié)合起來,每一輪逐漸增加選定相關(guān)特征 (這些特征在后續(xù)輪中將確定不會被去除)、同時減少無關(guān)特征,這樣的策略稱為“雙向” (bidirectional) 搜索。

顯然,上述策略都是貪心的,因?yàn)樗鼈儍H考慮了使本輪選定集最優(yōu),例如在第三輪假定選擇a5優(yōu)于a6,于是選定集為{a2,a4,a5},然而在第四輪中卻可能是{a2,a4,a6,a8}比所有的{a2,a4,a5,ai}都更優(yōu)。遺憾的是,若不進(jìn)行窮舉搜索,則這樣的問題無法避免。

第二個環(huán)節(jié)是“子集評價” (subset evaluation) 問題。給定數(shù)據(jù)集DD,假定D中第i類樣本所占的比例為pi(i=1,2,…,∣Y∣)。為便于討論,假定樣本屬性均為離散型。對于屬性子集A,假定根據(jù)其取值將D分成了V個子集{D1,D1,…,DV},每個子集中的樣本在A上取值相同,于是我們可計算屬性子集A的信息增益:

機(jī)器學(xué)習(xí)中的特征選擇的5點(diǎn)詳細(xì)資料概述

其中信息熵定義為:

機(jī)器學(xué)習(xí)中的特征選擇的5點(diǎn)詳細(xì)資料概述

信息增益越大,意味著特征子集A包含的有助于分類的信息越多。于是,對每個候選特征子集,我們可基于訓(xùn)練數(shù)據(jù)集D來計算其信息增益,以此作為評價準(zhǔn)則。

更一般的,特征子集A實(shí)際上確定了對數(shù)據(jù)集D的一個劃分,每個劃分區(qū)域?qū)?yīng)著A上的一個取值,而樣本標(biāo)記信息Y則對應(yīng)著對D的真是劃分,通過估算這兩個劃分的差異,就能對A進(jìn)行評價。與Y對應(yīng)的劃分的差異越小,則說明A越好。信息熵僅是判斷這個差異的一種途徑,其他能判斷兩個劃分差異的機(jī)制都能用于特征子集評價。

將特征子集搜索機(jī)制與子集評價機(jī)制相結(jié)合,即可得到特征選擇方法。例如將前向搜索與信息熵結(jié)合,這顯然與決策樹算法非常相似。事實(shí)上,決策樹可用于特征選擇,樹節(jié)點(diǎn)的劃分屬性所組成的集合就是選擇出的特征子集。其他的特征選擇方法未必像決策樹特征選擇這么明顯,但它們在本質(zhì)上都是顯式或隱式地結(jié)合了某種 (或多種) 子集搜索機(jī)制和子集評價機(jī)制。

常見的特征選擇方法大致可分為三類:過濾式 (filter)、包裹式 (wrapper) 和嵌入式 (embedding)。

3 過濾式選擇

過濾式方法先對數(shù)據(jù)集進(jìn)行特征選擇,然后再訓(xùn)練學(xué)習(xí)器,特征選擇過程與后續(xù)學(xué)習(xí)器無關(guān)。這相當(dāng)于先用特征選擇過程對初始特征進(jìn)行“過濾”,再用過濾后的特征來訓(xùn)練模型。

Relief (Relevant Features) [Kira and Rendell, 1992] 是一種著名的過濾式特征選擇方法,該方法設(shè)計了一個“相關(guān)統(tǒng)計量”來度量特征的重要性。該統(tǒng)計量是一個 向量,其每個分量分別對應(yīng)于一個初始特征,而特征子集的重要性則是由子集中每個特征所對應(yīng)的相關(guān)統(tǒng)計量分量之和來決定。于是,最終只需指定一個閾值ττ,然后選擇比ττ大的相關(guān)統(tǒng)計量分量所對應(yīng)的特征即可;也可以指定欲選取的特征個數(shù)k,然后選擇相關(guān)統(tǒng)計量分量最大的k個特征。

顯然,Relief 的關(guān)鍵是如何確定相關(guān)統(tǒng)計量。給定訓(xùn)練集{(x1,y1),(x2,y2),…,(xm,ym)},對每個示例xi,Relief 先在xi的同類樣本中尋找其最鄰近xi,nh,稱為“猜中鄰近” (near-hit),在從xi的異類樣本中尋找其最近鄰xi,nm,稱為“猜錯鄰近” (near-miss),然后,想干統(tǒng)計量對應(yīng)于屬性j的分量為:

機(jī)器學(xué)習(xí)中的特征選擇的5點(diǎn)詳細(xì)資料概述

機(jī)器學(xué)習(xí)中的特征選擇的5點(diǎn)詳細(xì)資料概述

從上式可看出,若樣本與其猜中近鄰在某一屬性上的距離小于該樣本與其猜錯近鄰的距離,則說明這一屬性對區(qū)分同類與異類樣本是有益的,于是增大該屬性對應(yīng)的統(tǒng)計量分量;反之,則說明該屬性起負(fù)面作用,于是減小其對應(yīng)的統(tǒng)計量分量。最后,對基于不同樣本得到的估計結(jié)果進(jìn)行平均,就得到各屬性的相關(guān)統(tǒng)計量分量,分量值越大,則對應(yīng)屬性的分類能力就越強(qiáng)。

4 包裹式選擇

與過濾式特征選擇不考慮后續(xù)學(xué)習(xí)器不同,包裹式特征選擇直接把最終將要使用的學(xué)習(xí)器的性能作為特征子集的評價準(zhǔn)則。換言之,包裹式特征選擇的目的就是為給定學(xué)習(xí)器選擇最有利于其性能、“量身定做”的特征子集。

一般而言,由于包裹式特征選擇方法直接針對給定學(xué)習(xí)器進(jìn)行優(yōu)化,因此從最終學(xué)習(xí)器性能來看,包裹式特征選擇比過濾式特征選擇更好,但另一方面,由于在特征選擇過程中需多次訓(xùn)練學(xué)習(xí)器,因此包裹式特征選擇的計算開銷通常比過濾式特征選擇大得多。

LVM (Las Vegas Wrapper) [Liu and Setiono, 1996] 是一個典型的包裹式特征選擇方法。它在拉斯維加斯方法 (Las Vegas method) 框架下使用隨機(jī)策略來進(jìn)行子集搜索,并以最終分類器的誤差為特征子集評價準(zhǔn)則。該算法是通過在數(shù)據(jù)集D上,使用交叉驗(yàn)證法來估計學(xué)習(xí)器L的誤差,注意這個誤差是在僅考慮特征子集A′時得到的,即特征子集A′中包含的特征數(shù)更少,則將A′保留下來。

需注意的是,由于 LVW 算法中特征子集搜索采用了隨機(jī)策略,而每次特征子集評價都需要訓(xùn)練學(xué)習(xí)器,計算開銷很大,因此算法設(shè)置了停止條件控制參數(shù)T。然而,整個 LVM 算法是基于拉斯維加斯方法框架,若初始特征數(shù)很多(即∣A∣很大) 、T設(shè)置較大,則算法可能運(yùn)行很長時間都達(dá)不到停止條件。換言之,若有運(yùn)行時間限制,則有可能給不出解。

5 嵌入式選擇與L1正則化

在過濾式和包裹式特征選擇方法中,特征選擇過程與學(xué)習(xí)器訓(xùn)練過程有明顯的分別;與此不同,嵌入式特征選擇是特征選擇過程與學(xué)習(xí)器訓(xùn)練過程融為一體,兩者在同一個優(yōu)化過程中完成,即在學(xué)習(xí)器訓(xùn)練過程中自動地進(jìn)行了特征選擇。

給定數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xm,ym)},其中x∈R,y∈R。考慮最簡單的線性模型回歸模型,以平方誤差為損失函數(shù),則優(yōu)化目標(biāo)為:

機(jī)器學(xué)習(xí)中的特征選擇的5點(diǎn)詳細(xì)資料概述

當(dāng)樣本特征很多,而樣本數(shù)相對較少時,上式很容易陷入過擬合。為了緩解過擬合問題,可對上式引入正則化想。若使用L2L2范數(shù)正則化,則有:

機(jī)器學(xué)習(xí)中的特征選擇的5點(diǎn)詳細(xì)資料概述

其中正則化參數(shù)λ>0。上式也稱為“嶺回歸” (ridge regression) [Tikhonov and Arsenin, 1977],通過引入L2范數(shù)正則化,確能顯著降低過擬合的風(fēng)險。

那么,能否將正則化項(xiàng)中的L2范數(shù)替換為Lp范數(shù)呢?答案是肯定的。若令p=1,即采用L1范數(shù),則有:

機(jī)器學(xué)習(xí)中的特征選擇的5點(diǎn)詳細(xì)資料概述

其中正則化參數(shù)λ>0。上式稱為 LASSO (Least Absolute Shrinkage and Selection Operator) [Tibshirani, 1996]。

L1范數(shù)和L2范數(shù)正則化都有助于降低過擬合風(fēng)險,但L1范數(shù)還會帶來一個額外的好處:它比L2范數(shù)更易于獲得“稀疏” (sparse) 解,即它求得的w會有更少的非零分量。

注意到w取得稀疏解意味著初始的d個特征中僅有對應(yīng)著w的非零分量的特征才會出現(xiàn)在最終模型中,于是,求解L1范數(shù)正則化的結(jié)果是得到了僅采用一部分初始特征的模型;換言之,基于L1正則化的學(xué)習(xí)方法就是一種嵌入式特征選擇方法,其特征選擇過程與學(xué)習(xí)器訓(xùn)練過程融為一體,同時完成。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 嵌入式
    +關(guān)注

    關(guān)注

    5150

    文章

    19665

    瀏覽量

    317454
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8502

    瀏覽量

    134592
  • 特征選擇
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    7290

原文標(biāo)題:機(jī)器學(xué)習(xí)中的特征選擇

文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    Stellaris系列產(chǎn)品的選擇詳細(xì)資料概述

    本文的主要內(nèi)容介紹的是TI的產(chǎn)品Stellaris系列產(chǎn)品的選擇詳細(xì)資料概述
    發(fā)表于 05-09 15:59 ?8次下載
    Stellaris系列產(chǎn)品的<b class='flag-5'>選擇</b><b class='flag-5'>詳細(xì)資料</b><b class='flag-5'>概述</b>

    工業(yè)機(jī)器人配件選型手冊的詳細(xì)資料概述(免費(fèi)下載)

    本文檔介紹的主要內(nèi)容是工業(yè)機(jī)器人配件選型手冊詳細(xì)資料概述
    發(fā)表于 06-08 08:00 ?26次下載
    工業(yè)<b class='flag-5'>機(jī)器</b>人配件選型手冊的<b class='flag-5'>詳細(xì)資料</b><b class='flag-5'>概述</b>(免費(fèi)下載)

    Qt5布局管理詳細(xì)資料概述

    本文檔的主要內(nèi)容詳細(xì)介紹的是Qt5的布局管理詳細(xì)資料概述內(nèi)容包括了:分割窗口QSplitter類,停靠窗口QDockWidget類,堆棧窗體QStackedWidget類,基本布局(Q
    發(fā)表于 08-01 08:00 ?0次下載
    Qt<b class='flag-5'>5</b>布局管理<b class='flag-5'>詳細(xì)資料</b><b class='flag-5'>概述</b>

    C語言教程之如何選擇結(jié)構(gòu)程序設(shè)計的詳細(xì)資料概述

    本文檔的主要內(nèi)容詳細(xì)介紹的是C語言教程之如何選擇結(jié)構(gòu)程序設(shè)計的詳細(xì)資料概述。
    發(fā)表于 11-02 10:53 ?3次下載
    C語言教程之如何<b class='flag-5'>選擇</b>結(jié)構(gòu)程序設(shè)計的<b class='flag-5'>詳細(xì)資料</b><b class='flag-5'>概述</b>

    機(jī)器學(xué)習(xí)算法的ID3算法詳細(xì)資料合集免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是機(jī)器學(xué)習(xí)算法的ID3算法詳細(xì)資料合集免費(fèi)下載。
    發(fā)表于 11-22 17:06 ?5次下載

    機(jī)器學(xué)習(xí)算法的FSS算法詳細(xì)資料合集免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是機(jī)器學(xué)習(xí)算法的FSS算法詳細(xì)資料合集免費(fèi)下載。
    發(fā)表于 11-22 17:07 ?9次下載

    機(jī)器學(xué)習(xí)matlab源代碼的詳細(xì)資料免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是機(jī)器學(xué)習(xí)matlab源代碼的詳細(xì)資料免費(fèi)下載。
    發(fā)表于 11-23 16:49 ?36次下載

    PHP基礎(chǔ)學(xué)習(xí)知識點(diǎn)詳細(xì)資料匯總免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是PHP基礎(chǔ)學(xué)習(xí)知識點(diǎn)詳細(xì)資料匯總免費(fèi)下載。
    發(fā)表于 04-11 17:43 ?15次下載
    PHP基礎(chǔ)<b class='flag-5'>學(xué)習(xí)</b>知識<b class='flag-5'>點(diǎn)</b><b class='flag-5'>詳細(xì)資料</b>匯總免費(fèi)下載

    STM32Cube學(xué)習(xí)教程之時鐘樹配置的詳細(xì)資料概述

    本文檔的主要內(nèi)容詳細(xì)介紹的是STM32Cube學(xué)習(xí)教程之時鐘樹配置的詳細(xì)資料概述。
    發(fā)表于 08-14 08:00 ?3次下載
    STM32Cube<b class='flag-5'>學(xué)習(xí)</b>教程之時鐘樹配置的<b class='flag-5'>詳細(xì)資料</b><b class='flag-5'>概述</b>

    工業(yè)機(jī)器人的詳細(xì)資料和應(yīng)用編程等培訓(xùn)資料概述

    本文檔的主要內(nèi)容詳細(xì)介紹的是工業(yè)機(jī)器人的詳細(xì)資料和應(yīng)用編程等培訓(xùn)資料概述包括了:1.掌握機(jī)器人的
    發(fā)表于 10-31 11:15 ?39次下載
    工業(yè)<b class='flag-5'>機(jī)器</b>人的<b class='flag-5'>詳細(xì)資料</b>和應(yīng)用編程等培訓(xùn)<b class='flag-5'>資料</b><b class='flag-5'>概述</b>

    DSP入門學(xué)習(xí)必看的一些知識點(diǎn)詳細(xì)概述

    本文檔的主要內(nèi)容詳細(xì)介紹的是DSP入門學(xué)習(xí)必看的一些知識點(diǎn)詳細(xì)資料概述。
    發(fā)表于 11-01 14:40 ?13次下載

    python的內(nèi)置函數(shù)詳細(xì)資料概述

    本文檔的主要內(nèi)容詳細(xì)介紹的是python的內(nèi)置函數(shù)詳細(xì)資料概述。
    發(fā)表于 11-18 08:00 ?0次下載

    5G概述和基本原理的詳細(xì)資料說明

    本文檔的主要內(nèi)容詳細(xì)介紹的是5G概述和基本原理的詳細(xì)資料說明包括了:為什么需要5G?,5G是什么
    發(fā)表于 03-07 08:00 ?10次下載
    <b class='flag-5'>5</b>G<b class='flag-5'>概述</b>和基本原理的<b class='flag-5'>詳細(xì)資料</b>說明

    機(jī)器學(xué)習(xí)教程之線性模型的詳細(xì)資料說明

    本文檔的主要內(nèi)容詳細(xì)介紹的是機(jī)器學(xué)習(xí)教程之線性模型的詳細(xì)資料說明。
    發(fā)表于 03-24 08:00 ?0次下載
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>教程之線性模型的<b class='flag-5'>詳細(xì)資料</b>說明

    機(jī)器學(xué)習(xí)的模型評估與選擇詳細(xì)資料說明

    本文檔的主要內(nèi)容詳細(xì)介紹的是機(jī)器學(xué)習(xí)的模型評估與選擇詳細(xì)資料說明。
    發(fā)表于 03-24 08:00 ?0次下載
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的模型評估與<b class='flag-5'>選擇</b><b class='flag-5'>詳細(xì)資料</b>說明