人人射人人燥人人妻,国产精品久久久68

本文主要介紹基于集成學(xué)習(xí)的決策樹，其主要通過不同學(xué)習(xí)框架生產(chǎn)基學(xué)習(xí)器，并綜合所有基學(xué)習(xí)器的預(yù)測結(jié)果來改善單個基學(xué)習(xí)器的識別率和泛化性。

1. 集成學(xué)習(xí)

常見的集成學(xué)習(xí)框架有三種：Bagging，Boosting 和 Stacking。三種集成學(xué)習(xí)框架在基學(xué)習(xí)器的產(chǎn)生和綜合結(jié)果的方式上會有些區(qū)別，我們先做些簡單的介紹。

1.1 Bagging

Bagging 全稱叫 Bootstrap aggregating，看到 Bootstrap 我們立刻想到著名的開源前端框架（抖個機(jī)靈，是 Bootstrap 抽樣方法），每個基學(xué)習(xí)器都會對訓(xùn)練集進(jìn)行有放回抽樣得到子訓(xùn)練集，比較著名的采樣法為 0.632 自助法。每個基學(xué)習(xí)器基于不同子訓(xùn)練集進(jìn)行訓(xùn)練，并綜合所有基學(xué)習(xí)器的預(yù)測值得到最終的預(yù)測結(jié)果。Bagging 常用的綜合方法是投票法，票數(shù)最多的類別為預(yù)測類別。

1.2 Boosting

Boosting 訓(xùn)練過程為階梯狀，基模型的訓(xùn)練是有順序的，每個基模型都會在前一個基模型學(xué)習(xí)的基礎(chǔ)上進(jìn)行學(xué)習(xí)，最終綜合所有基模型的預(yù)測值產(chǎn)生最終的預(yù)測結(jié)果，用的比較多的綜合方式為加權(quán)法。

1.3 Stacking

Stacking 是先用全部數(shù)據(jù)訓(xùn)練好基模型，然后每個基模型都對每個訓(xùn)練樣本進(jìn)行的預(yù)測，其預(yù)測值將作為訓(xùn)練樣本的特征值，最終會得到新的訓(xùn)練樣本，然后基于新的訓(xùn)練樣本進(jìn)行訓(xùn)練得到模型，然后得到最終預(yù)測結(jié)果。

那么，為什么集成學(xué)習(xí)會好于單個學(xué)習(xí)器呢？原因可能有三：

訓(xùn)練樣本可能無法選擇出最好的單個學(xué)習(xí)器，由于沒法選擇出最好的學(xué)習(xí)器，所以干脆結(jié)合起來一起用；
假設(shè)能找到最好的學(xué)習(xí)器，但由于算法運(yùn)算的限制無法找到最優(yōu)解，只能找到次優(yōu)解，采用集成學(xué)習(xí)可以彌補(bǔ)算法的不足；
可能算法無法得到最優(yōu)解，而集成學(xué)習(xí)能夠得到近似解。比如說最優(yōu)解是一條對角線，而單個決策樹得到的結(jié)果只能是平行于坐標(biāo)軸的，但是集成學(xué)習(xí)可以去擬合這條對角線。

2. 偏差與方差

上節(jié)介紹了集成學(xué)習(xí)的基本概念，這節(jié)我們主要介紹下如何從偏差和方差的角度來理解集成學(xué)習(xí)。

2.1 集成學(xué)習(xí)的偏差與方差

偏差（Bias）描述的是預(yù)測值和真實(shí)值之差；方差（Variance）描述的是預(yù)測值作為隨機(jī)變量的離散程度。放一場很經(jīng)典的圖：

模型的偏差與方差

偏差：描述樣本擬合出的模型的預(yù)測結(jié)果的期望與樣本真實(shí)結(jié)果的差距，要想偏差表現(xiàn)的好，就需要復(fù)雜化模型，增加模型的參數(shù)，但這樣容易過擬合，過擬合對應(yīng)上圖的 High Variance，點(diǎn)會很分散。低偏差對應(yīng)的點(diǎn)都打在靶心附近，所以喵的很準(zhǔn)，但不一定很穩(wěn)；
方差：描述樣本上訓(xùn)練出來的模型在測試集上的表現(xiàn)，要想方差表現(xiàn)的好，需要簡化模型，減少模型的復(fù)雜度，但這樣容易欠擬合，欠擬合對應(yīng)上圖 High Bias，點(diǎn)偏離中心。低方差對應(yīng)就是點(diǎn)都打的很集中，但不一定是靶心附近，手很穩(wěn)，但不一定瞄的準(zhǔn)。

我們常說集成學(xué)習(xí)中的基模型是弱模型，通常來說弱模型是偏差高（在訓(xùn)練集上準(zhǔn)確度低）方差?。ǚ乐惯^擬合能力強(qiáng)）的模型，但并不是所有集成學(xué)習(xí)框架中的基模型都是弱模型。Bagging 和 Stacking 中的基模型為強(qiáng)模型（偏差低，方差高），而Boosting 中的基模型為弱模型（偏差高，方差低）。

在 Bagging 和 Boosting 框架中，通過計(jì)算基模型的期望和方差我們可以得到模型整體的期望和方差。為了簡化模型，我們假設(shè)基模型的期望為，方差，模型的權(quán)重為 r ，兩兩模型間的相關(guān)系數(shù)相等。由于 Bagging 和 Boosting 的基模型都是線性組成的，那么有：

模型總體期望：

模型總體方差（公式推導(dǎo)參考協(xié)方差的性質(zhì)，協(xié)方差與方差的關(guān)系）：

模型的準(zhǔn)確度可由偏差和方差共同決定：

2.2 Bagging 的偏差與方差

對于 Bagging 來說，每個基模型的權(quán)重等于 1/m 且期望近似相等，故我們可以得到：

通過上式我們可以看到：

整體模型的期望等于基模型的期望，這也就意味著整體模型的偏差和基模型的偏差近似。
整體模型的方差小于等于基模型的方差，當(dāng)且僅當(dāng)相關(guān)性為 1 時(shí)取等號，隨著基模型數(shù)量增多，整體模型的方差減少，從而防止過擬合的能力增強(qiáng)，模型的準(zhǔn)確度得到提高。但是，模型的準(zhǔn)確度一定會無限逼近于 1 嗎？并不一定，當(dāng)基模型數(shù)增加到一定程度時(shí)，方差公式第一項(xiàng)的改變對整體方差的作用很小，防止過擬合的能力達(dá)到極限，這便是準(zhǔn)確度的極限了。

在此我們知道了為什么 Bagging 中的基模型一定要為強(qiáng)模型，如果 Bagging 使用弱模型則會導(dǎo)致整體模型的偏差提高，而準(zhǔn)確度降低。

Random Forest 是經(jīng)典的基于 Bagging 框架的模型，并在此基礎(chǔ)上通過引入特征采樣和樣本采樣來降低基模型間的相關(guān)性，在公式中顯著降低方差公式中的第二項(xiàng)，略微升高第一項(xiàng)，從而使得整體降低模型整體方差。

2.3 Boosting 的偏差與方差

對于 Boosting 來說，由于基模型共用同一套訓(xùn)練集，所以基模型間具有強(qiáng)相關(guān)性，故模型間的相關(guān)系數(shù)近似等于 1，針對 Boosting 化簡公式為：

通過觀察整體方差的表達(dá)式我們?nèi)菀装l(fā)現(xiàn)：

整體模型的方差等于基模型的方差，如果基模型不是弱模型，其方差相對較大，這將導(dǎo)致整體模型的方差很大，即無法達(dá)到防止過擬合的效果。因此，Boosting 框架中的基模型必須為弱模型。
此外 Boosting 框架中采用基于貪心策略的前向加法，整體模型的期望由基模型的期望累加而成，所以隨著基模型數(shù)的增多，整體模型的期望值增加，整體模型的準(zhǔn)確度提高。

基于 Boosting 框架的 Gradient Boosting Decision Tree 模型中基模型也為樹模型，同 Random Forrest，我們也可以對特征進(jìn)行隨機(jī)抽樣來使基模型間的相關(guān)性降低，從而達(dá)到減少方差的效果。

2.4 小結(jié)

我們可以使用模型的偏差和方差來近似描述模型的準(zhǔn)確度；
對于 Bagging 來說，整體模型的偏差與基模型近似，而隨著模型的增加可以降低整體模型的方差，故其基模型需要為強(qiáng)模型；
對于 Boosting 來說，整體模型的方差近似等于基模型的方差，而整體模型的偏差由基模型累加而成，故基模型需要為弱模型。

?那么這里有一個小小的疑問，Bagging 和 Boosting 到底用的是什么模型呢？

3. Random Forest

Random Forest（隨機(jī)森林），用隨機(jī)的方式建立一個森林。RF 算法由很多決策樹組成，每一棵決策樹之間沒有關(guān)聯(lián)。建立完森林后，當(dāng)有新樣本進(jìn)入時(shí)，每棵決策樹都會分別進(jìn)行判斷，然后基于投票法給出分類結(jié)果。

3.1 思想

Random Forest（隨機(jī)森林）是 Bagging 的擴(kuò)展變體，它在以決策樹為基學(xué)習(xí)器構(gòu)建 Bagging 集成的基礎(chǔ)上，進(jìn)一步在決策樹的訓(xùn)練過程中引入了隨機(jī)特征選擇，因此可以概括 RF 包括四個部分：

隨機(jī)選擇樣本（放回抽樣）；
隨機(jī)選擇特征；
構(gòu)建決策樹；
隨機(jī)森林投票（平均）。

隨機(jī)選擇樣本和 Bagging 相同，采用的是 Bootstrap 自助采樣法；隨機(jī)選擇特征是指在每個節(jié)點(diǎn)在分裂過程中都是隨機(jī)選擇特征的（區(qū)別與每棵樹隨機(jī)選擇一批特征）。

這種隨機(jī)性導(dǎo)致隨機(jī)森林的偏差會有稍微的增加（相比于單棵不隨機(jī)樹），但是由于隨機(jī)森林的“平均”特性，會使得它的方差減小，而且方差的減小補(bǔ)償了偏差的增大，因此總體而言是更好的模型。

隨機(jī)采樣由于引入了兩種采樣方法保證了隨機(jī)性，所以每棵樹都是最大可能的進(jìn)行生長就算不剪枝也不會出現(xiàn)過擬合。

3.2 優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

在數(shù)據(jù)集上表現(xiàn)良好，相對于其他算法有較大的優(yōu)勢
易于并行化，在大數(shù)據(jù)集上有很大的優(yōu)勢；
能夠處理高維度數(shù)據(jù)，不用做特征選擇。

4 Adaboost

AdaBoost（Adaptive Boosting，自適應(yīng)增強(qiáng)），其自適應(yīng)在于：前一個基本分類器分錯的樣本會得到加強(qiáng)，加權(quán)后的全體樣本再次被用來訓(xùn)練下一個基本分類器。同時(shí)，在每一輪中加入一個新的弱分類器，直到達(dá)到某個預(yù)定的足夠小的錯誤率或達(dá)到預(yù)先指定的最大迭代次數(shù)。

4.1 思想

Adaboost 迭代算法有三步：

初始化訓(xùn)練樣本的權(quán)值分布，每個樣本具有相同權(quán)重；
訓(xùn)練弱分類器，如果樣本分類正確，則在構(gòu)造下一個訓(xùn)練集中，它的權(quán)值就會被降低；反之提高。用更新過的樣本集去訓(xùn)練下一個分類器；
將所有弱分類組合成強(qiáng)分類器，各個弱分類器的訓(xùn)練過程結(jié)束后，加大分類誤差率小的弱分類器的權(quán)重，降低分類誤差率大的弱分類器的權(quán)重。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

集成學(xué)習(xí)

集成學(xué)習(xí)

+關(guān)注

關(guān)注
0

文章
10

瀏覽量
7427
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8499

瀏覽量
134320
決策樹

決策樹

+關(guān)注

關(guān)注
3

文章
96

瀏覽量
13799