導(dǎo)讀
基于樹(shù)的模型和神經(jīng)網(wǎng)絡(luò)其實(shí)并沒(méi)有太多的不同。
神經(jīng)網(wǎng)絡(luò)通常被認(rèn)為是機(jī)器學(xué)習(xí)的圣杯,無(wú)所不知,解決一切問(wèn)題,主要是因?yàn)樗鼈兒軓?fù)雜。另一方面,基于樹(shù)的方法并沒(méi)有被同樣的敬畏和炒作,主要是因?yàn)樗鼈兛雌饋?lái)很簡(jiǎn)單。雖然它們看起來(lái)如此不同,但它們只是一枚硬幣的兩面。
基于樹(shù)的方法通常比神經(jīng)網(wǎng)絡(luò)更好。任何Kaggler都知道XGBoost是到目前為止最受歡迎的最佳競(jìng)賽提交選擇。本質(zhì)上,基于樹(shù)的方法和神經(jīng)網(wǎng)絡(luò)之所以屬于同一類(lèi),是因?yàn)樗鼈兪峭ㄟ^(guò)逐條分解來(lái)解決問(wèn)題的,而不是像支持向量機(jī)(SVM)或邏輯回歸(Logistic Regression)那樣,通過(guò)尋找一個(gè)復(fù)雜的邊界來(lái)分離整個(gè)數(shù)據(jù)集。
很明顯,基于樹(shù)的方法沿著不同的特征逐步分割特征空間以優(yōu)化信息增益。不太明顯的是,神經(jīng)網(wǎng)絡(luò)在處理這一任務(wù)時(shí)也是類(lèi)似的。每個(gè)神經(jīng)元監(jiān)視特征空間的特定部分(有各種重疊)。如果一個(gè)輸入落到那個(gè)空間,某些神經(jīng)元就會(huì)被激活。
神經(jīng)網(wǎng)絡(luò)采用概率的觀點(diǎn)來(lái)進(jìn)行逐塊模型擬合,而樹(shù)則采用確定性的觀點(diǎn)。無(wú)論如何,它們的性能都依賴(lài)于模型的深度,因?yàn)樗鼈兊慕M件與特征空間的部分相關(guān)。
一個(gè)包含太多組件的模型 —— 樹(shù)是節(jié)點(diǎn),網(wǎng)絡(luò)是神經(jīng)元——會(huì)過(guò)擬合,而組件太少的模型根本無(wú)法給出有意義的預(yù)測(cè)。(兩者都開(kāi)始記憶數(shù)據(jù)點(diǎn),而不是學(xué)習(xí)歸納。)
關(guān)于神經(jīng)網(wǎng)絡(luò)如何分割特征空間的更多直覺(jué),請(qǐng)看一般性逼近定理。
盡管決策樹(shù)有許多強(qiáng)大的變種,如隨機(jī)森林、梯度提升、自適應(yīng)提升和深度森林,但通?;跇?shù)的方法本質(zhì)上是神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)化版本。
基于樹(shù)的方法通過(guò)垂直和水平分割逐條處理問(wèn)題,以最小化熵(優(yōu)化器和損失)。神經(jīng)網(wǎng)絡(luò)通過(guò)操縱激活函數(shù)的形狀來(lái)逐步解決這個(gè)問(wèn)題。
基于樹(shù)的方法是確定性的,而不是概率性的。這導(dǎo)致了一些很好的簡(jiǎn)化,比如自動(dòng)特性選擇。
在決策樹(shù)中被激活的條件節(jié)點(diǎn)類(lèi)似于被激活的神經(jīng)元(信息流)。
神經(jīng)網(wǎng)絡(luò)擬合參數(shù)對(duì)輸入進(jìn)行變換,直接或間接的激活后續(xù)的神經(jīng)元。決策樹(shù)顯式地?cái)M合參數(shù)來(lái)引導(dǎo)信息流。(這是確定性而非概率性的結(jié)果。)
信息在這兩個(gè)模型中類(lèi)似地流動(dòng),只是在樹(shù)中以更簡(jiǎn)單的方式流動(dòng)。
當(dāng)然,這是一個(gè)抽象的甚至是有爭(zhēng)議的主張。建立這種聯(lián)系有許多心理障礙。無(wú)論如何,這對(duì)于理解基于樹(shù)的方法何時(shí)以及為什么比神經(jīng)網(wǎng)絡(luò)更好是很重要的。
表格數(shù)據(jù),或以表形式出現(xiàn)的結(jié)構(gòu)化數(shù)據(jù),對(duì)于決策樹(shù)來(lái)說(shuō)是很自然的。大多數(shù)人都同意,神經(jīng)網(wǎng)絡(luò)對(duì)于表格數(shù)據(jù)回歸和預(yù)測(cè)來(lái)說(shuō)是多余的,所以我們做了一些簡(jiǎn)化。我們選擇1和0,而不是概率,這是兩種算法差異的主要根源。因此,樹(shù)可以在不需要概率的細(xì)微差別的情況下成功,比如結(jié)構(gòu)化數(shù)據(jù)。
例如,基于樹(shù)的方法在MNIST數(shù)據(jù)集上執(zhí)行得很好,因?yàn)槊總€(gè)數(shù)字都有幾個(gè)可定義的特征。概率不是一個(gè)必要的計(jì)算。這根本不是一個(gè)非常復(fù)雜的問(wèn)題,這就是為什么精心設(shè)計(jì)的集成樹(shù)可以達(dá)到相同的水平,甚至比現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)更好。
通常,人們會(huì)傾向于說(shuō)“樹(shù)只是記住規(guī)則”,這是正確的。這與神經(jīng)網(wǎng)絡(luò)是一樣的,它記憶更復(fù)雜的,基于概率的規(guī)則。神經(jīng)網(wǎng)絡(luò)不會(huì)對(duì)x》3這樣的條件顯式地給出真/假,而是將輸入放大到一個(gè)很高的值,以產(chǎn)生一個(gè)s型的1的值或產(chǎn)生一些連續(xù)的表達(dá)式。
另一方面,由于神經(jīng)網(wǎng)絡(luò)非常復(fù)雜,有很多事情可以用它們來(lái)做。卷積層和遞歸層都是神經(jīng)網(wǎng)絡(luò)出色的變體,它們工作得很好,因?yàn)樗鼈兲幚淼臄?shù)據(jù)通常需要細(xì)微的概率計(jì)算。
很少有圖像可以用1和0來(lái)建模。決策樹(shù)值不能處理有許多中間值的數(shù)據(jù)集(例如0.5),這就是為什么它在像素值幾乎都是黑色或白色的MNIST上工作得很好。類(lèi)似地,文本有太多的信息和太多的異常,只能用確定性術(shù)語(yǔ)來(lái)表示。
這也是神經(jīng)網(wǎng)絡(luò)主要用于這些領(lǐng)域的原因,也是神經(jīng)網(wǎng)絡(luò)研究在早期(21世紀(jì)初)由于無(wú)法獲得大量圖像和文本數(shù)據(jù)而停滯不前的原因。神經(jīng)網(wǎng)絡(luò)的其他常見(jiàn)用途僅限于大量預(yù)測(cè),比如YouTube的視頻推薦算法,其規(guī)模如此之大,必須涉及到概率。
去公司的任何一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)看看,他們很可能使用的是基于樹(shù)的模型,而不是神經(jīng)網(wǎng)絡(luò)。除非他們是在構(gòu)建一個(gè)重量級(jí)的模型,比如在Zoom中模糊視頻的背景,樹(shù)的確定性本質(zhì)使得日常的分類(lèi)任務(wù)變得輕量級(jí),使用與神經(jīng)網(wǎng)絡(luò)相同的一般方法。
在許多現(xiàn)實(shí)世界中,確定性建模比概率建模更自然,這也是有爭(zhēng)議的。例如,用樹(shù)來(lái)預(yù)測(cè)用戶是否從電子商務(wù)網(wǎng)站購(gòu)買(mǎi)商品的一個(gè)很好的選擇,因?yàn)橛脩糇匀粫?huì)遵循一個(gè)基于規(guī)則的決策過(guò)程。它可能看起來(lái)是這樣的:
我以前在這個(gè)平臺(tái)上有過(guò)愉快的經(jīng)歷嗎?如果是,繼續(xù)。
我現(xiàn)在需要這件物品嗎?冬天我應(yīng)該買(mǎi)太陽(yáng)鏡和泳褲嗎?如果是,繼續(xù)。
根據(jù)我的人口統(tǒng)計(jì)數(shù)據(jù),這是一個(gè)我有興趣購(gòu)買(mǎi)的產(chǎn)品嗎?如果是,繼續(xù)。
這件東西太貴了嗎?如果不是,繼續(xù)。
其他顧客對(duì)這個(gè)產(chǎn)品的評(píng)價(jià)是否達(dá)到了一定的臨界值,使我覺(jué)得可以放心地購(gòu)買(mǎi)它?如果是,繼續(xù)。
一般來(lái)說(shuō),人類(lèi)遵循非?;谝?guī)則和結(jié)構(gòu)化的決策制定過(guò)程。在這些情況下,概率建模是不必要的。
總之,
基于樹(shù)的方法最好被認(rèn)為是神經(jīng)網(wǎng)絡(luò)的縮小版本,用更簡(jiǎn)單的術(shù)語(yǔ)來(lái)接近特征分類(lèi)、優(yōu)化、信息流等。
基于樹(shù)的方法和神經(jīng)網(wǎng)絡(luò)在使用上的主要區(qū)別在于數(shù)據(jù)的確定性(0/1)和概率結(jié)構(gòu)。結(jié)構(gòu)化(表格)數(shù)據(jù)始終用確定性模型可以更好地建模。
不要低估基于樹(shù)的方法的能力。
責(zé)編AJX
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103635 -
模型
+關(guān)注
關(guān)注
1文章
3521瀏覽量
50428 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134628
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論