国产精九九网站,亚洲无码AV久久一区二区 ,日韩1024AV

導(dǎo)讀

基于樹(shù)的模型和神經(jīng)網(wǎng)絡(luò)其實(shí)并沒(méi)有太多的不同。

神經(jīng)網(wǎng)絡(luò)通常被認(rèn)為是機(jī)器學(xué)習(xí)的圣杯，無(wú)所不知，解決一切問(wèn)題，主要是因?yàn)樗鼈兒軓?fù)雜。另一方面，基于樹(shù)的方法并沒(méi)有被同樣的敬畏和炒作，主要是因?yàn)樗鼈兛雌饋?lái)很簡(jiǎn)單。雖然它們看起來(lái)如此不同，但它們只是一枚硬幣的兩面。

基于樹(shù)的方法通常比神經(jīng)網(wǎng)絡(luò)更好。任何Kaggler都知道XGBoost是到目前為止最受歡迎的最佳競(jìng)賽提交選擇。本質(zhì)上，基于樹(shù)的方法和神經(jīng)網(wǎng)絡(luò)之所以屬于同一類(lèi)，是因?yàn)樗鼈兪峭ㄟ^(guò)逐條分解來(lái)解決問(wèn)題的，而不是像支持向量機(jī)（SVM）或邏輯回歸（Logistic Regression）那樣，通過(guò)尋找一個(gè)復(fù)雜的邊界來(lái)分離整個(gè)數(shù)據(jù)集。

很明顯，基于樹(shù)的方法沿著不同的特征逐步分割特征空間以優(yōu)化信息增益。不太明顯的是，神經(jīng)網(wǎng)絡(luò)在處理這一任務(wù)時(shí)也是類(lèi)似的。每個(gè)神經(jīng)元監(jiān)視特征空間的特定部分（有各種重疊）。如果一個(gè)輸入落到那個(gè)空間，某些神經(jīng)元就會(huì)被激活。

神經(jīng)網(wǎng)絡(luò)采用概率的觀點(diǎn)來(lái)進(jìn)行逐塊模型擬合，而樹(shù)則采用確定性的觀點(diǎn)。無(wú)論如何，它們的性能都依賴(lài)于模型的深度，因?yàn)樗鼈兊慕M件與特征空間的部分相關(guān)。

一個(gè)包含太多組件的模型 —— 樹(shù)是節(jié)點(diǎn)，網(wǎng)絡(luò)是神經(jīng)元——會(huì)過(guò)擬合，而組件太少的模型根本無(wú)法給出有意義的預(yù)測(cè)。（兩者都開(kāi)始記憶數(shù)據(jù)點(diǎn)，而不是學(xué)習(xí)歸納。）

關(guān)于神經(jīng)網(wǎng)絡(luò)如何分割特征空間的更多直覺(jué)，請(qǐng)看一般性逼近定理。

盡管決策樹(shù)有許多強(qiáng)大的變種，如隨機(jī)森林、梯度提升、自適應(yīng)提升和深度森林，但通?；跇?shù)的方法本質(zhì)上是神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)化版本。

基于樹(shù)的方法通過(guò)垂直和水平分割逐條處理問(wèn)題，以最小化熵（優(yōu)化器和損失）。神經(jīng)網(wǎng)絡(luò)通過(guò)操縱激活函數(shù)的形狀來(lái)逐步解決這個(gè)問(wèn)題。

基于樹(shù)的方法是確定性的，而不是概率性的。這導(dǎo)致了一些很好的簡(jiǎn)化，比如自動(dòng)特性選擇。

在決策樹(shù)中被激活的條件節(jié)點(diǎn)類(lèi)似于被激活的神經(jīng)元（信息流）。

神經(jīng)網(wǎng)絡(luò)擬合參數(shù)對(duì)輸入進(jìn)行變換，直接或間接的激活后續(xù)的神經(jīng)元。決策樹(shù)顯式地?cái)M合參數(shù)來(lái)引導(dǎo)信息流。（這是確定性而非概率性的結(jié)果。）

信息在這兩個(gè)模型中類(lèi)似地流動(dòng)，只是在樹(shù)中以更簡(jiǎn)單的方式流動(dòng)。

當(dāng)然，這是一個(gè)抽象的甚至是有爭(zhēng)議的主張。建立這種聯(lián)系有許多心理障礙。無(wú)論如何，這對(duì)于理解基于樹(shù)的方法何時(shí)以及為什么比神經(jīng)網(wǎng)絡(luò)更好是很重要的。

表格數(shù)據(jù)，或以表形式出現(xiàn)的結(jié)構(gòu)化數(shù)據(jù)，對(duì)于決策樹(shù)來(lái)說(shuō)是很自然的。大多數(shù)人都同意，神經(jīng)網(wǎng)絡(luò)對(duì)于表格數(shù)據(jù)回歸和預(yù)測(cè)來(lái)說(shuō)是多余的，所以我們做了一些簡(jiǎn)化。我們選擇1和0，而不是概率，這是兩種算法差異的主要根源。因此，樹(shù)可以在不需要概率的細(xì)微差別的情況下成功，比如結(jié)構(gòu)化數(shù)據(jù)。

例如，基于樹(shù)的方法在MNIST數(shù)據(jù)集上執(zhí)行得很好，因?yàn)槊總€(gè)數(shù)字都有幾個(gè)可定義的特征。概率不是一個(gè)必要的計(jì)算。這根本不是一個(gè)非常復(fù)雜的問(wèn)題，這就是為什么精心設(shè)計(jì)的集成樹(shù)可以達(dá)到相同的水平，甚至比現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)更好。

通常，人們會(huì)傾向于說(shuō)“樹(shù)只是記住規(guī)則”，這是正確的。這與神經(jīng)網(wǎng)絡(luò)是一樣的，它記憶更復(fù)雜的，基于概率的規(guī)則。神經(jīng)網(wǎng)絡(luò)不會(huì)對(duì)x》3這樣的條件顯式地給出真/假，而是將輸入放大到一個(gè)很高的值，以產(chǎn)生一個(gè)s型的1的值或產(chǎn)生一些連續(xù)的表達(dá)式。

另一方面，由于神經(jīng)網(wǎng)絡(luò)非常復(fù)雜，有很多事情可以用它們來(lái)做。卷積層和遞歸層都是神經(jīng)網(wǎng)絡(luò)出色的變體，它們工作得很好，因?yàn)樗鼈兲幚淼臄?shù)據(jù)通常需要細(xì)微的概率計(jì)算。

很少有圖像可以用1和0來(lái)建模。決策樹(shù)值不能處理有許多中間值的數(shù)據(jù)集（例如0.5），這就是為什么它在像素值幾乎都是黑色或白色的MNIST上工作得很好。類(lèi)似地，文本有太多的信息和太多的異常，只能用確定性術(shù)語(yǔ)來(lái)表示。

這也是神經(jīng)網(wǎng)絡(luò)主要用于這些領(lǐng)域的原因，也是神經(jīng)網(wǎng)絡(luò)研究在早期（21世紀(jì)初）由于無(wú)法獲得大量圖像和文本數(shù)據(jù)而停滯不前的原因。神經(jīng)網(wǎng)絡(luò)的其他常見(jiàn)用途僅限于大量預(yù)測(cè)，比如YouTube的視頻推薦算法，其規(guī)模如此之大，必須涉及到概率。

去公司的任何一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)看看，他們很可能使用的是基于樹(shù)的模型，而不是神經(jīng)網(wǎng)絡(luò)。除非他們是在構(gòu)建一個(gè)重量級(jí)的模型，比如在Zoom中模糊視頻的背景，樹(shù)的確定性本質(zhì)使得日常的分類(lèi)任務(wù)變得輕量級(jí)，使用與神經(jīng)網(wǎng)絡(luò)相同的一般方法。

在許多現(xiàn)實(shí)世界中，確定性建模比概率建模更自然，這也是有爭(zhēng)議的。例如，用樹(shù)來(lái)預(yù)測(cè)用戶是否從電子商務(wù)網(wǎng)站購(gòu)買(mǎi)商品的一個(gè)很好的選擇，因?yàn)橛脩糇匀粫?huì)遵循一個(gè)基于規(guī)則的決策過(guò)程。它可能看起來(lái)是這樣的：

我以前在這個(gè)平臺(tái)上有過(guò)愉快的經(jīng)歷嗎？如果是，繼續(xù)。

我現(xiàn)在需要這件物品嗎？冬天我應(yīng)該買(mǎi)太陽(yáng)鏡和泳褲嗎？如果是，繼續(xù)。

根據(jù)我的人口統(tǒng)計(jì)數(shù)據(jù)，這是一個(gè)我有興趣購(gòu)買(mǎi)的產(chǎn)品嗎？如果是，繼續(xù)。

這件東西太貴了嗎？如果不是，繼續(xù)。

其他顧客對(duì)這個(gè)產(chǎn)品的評(píng)價(jià)是否達(dá)到了一定的臨界值，使我覺(jué)得可以放心地購(gòu)買(mǎi)它？如果是，繼續(xù)。

一般來(lái)說(shuō)，人類(lèi)遵循非?；谝?guī)則和結(jié)構(gòu)化的決策制定過(guò)程。在這些情況下，概率建模是不必要的。

總之，

基于樹(shù)的方法最好被認(rèn)為是神經(jīng)網(wǎng)絡(luò)的縮小版本，用更簡(jiǎn)單的術(shù)語(yǔ)來(lái)接近特征分類(lèi)、優(yōu)化、信息流等。

基于樹(shù)的方法和神經(jīng)網(wǎng)絡(luò)在使用上的主要區(qū)別在于數(shù)據(jù)的確定性（0/1）和概率結(jié)構(gòu)。結(jié)構(gòu)化（表格）數(shù)據(jù)始終用確定性模型可以更好地建模。

不要低估基于樹(shù)的方法的能力。
責(zé)編AJX

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103635
模型

模型

+關(guān)注

關(guān)注
1

文章
3521

瀏覽量
50428
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8503

瀏覽量
134628

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

什么情況下基于樹(shù)的模型將超過(guò)神經(jīng)網(wǎng)絡(luò)模型

評(píng)論