常見算法優(yōu)缺點比較
機(jī)器學(xué)習(xí)算法數(shù)不勝數(shù),要想找到一個合適的算法并不是一件簡單的事情。通常在對精度要求較高的情況下,最好的方法便是通過交叉驗證來對各個算法一一嘗試,進(jìn)行比較后再調(diào)整參數(shù)以確保每個算法都能達(dá)到最優(yōu)解,并從優(yōu)中擇優(yōu)。但是每次都進(jìn)行這一操作不免過于繁瑣,下面小編來分析下各個算法的優(yōu)缺點,以助大家有針對性地進(jìn)行選擇,解決問題。
?
1.樸素貝葉斯
樸素貝葉斯的思想十分簡單,對于給出的待分類項,求出在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,以概率大小確定分類項屬于哪個類別。
優(yōu)點:
1)樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,因此有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率;
2)算法較簡單,常用于文本分類;
3)對小規(guī)模的數(shù)據(jù)表現(xiàn)很好,能夠處理多分類任務(wù),適合增量式訓(xùn)練。
缺點:
1)需要計算先驗概率;
2)對輸入數(shù)據(jù)的表達(dá)形式很敏感;
3)分類決策存在錯誤率。
?
2.邏輯回歸
優(yōu)點:
1)實現(xiàn)簡單,廣泛地應(yīng)用于工業(yè)問題上;
2)可以結(jié)合L2正則化解決多重共線性問題;
3)分類時計算量非常小,速度很快,存儲資源低;
缺點:
1)不能很好地處理大量多類特征或變量;
2)容易欠擬合,一般準(zhǔn)確度較低;
3)對于非線性特征,需要進(jìn)行轉(zhuǎn)換;
4)當(dāng)特征空間很大時,邏輯回歸的性能不是很好;
5)只能處理兩分類問題(在該基礎(chǔ)上衍生出來的softmax可以用于多分類),且必須線性可分。
?
3.線性回歸
線性回歸與邏輯回歸不同,它是用于回歸的,而不是用于分類。其基本思想是用梯度下降法對最小二乘法形式的誤差函數(shù)進(jìn)行優(yōu)化。
優(yōu)點:實現(xiàn)簡單,計算簡單;
缺點:不能擬合非線性數(shù)據(jù)。
4.最近鄰算法
優(yōu)點:
1)對數(shù)據(jù)沒有假設(shè),準(zhǔn)確度高;
2)可用于非線性分類;
3)訓(xùn)練時間復(fù)雜度為O(n);
4)理論成熟,思想簡單,既可以用來做分類也可以用來做回歸。
缺點:
1)計算量大;
2)需要大量的內(nèi)存;
3)樣本不平衡問題(即有些類別的樣本數(shù)量很多,而其它樣本的數(shù)量很少)。
?
5.決策樹
優(yōu)點:
1)能夠處理不相關(guān)的特征;
2)在相對短的時間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的分析;
3)計算簡單,易于理解,可解釋性強(qiáng);
4)比較適合處理有缺失屬性的樣本。
缺點:
1)忽略了數(shù)據(jù)之間的相關(guān)性;
2)容易發(fā)生過擬合(隨機(jī)森林可以很大程度上減少過擬合);
3)在決策樹當(dāng)中,對于各類別樣本數(shù)量不一致的數(shù)據(jù),信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征。
評論