海量嘈雜數(shù)據(jù)決策樹(shù)算法
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
針對(duì)當(dāng)前決策樹(shù)算法較少考慮訓(xùn)練集的嘈雜程度對(duì)模型的影響,以及傳統(tǒng)駐留內(nèi)存算法處理海量數(shù)據(jù)困難的問(wèn)題,提出一種基于Hadoop平臺(tái)的不確定概率C4.5算法-IP-C4.5算法。在訓(xùn)練模型時(shí),IP-C4.5算法認(rèn)為用于建樹(shù)的訓(xùn)練集是不可靠的,通過(guò)用基于不確定概率的信息增益率作為分裂屬性選擇標(biāo)準(zhǔn),減小了訓(xùn)練集的嘈雜性對(duì)模型的影響。在Hadoop平臺(tái)下,通過(guò)將IP-C4.5算法以文件分裂的方式進(jìn)行MapReduce化程序設(shè)計(jì),增強(qiáng)了處理海量數(shù)據(jù)的能力。與C4.5和完全信條樹(shù)(CCDT)算法的對(duì)比實(shí)驗(yàn)結(jié)果表明,在訓(xùn)練集數(shù)據(jù)是嘈雜的情況下,IP-C4.5算法的準(zhǔn)確率相對(duì)更高,尤其當(dāng)數(shù)據(jù)嘈雜度大于10%時(shí),表現(xiàn)更加優(yōu)秀;并且基于Hadoop的并行化的IP-C4.5算法具有處理海量數(shù)據(jù)的能力。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
海量嘈雜數(shù)據(jù)決策樹(shù)算法下載
相關(guān)電子資料下載
- 深入探討機(jī)器學(xué)習(xí)的可視化技術(shù) 191
- 深度解析機(jī)器學(xué)習(xí)各大模型原理 1144
- 什么是隨機(jī)森林?隨機(jī)森林的工作原理 1851
- 機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí)全攻略 126
- 決策樹(shù):技術(shù)全解與案例實(shí)戰(zhàn) 762
- 一種基于決策樹(shù)的飛機(jī)級(jí)故障診斷建模方法研究 739
- 基于粗糙集聯(lián)合決策樹(shù)法的智能變電站遠(yuǎn)程調(diào)度管理優(yōu)化 392
- 數(shù)據(jù)挖掘十大算法 2071
- 常見(jiàn)的機(jī)器學(xué)習(xí)算法及其應(yīng)用場(chǎng)景 622
- 為什么GBDT用回歸樹(shù)不用分類(lèi)樹(shù)?CART決策樹(shù)是怎么計(jì)算基尼值呢? 1396