三種用于垃圾網(wǎng)頁(yè)檢測(cè)的隨機(jī)欠采樣集成分類器
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
針對(duì)垃圾網(wǎng)頁(yè)檢測(cè)過(guò)程中輕微的不平衡分類問(wèn)題,提出三種隨機(jī)欠采樣集成分類器算法,分別為一次不放回隨機(jī)欠采樣( RUS-once)、多次不放回隨機(jī)欠采樣(RUS-multiple)和有放回隨機(jī)欠采樣(RUS-replacement)算法。首先使用其中一種隨機(jī)欠采樣技術(shù)將訓(xùn)練樣本集轉(zhuǎn)換成平衡樣本集,然后對(duì)每個(gè)平衡樣本集使用分類回歸樹(shù)( CART)分類器算法進(jìn)行分類,最后采用簡(jiǎn)單投票法構(gòu)建集成分類器對(duì)測(cè)試樣本進(jìn)行分類。實(shí)驗(yàn)表明,三種隨機(jī)欠采樣集成分類器均取得了良好的分類效果,其中RUS-multiple和RUS-replacement比RUS-once的分類效果更好。與CART及其Bagging和Adaboost集成分類器相比,在WEBSPAM UK-2006數(shù)據(jù)集上,RUS-multiple和RUS-replacement方法的AUC指標(biāo)值提高了10%左右,在WEBSPAM UK-2007數(shù)據(jù)集上,提高了25%左右;與其他最優(yōu)研究結(jié)果相比,RUS-multiple和RUS-replacement方法在AUC指標(biāo)上能達(dá)到最優(yōu)分類結(jié)果。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
三種用于垃圾網(wǎng)頁(yè)檢測(cè)的隨機(jī)欠采樣集成分類器下載
相關(guān)電子資料下載
- OpenAI發(fā)布圖像檢測(cè)分類器,可區(qū)分AI生成圖像與實(shí)拍照片 204
- 機(jī)器學(xué)習(xí)多分類任務(wù)深度解析 625
- 電池研發(fā)再現(xiàn)黑科技,鋰電巨頭正借此突破關(guān)鍵瓶頸! 701
- 揭秘大語(yǔ)言模型可信能力的五個(gè)關(guān)鍵維度 240
- 機(jī)器視覺(jué)之Halcon入門(mén)學(xué)習(xí) 780
- 使用RayDF方法突破3D形狀重建方案 328
- 一套試題看看您對(duì)深度學(xué)習(xí)了解多少? 136
- 機(jī)器學(xué)習(xí)常用的5種采樣方法盤(pán)點(diǎn) 571
- SLAM/SfM相似非回環(huán)場(chǎng)景應(yīng)該如何處理? 492
- faster rcnn網(wǎng)絡(luò)結(jié)構(gòu)詳解(四個(gè)切入點(diǎn)) 677