資料介紹
文本分類是文本數(shù)據(jù)挖掘中一個非常重要的技術,已經(jīng)被廣泛地應用于信息管理、搜
索引擎、推薦系統(tǒng)等多個領域?,F(xiàn)有的文本分類方法,大多是基于向量空間模型的算法。這些算法很難適用于大規(guī)模的文本數(shù)據(jù)集。為此,我們提出了一種基于遺傳算法和信息熵的文本分類規(guī)則抽取方法。在該方法中,信息熵技術用來輔助遺傳算法初始種群的生成。遺傳算法和信息熵的有效集成,極大地提高了該混合方法的分類效率。實驗結(jié)果表明,本文方法適用于大規(guī)模文本數(shù)據(jù)集;該方法提取規(guī)則的分類正確率較高,分類速度較快。
關鍵詞:文本分類;遺傳算法;信息熵;文本挖掘
Extraction Method of Text Classification Rule Based on Genetic Algorithm and Information
Entropy ZHOU Guoping 1, 2, PENG Xiangmei 1, HUANG Guobing 1
(1. Xinyu College, Xinyu, 338031, China;
2. Department of computer science, Nanchang College, Xinyu, 338031, China)
Abstract:Text classification is a very important technique in the field of text mining, and it has been widely applied to the information management, search engine, recommendation systems, and some other fields. Most classification methods are based on vector models, these approaches are highly complicated on computation, and cannot be used on the occasion of classifying a large number of samples. For this reason, a hybrid approach combining genetic algorithm with information entropy is presented for text classification rule extraction. In this hybrid approach, the information entropy technique is applied to assist the generation of initial populations for genetic algorithm. The classification performance of the proposed approach has been improved largely by integrating genetic algorithm with information entropy effectively. The proposed approach can be applied to classify a large number of samples. Experimental results show that both the accuracy and the speed of categorization are high.
Keywords:Text classification; genetic algorithm; information entropy; text mining
- 基于注意力機制的新聞文本分類模型 30次下載
- 基于LSTM的表示學習-文本分類模型 18次下載
- 基于主題分布優(yōu)化的模糊文本分類方法 5次下載
- 一種面向維吾爾語的停用詞抽取方法 3次下載
- 基于不同神經(jīng)網(wǎng)絡的文本分類方法研究對比 49次下載
- 融合文本分類和摘要的多任務學習摘要模型 11次下載
- 一種基于BERT模型的社交電商文本分類算法 8次下載
- 集成WL-CNN和SL-Bi-LSTM的旅游問句文本分類算法 6次下載
- 結(jié)合BERT模型的中文文本分類算法 6次下載
- 基于深度神經(jīng)網(wǎng)絡的文本分類分析 37次下載
- 如何使用Spark計算框架進行分布式文本分類方法的研究 3次下載
- 融合詞語類別特征和語義的短文本分類方法 0次下載
- 基于apiori算法改進的knn文本分類方法 9次下載
- 用于文本分類和文本聚類的特征抽取方法的研究
- 基于文章標題信息的漢語自動文本分類
- 卷積神經(jīng)網(wǎng)絡在文本分類領域的應用 779次閱讀
- 人工智能中文本分類的基本原理和關鍵技術 1361次閱讀
- Instruct-UIE:信息抽取統(tǒng)一大模型 1763次閱讀
- 基于統(tǒng)一語義匹配的通用信息抽取框架USM 1145次閱讀
- 文本分類中處理樣本不均衡和提升模型魯棒性的trick 1076次閱讀
- 使用樸素貝葉斯和GPU進行更快的文本分類 1346次閱讀
- 如何統(tǒng)一各種信息抽取任務的輸入和輸出 1317次閱讀
- 帶你從頭構(gòu)建文本分類器 3640次閱讀
- 訓練一個機器學習模型,實現(xiàn)了根據(jù)基于文本分析預測葡萄酒質(zhì)量 6187次閱讀
- SiATL——最新、最簡易的遷移學習方法 3651次閱讀
- 探討深度文本分類之DPCNN原理與代碼 3406次閱讀
- 如何為文本分類任務選擇正確的模型,這里有一個完整流程圖! 1.2w次閱讀
- 總結(jié)Tensorflow純干貨學習資源,分為教程、視頻和項目三大板塊 1.1w次閱讀
- 基于概率的常見的分類方法--樸素貝葉斯 5263次閱讀
- 詳細解析scikit-learn進行文本分類 4760次閱讀
下載排行
本周
- 1DC電源插座圖紙
- 0.67 MB | 2次下載 | 免費
- 2AN158 GD32VW553 Wi-Fi開發(fā)指南
- 1.51MB | 2次下載 | 免費
- 3AN148 GD32VW553射頻硬件開發(fā)指南
- 2.07MB | 1次下載 | 免費
- 4AN111-LTC3219用戶指南
- 84.32KB | 次下載 | 免費
- 5AN153-用于電源系統(tǒng)管理的Linduino
- 1.38MB | 次下載 | 免費
- 6AN-283: Σ-Δ型ADC和DAC[中文版]
- 677.86KB | 次下載 | 免費
- 7SM2018E 支持可控硅調(diào)光線性恒流控制芯片
- 402.24 KB | 次下載 | 免費
- 8AN-1308: 電流檢測放大器共模階躍響應
- 545.42KB | 次下載 | 免費
本月
- 1ADI高性能電源管理解決方案
- 2.43 MB | 450次下載 | 免費
- 2免費開源CC3D飛控資料(電路圖&PCB源文件、BOM、
- 5.67 MB | 138次下載 | 1 積分
- 3基于STM32單片機智能手環(huán)心率計步器體溫顯示設計
- 0.10 MB | 130次下載 | 免費
- 4使用單片機實現(xiàn)七人表決器的程序和仿真資料免費下載
- 2.96 MB | 44次下載 | 免費
- 53314A函數(shù)發(fā)生器維修手冊
- 16.30 MB | 31次下載 | 免費
- 6美的電磁爐維修手冊大全
- 1.56 MB | 24次下載 | 5 積分
- 7如何正確測試電源的紋波
- 0.36 MB | 17次下載 | 免費
- 8感應筆電路圖
- 0.06 MB | 10次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935121次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設計
- 1.48MB | 420062次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233088次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費下載
- 340992 | 191367次下載 | 10 積分
- 5十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183335次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81581次下載 | 10 積分
- 7Keil工具MDK-Arm免費下載
- 0.02 MB | 73810次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65988次下載 | 10 積分
評論