資料介紹
提出了一種基于局部孤立系數(shù)(LOC)的孤立點(diǎn)挖掘算法。該算法是對(duì)基于局部稀疏系數(shù)(LSC)孤立點(diǎn)挖掘論文中局部稀疏率和局部稀疏系數(shù)計(jì)算的一種改進(jìn)。實(shí)驗(yàn)表明,LOC 算法在發(fā)現(xiàn)孤立點(diǎn)方面比LSC 算法更高效。
孤立點(diǎn)檢測在數(shù)據(jù)挖掘領(lǐng)域是一項(xiàng)重要的挖掘技術(shù)。孤立點(diǎn)檢測的研究對(duì)象是數(shù)據(jù)集中
偏離絕大多數(shù)對(duì)象的很小一部分?jǐn)?shù)據(jù)。在許多KDD 應(yīng)用中,研究孤立點(diǎn)比研究聚類更有用、更重要。因?yàn)?,在某些?yīng)用領(lǐng)域中研究孤立點(diǎn)的異常行為能發(fā)現(xiàn)隱藏在數(shù)據(jù)集中更有價(jià)值的知識(shí)。諸如,在欺詐探測中,孤立點(diǎn)可能預(yù)示著欺詐行為;在市場分析中,可用于確定極低或極高的收入的消費(fèi)行為;在醫(yī)療分析中,用于發(fā)現(xiàn)對(duì)多種治療方式的不尋常的反映;因此,孤立點(diǎn)檢測是一個(gè)重要的數(shù)據(jù)挖掘任務(wù),稱為孤立點(diǎn)挖掘或異常挖掘。孤立點(diǎn)挖掘可以描述如下:給定一個(gè)n 個(gè)數(shù)據(jù)點(diǎn)或?qū)ο蟮募?,及預(yù)期的孤立點(diǎn)的數(shù)目k,發(fā)現(xiàn)與剩余的數(shù)據(jù)相比是顯著相異的、異常的或不一致的頭k 個(gè)對(duì)象[1]。
在數(shù)據(jù)挖掘中,孤立點(diǎn)檢測算法大體上可分為以下幾類:統(tǒng)計(jì)學(xué)方法,基于距離的方法,基于偏離的方法和基于密度的方法。
基于密度的方法能夠挖掘出比基于距離異常算法所不能識(shí)別的一類異常數(shù)據(jù)—局部異
常。局部異常觀點(diǎn)擯棄了以前所有的異常定義中非此即彼的絕對(duì)異常觀念,這更加符合現(xiàn)實(shí)生活中的應(yīng)用。近年來,一些研究人員提出局部孤立點(diǎn)探測[2,3,4,5],就是對(duì)每個(gè)對(duì)象賦予某個(gè)度,這個(gè)度決定了這個(gè)對(duì)象成為孤立點(diǎn)的程度。每個(gè)點(diǎn)的孤立程度只與它和周圍點(diǎn)的距離有關(guān),而與數(shù)據(jù)集中其他的點(diǎn)沒有任何關(guān)系,這就體現(xiàn)了“局部”的特性。局部稀疏系數(shù)(LSC)就是其中一種,Malik Agyemang 提出的基于局部稀疏系數(shù) (LSC)孤立點(diǎn)挖掘[4]算法的主要思想是對(duì)數(shù)據(jù)集中每個(gè)對(duì)象,計(jì)算出離它最近K 個(gè)對(duì)象的距離,并從中選出最大的距離作為該點(diǎn)的K-距離,對(duì)數(shù)據(jù)集中每個(gè)對(duì)象計(jì)算出與它的距離不大于該對(duì)象K-距離的鄰近對(duì)象形成一個(gè)集合,然后計(jì)算每個(gè)對(duì)象與其對(duì)應(yīng)集合的所有對(duì)象之間平均距離的反比,即局部稀疏率,最后計(jì)算集合內(nèi)所有對(duì)象的局部稀疏率之和與該點(diǎn)的局部稀疏率比值的平均比率,即局部稀疏系數(shù)(LSC);根據(jù)每個(gè)對(duì)象的LSC 值從大到小的順序排列整個(gè)數(shù)據(jù)集,并把前n 個(gè)對(duì)象作為孤立點(diǎn)。
在局部稀疏系數(shù)(LSC)算法中,需要計(jì)算數(shù)據(jù)集中每個(gè)對(duì)象的局部稀疏率和局部稀疏
系數(shù),當(dāng)數(shù)據(jù)集很大時(shí),計(jì)算每個(gè)對(duì)象的局部稀疏率和局部稀疏系數(shù)耗費(fèi)很大的計(jì)算量。本文提出了基于局部孤立系數(shù)(LOC)孤立點(diǎn)算法,它是對(duì)LSC 算法的改進(jìn),LOC 算法的主要思想是:對(duì)于數(shù)據(jù)集中每個(gè)點(diǎn),計(jì)算出離它最近K 個(gè)對(duì)象的距離并選出其中最大距離作為該點(diǎn)的K-距離,并把最近K 個(gè)距離的和作為該點(diǎn)的局部距離之和;然后計(jì)算每個(gè)點(diǎn)的局部距離之和與它K-距離內(nèi)每個(gè)對(duì)象的局部距離之和的總和平均值的比率(LOC)作為該點(diǎn)的孤立因子,按LOC 值從大到小的順序選出前n 個(gè)作為孤立點(diǎn)。本文給出了LSC 算法和LOC 算法的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果表明LOC 算法在發(fā)現(xiàn)孤立點(diǎn)方面比LSC 算法效率高。
孤立點(diǎn)檢測在數(shù)據(jù)挖掘領(lǐng)域是一項(xiàng)重要的挖掘技術(shù)。孤立點(diǎn)檢測的研究對(duì)象是數(shù)據(jù)集中
偏離絕大多數(shù)對(duì)象的很小一部分?jǐn)?shù)據(jù)。在許多KDD 應(yīng)用中,研究孤立點(diǎn)比研究聚類更有用、更重要。因?yàn)?,在某些?yīng)用領(lǐng)域中研究孤立點(diǎn)的異常行為能發(fā)現(xiàn)隱藏在數(shù)據(jù)集中更有價(jià)值的知識(shí)。諸如,在欺詐探測中,孤立點(diǎn)可能預(yù)示著欺詐行為;在市場分析中,可用于確定極低或極高的收入的消費(fèi)行為;在醫(yī)療分析中,用于發(fā)現(xiàn)對(duì)多種治療方式的不尋常的反映;因此,孤立點(diǎn)檢測是一個(gè)重要的數(shù)據(jù)挖掘任務(wù),稱為孤立點(diǎn)挖掘或異常挖掘。孤立點(diǎn)挖掘可以描述如下:給定一個(gè)n 個(gè)數(shù)據(jù)點(diǎn)或?qū)ο蟮募?,及預(yù)期的孤立點(diǎn)的數(shù)目k,發(fā)現(xiàn)與剩余的數(shù)據(jù)相比是顯著相異的、異常的或不一致的頭k 個(gè)對(duì)象[1]。
在數(shù)據(jù)挖掘中,孤立點(diǎn)檢測算法大體上可分為以下幾類:統(tǒng)計(jì)學(xué)方法,基于距離的方法,基于偏離的方法和基于密度的方法。
基于密度的方法能夠挖掘出比基于距離異常算法所不能識(shí)別的一類異常數(shù)據(jù)—局部異
常。局部異常觀點(diǎn)擯棄了以前所有的異常定義中非此即彼的絕對(duì)異常觀念,這更加符合現(xiàn)實(shí)生活中的應(yīng)用。近年來,一些研究人員提出局部孤立點(diǎn)探測[2,3,4,5],就是對(duì)每個(gè)對(duì)象賦予某個(gè)度,這個(gè)度決定了這個(gè)對(duì)象成為孤立點(diǎn)的程度。每個(gè)點(diǎn)的孤立程度只與它和周圍點(diǎn)的距離有關(guān),而與數(shù)據(jù)集中其他的點(diǎn)沒有任何關(guān)系,這就體現(xiàn)了“局部”的特性。局部稀疏系數(shù)(LSC)就是其中一種,Malik Agyemang 提出的基于局部稀疏系數(shù) (LSC)孤立點(diǎn)挖掘[4]算法的主要思想是對(duì)數(shù)據(jù)集中每個(gè)對(duì)象,計(jì)算出離它最近K 個(gè)對(duì)象的距離,并從中選出最大的距離作為該點(diǎn)的K-距離,對(duì)數(shù)據(jù)集中每個(gè)對(duì)象計(jì)算出與它的距離不大于該對(duì)象K-距離的鄰近對(duì)象形成一個(gè)集合,然后計(jì)算每個(gè)對(duì)象與其對(duì)應(yīng)集合的所有對(duì)象之間平均距離的反比,即局部稀疏率,最后計(jì)算集合內(nèi)所有對(duì)象的局部稀疏率之和與該點(diǎn)的局部稀疏率比值的平均比率,即局部稀疏系數(shù)(LSC);根據(jù)每個(gè)對(duì)象的LSC 值從大到小的順序排列整個(gè)數(shù)據(jù)集,并把前n 個(gè)對(duì)象作為孤立點(diǎn)。
在局部稀疏系數(shù)(LSC)算法中,需要計(jì)算數(shù)據(jù)集中每個(gè)對(duì)象的局部稀疏率和局部稀疏
系數(shù),當(dāng)數(shù)據(jù)集很大時(shí),計(jì)算每個(gè)對(duì)象的局部稀疏率和局部稀疏系數(shù)耗費(fèi)很大的計(jì)算量。本文提出了基于局部孤立系數(shù)(LOC)孤立點(diǎn)算法,它是對(duì)LSC 算法的改進(jìn),LOC 算法的主要思想是:對(duì)于數(shù)據(jù)集中每個(gè)點(diǎn),計(jì)算出離它最近K 個(gè)對(duì)象的距離并選出其中最大距離作為該點(diǎn)的K-距離,并把最近K 個(gè)距離的和作為該點(diǎn)的局部距離之和;然后計(jì)算每個(gè)點(diǎn)的局部距離之和與它K-距離內(nèi)每個(gè)對(duì)象的局部距離之和的總和平均值的比率(LOC)作為該點(diǎn)的孤立因子,按LOC 值從大到小的順序選出前n 個(gè)作為孤立點(diǎn)。本文給出了LSC 算法和LOC 算法的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果表明LOC 算法在發(fā)現(xiàn)孤立點(diǎn)方面比LSC 算法效率高。
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- 解決辦法:虛擬機(jī)狀態(tài)顯示孤立的,打開電源失敗
- 集成流挖掘和圖挖掘的內(nèi)網(wǎng)異常檢測方法 7次下載
- 如何使用MATLAB進(jìn)行語音識(shí)別算法研究的論文資料免費(fèi)下載 44次下載
- 自適應(yīng)局部均值的EMD方法 0次下載
- 含高滲透率光伏電源的孤立電網(wǎng)機(jī)組組合 0次下載
- 孤立微電網(wǎng)分布式二級(jí)功率優(yōu)化控制 11次下載
- 基于神經(jīng)網(wǎng)絡(luò)的漢語孤立詞語音識(shí)別_朱淑琴 0次下載
- 柔性直流輸電改善孤立電網(wǎng)穩(wěn)定性的研究 21次下載
- 基于TMS320C6711 DSP的非特定人、孤立詞語音識(shí)別
- 基于片上系統(tǒng)SoC的孤立詞語音識(shí)別算法設(shè)計(jì)
- 基于片上系統(tǒng)SoC的孤立詞語音識(shí)別算法設(shè)計(jì)
- 稅務(wù)系統(tǒng)信息集成的研究和實(shí)現(xiàn)
- 基于灰色關(guān)聯(lián)分析的孤立點(diǎn)挖掘算法
- 工程熱力學(xué)試卷試題-華南理工大學(xué)2004年研究生入學(xué)考試試卷
- 基于平均密度的孤立點(diǎn)檢測研究
- 開關(guān)電容加法器的電路詳解 1130次閱讀
- 噪聲系數(shù)是什么?噪聲系數(shù)在系統(tǒng)中的應(yīng)用有哪些? 4689次閱讀
- 數(shù)字PLL孤立頻點(diǎn)失鎖是什么原因?又應(yīng)該怎么解決呢? 1753次閱讀
- 通過RepSurf點(diǎn)云結(jié)構(gòu)實(shí)現(xiàn)多項(xiàng)任務(wù)SOTA 1591次閱讀
- 局部放電以及為什么應(yīng)該檢測局部放電? 5537次閱讀
- 使用STM32實(shí)現(xiàn)云連接應(yīng)用的資料概述 3722次閱讀
- 局部放電的定義_局部放電的類型和特點(diǎn) 2w次閱讀
- 局部放電的危害_局部放電產(chǎn)生原因 1.1w次閱讀
- 熱擴(kuò)散系數(shù)的定義及測量 1.8w次閱讀
- 關(guān)于Velodyne LiDAR的時(shí)間同步 2w次閱讀
- 梯度下降兩大痛點(diǎn):陷入局部極小值和過擬合 2w次閱讀
- 怎么學(xué)習(xí)數(shù)據(jù)挖掘_如何系統(tǒng)地學(xué)習(xí)數(shù)據(jù)挖掘 4805次閱讀
- 什么叫數(shù)據(jù)挖掘_數(shù)據(jù)挖掘技術(shù)解析 1.9w次閱讀
- 基于Matlab的孤立逆變電源設(shè)計(jì)方案 3761次閱讀
- 通信連接器的分類及應(yīng)用 3640次閱讀
下載排行
本周
- 1DC電源插座圖紙
- 0.67 MB | 2次下載 | 免費(fèi)
- 2AN158 GD32VW553 Wi-Fi開發(fā)指南
- 1.51MB | 2次下載 | 免費(fèi)
- 3AN148 GD32VW553射頻硬件開發(fā)指南
- 2.07MB | 1次下載 | 免費(fèi)
- 4AN111-LTC3219用戶指南
- 84.32KB | 次下載 | 免費(fèi)
- 5AN153-用于電源系統(tǒng)管理的Linduino
- 1.38MB | 次下載 | 免費(fèi)
- 6AN-283: Σ-Δ型ADC和DAC[中文版]
- 677.86KB | 次下載 | 免費(fèi)
- 7SM2018E 支持可控硅調(diào)光線性恒流控制芯片
- 402.24 KB | 次下載 | 免費(fèi)
- 8AN-1308: 電流檢測放大器共模階躍響應(yīng)
- 545.42KB | 次下載 | 免費(fèi)
本月
- 1ADI高性能電源管理解決方案
- 2.43 MB | 450次下載 | 免費(fèi)
- 2免費(fèi)開源CC3D飛控資料(電路圖&PCB源文件、BOM、
- 5.67 MB | 138次下載 | 1 積分
- 3基于STM32單片機(jī)智能手環(huán)心率計(jì)步器體溫顯示設(shè)計(jì)
- 0.10 MB | 130次下載 | 免費(fèi)
- 4使用單片機(jī)實(shí)現(xiàn)七人表決器的程序和仿真資料免費(fèi)下載
- 2.96 MB | 44次下載 | 免費(fèi)
- 53314A函數(shù)發(fā)生器維修手冊
- 16.30 MB | 31次下載 | 免費(fèi)
- 6美的電磁爐維修手冊大全
- 1.56 MB | 24次下載 | 5 積分
- 7如何正確測試電源的紋波
- 0.36 MB | 17次下載 | 免費(fèi)
- 8感應(yīng)筆電路圖
- 0.06 MB | 10次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935121次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420062次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233088次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191367次下載 | 10 積分
- 5十天學(xué)會(huì)AVR單片機(jī)與C語言視頻教程 下載
- 158M | 183335次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81581次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73810次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65988次下載 | 10 積分
評(píng)論