一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于MapReduce模型的并行化k-medoids聚類算法

SwM2_ChinaAET ? 來源:未知 ? 作者:李倩 ? 2018-05-18 09:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要:

隨著電力通信技術(shù)的發(fā)展,產(chǎn)生了大量分布式電力通信子系統(tǒng)以及海量電力通信數(shù)據(jù),在海量數(shù)據(jù)中挖掘重要信息變得十分重要。聚類分析作為數(shù)據(jù)并行化處理和信息挖掘的一個有效手段,在電力通信中得到了廣泛的應(yīng)用。然而,傳統(tǒng)聚類算法在處理海量電力數(shù)據(jù)時已不能滿足時間性能的要求。針對這一問題,提出了一種基于MapReduce模型的并行化k-medoids聚類算法,首先采用基于密度的聚類思想對k-medoids算法初始點的選取策略進(jìn)行優(yōu)化,并利用Hadoop平臺下的MapReduce編程框架實現(xiàn)了算法的并行化處理。實驗結(jié)果表明,改進(jìn)的并行化聚類算法與其他算法相比,減少了聚類時間,提高了聚類精度,有利于對電力數(shù)據(jù)的有效分析和利用

0 引言

隨著電力通信網(wǎng)絡(luò)以功能為中心持續(xù)性發(fā)展,產(chǎn)生了大量分專業(yè)、分功能和分管理域的運維管理系統(tǒng),進(jìn)而導(dǎo)致大量電力數(shù)據(jù)孤島的產(chǎn)生。如何利用分布式系統(tǒng)更好地處理這些數(shù)據(jù)量巨大且類型復(fù)雜的電力通信運維數(shù)據(jù)已成為研究的熱點問題。聚類分析作為數(shù)據(jù)處理的一個有效手段,支持對大量無序分散數(shù)據(jù)進(jìn)行整合分類從而進(jìn)行更深層次的關(guān)聯(lián)性分析或者數(shù)據(jù)挖掘,在電力通信網(wǎng)絡(luò)中得到越來越廣泛的應(yīng)用。同時,分布式系統(tǒng)中并行化處理機制因其優(yōu)秀的靈活性和高效性逐漸成為數(shù)據(jù)挖掘的一個重要研究方向。

國內(nèi)外學(xué)者也越來越對這方面加大關(guān)注,文獻(xiàn)[1]提出了一種基于DBSACN算法的并行優(yōu)化的聚類算法。文獻(xiàn)[2]中通過計算距離選擇最中心的k個數(shù)據(jù)點作為初始聚類中心,然后用k-medoids算法進(jìn)行迭代聚類,提高了聚類效果,但不適合處理大規(guī)模數(shù)據(jù);文獻(xiàn)[3]提出了一種蟻群 k-medoids 融合聚類算法,該算法不需要人為確定類簇數(shù)目和初始聚類中心,提高了聚類效果,但也僅只適用于小型數(shù)據(jù)集;文獻(xiàn)[4]采用基于粒計算的聚類算法,該算法在初始聚類中心的選取過程中的計算量較大,且在處理大規(guī)模數(shù)據(jù)時存在時延問題;文獻(xiàn)[5]提出了將局部搜索過程嵌入到迭代局部搜索過程中的方法,顯著減少了計算時間。文獻(xiàn)[6]在Hadoop平臺上實現(xiàn)了傳統(tǒng)k-medoids聚類算法的并行化處理,減少了聚類時間,但在初始聚類中心的選取機制上沒有進(jìn)行改進(jìn),沒有提高聚類效果;文獻(xiàn)[7]采用基于核的自適應(yīng)聚類算法,克服了k-medoids 的初值敏感問題,但是沒有降低算法的時間復(fù)雜度。

綜上所述,k-medoids聚類算法存在初始值敏感、運行速度慢、時間復(fù)雜度較高等問題,需要對k-medoids算法中初始點選取以及并行化方式進(jìn)行算法優(yōu)化設(shè)計。

1 k-medoids聚類初始點選取改進(jìn)機制

k-medoids算法是一種基于劃分的聚類算法,具有簡單、收斂速度快以及對噪聲點不敏感等優(yōu)點,因此在模式識別、數(shù)據(jù)挖掘等領(lǐng)域都得到了廣泛的應(yīng)用。k-medoids算法初始中心點的選取十分重要,如果初始中心點選擇的是離群點時,就會導(dǎo)致由離群點算出的質(zhì)心會偏離整個簇,造成數(shù)據(jù)分析不正確;如果選擇的初始中心點離得太近,就會顯著增加計算的時間消耗。因此本文算法首先對初始中心點的選取進(jìn)行優(yōu)化?;诿芏鹊木垲惪梢院芎玫胤蛛x簇和環(huán)境噪聲,所以本文采用基于密度的聚類思想,盡量減少噪聲數(shù)據(jù)對選取初始點的影響。

定義1:點密度是對于數(shù)據(jù)集U中的數(shù)據(jù)集的樣本點x,以x為球心,某一正數(shù)r為半徑的球形域中所包含樣本點的個數(shù),記作Dens(x)。其中:

本文算法中,首先對每個數(shù)據(jù)點并行計算點密度,并將點密度作為該數(shù)據(jù)點的一個屬性。選取初始聚類中心的具體步驟如下:

(1)計算數(shù)據(jù)集中m個數(shù)據(jù)點之間的距離。

(2)計算每個樣本點的點密度Dens(xi)以及均值點密度AvgDens,將點密度大于AvgDens的點即核心點存入集合T中,并記錄其簇中所包含的數(shù)據(jù)點。

(3)合并所有具有公共核心點的簇。

(4)計算各個簇的類簇密度CDens(ci),選擇其中k個較大密度的簇,計算其中心點,即為初始聚類中心。

類簇中心點的計算方法如下:假設(shè)有一個類簇ci包含m個數(shù)據(jù)點{x1,x2,…,xm},則其中心點ni按如式(5)計算:

經(jīng)過上述步驟,可以優(yōu)化初始聚類中心點的選取,使之后的聚類迭代運算更加有效,降低搜索范圍,大大減少搜索指派的時間。

2 k-medoids聚類算法并行化設(shè)計策略

本文針對k-medoids算法具有初始點選取復(fù)雜、聚類迭代時間久、中心點選取消耗資源過多等缺點,使用Hadoop平臺下的MapReduce編程框架對算法進(jìn)行初始點的點密度計算選取并行化、非中心點分配并行化和中心點更新并行化等方面的改進(jìn)。MapReduce分為Map(映射)和Reduce(化簡)兩部分操作,使用MapReduce實現(xiàn)算法并行化關(guān)鍵在于Map函數(shù)和Reduce函數(shù)的設(shè)計。其中Map函數(shù)將可并行執(zhí)行的多個任務(wù)映射到多個計算節(jié)點,多個計算節(jié)點對各自被分派的任務(wù)并行進(jìn)行處理,Reduce函數(shù)則是在各計算節(jié)點處理結(jié)束后,將計算結(jié)果返回給主進(jìn)程進(jìn)行匯總。

2.1 點密度計算并行化策略

在點密度的計算中,由于一個數(shù)據(jù)點的點密度對其他數(shù)據(jù)點的點密度沒有影響,所以該計算過程是可以并行化的。使用MultithreadedMapper在一個JVM進(jìn)程里以多線程的方式同時運行多個Mapper,每個線程實例化一個Mapper對象,各個線程并發(fā)執(zhí)行。主進(jìn)程把數(shù)據(jù)點分派給若干個不同的計算節(jié)點進(jìn)行處理,計算節(jié)點將數(shù)據(jù)平均分成k份,且有k個線程,每個線程中的數(shù)據(jù)點都與數(shù)據(jù)集中所有點進(jìn)行距離計算,進(jìn)而計算出點密度,最后通過Reduce函數(shù)將計算結(jié)果匯總并輸出。并行處理使得點密度計算所用時間大大減少,提高了算法的執(zhí)行效率。

2.2 非中心點分配及中心點更新并行化策略

非中心點分配階段的主要工作是計算各數(shù)據(jù)點到每個中心點的距離,由于每個數(shù)據(jù)點跟各個中心點距離的計算互不影響,所以該計算過程也是可并行化的。此階段的MapReduce化過程中,Map函數(shù)主要負(fù)責(zé)將數(shù)據(jù)集里除中心點外的每一個樣本點分配給與其距離最近的聚類中心,Reduce函數(shù)則負(fù)責(zé)通過計算更新每一個簇的中心點,按照這個原則迭代下去一直到達(dá)到設(shè)定閾值。主進(jìn)程利用Map函數(shù)把非中心點分配的任務(wù)分派給若干個計算節(jié)點,每個計算節(jié)點采用基于Round-Robin的并行化分配策略。首先把每一個數(shù)據(jù)點看作一個請求,輪詢地分配給不同的線程,對非中心點和每一個中心點的距離進(jìn)行計算,找出最小的距離,然后把該非中心點指派給最小距離所對應(yīng)的中心點。

因為輪詢調(diào)度算法是假設(shè)所有服務(wù)器中的處理性能都是相同,并不關(guān)心每臺服務(wù)器當(dāng)前的計算速度和響應(yīng)速度。因此當(dāng)用戶發(fā)出請求時,如果服務(wù)間隔的時間變化較大的時候,那么Round-Robin調(diào)度算法是非常容易導(dǎo)致服務(wù)器之間的負(fù)載發(fā)生不平衡表現(xiàn)。而本文中所運用的每個數(shù)據(jù)點都是平等的,所以不會造成服務(wù)器分配任務(wù)不均的問題。因此基于Round-Robin的策略是可行的。

本文算法在實現(xiàn)聚類的過程中經(jīng)歷了兩次并行化劃分,分別是非中心點分配和中心點更新過程。這兩次并行化過程是周而復(fù)始的,直到滿足程序退出的條件才會終止循環(huán)。

3 仿真實驗與結(jié)果分析

仿真實驗分別使用本文算法、DBSCAN并行化算法[1]和k-medoids并行化算法[8]進(jìn)行對比試驗,證明各個算法的優(yōu)劣性。為了證明本文算法的有效性,實驗將分析不同算法的聚類時間、聚類準(zhǔn)確度以及增加線程數(shù)之后的時間消耗。實驗將在兩種類型的數(shù)據(jù)集上進(jìn)行測試:

(1)電力數(shù)據(jù)集。電力通信數(shù)據(jù)的屬性有設(shè)備狀態(tài)、設(shè)備資產(chǎn)、網(wǎng)絡(luò)拓?fù)涞?,其?shù)據(jù)量約為1 GB。

(2)公有數(shù)據(jù)集。分別為200數(shù)量級的Northix、1 000數(shù)量級的DSA、5 000數(shù)量級的SSC和10 000數(shù)量級的GPSS。

3.1 電力數(shù)據(jù)集實驗結(jié)果分析

實驗首先設(shè)置6個線程對數(shù)據(jù)集進(jìn)行處理,三種算法對電力數(shù)據(jù)進(jìn)行聚類的結(jié)果見表1。其中k-medoids并行化算法[8]采用標(biāo)簽共現(xiàn)原則對初始點選取進(jìn)行改進(jìn),但沒有考慮線程的分配方式,因此其執(zhí)行效率最差;DBSCAN算法考慮到了初始點的選取,并采用動態(tài)分配策略實現(xiàn)并行化,但在計算動態(tài)分配過程中增加了一定消耗,因此聚類準(zhǔn)確度和執(zhí)行效率都略有提升;本文所提出的算法,既考慮了初始點的合理選取,同時采用簡單有效的并行化分配策略,以減少計算和過多資源占用,因此相對于k-medoids并行化算法和DBSCAN并行化算法執(zhí)行效率大幅提升,準(zhǔn)確度也有所提高。

然后增加線程處理器的數(shù)量至8個,得到下表的聚類結(jié)果,見表2。

由表2可得,使用8個線程時,本文算法比k-medoids并行化算法執(zhí)行時間快了42.64%,比DBSCAN并行化算法快了24.70%。

各類算法增加線程后所用時間相比原算法減少的百分比如圖1。

由圖1可知,k-medoids并行化算法減少了10.20%,DBSCAN并行化算法減少了1.68%,本文算法減少了16.13%,說明本文算法在線程數(shù)增加時,可以更有效地減少運算時間,提高執(zhí)行效率。

3.2 公有數(shù)據(jù)集實驗結(jié)果分析

基于Northix、DSA、SSC和GPSS數(shù)據(jù)集使用5個線程實現(xiàn)算法的聚類準(zhǔn)確度比較見表3。

本文算法的聚類準(zhǔn)確度均高于k-medoids并行化算法和DBSCAN并行化算法,并且在處理較大數(shù)量級的數(shù)據(jù)集時,本文算法準(zhǔn)確度更占優(yōu)勢。不同數(shù)據(jù)集上各算法的執(zhí)行時間如圖2。

根據(jù)圖2,隨著數(shù)據(jù)量的增大,三種算法執(zhí)行效率差異逐漸增大,本文算法性能明顯優(yōu)于k-medoids并行性算法和DBSCAN并行算法。接著對三個算法使用7個線程時的執(zhí)行時間進(jìn)行比較,如圖3所示。

從圖3中可以看出,使用7個線程在1 000、5 000、10 000數(shù)據(jù)級時,本文算法執(zhí)行時間明顯優(yōu)于其他兩個算法。

3.3 實驗小結(jié)

仿真實驗可知,在同一線程數(shù)時,本文算法比對比算法聚類準(zhǔn)確率高,執(zhí)行時間短;在線程數(shù)增加時,本文算法執(zhí)行時間顯著降低;隨著數(shù)據(jù)量的增長,本文算法在保證更高準(zhǔn)確度的基礎(chǔ)上,執(zhí)行時間優(yōu)勢逐漸凸顯。

4 結(jié)論

本文針對電力通信數(shù)據(jù)的聚類處理問題,提出基于密度的聚類思想對k-medoids算法初始點的選取策略進(jìn)行優(yōu)化,并利用MapReduce編程框架實現(xiàn)了算法的并行化處理。通過仿真實驗表明本文提出的優(yōu)化算法可行有效,并具有較好的執(zhí)行效率。在接下來的研究中可以考慮線程數(shù)小于聚類數(shù)時的優(yōu)化分配策略,進(jìn)一步提高算法性能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 聚類算法
    +關(guān)注

    關(guān)注

    2

    文章

    118

    瀏覽量

    12303
  • MapReduce
    +關(guān)注

    關(guān)注

    0

    文章

    45

    瀏覽量

    6547

原文標(biāo)題:【學(xué)術(shù)論文】電力通信大數(shù)據(jù)并行化聚類算法研究

文章出處:【微信號:ChinaAET,微信公眾號:電子技術(shù)應(yīng)用ChinaAET】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    一種改進(jìn)的算法及其在說話人識別上的應(yīng)用

    目前應(yīng)用最廣泛的模糊算法是基于目標(biāo)函數(shù)的模糊k-均值算法,針對該算法存在的缺點,本文提出
    發(fā)表于 09-07 15:35 ?8次下載

    一種基于隨機游動的算法

    該文提出一種改進(jìn)的隨機游動模型,并在此模型的基礎(chǔ)上,發(fā)展了一種數(shù)據(jù)
    發(fā)表于 11-21 11:24 ?7次下載

    一種改進(jìn)的粒子群和K均值混合算法

    該文針對K 均值算法存在的缺點,提出一種改進(jìn)的粒子群優(yōu)化(PSO)和K 均值混合
    發(fā)表于 02-09 14:21 ?10次下載

    一種改進(jìn)的BIRCH算法方法

    為解決傳統(tǒng)BIRCH算法對數(shù)據(jù)對象輸入順序敏感、結(jié)果不穩(wěn)定的問題,提出了一種改進(jìn)的BIRCH算法。該
    發(fā)表于 11-10 15:52 ?1次下載
    <b class='flag-5'>一種</b>改進(jìn)的BIRCH<b class='flag-5'>算法</b><b class='flag-5'>聚</b><b class='flag-5'>類</b>方法

    基于Hash改進(jìn)的k-means算法并行設(shè)計

    為了解決kmeans算法在Hadoop平臺下處理海量高維數(shù)據(jù)時效果差,以及已有的改進(jìn)算法不利于并行
    發(fā)表于 11-24 14:24 ?2次下載
    基于Hash改進(jìn)的<b class='flag-5'>k</b>-means<b class='flag-5'>算法</b><b class='flag-5'>并行</b><b class='flag-5'>化</b>設(shè)計

    K均值算法的MATLAB實現(xiàn)

    K-means算法是最簡單的一種算法。算法的目的
    發(fā)表于 12-01 14:07 ?2.1w次閱讀
    <b class='flag-5'>K</b>均值<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>算法</b>的MATLAB實現(xiàn)

    基于人群疏散仿真的折半算法

    運用社會力模型( SFM)模擬人群疏散之前,需要先對人群進(jìn)行分組;然而,五中心k-medoid
    發(fā)表于 12-03 10:53 ?0次下載

    一種新的人工魚群混合算法

    人工魚群是一種隨機搜索優(yōu)化算法,具有較快的收斂速度,對問題的機理模型與描述無嚴(yán)格要求,具有廣泛的應(yīng)用范圍。本文在該算法的基礎(chǔ)上,結(jié)合傳統(tǒng)的K
    發(fā)表于 12-04 16:18 ?0次下載

    一種高效的基于MapReduce分布式蜂群模式挖掘算法

    ;其次,提出了蜂群模式的并行挖掘模型,利用蜂群模式時間域無關(guān)性,并行化了與子時間域上的蜂群
    發(fā)表于 12-05 19:09 ?0次下載
    <b class='flag-5'>一種</b>高效的基于<b class='flag-5'>MapReduce</b>分布式蜂群模式挖掘<b class='flag-5'>算法</b>

    一種新的基于流行距離的譜算法

    本文提出了一種新的基于流行距離的譜算法,這是一種新型的聚類分析算法。不僅能夠?qū)θ我獾姆且?guī)則形
    發(fā)表于 12-07 14:53 ?3次下載

    基于Spark框架與優(yōu)化的高效KNN分類算法

    。該算法首先利用引入收縮因子的優(yōu)化K-medoids算法對訓(xùn)練集進(jìn)行兩次裁剪;然后在分類過程中迭代K
    發(fā)表于 12-08 17:10 ?0次下載
    基于Spark框架與<b class='flag-5'>聚</b><b class='flag-5'>類</b>優(yōu)化的高效KNN分類<b class='flag-5'>算法</b>

    一種基于MapReduce的圖結(jié)構(gòu)算法

    (tril5)(m為圖中邊的條數(shù)),因此很難處理大規(guī)模的圖數(shù)據(jù)。為了解決SCAN算法的可擴展性問題,提出了一種新穎的基于MapReduce的海量圖結(jié)構(gòu)
    發(fā)表于 12-19 11:05 ?0次下載
    <b class='flag-5'>一種</b>基于<b class='flag-5'>MapReduce</b>的圖結(jié)構(gòu)<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>算法</b>

    距離不等式的K-medoids算法

    ,使得K-medoids算法復(fù)雜度由O(K(n_K)2)降低至D((n
    發(fā)表于 12-22 15:35 ?0次下載
    距離不等式的<b class='flag-5'>K-medoids</b><b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>算法</b>

    一種自適應(yīng)的關(guān)聯(lián)融合算法

    為解決傳統(tǒng)算法多數(shù)需要預(yù)先設(shè)定聚參數(shù)且無法有效識別異常點和噪聲點的問題,提出一種自適應(yīng)的關(guān)聯(lián)融合
    發(fā)表于 04-01 16:16 ?13次下載
    <b class='flag-5'>一種</b>自適應(yīng)的關(guān)聯(lián)融合<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>算法</b>

    基于混合蛙跳算法K-mediods算法

    為了降低K- mediods算法的誤差并提高并行優(yōu)化的性能,將混合蛙跳算法運用于
    發(fā)表于 05-08 16:17 ?4次下載