通常,我們?cè)谘芯颗c處理事物時(shí),經(jīng)常需要將事物進(jìn)行分類,例如地質(zhì)勘探中根據(jù)物探、化探的指標(biāo)將樣本進(jìn)行分類;古生物研究中根據(jù)挖掘出的骨骼形狀和尺寸將它們分類;大壩監(jiān)控中由于所得的觀測(cè)數(shù)據(jù)量十分龐大,有時(shí)亦需將它們分類歸并,獲得其典型代表再進(jìn)行深入分析等,對(duì)事物進(jìn)行分類,進(jìn)而歸納并發(fā)現(xiàn)其規(guī)律已成為人們認(rèn)識(shí)世界、改造世界的一種重要方法。
由于對(duì)象的復(fù)雜性,僅憑經(jīng)驗(yàn)和專業(yè)知識(shí)有時(shí)不能確切地分類,隨著多元統(tǒng)計(jì)技術(shù)的發(fā)展和計(jì)算機(jī)技術(shù)的普及,利用數(shù)學(xué)方法進(jìn)行更科學(xué)的分類不僅非常必要而且完全可能。
近些年來(lái),數(shù)值分類學(xué)逐漸形成了一個(gè)新的分支,稱為聚類分析,聚類分析適用于很多不同類型的數(shù)據(jù)集合,很多研究領(lǐng)域,如工程、生物、醫(yī)藥、語(yǔ)言、人類學(xué)、心理學(xué)和市場(chǎng)學(xué)等,都對(duì)聚類技術(shù)的發(fā)展和應(yīng)用起到了推動(dòng)作用。
什么是聚類分析?
聚類分析也稱群分析或點(diǎn)群分析,它是研究多要素事物分類問(wèn)題的數(shù)量方法,是一種新興的多元統(tǒng)計(jì)方法,是當(dāng)代分類學(xué)與多元分析的結(jié)合。其基本原理是,根據(jù)樣本自身的屬性,用數(shù)學(xué)方法按照某種相似性或差異性指標(biāo),定量地確定樣本之間的親疏關(guān)系,并按這種親疏關(guān)系程度對(duì)樣本進(jìn)行聚類。
聚類分析是將分類對(duì)象置于一個(gè)多維空問(wèn)中,按照它們空問(wèn)關(guān)系的親疏程度進(jìn)行分類。
通俗的講,聚類分析就是根據(jù)事物彼此不同的屬性進(jìn)行辨認(rèn),將具有相似屬性的事物聚為一類,使得同一類的事物具有高度的相似性。
聚類分析方法,是定量地研究地理事物分類問(wèn)題和地理分區(qū)問(wèn)題的重要方法,常見的聚類分析方法有系統(tǒng)聚類法、動(dòng)態(tài)聚類法和模糊聚類法等。
聚類分析方法有什么好處
聚類分析:將個(gè)體(樣品)或者對(duì)象(變量)按相似程度(距離遠(yuǎn)近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強(qiáng)。目的在于使類間元素的同質(zhì)性最大化和類與類間元素的異質(zhì)性最大化。其主要依據(jù)是聚到同一個(gè)數(shù)據(jù)集中的樣本應(yīng)該彼此相似,而屬于不同組的樣本應(yīng)該足夠不相似。
常用聚類方法:系統(tǒng)聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。
注意事項(xiàng):
1. 系統(tǒng)聚類法可對(duì)變量或者記錄進(jìn)行分類,K-均值法只能對(duì)記錄進(jìn)行分類;
2. K-均值法要求分析人員事先知道樣品分為多少類;
3. 對(duì)變量的多元正態(tài)性,方差齊性等要求較高。
應(yīng)用領(lǐng)域:細(xì)分市場(chǎng),消費(fèi)行為劃分,設(shè)計(jì)抽樣方案等
優(yōu)點(diǎn):聚類分析模型的優(yōu)點(diǎn)就是直觀,結(jié)論形式簡(jiǎn)明。
缺點(diǎn):在樣本量較大時(shí),要獲得聚類結(jié)論有一定困難。由于相似系數(shù)是根據(jù)被試的反映來(lái)建立反映被試間內(nèi)在聯(lián)系的指標(biāo),而實(shí)踐中有時(shí)盡管從被試反映所得出的數(shù)據(jù)中發(fā)現(xiàn)他們之間有緊密的關(guān)系,但事物之間卻無(wú)任何內(nèi)在聯(lián)系,此時(shí),如果根據(jù)距離或相似系數(shù)得出聚類分析的結(jié)果,顯然是不適當(dāng)?shù)模?,聚類分析模型本身卻無(wú)法識(shí)別這類錯(cuò)誤。
聚類分析是一種探索性的分析,在分類的過(guò)程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類,聚類分析所使用方法的不同,常常會(huì)得到不同的結(jié)論,不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。
聚類分析的意義是什么
聚類分析指將物理或抽象對(duì)象的集合分組為由類似的對(duì)象組成的多個(gè)類的分析過(guò)程。它是一種重要的人類行為。
聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來(lái)分類。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。
商業(yè):聚類分析被用來(lái)發(fā)現(xiàn)不同的客戶群,并且通過(guò)購(gòu)買模式刻畫不同的客戶群的特征。聚類分析是細(xì)分市場(chǎng)的有效工具,同時(shí)也可用于研究消費(fèi)者行為,尋找新的潛在市場(chǎng)、選擇實(shí)驗(yàn)的市場(chǎng),并作為多元分析的預(yù)處理。
生物:聚類分析被用來(lái)動(dòng)植物分類和對(duì)基因進(jìn)行分類,獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí)
地理:聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫(kù)商趨于的相似性
保險(xiǎn)行業(yè):聚類分析通過(guò)一個(gè)高的平均消費(fèi)來(lái)鑒定汽車保險(xiǎn)單持有者的分組,同時(shí)根據(jù)住宅類型,價(jià)值,地理位置來(lái)鑒定一個(gè)城市的房產(chǎn)分組
因特網(wǎng):聚類分析被用來(lái)在網(wǎng)上進(jìn)行文檔歸類來(lái)修復(fù)信息
電子商務(wù):聚類分析在電子商務(wù)中網(wǎng)站建設(shè)數(shù)據(jù)挖掘中也是很重要的一個(gè)方面,通過(guò)分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務(wù)的用戶了解自己的客戶,向客戶提供更合適的服務(wù)。
-
聚類分析
+關(guān)注
關(guān)注
0文章
16瀏覽量
7505
發(fā)布評(píng)論請(qǐng)先 登錄
星座圖聚類分析的QAM信號(hào)調(diào)制識(shí)別算法及DSP實(shí)現(xiàn)

基于Hadoop與聚類分析的網(wǎng)絡(luò)日志分析模型

基于雙層聚類分析的負(fù)荷形態(tài)組合識(shí)別
spss聚類分析樹狀圖
聚類分析的簡(jiǎn)單案例

評(píng)論