”物以類聚,人以群分“!這句話的核心思想就是聚類!聚類是典型的無監(jiān)督學(xué)習方法。不同于分類,分類是有監(jiān)督學(xué)習,樣本都有標簽,分類模型重點考查的是模型的泛化能力,而聚類是按要求給樣本加標簽,重點考查模型聚類的效果,通常無訓(xùn)練集與測試集的劃分。什么是聚類?所謂數(shù)據(jù)聚類是指根據(jù)數(shù)據(jù)的內(nèi)在性質(zhì)將數(shù)據(jù)分成一些聚合類,每一聚合類中的元素盡可能具有相同的特性,不同聚合類之間的特性差別盡可能大。聚類分析的目的是分析數(shù)據(jù)是否屬于各個獨立的分組,使一組中的成員彼此相似,而與其他組中的成員不同。它對一個數(shù)據(jù)對象的集合進行分析,但與分類分析不同的是,所劃分的類是未知的,因此,聚類分析也稱為無指導(dǎo)或無監(jiān)督(Unsupervised)學(xué)習。聚類分析的一般方法是將數(shù)據(jù)對象分組為多個類或簇(Cluster),在同一簇中的對象之間具有較高的相似度,而不同簇中的對象差異較大。由于聚類分析的上述特征,在許多應(yīng)用中,對數(shù)據(jù)集進行了聚類分析后,可將一個簇中的各數(shù)據(jù)對象作為一個整體對待。數(shù)據(jù)聚類 (Cluster analysis) 是對于靜態(tài)數(shù)據(jù)分析的一門技術(shù),在許多領(lǐng)域受到廣泛應(yīng)用,包括機器學(xué)習,數(shù)據(jù)挖掘,模式識別,圖像分析以及生物信息。在物聯(lián)網(wǎng)時代,傳感器的數(shù)據(jù)比牛毛還多。作為數(shù)據(jù)分析中的主要手段——聚類肯定派的上用場。那就在大學(xué)先打下堅實的基礎(chǔ)吧!
聚類有哪幾種方法?
常用的聚類方法有:K-Means,AgglomerativeClustering,DBSCAN,MeanShift,SpectralClustering等。這里介紹其中的幾個聚類分析算法。
K-Means
K-均值聚類也稱為快速聚類法,在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù)K。該算法原理簡單并便于處理大量數(shù)據(jù)。本系列文章將展示算法程序!
K-中心點
K-均值算法對孤立點的敏感性,K-中心點算法不采用簇中對象的平均值作為簇中心,而選用簇中離平均值最近的對象作為簇中心。
系統(tǒng)聚類
也稱為層次聚類,分類的單位由高到低呈樹形結(jié)構(gòu),且所處的位置越低,其所包含的對象就越少,但這些對象間的共同特征越多。該聚類方法只適合在小數(shù)據(jù)量的時候使用,數(shù)據(jù)量大的時候速度會非常慢。
K-means方法!
這是本文講解的重點!先來看這種方法的原理和步驟!
1)從數(shù)據(jù)集中隨機抽取k個樣本作為初始聚類的中心,由這個中心代表各個聚類。
2)計算數(shù)據(jù)集中所有的樣本到這k個中心點的距離(哪幾種距離),并將樣本點歸到離其最近的聚類里。
3)將聚類的中心點移動到各類的幾何中心(即平均值)處。
4)重復(fù)第2步直到聚類的中心不再移動,此時算法收斂或者迭代的次數(shù)達到上限。
推薦一本好書!在這方面講的非常好!照片為證!
仔細看看!
距離!
將樣本點分到距離聚類中心最近的那個簇中需要最近鄰的度量策略,在歐式空間中采用的是歐式距離,在處理文檔中采用的是余弦相似度函數(shù),有時候也采用曼哈頓距離作為度量,不同的情況使用的度量公式是不同的。
原文標題:大學(xué)課程 數(shù)據(jù)分析 實戰(zhàn)之K-means算法(1)理論講解
-
通信網(wǎng)絡(luò)
+關(guān)注
關(guān)注
22文章
2077瀏覽量
53001
原文標題:大學(xué)課程 數(shù)據(jù)分析 實戰(zhàn)之K-means算法(1)理論講解
文章出處:【微信號:gh_30373fc74387,微信公眾號:通信工程師專輯】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
張飛FOC磁場定向控制有感、無感電機驅(qū)動視頻課程及STM32開發(fā)套件(共257集)
Mathematica 在數(shù)據(jù)分析中的應(yīng)用
數(shù)據(jù)可視化與數(shù)據(jù)分析的關(guān)系
LLM在數(shù)據(jù)分析中的作用
eda與傳統(tǒng)數(shù)據(jù)分析的區(qū)別
為什么選擇eda進行數(shù)據(jù)分析
raid 在大數(shù)據(jù)分析中的應(yīng)用
數(shù)據(jù)分析在數(shù)字化中的作用
云計算在大數(shù)據(jù)分析中的應(yīng)用
電梯按需維?!肮收项A(yù)測”算法模型數(shù)據(jù)分析
IP 地址大數(shù)據(jù)分析如何進行網(wǎng)絡(luò)優(yōu)化?

評論