一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何找出數(shù)據(jù)集的基礎結構?如何聚類和建立最有效的分組?

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-06-30 09:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如何找出數(shù)據(jù)集的基礎結構?如何聚類和建立最有效的分組?如何在壓縮格式后有效地表達數(shù)據(jù)?這些都是無監(jiān)督學習的目標。它是“無監(jiān)督”的——因為你是從未經(jīng)標記的數(shù)據(jù)開始的(沒有Y)。

在這篇文章中,我們要探討的無監(jiān)督學習任務主要有兩個,一是通過相似性把數(shù)據(jù)聚類成組,二是以降低維度的方式壓縮數(shù)據(jù),同時保持其結構和可用性。

無監(jiān)督學習可能涉及的場景:

某廣告平臺把美國消費者細分為有類似購物習慣的較小群體,以便更精準地向他們投放廣告;

Airbnb將根據(jù)社區(qū)對住房列表進行分組,以便用戶能更簡便地進行查詢;

數(shù)據(jù)科學研究團隊降低大型數(shù)據(jù)集的維度,以簡化模型和控制文件大小。

與監(jiān)督學習相比,我們無法提前預測無監(jiān)督學習算法的具體效果,它的“表現(xiàn)”往往是主觀的,只面向特定領域。

聚類

在現(xiàn)實世界中,聚類的一個典型案例是市場數(shù)據(jù)提供商Acxiom的系統(tǒng)Personicx,它把美國家庭分為21個生活水平群體,又在其下細分出79類不同群組。也許這看起來并沒有多大用處,但對于廣告商來說,這些數(shù)據(jù)成了他們在Facebook上確定廣告投放地區(qū)、時間段的重要依據(jù)。

Personicx人口聚類

在白皮書中,Acxiom稱系統(tǒng)使用的聚類方法是質心聚類和主成分分析,之后我們會對它們做簡要介紹。

你可以想象,這些數(shù)據(jù)精準地切合了廣告商的需求。對于迫切希望通過推送廣告來達到立竿見影效果的廣告商而言,他們重視的內容有兩個:一是了解目標消費者的群體大小;二是通過針對消費者的人口統(tǒng)計特征,如興趣愛好和生活方式,挖掘潛在的新客戶。

Acxiom有一個名為“我的聚類是什么”的小工具,只需回答幾個簡單問題,你就能知道算法對你的分類

讓我們先從聚類算法開始,慢慢了解他們是怎么做的。

k-means聚類

聚類是一種涉及數(shù)據(jù)點分組的機器學習技術。給定一組數(shù)據(jù)點,我們可以用聚類算法將每個數(shù)據(jù)點到分類到圖像中的特定組中。理論上,同一組中的數(shù)據(jù)點應具有相似的屬性和特征,而不同組中的數(shù)據(jù)點的屬性和特征則應高度不同。

通過k-means算法,我們能把目標數(shù)據(jù)點聚類為k個簇。k值越大,簇越少,每一簇包含的數(shù)據(jù)點就越多;k值越小,簇越多,每一簇包含的數(shù)據(jù)點就越少。

該算法的輸出是一堆打好了“標簽”的數(shù)據(jù)點,每個標簽指向數(shù)據(jù)點所屬的k簇。進行聚類時,算法會根據(jù)k值為數(shù)據(jù)定義k個聚類質心點,這些質心就像是每個簇的核心,它們不斷“捕捉”最接近自己的點并把它們添加進聚類中。

如果這還不夠形象,那你也可以把它們想成派對舞會上出現(xiàn)的那些充滿魅力的人,他們瞬間就能引起身邊人的關注。如果這樣的人只有一個,那全場人都會聚集在他身邊;如果有很多個,那舞會上就會形成許多較小的活動團體。

以下是k-means聚類的簡要步驟:

1. 定義k個質心。隨機初始化k個質心;

2. 為質心找到最接近它的數(shù)據(jù)點并構建簇。將每個數(shù)據(jù)點分配給k個質心中的一個,分配依據(jù)是數(shù)據(jù)點和質心的接近程度,也就是歐氏距離平方和最小。

3. 更新質心位置,將它移到更新后簇的中心。計算簇中所有點的平均位置,這個得出的新向量就是質心的新位置。

k-means聚類的一個實際應用是對手寫數(shù)字進行分類。假設我們有一些黑白的數(shù)字圖像,圖像的像素為64 × 64,每個像素代表一個維度,那么這些圖像就有64 × 64 = 4,096個維度。在這個4,096維的空間中,k-means算法能把所有聚集緊密的像素點聚類成一個簇,假設它們同屬于一個數(shù)字。實踐證明,這種做法在數(shù)字識別上取得了非常好的結果。

層次聚類

層次聚類和常規(guī)的聚類算法大體相似,它的不同之處在于它聚類的簇具有層次結構。這對于一些有不同靈活性需求的任務來說很有用,如想象一下Amazon的網(wǎng)上商城,它的主頁上有很多分組的商品,通過導航欄,我們能找到目標商品所屬的大類,之后再是更細分的、更具體的小類。對于一些項目集群,像這樣逐層提高數(shù)據(jù)顆粒密度是有價值的。

就算法的輸出而言,除了聚類成各個子集,層次聚類的一個優(yōu)點是可以呈現(xiàn)一整棵樹,并由你自行選擇要聚類成什么效果,比如簇的數(shù)量。

以下是參差聚類的簡要步驟:

1. 定義N個簇,每個簇包含1個數(shù)據(jù)點;

2. 合并彼此最接近的兩個簇,現(xiàn)在我們就有N-1個簇;

3. 重新計算各簇之間的距離。對于計算距離,我們有多種方法,其中一種是將兩個簇之間的距離視為他們各自數(shù)據(jù)點之間的平均距離。

4. 重復步驟2和3,直到最后獲得一個包含所有數(shù)據(jù)點的簇。這時我們得到了一棵樹,如下圖所示。

5. 選取多個簇并在樹狀圖上繪制一條水平線。例:如果我們想要k = 2個簇,那就應該在distance = 20000的位置畫一條線,這時我們就能得到一個包含數(shù)據(jù)點8、9、11、16的簇以及另一個簇。簇的數(shù)量等于水平線和樹狀圖的交點數(shù)。

降維

降維聽起來和壓縮差不多。它是為了盡量減少數(shù)據(jù)的復雜性,同時保持盡可能多的相關結構。如果我們有一張128 × 128 × 3的圖像(長×寬×RGB),它的數(shù)據(jù)維度就是49,152。這時,如果我們能在不破壞圖象原有內容的前提下降低圖像所在空間的維度,這對于后續(xù)計算是十分有幫助的。

讓我們先通過實踐看看兩種用于降維的主要方法:主成分分析和奇異值分解。

主成分分析(PCA)

在開始講解前,我們先來做一個線性代數(shù)小復習——向量空間和基。

在一個普通的平面坐標中,原點O是(0, 0),基向量i為(1, 0),j為(0, 1)。但事實證明,我們可以選擇一個完全不同的基,比如把i'=(2, 1)和j'=(1, 2)作為基向量,這就成了另一個坐標系。如果你有耐心,你可以計算出原來iOj坐標系上的(2, 2)到i'Oj'上會變成(6, 6)。

這樣做的意義在于我們能改變向量空間的基,想象更高維的空間,比如5萬維。選擇一個基,挑選出其中最重要的200個基向量,我們把這些向量稱之為“主成分”。這之后,你挑出的向量子集就能構成一個新的向量空間,它的維度比原來的更低,但保留了大部分數(shù)據(jù)復雜性。

選擇最重要的主成分,考察它保留了多少差異性,然后按照這個指標進行排序。

PCA的另一個用處在于降低數(shù)據(jù)文件大小。經(jīng)過重新映射后,原本的數(shù)據(jù)空間會被壓縮至低維,更有利于之后的計算。

擴展閱讀:Diffusion Mapping and PCA on the WikiLeaks Cable Database

地址:http://mou3amalet.com/cargocollective/675_xuesabri-final.pdf

奇異值分解(SVD)

讓我們將數(shù)據(jù)表示為一個較大的A = m × n的矩陣。SVD是一種計算,它允許我們將該大矩陣分解為3個較小矩陣(U = m × r,對角矩陣Σ= r × r,以及V = r × n,其中r是一個小數(shù))的乘積。

以下是一個直觀的例子。

r*r對角矩陣Σ中的值被稱為奇異值。它們的神奇之處在于可以用來壓縮原始矩陣。如果我們在原始矩陣U和V中刪除最小的20%奇異值的相關列,矩陣會縮小很多,但仍能很好地表示底層矩陣。為了更準確地展示它的效果,我們可以來看看這條狗:

首先,如果我們按照量級對奇異值(矩陣Σ的值)進行排序,則前50個奇異值包含整個矩陣Σ85%的量值。

因此我們可以把矩陣Σ中剩下的250個值舍去,也就是設置為0,獲得一個“rank 50”的版本。在下圖中,我們分別列舉了200、100、50、30、20、10和3的狗,可以看出,隨著圖片空間逐漸變小,它的清晰度也不斷下降,但就肉眼的觀察情況看,“rank 30”的圖像還是表現(xiàn)出了很多接近原圖的特征。我們可以計算這一過程中算法壓縮了多少空間:原始圖像矩陣有305 × 275 = 83,875個值;“rank 30”的狗則只有305 × 30 + 30 + 30 × 275 = 17,430個值(要算上矩陣U和V乘以0的量)——幾乎是原圖的五分之一。

實戰(zhàn)演練和進階閱讀

k-means聚類

嘗試可視化聚類過程,以建立對算法工作原理更直觀的理解。你也可以參考用k-means聚類手寫數(shù)字的開源項目,并學習坐著列出的各類在線教程。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 聚類
    +關注

    關注

    0

    文章

    146

    瀏覽量

    14435
  • K-means
    +關注

    關注

    0

    文章

    28

    瀏覽量

    11533
  • 數(shù)據(jù)集

    關注

    4

    文章

    1224

    瀏覽量

    25447

原文標題:《Machine Learning for Humans》第五章:無監(jiān)督學習

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    基于模糊分組和監(jiān)督的RBF回歸性能改進

    為了提高RBF 回歸建模的精度,該文提出了一種基于模糊分組和監(jiān)督的RBF 回歸建模的新方法?;舅枷胧牵菏紫壤帽O(jiān)督將訓練樣本模糊劃
    發(fā)表于 11-18 14:13 ?5次下載

    面向大數(shù)據(jù)的粗粒度并行算法研究

    一種面向大數(shù)據(jù)的粗粒度并行算法研究。
    發(fā)表于 01-15 15:08 ?22次下載

    新的模糊有效性指標

    新的模糊有效性指標_趙娜娜
    發(fā)表于 01-07 20:32 ?0次下載

    常用算法有哪些?六大類聚算法詳細介紹

    聚類分析計算方法主要有如下幾種:劃分法、層次法、密度算法、圖論法、網(wǎng)格算法和模型算法。劃分法(partitioning methods),給定一個有N個元組或者紀錄的數(shù)據(jù),分裂法
    發(fā)表于 10-25 19:18 ?17.7w次閱讀
    常用<b class='flag-5'>聚</b><b class='flag-5'>類</b>算法有哪些?六大類聚<b class='flag-5'>類</b>算法詳細介紹

    基于網(wǎng)格的快速搜尋密度峰值的算法優(yōu)化研究

    CFSFDP是基于密度的新型算法,可非球形數(shù)據(jù),具有
    發(fā)表于 11-21 15:08 ?15次下載

    集成式位置敏感

    針對常用圖像尤其是圖像視覺方法速度慢、不支持增量
    發(fā)表于 01-08 16:38 ?0次下載

    基于距離最大化和缺失數(shù)據(jù)的填充算法

    的最大距離確定聚中心,自動產(chǎn)生個數(shù),提高效果;其次,對
    發(fā)表于 01-09 10:56 ?0次下載
    基于距離最大化和缺失<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>聚</b><b class='flag-5'>類</b>的填充算法

    關聯(lián)函數(shù)的數(shù)據(jù)算法

    傳統(tǒng)數(shù)據(jù)算法大多基于距離或密度,質量和處理效率都不高。針對以上問題,提出了一種基于關聯(lián)函數(shù)的數(shù)
    發(fā)表于 02-10 11:54 ?2次下載

    大文本數(shù)據(jù)的間接譜

    針對譜存在計算瓶頸的問題,提出了一種快速的集成算法,稱為間接譜。它首先運用K-Means算法對數(shù)據(jù)
    發(fā)表于 02-24 14:43 ?0次下載

    數(shù)據(jù)算法

    面對結構復雜的數(shù)據(jù),譜是一種靈活而有效
    發(fā)表于 03-01 10:10 ?0次下載

    如何使用概率模型進行非均勻數(shù)據(jù)算法的設計介紹

    數(shù)據(jù)的目標優(yōu)化函數(shù),并定義了優(yōu)化該函數(shù)的期望最大化( EM)型算法。分析結果表明,所提算法可以進行非均勻
    發(fā)表于 12-13 10:57 ?10次下載

    按照特征分組的異常入侵檢測系統(tǒng)

    參數(shù)保留特征分組內的差異信息,使用決策樹C4.5算法對降維后的數(shù)據(jù)進行入侵分類處理。實驗結果表明,該方法能夠使 kddcup99數(shù)據(jù)
    發(fā)表于 05-13 15:50 ?2次下載

    基于群組和密度的大規(guī)模軌跡算法

    現(xiàn)有基于密度的方法主要用于點數(shù)據(jù),不適用于大規(guī)模軌跡數(shù)據(jù)。針對該問題,提出一種利用群組
    發(fā)表于 05-14 10:44 ?2次下載

    可提取非線性結構的子空間方法

    的過程和模型設計,發(fā)現(xiàn)基于子空間的方法存在難以保持數(shù)據(jù)非線性和局部幾何結構的問題。為此,文中提出了一種可以提取非線性結構的子空間
    發(fā)表于 05-18 14:01 ?2次下載

    K-means算法指南

    技術領域中,K-means可能是最常見和經(jīng)常使用的技術之一。K-means使用迭代細化方法,基于用戶定義的集群數(shù)量(由變量K表示)和數(shù)據(jù)來產(chǎn)生其最終
    的頭像 發(fā)表于 10-28 14:25 ?1915次閱讀