一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

無(wú)監(jiān)督學(xué)習(xí)的數(shù)據(jù)集變換和聚類

汽車玩家 ? 來(lái)源:CSDN ? 作者:zzc_zhuyu ? 2020-05-04 18:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1、類型

主要有兩種類型:數(shù)據(jù)集變換和聚類。

無(wú)監(jiān)督變換:

降維:接受數(shù)據(jù)的高維表示,找到新的表示方法,以用較少的特征概括重要特性。

找到“構(gòu)成”數(shù)據(jù)的各個(gè)組成部分。例如,文本的主題提取。

聚類:

將數(shù)據(jù)劃分成不同的組,每組包含相似的物項(xiàng)

2、降維

1. 主成分分析(PCA)

一種旋轉(zhuǎn)數(shù)據(jù)集的方法,旋轉(zhuǎn)后的特征在統(tǒng)計(jì)上不相關(guān)。旋轉(zhuǎn)后,通常根據(jù)新特征對(duì)數(shù)據(jù)集的重要性來(lái)選擇它的一個(gè)子集。

主成分

方差最大的方向?yàn)椤俺煞?”,這是包含包含最多信息的方向。之后找到與“成分1”正交的包含信息最多的方向,得到“成分2”……利用這一過(guò)程找到的方向成為主成分。通常,主成分的個(gè)數(shù)與原始特征相同。

在PCA找到的額旋轉(zhuǎn)表示中,坐標(biāo)軸之間 不相關(guān)。

應(yīng)用

高維數(shù)據(jù)集可視化

特征提取:找到一種數(shù)據(jù)表示,比給定的原始表示更適合于分析。

對(duì)PCA模型的另一種理解:僅適用一些成分對(duì)原始數(shù)據(jù)進(jìn)行重建。

2. 非負(fù)矩陣分解(NMF)

在NMF中,目標(biāo)是分量和系數(shù)均為非負(fù)。只能應(yīng)用于每個(gè)特征都是非負(fù)的數(shù)據(jù),因?yàn)榉秦?fù)分量的非負(fù)求和不可能得到負(fù)值。

與PCA不同,減少分量個(gè)數(shù)不僅會(huì)刪除一些方向,而且會(huì)創(chuàng)建一組完全不同的分量。

NMF的分量沒(méi)有按任何特定方法排序,所有分量的地位平等。

NMF使用了隨機(jī)初始化,根據(jù)隨機(jī)種子的不同可能會(huì)產(chǎn)生不同的結(jié)果。

3. t-SNE與流形學(xué)習(xí)

流形學(xué)習(xí)算法 :主要用于可視化,允許進(jìn)行更復(fù)雜的映射。只能變換用于訓(xùn)練的數(shù)據(jù)。

t-SNE:找到數(shù)據(jù)的一個(gè)二維表示,盡可能保持?jǐn)?shù)據(jù)點(diǎn)之間的距離。試圖保存那些點(diǎn)比較靠近的信息。

3、聚類

聚類:將數(shù)據(jù)集劃分成組的任務(wù),這些組叫做簇。

1. K均值聚類

原理

試圖找到代表數(shù)據(jù)特定區(qū)域的簇中心。

算法過(guò)程

① 將每個(gè)數(shù)據(jù)點(diǎn)分配給最近的簇中心

② 將每個(gè)簇中心設(shè)置為所分配的所有數(shù)據(jù)點(diǎn)的平均值,如果簇的分配不再變化,結(jié)束;反之,執(zhí)行步驟1

注:聚類算法與分類算法類似,但不存在真實(shí)的標(biāo)簽,標(biāo)簽本身沒(méi)有先驗(yàn)意義。

注意

每個(gè)簇僅由其中心決定,這意味著每個(gè)簇都是凸型的,因此,只能找到相對(duì)簡(jiǎn)單的形狀。

k均值假設(shè)所有簇在某種程度上有相同的直徑,它總是將簇之間的邊界剛好畫(huà)在簇中心的中間位置

k均值假設(shè)所有方向?qū)γ總€(gè)簇同等重要

特點(diǎn)

優(yōu)點(diǎn):

容易理解和實(shí)現(xiàn)

運(yùn)行速度相對(duì)較快

擴(kuò)展到大型數(shù)據(jù)集比較容易

缺點(diǎn):

依賴于隨機(jī)初始化

對(duì)簇形狀的假設(shè)的約束性較強(qiáng)

要求制定所要尋找到簇的個(gè)數(shù)

2. 凝聚聚類

算法首先聲明每個(gè)點(diǎn)是自己的簇,然后合并兩個(gè)最相似的簇,直到滿足某種停止準(zhǔn)則為止。

連接準(zhǔn)則:規(guī)定如何度量“最相似的簇”。

① ward型:兩個(gè)簇合并后,使得所有簇中方差增加最小

② average型:平均距離最小的兩個(gè)簇合并

③ complete型:簇中點(diǎn)之間最大距離最小的兩個(gè)簇合并

注:凝聚算法不能對(duì)新數(shù)據(jù)點(diǎn)做出預(yù)測(cè)

凝聚聚類生成了所謂的層次聚類

3. DBSCAN (具有噪聲的基于密度的空間聚類應(yīng)用)

原理

識(shí)別特征空間的“擁擠”區(qū)域中的點(diǎn),這些區(qū)域成為密集區(qū)域。簇形成數(shù)據(jù)的密集區(qū)域,并由相對(duì)較空的區(qū)域分隔開(kāi)。在密集區(qū)域中的點(diǎn)成為核心樣本,指定參數(shù)eps和min_samples。如果在一個(gè)點(diǎn)eps的距離內(nèi)至少有min_samples個(gè)數(shù)據(jù)點(diǎn),則為核心樣本。

算法過(guò)程

① 任意選取一個(gè)點(diǎn),檢查是否是核心樣本。

② 若不是,標(biāo)記為噪聲。反之,標(biāo)記為核心樣本,并分配一個(gè)新的簇標(biāo)簽。然后檢查鄰居,若未被分配,分配簇標(biāo)簽;如果是核心樣本,依次訪問(wèn)鄰居。

③ 選取另一個(gè)尚未被訪問(wèn)過(guò)的點(diǎn),重復(fù)以上過(guò)程。

最后得到三種點(diǎn):核心點(diǎn)、邊界點(diǎn)、噪聲。

特點(diǎn)

優(yōu)點(diǎn):

不需先驗(yàn)設(shè)置簇的個(gè)數(shù)

可以劃分具有復(fù)雜形狀的簇

可以找出不屬于任何簇的點(diǎn)

缺點(diǎn):

不允許對(duì)新的測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)

聚類評(píng)估

1. 真實(shí)值評(píng)估

調(diào)整rand指數(shù)(ARI),歸一化互信息(NMI)

二者都給出了定量的度量,最佳值為1,0表示不相關(guān)的聚類。

2. 沒(méi)有真實(shí)值

輪廓系數(shù) 計(jì)算一個(gè)簇的緊致度,值越大越好,最高分?jǐn)?shù)為1。雖然緊致的簇很好,但不允許復(fù)雜的形狀。

聚類小結(jié)

k均值

可以用簇的平均值來(lái)表示簇。

可被看做是一種分解方法,。每個(gè)數(shù)據(jù)點(diǎn)都由其簇中心表示

DBSCAN

可以檢測(cè)噪聲點(diǎn)

可以自動(dòng)判斷簇的數(shù)量

允許簇有復(fù)雜的形狀

有時(shí)會(huì)生成大小差別很大的簇,可能是優(yōu)點(diǎn)可能是缺點(diǎn)

凝聚聚類

可以提供數(shù)據(jù)的可能劃分的整個(gè)層次結(jié)構(gòu)

可以通過(guò)樹(shù)狀圖查看

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    任正非說(shuō) AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進(jìn)來(lái)呢?

    的基本理論。了解監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的基本原理。例如,在監(jiān)督學(xué)習(xí)中,理解如何通過(guò)標(biāo)注數(shù)據(jù)
    發(fā)表于 07-08 17:44

    張飛FOC磁場(chǎng)定向控制有感、無(wú)感電機(jī)驅(qū)動(dòng)視頻課程及STM32開(kāi)發(fā)套件(共257)

    8)FOC有感無(wú)感控制原理及框圖介紹 9)SVPWM理論、推導(dǎo)、調(diào)試 10)標(biāo)幺化、定點(diǎn)化、Q格式介紹 11)三電阻、雙電阻、單電阻采樣思路分析 12)坐標(biāo)變換(Clarke變換、Park
    發(fā)表于 07-02 15:59

    機(jī)器學(xué)習(xí)異常檢測(cè)實(shí)戰(zhàn):用Isolation Forest快速構(gòu)建無(wú)標(biāo)簽異常檢測(cè)系統(tǒng)

    本文轉(zhuǎn)自:DeepHubIMBA無(wú)監(jiān)督異常檢測(cè)作為機(jī)器學(xué)習(xí)領(lǐng)域的重要分支,專門(mén)用于在缺乏標(biāo)記數(shù)據(jù)的環(huán)境中識(shí)別異常事件。本文深入探討異常檢測(cè)技術(shù)的理論基礎(chǔ)與實(shí)踐應(yīng)用,通過(guò)Isolatio
    的頭像 發(fā)表于 06-24 11:40 ?650次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>異常檢測(cè)實(shí)戰(zhàn):用Isolation Forest快速構(gòu)建<b class='flag-5'>無(wú)</b>標(biāo)簽異常檢測(cè)系統(tǒng)

    數(shù)據(jù)下載失敗的原因?

    數(shù)據(jù)下載失敗什么原因太大了嗎,小的可以下載,想把大的下載去本地訓(xùn)練報(bào)錯(cuò)網(wǎng)絡(luò)錯(cuò)誤 大的數(shù)據(jù)多大?數(shù)據(jù)量有多少?
    發(fā)表于 06-18 07:04

    使用MATLAB進(jìn)行無(wú)監(jiān)督學(xué)習(xí)

    無(wú)監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無(wú)監(jiān)督學(xué)習(xí)旨在識(shí)別
    的頭像 發(fā)表于 05-16 14:48 ?700次閱讀
    使用MATLAB進(jìn)行<b class='flag-5'>無(wú)</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>

    無(wú)橋PFC變換器綜述

    器拓?fù)涞陌l(fā)展歷程進(jìn)行了全面綜述,并將無(wú)橋 PFC 變換器拓?fù)浜铣煞桨阜譃槿?b class='flag-5'>類,分別進(jìn)行了詳細(xì)介紹。最后,給出了無(wú)橋變換器拓?fù)涞陌l(fā)展方向。 關(guān)鍵詞:
    發(fā)表于 03-13 13:50

    數(shù)據(jù)降維工具介紹——SpatialPCA

    ,NMF)等,多是基于單細(xì)胞數(shù)據(jù)進(jìn)行開(kāi)發(fā)的,因此不一定完全適用于空間轉(zhuǎn)錄組數(shù)據(jù)。例如,常用的降維方法并沒(méi)有運(yùn)用空間轉(zhuǎn)錄組所特有的組織空間定位信息,而僅僅只是基于表達(dá)譜進(jìn)行
    的頭像 發(fā)表于 02-07 11:19 ?636次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>降維<b class='flag-5'>聚</b><b class='flag-5'>類</b>工具介紹——SpatialPCA

    傅立葉變換在機(jī)器學(xué)習(xí)中的應(yīng)用 常見(jiàn)傅立葉變換的誤區(qū)解析

    傅里葉變換在機(jī)器學(xué)習(xí)中的應(yīng)用 傅里葉變換是一種將信號(hào)分解為其組成頻率分量的數(shù)學(xué)運(yùn)算,它在機(jī)器學(xué)習(xí)中的應(yīng)用日益廣泛。以下是一些主要的應(yīng)用領(lǐng)域: 信號(hào)處理 : 音頻處理:傅里葉
    的頭像 發(fā)表于 12-06 17:06 ?1073次閱讀

    使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分類的步驟

    (例如,高分辨率、不同光照條件等)。 2. 數(shù)據(jù)收集 獲取數(shù)據(jù) :收集或購(gòu)買一個(gè)包含你想要分類的圖像的數(shù)據(jù)
    的頭像 發(fā)表于 11-15 15:01 ?853次閱讀

    時(shí)空引導(dǎo)下的時(shí)間序列自監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】最近,香港科技大學(xué)、上海AI Lab等多個(gè)組織聯(lián)合發(fā)布了一篇時(shí)間序列無(wú)監(jiān)督預(yù)訓(xùn)練的文章,相比原來(lái)的TS2Vec等時(shí)間序列表示學(xué)習(xí)工作,核心在于提出了將空間信息融入到預(yù)訓(xùn)練階段,即在預(yù)訓(xùn)練階段
    的頭像 發(fā)表于 11-15 11:41 ?773次閱讀
    時(shí)空引導(dǎo)下的時(shí)間序列自<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>框架

    曙光公司成都云中心助力提升監(jiān)督質(zhì)效

    數(shù)字化時(shí)代,用好大數(shù)據(jù),推動(dòng)數(shù)字技術(shù)深度融入紀(jì)檢監(jiān)察各項(xiàng)業(yè)務(wù),是大勢(shì)所趨。當(dāng)前,各地正在探索推進(jìn)大數(shù)據(jù)監(jiān)督,借助海量數(shù)據(jù)、算力、算法,不斷延伸監(jiān)督
    的頭像 發(fā)表于 11-05 10:05 ?528次閱讀

    屏蔽無(wú)氧銅網(wǎng)線的作用是什么

    屏蔽無(wú)氧銅網(wǎng)線在網(wǎng)絡(luò)和通信領(lǐng)域具有重要的作用,以下是其具體作用的詳細(xì)闡述: 一、提高數(shù)據(jù)傳輸質(zhì)量和速度 六屏蔽無(wú)氧銅網(wǎng)線采用優(yōu)質(zhì)的
    的頭像 發(fā)表于 10-29 10:42 ?807次閱讀

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】全書(shū)概覽與時(shí)間序列概述

    。 ●第5章“時(shí)間序列的相似度與”:介紹時(shí)間序列的相似性度量方法,如歐氏距離、動(dòng)態(tài)時(shí)間規(guī)整算法等,用于衡量?jī)蓚€(gè)或多個(gè)時(shí)間序列在形狀和模式上的相似程度;算法,如K-Means、D
    發(fā)表于 08-07 23:03

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)不僅包括語(yǔ)法結(jié)構(gòu)的學(xué)習(xí),還包括對(duì)語(yǔ)言的深層次理解,如文化背景、語(yǔ)境含義和情感色彩等。 自監(jiān)督學(xué)習(xí)
    發(fā)表于 08-02 11:03

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    章節(jié)最后總結(jié)了機(jī)器學(xué)習(xí)的分類:有監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和強(qiáng)化
    發(fā)表于 07-25 14:33