高維數(shù)據(jù)的概念其實不難,簡單的說就是多維數(shù)據(jù)的意思。平時我們經(jīng)常接觸的是一維數(shù)據(jù)或者可以寫成表形式的二維數(shù)據(jù),高維數(shù)據(jù)也可以類推,不過維數(shù)較高的時候,直觀表示很難。
目前高維數(shù)據(jù)挖掘是研究重點,
這是它的特點:
高維數(shù)據(jù)挖掘是基于高維度的一種數(shù)據(jù)挖掘,它和傳統(tǒng)的數(shù)據(jù)挖掘最主要的區(qū)別在于它的高維度。目前高維數(shù)據(jù)挖掘已成為數(shù)據(jù)挖掘的重點和難點。隨著技術的進步使得數(shù)據(jù)收集變得越來越容易,導致數(shù)據(jù)庫規(guī)模越來越大、復雜性越來越高,如各種類型的貿(mào)易交易數(shù)據(jù)、Web 文檔、基因表達數(shù)據(jù)、文檔詞頻數(shù)據(jù)、用戶評分數(shù)據(jù)、WEB使用數(shù)據(jù)及多媒體數(shù)據(jù)等,它們的維度(屬性)通??梢赃_到成百上千維,甚至更高。
由于高維數(shù)據(jù)存在的普遍性,使得對高維數(shù)據(jù)挖掘的研究有著非常重要的意義。但由于“維災”的影響,也使得高維數(shù)據(jù)挖掘變得異常地困難,必須采用一些特殊的手段進行處理。 隨著數(shù)據(jù)維數(shù)的升高,高維索引結構的性能迅速下降,在低維空間中,我們經(jīng)常采用歐式距離作為數(shù)據(jù)之間的相似性度量,但在高維空間中很多情況下這種相似性的概念不復存在,這就給高維數(shù)據(jù)挖掘帶來了很嚴峻的考驗,一方面引起基于索引結構的數(shù)據(jù)挖掘算法的性能下降,另一方面很多基于全空間距離函數(shù)的挖掘方法也會失效。解決的方法可以有以下幾種:可以通過降維將數(shù)據(jù)從高維降到低維,然后用低維數(shù)據(jù)的處理辦法進行處理;對算法效率下降問題可以通過設計更為有效的索引結構、采用增量算法及并行算法等來提高算法的性能;對失效的問題通過重新定義使其獲得新生。
高維數(shù)據(jù)挖掘是基于高維度的一種數(shù)據(jù)挖掘,它和傳統(tǒng)的數(shù)據(jù)挖掘最主要的區(qū)別在于它的高維度。目前高維數(shù)據(jù)挖掘已成為數(shù)據(jù)挖掘的重點和難點。隨著技術的進步使得數(shù)據(jù)收集變得越來越容易,導致數(shù)據(jù)庫規(guī)模越來越大、復雜性越來越高,如各種類型的貿(mào)易交易數(shù)據(jù)、Web 文檔、基因表達數(shù)據(jù)、文檔詞頻數(shù)據(jù)、用戶評分數(shù)據(jù)、WEB使用數(shù)據(jù)及多媒體數(shù)據(jù)等,它們的維度(屬性)通??梢赃_到成百上千維,甚至更高。
由于高維數(shù)據(jù)存在的普遍性,使得對高維數(shù)據(jù)挖掘的研究有著非常重要的意義。但由于“維災”的影響,也使得高維數(shù)據(jù)挖掘變得異常地困難,必須采用一些特殊的手段進行處理。 隨著數(shù)據(jù)維數(shù)的升高,高維索引結構的性能迅速下降,在低維空間中,我們經(jīng)常采用歐式距離作為數(shù)據(jù)之間的相似性度量,但在高維空間中很多情況下這種相似性的概念不復存在,這就給高維數(shù)據(jù)挖掘帶來了很嚴峻的考驗,一方面引起基于索引結構的數(shù)據(jù)挖掘算法的性能下降,另一方面很多基于全空間距離函數(shù)的挖掘方法也會失效。解決的方法可以有以下幾種:可以通過降維將數(shù)據(jù)從高維降到低維,然后用低維數(shù)據(jù)的處理辦法進行處理;對算法效率下降問題可以通過設計更為有效的索引結構、采用增量算法及并行算法等來提高算法的性能;對失效的問題通過重新定義使其獲得新生。
高維數(shù)據(jù)處理
PCA
非監(jiān)督
利用協(xié)方差矩陣尋找投射函數(shù)ω使得投射到低維空間后的最大離散(方差)使用拉格朗日解不等式
根據(jù)求得的特征值進行特征向量的選擇
一般求信息率90%以上的特征向量集
對于N遠大于D的數(shù)據(jù),使用SVD(奇異值)進行求解
先進行一次自乘降維再進行訓練
LDA
監(jiān)督性
尋求使得類內(nèi)方差最小并且類間差異性最大的投射空間
SOM
聚類方法
- 取差異性對周圍范圍的鄰居進行更新
MDS
非監(jiān)督降維
注重數(shù)據(jù)的相對距離(關系),有利于流型數(shù)據(jù)的降維和可視化
但對原數(shù)據(jù)整體結構破壞嚴重
三個基本步驟:
計算stress
更新投射函數(shù)
檢查disparity
ReliefF
ReliefF處理多分類的情況,Relief只能處理兩分類
用于對特征進行賦權,通過權值進行過濾
算法輸入: 數(shù)據(jù)集D, 包含c類樣本,子集采樣數(shù)m,權值閾值δ, kNN系數(shù)k算法步驟:
LLE和ISOMAP
一些總結
高緯度數(shù)據(jù)建模的基本思想是尋找函數(shù)f(x):
f(x)將數(shù)據(jù)投射到一個低維的空間
在低維空間中數(shù)據(jù)的某些特征可以保持
方法的選擇:
注重降低維度并提高數(shù)據(jù)的可分析性則使用PCA,對于大量數(shù)據(jù)使用SVD
注重類間區(qū)分和類內(nèi)區(qū)分,則使用LDA
注重數(shù)據(jù)的相互關聯(lián),并且數(shù)據(jù)復雜不可分,則使用MDS
對于流形,使用LLE和IOSMAP
-
數(shù)據(jù)
+關注
關注
8文章
7257瀏覽量
91942 -
數(shù)據(jù)挖掘
+關注
關注
1文章
406瀏覽量
24724 -
高維數(shù)據(jù)
+關注
關注
1文章
1瀏覽量
1465
發(fā)布評論請先 登錄
如何讓tSNE在大型、高維數(shù)據(jù)庫上實時進行可視化的詳細資料概述
labview里面實現(xiàn)高維矩陣
二維數(shù)據(jù)根據(jù)條件提取某幾行數(shù)據(jù)組成一維數(shù)據(jù)?
什么讓三維掃描數(shù)據(jù)栩栩如生
高維大數(shù)據(jù)集中頻繁閉合模式的挖掘
基于單元區(qū)域的高維數(shù)據(jù)聚類算法
高維小樣本分類問題中特征選擇研究綜述

高維數(shù)據(jù)相似性連接查詢算法
如何使用FPGA實現(xiàn)高光譜圖像奇異值分解降維技術

評論