一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

什么是高維數(shù)據(jù)_高維數(shù)據(jù)如何定義

PoisonApple ? 來源:網(wǎng)絡整理 ? 2018-02-12 14:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

高維數(shù)據(jù)的概念其實不難,簡單的說就是多維數(shù)據(jù)的意思。平時我們經(jīng)常接觸的是一維數(shù)據(jù)或者可以寫成表形式的二維數(shù)據(jù),高維數(shù)據(jù)也可以類推,不過維數(shù)較高的時候,直觀表示很難。

目前高維數(shù)據(jù)挖掘是研究重點,

這是它的特點:

高維數(shù)據(jù)挖掘是基于高維度的一種數(shù)據(jù)挖掘,它和傳統(tǒng)的數(shù)據(jù)挖掘最主要的區(qū)別在于它的高維度。目前高維數(shù)據(jù)挖掘已成為數(shù)據(jù)挖掘的重點和難點。隨著技術的進步使得數(shù)據(jù)收集變得越來越容易,導致數(shù)據(jù)庫規(guī)模越來越大、復雜性越來越高,如各種類型的貿(mào)易交易數(shù)據(jù)、Web 文檔、基因表達數(shù)據(jù)、文檔詞頻數(shù)據(jù)、用戶評分數(shù)據(jù)、WEB使用數(shù)據(jù)及多媒體數(shù)據(jù)等,它們的維度(屬性)通??梢赃_到成百上千維,甚至更高。

由于高維數(shù)據(jù)存在的普遍性,使得對高維數(shù)據(jù)挖掘的研究有著非常重要的意義。但由于“維災”的影響,也使得高維數(shù)據(jù)挖掘變得異常地困難,必須采用一些特殊的手段進行處理。 隨著數(shù)據(jù)維數(shù)的升高,高維索引結構的性能迅速下降,在低維空間中,我們經(jīng)常采用歐式距離作為數(shù)據(jù)之間的相似性度量,但在高維空間中很多情況下這種相似性的概念不復存在,這就給高維數(shù)據(jù)挖掘帶來了很嚴峻的考驗,一方面引起基于索引結構的數(shù)據(jù)挖掘算法的性能下降,另一方面很多基于全空間距離函數(shù)的挖掘方法也會失效。解決的方法可以有以下幾種:可以通過降維將數(shù)據(jù)從高維降到低維,然后用低維數(shù)據(jù)的處理辦法進行處理;對算法效率下降問題可以通過設計更為有效的索引結構、采用增量算法及并行算法等來提高算法的性能;對失效的問題通過重新定義使其獲得新生。

高維數(shù)據(jù)挖掘是基于高維度的一種數(shù)據(jù)挖掘,它和傳統(tǒng)的數(shù)據(jù)挖掘最主要的區(qū)別在于它的高維度。目前高維數(shù)據(jù)挖掘已成為數(shù)據(jù)挖掘的重點和難點。隨著技術的進步使得數(shù)據(jù)收集變得越來越容易,導致數(shù)據(jù)庫規(guī)模越來越大、復雜性越來越高,如各種類型的貿(mào)易交易數(shù)據(jù)、Web 文檔、基因表達數(shù)據(jù)、文檔詞頻數(shù)據(jù)、用戶評分數(shù)據(jù)、WEB使用數(shù)據(jù)及多媒體數(shù)據(jù)等,它們的維度(屬性)通??梢赃_到成百上千維,甚至更高。

由于高維數(shù)據(jù)存在的普遍性,使得對高維數(shù)據(jù)挖掘的研究有著非常重要的意義。但由于“維災”的影響,也使得高維數(shù)據(jù)挖掘變得異常地困難,必須采用一些特殊的手段進行處理。 隨著數(shù)據(jù)維數(shù)的升高,高維索引結構的性能迅速下降,在低維空間中,我們經(jīng)常采用歐式距離作為數(shù)據(jù)之間的相似性度量,但在高維空間中很多情況下這種相似性的概念不復存在,這就給高維數(shù)據(jù)挖掘帶來了很嚴峻的考驗,一方面引起基于索引結構的數(shù)據(jù)挖掘算法的性能下降,另一方面很多基于全空間距離函數(shù)的挖掘方法也會失效。解決的方法可以有以下幾種:可以通過降維將數(shù)據(jù)從高維降到低維,然后用低維數(shù)據(jù)的處理辦法進行處理;對算法效率下降問題可以通過設計更為有效的索引結構、采用增量算法及并行算法等來提高算法的性能;對失效的問題通過重新定義使其獲得新生。

高維數(shù)據(jù)處理

PCA

非監(jiān)督

利用協(xié)方差矩陣尋找投射函數(shù)ω使得投射到低維空間后的最大離散(方差)使用拉格朗日解不等式

根據(jù)求得的特征值進行特征向量的選擇

一般求信息率90%以上的特征向量集

對于N遠大于D的數(shù)據(jù),使用SVD(奇異值)進行求解

先進行一次自乘降維再進行訓練

LDA

監(jiān)督性

尋求使得類內(nèi)方差最小并且類間差異性最大的投射空間

SOM

聚類方法

- 取差異性對周圍范圍的鄰居進行更新

MDS

非監(jiān)督降維

注重數(shù)據(jù)的相對距離(關系),有利于流型數(shù)據(jù)的降維和可視化

但對原數(shù)據(jù)整體結構破壞嚴重

三個基本步驟:

計算stress

更新投射函數(shù)

檢查disparity

ReliefF

ReliefF處理多分類的情況,Relief只能處理兩分類

用于對特征進行賦權,通過權值進行過濾

算法輸入: 數(shù)據(jù)集D, 包含c類樣本,子集采樣數(shù)m,權值閾值δ, kNN系數(shù)k算法步驟:

什么是高維數(shù)據(jù)_高維數(shù)據(jù)如何定義

LLE和ISOMAP

一些總結

高緯度數(shù)據(jù)建模的基本思想是尋找函數(shù)f(x):

f(x)將數(shù)據(jù)投射到一個低維的空間

在低維空間中數(shù)據(jù)的某些特征可以保持

方法的選擇:

注重降低維度并提高數(shù)據(jù)的可分析性則使用PCA,對于大量數(shù)據(jù)使用SVD

注重類間區(qū)分和類內(nèi)區(qū)分,則使用LDA

注重數(shù)據(jù)的相互關聯(lián),并且數(shù)據(jù)復雜不可分,則使用MDS

對于流形,使用LLE和IOSMAP

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何讓tSNE在大型、數(shù)據(jù)庫上實時進行可視化的詳細資料概述

    tSNE是目前最為流行的一種數(shù)據(jù)的算法。在大數(shù)據(jù)時代,數(shù)據(jù)不僅越來越多,而且變得越來越復
    的頭像 發(fā)表于 06-10 10:06 ?2.3w次閱讀

    labview里面實現(xiàn)矩陣

    新手剛接觸labview,打算用labview實現(xiàn)算法的通信部分,用matlab實現(xiàn)計算部分,但是在matlab程序中我使用了矩陣:三矩陣,但是labview只支持2-D array,請教labview里面有沒有實現(xiàn)
    發(fā)表于 10-05 10:23

    數(shù)據(jù)根據(jù)條件提取某幾行數(shù)據(jù)組成一數(shù)據(jù)?

    有個二數(shù)組,假設有20行2列字符串數(shù)組,第一列的字符串都是不一樣的?,F(xiàn)在提取其中幾行的第二列數(shù)據(jù)組成一數(shù)組?,F(xiàn)在我用的方法是for加條件結構,但中間會有很多零。請問一下,哪里出錯了?
    發(fā)表于 03-16 17:13

    什么讓三掃描數(shù)據(jù)栩栩如生

    `什么讓三掃描數(shù)據(jù)栩栩如生1.應用需求描述利用三掃描儀掃描三數(shù)據(jù),并貼上色彩,可以用將產(chǎn)品三
    發(fā)表于 08-02 10:18

    數(shù)據(jù)集中頻繁閉合模式的挖掘

    數(shù)據(jù)集對現(xiàn)有的數(shù)據(jù)挖掘算法提出了挑戰(zhàn)。該文把挖掘任務分解為挖掘頻繁長模式與短模式2 個子問題,提出一種在
    發(fā)表于 04-17 08:41 ?27次下載

    基于單元區(qū)域的數(shù)據(jù)聚類算法

    提出一種數(shù)據(jù)集合聚類算法(CAHD)。采用雙向搜索策略在指定的n維空間或其子空間上發(fā)現(xiàn)數(shù)據(jù)點密集的單元區(qū)域,采用逐位相與的方法為這些密集單元區(qū)域聚類。雙向搜索策略能
    發(fā)表于 04-22 09:55 ?14次下載

    基于相似性度量的聚類算法的研究

    針對數(shù)據(jù)相似度難以定義的問題,本文提出了一種新的數(shù)據(jù)
    發(fā)表于 01-27 13:31 ?5次下載

    小樣本分類問題中特征選擇研究綜述

    隨著生物信息學、基因表達譜微陣列、圖像識別等技術的發(fā)展,小樣本分類問題成為數(shù)據(jù)挖掘(包括機器學習、模式識別)中的一項挑戰(zhàn)性任務,容易引發(fā)數(shù)災難和過擬合問題。針對這個問題,特征選擇
    發(fā)表于 11-27 16:38 ?0次下載
    <b class='flag-5'>高</b><b class='flag-5'>維</b>小樣本分類問題中特征選擇研究綜述

    數(shù)據(jù)相似性連接查詢算法

    為了解決數(shù)據(jù)相似性連接查詢中存在的維度災難和計算代價高等問題,基于p一穩(wěn)態(tài)分布,將數(shù)據(jù)
    發(fā)表于 12-15 17:13 ?0次下載

    如何使用FPGA實現(xiàn)光譜圖像奇異值分解降技術

    了解決光譜圖像數(shù)、數(shù)據(jù)量巨大、實時處理技術實現(xiàn)難的問題,提出了光譜圖像實時處理降技術。
    發(fā)表于 03-11 16:07 ?10次下載
    如何使用FPGA實現(xiàn)<b class='flag-5'>高</b>光譜圖像奇異值分解降<b class='flag-5'>維</b>技術

    數(shù)據(jù)挖掘的改進k近鄰分類算法綜述

    信息采集技術日益發(fā)展導致的、大規(guī)模教據(jù),給據(jù)挖掘帶來了巨大挑戰(zhàn),針對K近鄰分類算法在數(shù)據(jù)分類中存在效率低、時間成本
    發(fā)表于 05-08 13:57 ?0次下載

    針對大規(guī)模數(shù)據(jù)的最近鄰檢索方法

    本文針對大規(guī)模數(shù)據(jù)近鄰檢索中的瓶頸問題,提岀基于向量量化的一種檢索方法一簇內(nèi)乘積量化樹方法。該方法運用向量量化和乘積量化的多層樹狀結構高效表征大規(guī)模
    發(fā)表于 05-10 16:45 ?3次下載

    可對海量數(shù)據(jù)進行有效的聚類分析算法

    隨著大數(shù)據(jù)時代的來臨,如何對海量數(shù)據(jù)進行有效的聚類分析并充分利用,已成為當下的熱門研究課題。傳統(tǒng)的聚類算法在處理
    發(fā)表于 05-28 16:26 ?0次下載

    可對海量數(shù)據(jù)進行有效的聚類分析算法

    隨著大數(shù)據(jù)時代的來臨,如何對海量數(shù)據(jù)進行有效的聚類分析并充分利用,已成為當下的熱門研究課題。傳統(tǒng)的聚類算法在處理
    發(fā)表于 05-28 16:26 ?3次下載

    基于稀疏數(shù)據(jù)的增量模糊聚類算法

    基于稀疏數(shù)據(jù)的增量模糊聚類算法
    發(fā)表于 06-25 15:49 ?10次下載