一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解決復(fù)雜數(shù)據(jù)最近鄰問題的通用方法

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-08-16 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如果你打算開一家咖啡館,你一定想知道:“附近最近的一家咖啡館在哪?”了解這些信息有助于應(yīng)對商業(yè)競爭。

這種現(xiàn)象是計算機科學(xué)中廣泛研究的問題,稱為“最近鄰搜索”。它的問題是,給定數(shù)據(jù)集和新的數(shù)據(jù)點,數(shù)據(jù)集中哪個數(shù)據(jù)離新數(shù)據(jù)點最近?這個問題出現(xiàn)的場景非常豐富,可以是基因搜索、圖像查詢,或者音樂推薦。

但是最近鄰問題并不像咖啡館那么容易解決。過去幾十年,很多計算機科學(xué)家都在致力于尋找更好的解決辦法。與此同時,他們還要解決隨之而來的復(fù)雜情況,例如不同數(shù)據(jù)集對“相近”有著不同的定義。

現(xiàn)在,一個五人小組提出了開創(chuàng)性的解決辦法,他們在兩篇論文中(一篇已于4月發(fā)表,另一篇還未出爐)提出了解決復(fù)雜數(shù)據(jù)最近鄰問題的通用方法。

麻省理工學(xué)院的計算機科學(xué)家、最近鄰搜索領(lǐng)域的重要任務(wù)Piotr Indyk表示:“這是首個用單一算法捕捉大量空間的結(jié)果?!?/p>

不同的距離

我們已經(jīng)習(xí)慣了用一種方法定義距離,常常會忽視其他方式。通常,我們用“歐幾里得距離”測量距離,即在兩點之間測量直線的距離。但在有些情況下,這樣的測量方式就說不通了。例如在街道網(wǎng)格中,就需要用到“曼哈頓距離”了,直線距離5英里的目的地,可能需要走3英里之后轉(zhuǎn)90°,再繼續(xù)走4英里才能到達。

另外,還可以用非地理的術(shù)語表示距離。比如Facebook上的兩名用戶、兩部電影、兩組基因之間的距離怎么計算?在這些問題上,“距離”表示的是兩個物體之間的相似程度。

有關(guān)距離的測量尺度有很多,例如兩組基因,生物學(xué)家會用“編輯距離(edit distance)”來比較二者。這樣一來,兩組基因序列之間的距離就是從一組基因轉(zhuǎn)換到另一組所需要添加、刪除、插入、替換的數(shù)字。

編輯距離和歐幾里得距離是兩種完全不同的距離測量方法,二者是不能相互替代的。但是這樣的情況對研究最近鄰算法的科學(xué)家們來說很棘手,能有效計算一種距離的算法在另一種情況下就無法工作了。

在夾縫中求生存

為了找到最近鄰,通常所用的方法是將數(shù)據(jù)分成好幾份。假設(shè)你的數(shù)據(jù)就像在牧場中吃草的奶牛,給分散在草場中的牛群畫不同的圓圈,現(xiàn)在進來了一頭新奶牛,問它會落在哪個圓圈里?可以肯定的是,這頭新奶牛的最近鄰一定也在這個圈里。

然后重復(fù)這一過程,不斷進行細分。最終會得到一個只包含兩頭牛的區(qū)域,這樣就找到了最近鄰。

現(xiàn)在,算法能夠完成這一過程,好的算法還會將這一任務(wù)完成得又快又好。這里“好”的標準可以理解成,算法不會得出最近鄰與新數(shù)據(jù)不在一個圈子里的結(jié)果。

近些年來,科學(xué)家們提出了多種分割數(shù)據(jù)的算法。對于低維數(shù)據(jù)(即每個數(shù)據(jù)點僅由少量的值定義,例如牧場中牛的位置),算法在解決最近鄰問題時會生成Voronoi圖。

對于高維數(shù)據(jù)(每個數(shù)據(jù)點可能有成百上千個值),Voronoi圖要計算起來就十分費力了。所以科學(xué)家們用“局部敏感哈希(LSH)算法”對數(shù)據(jù)進行分割,這種算法于1998年由Indyk和Rajeev Motwani共同提出。LSH算法是隨機對數(shù)據(jù)進行分類的,這使得它速度很快,但精確度較低。算法最終并不是找到確切的最近鄰點,而是告訴你最近鄰與已有數(shù)據(jù)的確切距離。(可以想象成在電影推薦時,推薦結(jié)果并不是最佳的,而是那些還不錯的。)

上世紀90年代末,計算機科學(xué)家們提出的LSH算法以特殊的距離尺度對最近鄰問題給出大致的解決方案。這些LSH算法都非常具體,無法通用。

“你可以為歐幾里得距離或曼哈頓距離設(shè)計非常高效的算法。但是我們沒有一種技術(shù)能在多種距離上通用,”Indyk說道。

受制于這種困境,科學(xué)家們想了一種應(yīng)變方法:通過嵌入,在沒有好的算法的距離標準之上“覆蓋”一種距離尺度。但是這樣的結(jié)果往往不準確,有的時候嵌入根本無法完成。所以他們?nèi)孕枰氤鲆环N合適的通用方法。

驚人的結(jié)果

在這項新研究開始之際,科學(xué)家們回過頭思考當初具體的最近鄰算法追求的目標是什么。他們提出了一個更寬泛的問題:對距離尺度來說,阻礙一款好的最近鄰算法出現(xiàn)的原因是什么?

他們想原因可能與在尋找最近鄰時復(fù)雜的“擴展圖(expander graph)”有關(guān)。擴展圖是一群由線條連接起來的點。這些圖都有它們自己的距離尺度,圖中兩點之間的距離是你從一點到另一點所經(jīng)過的最少線段??梢詫⑵湎胂蟪缮缃痪W(wǎng)絡(luò)中的各種人脈關(guān)系。

擴展圖有兩個明顯矛盾的特點:它聯(lián)系廣泛,所以如果想切斷與某一點的聯(lián)系,就要切斷之間的線段。但同時,大多數(shù)點都和其他的點相連。所以,最終有些點會越來越遠。

這樣的特征造成的結(jié)果是,在擴展圖上可以很快地進行最近鄰搜索,而將數(shù)據(jù)點分割的過程可以看成將最近的兩點分開。

“任何分割擴展圖的方法都會切斷很多線,分開很多相近的點,”論文作者之一Waingarten說道。

從左至右:Alexandr Andoni、Ilya Razenshteyn、Erik Waingarten

2016年夏天,Andoni、Nikolov、Razenshteyn和Waingarten認為,是不可能存在對最近鄰算法有效的擴展圖的。但他們真正想證明的是,好的最近鄰算法同樣也不存在于其他距離尺度中。

他們證明的方法是在這些距離尺度中嵌入擴展尺度。這樣一來,他們可以確定這些尺度有類似擴展圖的無法工作的特征。

這四位科學(xué)家找到普林斯頓大學(xué)的Assaf Naor,他是一名數(shù)學(xué)家,同時也是計算機科學(xué)家,此前的研究非常適合回答有關(guān)擴展圖的問題。他們詢問了有關(guān)擴展圖嵌入到其他距離類型中的問題,但答案并非所期望的那樣,Assaf給出了完全相反的回答。

Naor證明,擴展圖并不能嵌入到多種距離尺度中,研究者將這一論斷作為基礎(chǔ),接著這個邏輯鏈條開始思考:如果擴展圖不能嵌入到其他尺度,那么一個好的數(shù)據(jù)分割方法一定存在(因為他們證明擴展圖的特征是阻礙良好數(shù)據(jù)分割的障礙)。因此,良好最近鄰算法可能存在。

他們將發(fā)現(xiàn)結(jié)果寫在第一篇論文中,而第二篇論文本月也即將發(fā)表。Waingarten表示:“第一篇論文證明了確實存在一種方法能良好地進行數(shù)據(jù)分割,但沒有給出如何快速完成的方案。在第二篇論文中會詳細解釋。”

同時,這項新研究第一次用通用的方法對高維數(shù)據(jù)進行最近鄰搜索?!叭魏纬叨瓤臻g都可以用該算法實現(xiàn)最近鄰搜索,”Waingarten說。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4709

    瀏覽量

    95353
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25444

原文標題:終于,「最近鄰搜索」有通用方法了

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Python實現(xiàn)k-近鄰算法

    k-近鄰算法簡述k-近鄰算法(kNN)采用測量不同特征值之間的距離方法進行分類。工作原理:首先存在一個樣本數(shù)據(jù)集合(訓(xùn)練樣本集),并且樣本集中每個數(shù)
    發(fā)表于 10-10 10:32

    復(fù)雜數(shù)據(jù)采集系統(tǒng)使用少量組件

    DN24- 復(fù)雜數(shù)據(jù)采集系統(tǒng)使用少量組件
    發(fā)表于 07-25 13:55

    利用變體隊列實現(xiàn)任意復(fù)雜數(shù)據(jù)集合傳遞(很方便)

    利用變體隊列實現(xiàn)任意復(fù)雜數(shù)據(jù)集合傳遞(很方便),大家可以看看。原創(chuàng)是來自@zhihuizhou 【labview我來告訴你】實現(xiàn)任何LabVIEW數(shù)據(jù)類型集合的簡潔方式。我在此基礎(chǔ)上加了一些,方便大家理解這樣的好處。
    發(fā)表于 02-11 15:39

    Python實現(xiàn)k-近鄰算法

    k-近鄰算法簡述k-近鄰算法(kNN)采用測量不同特征值之間的距離方法進行分類。工作原理:首先存在一個樣本數(shù)據(jù)集合(訓(xùn)練樣本集),并且樣本集中每個數(shù)
    發(fā)表于 01-04 14:03

    改進的共享型最近鄰居聚類算法

    聚類效果往往依賴于密度和相似度的定義,并且當數(shù)據(jù)的維增加時,其復(fù)雜度也隨之增加。該文基于共享型最近鄰居聚類算法SNN,提出了一種改進的共享型最近鄰居聚類算法RSNN,
    發(fā)表于 05-16 11:38 ?11次下載

    改進GP分形理論的最近鄰序列預(yù)測算方法

    改進GP分形理論的最近鄰序列預(yù)測算方法:針對現(xiàn)有的時間序列分析和預(yù)測算法中主觀性太強的缺點,借助分形理論對時間序列作有效的分析。
    發(fā)表于 01-03 17:00 ?12次下載

    復(fù)雜數(shù)字邏輯系統(tǒng)的Verilog

    復(fù)雜數(shù)字邏輯系統(tǒng)的Verilog
    發(fā)表于 11-01 17:03 ?0次下載

    Spark下的并行多標簽最近鄰算法

    隨著大數(shù)據(jù)時代的到來,大規(guī)模多標簽數(shù)據(jù)挖掘方法受到廣泛關(guān)注。多標簽最近鄰算法ML_KNN是一種簡單高效、應(yīng)用廣泛的多標簽分類方法,其分類精度
    發(fā)表于 11-22 17:32 ?1次下載
    Spark下的并行多標簽<b class='flag-5'>最近鄰</b>算法

    路網(wǎng)環(huán)境下的最近鄰查詢技術(shù)

    最近鄰查詢作為基于位置服務(wù)的重要支持性技術(shù)之一,引起了眾多學(xué)者的廣泛關(guān)注和深入研究,相對于歐式空間而言,路網(wǎng)環(huán)境下的最近鄰查詢更貼近人們的生活,有著更重要的研究意義.路網(wǎng)環(huán)境下龐大的數(shù)據(jù)量和復(fù)
    發(fā)表于 12-18 14:14 ?0次下載
    路網(wǎng)環(huán)境下的<b class='flag-5'>最近鄰</b>查詢技術(shù)

    最近鄰的隨機非線性降維

    針對線性降維技術(shù)應(yīng)用于具有非線性結(jié)構(gòu)的數(shù)據(jù)時無法得到令人滿意的結(jié)果的問題,提出一種新的著重于保持高維空間局部最近鄰信息的非線性隨機降維算法( NNSE)。該算法首先在高維空間中通過計算樣本點之間
    發(fā)表于 12-23 11:45 ?0次下載

    分析大型復(fù)雜數(shù)據(jù)集的三大實用建議

    為了把這十幾年來總結(jié)的經(jīng)驗分享給其他開發(fā)者,他特意撰文提出了一些分析大型復(fù)雜數(shù)據(jù)集的實用建議。
    的頭像 發(fā)表于 05-10 14:51 ?4784次閱讀

    高維空間逼近最近鄰評測

    最近鄰方法是機器學(xué)習(xí)中一個非常流行的方法,它的原理很容易理解:鄰近的數(shù)據(jù)點是相似的數(shù)據(jù)點,更可能屬于同一分類。然而,在高維空間中快速地應(yīng)用
    的頭像 發(fā)表于 05-29 08:33 ?5192次閱讀
    高維空間逼近<b class='flag-5'>最近鄰</b>評測

    一種基于自然最近鄰的密度峰值聚類算法

    的聚類方法。該算法首先根據(jù)自然最近鄰的定義,給出新的局部密度計算方法來描述數(shù)據(jù)的分布,揭示內(nèi)在的聯(lián)系;然后設(shè)計了兩步分配策略來進行樣本
    發(fā)表于 04-08 11:18 ?12次下載
    一種基于自然<b class='flag-5'>最近鄰</b>的密度峰值聚類算法

    DN24-復(fù)雜數(shù)據(jù)采集系統(tǒng)使用的組件很少

    DN24-復(fù)雜數(shù)據(jù)采集系統(tǒng)使用的組件很少
    發(fā)表于 04-30 10:10 ?0次下載
    DN24-<b class='flag-5'>復(fù)雜數(shù)據(jù)</b>采集系統(tǒng)使用的組件很少

    針對大規(guī)模高維數(shù)據(jù)最近鄰檢索方法

    ;其次提岀基于貪心隊列的近鄰簇篩選方法減小了計算復(fù)雜度,加快了近鄰檢索速度;最后提出面量化方法用于近似計算候選
    發(fā)表于 05-10 16:45 ?3次下載