一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Facebook 人工智能團(tuán)隊(duì)已經(jīng)創(chuàng)建并正在開放源代碼 PyTorch Biggraph

電子工程師 ? 來源:YXQ ? 2019-04-04 11:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

有效處理大規(guī)模圖對于促進(jìn)人工智能的研究和應(yīng)用至關(guān)重要,但特別是在工業(yè)應(yīng)用中的圖,包含數(shù)十億個節(jié)點(diǎn)和數(shù)萬億個邊,這超出了現(xiàn)有嵌入系統(tǒng)的能力。

因此,F(xiàn)acebook 人工智能團(tuán)隊(duì)已經(jīng)創(chuàng)建并正在開放源代碼 PyTorch Biggraph(PBG)。

PBG 是一個用于學(xué)習(xí)大規(guī)模圖嵌入的分布式系統(tǒng),特別適用于處理具有多達(dá)數(shù)十億實(shí)體和數(shù)萬億條邊的大型網(wǎng)絡(luò)交互圖。它在 2019 年的 SysML 會議上發(fā)表的大規(guī)模圖嵌入框架論文中提出。

PBG 比常用的嵌入軟件更快,并在標(biāo)準(zhǔn)基準(zhǔn)上生成與最先進(jìn)模型質(zhì)量相當(dāng)?shù)那度?。有了這個新工具,任何人都可以用一臺機(jī)器或多臺機(jī)器并行地讀取一個大圖并快速生成高質(zhì)量的嵌入。

PBG 對傳統(tǒng)的多關(guān)系嵌入系統(tǒng)進(jìn)行了多次修改,使其能夠擴(kuò)展到具有數(shù)十億個實(shí)體和數(shù)萬億邊的圖。PBG 使用圖分區(qū)來在單個機(jī)器或分布式環(huán)境中訓(xùn)練任意量級的嵌入。研究人員在通用基準(zhǔn)測試中展示了與現(xiàn)有嵌入系統(tǒng)相當(dāng)?shù)男阅?,同時允許在多臺機(jī)器上擴(kuò)展到任意大的圖和并行化。他們在幾個大型社會網(wǎng)絡(luò)圖以及完整的 Freebase 數(shù)據(jù)集上訓(xùn)練和評估嵌入,其中包含超過 1 億個實(shí)體和 20 億條邊。

具體而言,PBG 通過攝取圖的邊列表來訓(xùn)練輸入圖,每條邊由其源實(shí)體和目標(biāo)實(shí)體以及可能的關(guān)系類型進(jìn)行標(biāo)識。它為每個實(shí)體輸出一個特征向量(嵌入),試圖將相鄰實(shí)體放置在向量空間中彼此靠近,同時將未連接的實(shí)體分開。因此,具有相似鄰近分布的實(shí)體最終將位于附近位置。

可以使用在訓(xùn)練中學(xué)習(xí)的參數(shù)(如果有的話),用不同的方法配置每種關(guān)系類型來計算這個“接近度得分(proximity score)”,這允許在多個關(guān)系類型之間共享相同的基礎(chǔ)實(shí)體嵌入。

其模型的通用性和可擴(kuò)展性使得 PBG 能夠從嵌入文獻(xiàn)的知識圖譜中訓(xùn)練出多種模型,包括 TransE、RESCAL、DistMult 和 ComplEx。

PBG 的設(shè)計考慮到了規(guī)?;?,并通過以下方式實(shí)現(xiàn):

圖分區(qū)(graph partitioning),這樣模型就不必完全加載到內(nèi)存中;

每臺機(jī)器上的多線程計算;

跨多臺機(jī)器的分布式執(zhí)行(可選),所有機(jī)器同時在圖的不相交部分上運(yùn)行;

批量負(fù)采樣(batched negative sampling),允許處理的數(shù)據(jù)為> 100 萬邊/秒/機(jī)器。

作為一個示例,F(xiàn)acebook 還發(fā)布了包含 5000 萬維基百科概念的 Wikidata 圖的首次嵌入版本,該圖用于 AI 研究社區(qū)中使用的結(jié)構(gòu)化數(shù)據(jù)。這些嵌入是用 PBG 創(chuàng)建的,可以幫助其他研究人員在維基數(shù)據(jù)概念上執(zhí)行機(jī)器學(xué)習(xí)任務(wù)。

需要注意的是,PBG不適用于小規(guī)模圖上具有奇怪模型的模型探索,例如圖網(wǎng)絡(luò)、深度網(wǎng)絡(luò)等。

安裝步驟及更多信息,請參考 GitHub 相關(guān)介紹和 PyTorch-BigGraph 文檔:

https://github.com/facebookresearch/PyTorch-BigGraph

https://torchbiggraph.readthedocs.io/en/latest/

建立數(shù)十億個節(jié)點(diǎn)的嵌入圖

圖是表示多種數(shù)據(jù)類型的核心工具。它們可以用來對相關(guān)實(shí)體的網(wǎng)絡(luò)進(jìn)行編碼,例如關(guān)于世界的事實(shí)。例如,像 Freebase 這樣的知識庫具有不同的實(shí)體(如“Stan Lee”和“New York City”),作為描述它們之間關(guān)系的節(jié)點(diǎn)和邊(例如“出生于”)。

圖嵌入方法通過優(yōu)化目標(biāo)來學(xué)習(xí)圖中每個節(jié)點(diǎn)的向量表示,即具有邊的節(jié)點(diǎn)對的嵌入比沒有共享邊的節(jié)點(diǎn)對更接近,這類似于 word2vec 等詞嵌入在文本上的訓(xùn)練方式。

圖嵌入是一種無監(jiān)督學(xué)習(xí),因?yàn)樗鼈冎皇褂脠D結(jié)構(gòu)學(xué)習(xí)節(jié)點(diǎn)的表示,而不使用基于任務(wù)的節(jié)點(diǎn)“標(biāo)簽”。與文本嵌入一樣,這些表示可用于各種下游任務(wù)。

超大規(guī)模圖形嵌入

當(dāng)前,超大規(guī)模圖形有數(shù)十億個節(jié)點(diǎn)和數(shù)萬億條邊,而標(biāo)準(zhǔn)的圖嵌入方法不能很好地擴(kuò)展到對超大規(guī)模圖的操作,這主要有兩大挑戰(zhàn):首先,嵌入系統(tǒng)必須足夠快,以便進(jìn)行實(shí)際的研究和生產(chǎn)使用。例如,利用現(xiàn)有的方法,訓(xùn)練一個具有萬億條邊的圖可能需要幾周甚至幾年的時間。

另外,存儲也是一大挑戰(zhàn)。例如,嵌入每個節(jié)點(diǎn)具有 128 個浮點(diǎn)參數(shù)的 20 億個節(jié)點(diǎn),這需要 1TB 的數(shù)據(jù),超過了商用服務(wù)器的內(nèi)存容量。

PBG 使用圖的塊分區(qū)來克服圖嵌入的內(nèi)存限制。節(jié)點(diǎn)被隨機(jī)劃分為 P 分區(qū),這些分區(qū)的大小可以使內(nèi)存容納兩個分區(qū)。然后,根據(jù)邊的源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn),將邊劃分為 P2 簇(Buckets)。

大規(guī)模圖的 PBG 分區(qū)方案。節(jié)點(diǎn)被劃分為 P 分區(qū),分區(qū)大小適合內(nèi)存。邊根據(jù)其源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)的分區(qū)劃分為簇。在分布式模式下,可以并行執(zhí)行具有非重疊分區(qū)的多個存儲簇(如藍(lán)色方塊所示)。

節(jié)點(diǎn)和邊進(jìn)行分區(qū)之后,就可以一次在一個簇上執(zhí)行訓(xùn)練。bucket(i,j)的訓(xùn)練只需要將節(jié)點(diǎn)分區(qū) i 和 j 嵌入存儲在內(nèi)存中。

PBG 提供了兩種方法來訓(xùn)練分區(qū)圖數(shù)據(jù)的嵌入。在單機(jī)訓(xùn)練中,嵌入件和邊在不使用時被交換到磁盤上。在分布式訓(xùn)練中,嵌入分布在多臺機(jī)器的內(nèi)存中。

分布式訓(xùn)練

PBG 使用 PyTorch 并行化原語(parallelization primitives)進(jìn)行分布式訓(xùn)練。由于一個模型分區(qū)一次只能由一臺機(jī)器調(diào)用,因此一次最多可以在 P/2 機(jī)器上訓(xùn)練嵌入。只有當(dāng)機(jī)器需要切換到新的簇時,模型數(shù)據(jù)才會進(jìn)行通信。對于分布式訓(xùn)練,我們使用經(jīng)典參數(shù)服務(wù)器模型,同步表示不同類型邊的共享參數(shù)。

APBG 分布式訓(xùn)練體系結(jié)構(gòu)。我們使用鎖服務(wù)器協(xié)調(diào)機(jī)器在不相交的存儲簇上進(jìn)行訓(xùn)練。分區(qū)模型參數(shù)通過分片分區(qū)服務(wù)器交換,共享參數(shù)通過分片參數(shù)服務(wù)器異步更新。

負(fù)采樣

圖嵌入和文本嵌入相似,構(gòu)造隨機(jī)的“假”邊與真正的邊一起作為負(fù)訓(xùn)練樣例。這大大加快了訓(xùn)練速度,因?yàn)槊總€新樣本只需更新一小部分權(quán)重。通常,這些消極的例子是由隨機(jī)源節(jié)點(diǎn)或目標(biāo)節(jié)點(diǎn)的“腐蝕”真邊構(gòu)成的。然而,我們發(fā)現(xiàn)對標(biāo)準(zhǔn)負(fù)抽樣的一些修改對于大規(guī)模圖是必要的。

首先,我們注意到在傳統(tǒng)的圖嵌入方法中,幾乎所有的訓(xùn)練時間都花在了負(fù)邊上。我們利用函數(shù)形式的線性特點(diǎn),重用一批 N 個隨機(jī)節(jié)點(diǎn),生成 N 個訓(xùn)練邊的損壞負(fù)樣本。與其他嵌入方法相比,此技術(shù)允許我們以很小的計算成本在每個真邊上訓(xùn)練許多負(fù)示例。

我們還發(fā)現(xiàn),為了生成在各種下游任務(wù)中有用的嵌入,一種有效的方法是破壞邊,將 50% 的節(jié)點(diǎn)和另外 50% 的節(jié)點(diǎn)(根據(jù)其邊數(shù)進(jìn)行采樣)混合在一起。

最后,我們引入了“實(shí)體類型”的概念,它限制了如何使用節(jié)點(diǎn)構(gòu)造負(fù)樣本。例如,考慮一個包含歌曲、藝術(shù)家和流派節(jié)點(diǎn)的圖,并假設(shè)藝術(shù)家和歌曲之間存在“創(chuàng)作”關(guān)系。如果我們?yōu)檫@個關(guān)系統(tǒng)一抽樣源實(shí)體,我們將絕大多數(shù)抽樣歌曲(因?yàn)楦枨人囆g(shù)家多),但這些不是有效的潛在邊(因?yàn)楦枨荒苡伤囆g(shù)家制作)。PBG 可以基于關(guān)系的實(shí)體類型限制構(gòu)造哪些負(fù)樣本。

評估 PyTorch-BigGraph

為了評估 PBG 的性能,我們使用了公開的 Freebase 知識圖,它包含超過 1.2 億個節(jié)點(diǎn)和 27 億條邊。我們還使用了一個較小的 Freebase 圖子集(FB15K),它包含 15000 個節(jié)點(diǎn)和 600000 條邊,通常用作多關(guān)系嵌入方法的基準(zhǔn)。

T-SNE 繪制的由 PBG 訓(xùn)練的 Freebase 知識圖嵌入。國家、數(shù)字和科學(xué)期刊等實(shí)體也有類似的嵌入。

可以看出,對于 FB15k 數(shù)據(jù)集,PBG 和最新的嵌入方法性能相當(dāng)。

圖:FB15K 數(shù)據(jù)集的鏈路預(yù)測任務(wù)上嵌入方法的性能。PBG 使用其模型來匹配 transe 和復(fù)雜嵌入方法的性能。我們測量了 MRR,并在 FB15K 測試集上對鏈接預(yù)測進(jìn)行 hit@10統(tǒng)計。Lacroix 等人使用非常大的嵌入維數(shù)實(shí)現(xiàn)更高的 MRR,我們可以在 PBG 中采用同樣的方法,但這里暫不涉及。

下面,我們使用 PBG 對完整的 Freebase 圖訓(xùn)練嵌入?,F(xiàn)代服務(wù)器可以容納這個規(guī)模的數(shù)據(jù)集 但 PGB 分區(qū)和分布式執(zhí)行既節(jié)約了內(nèi)存,也縮短了訓(xùn)練時間。我們發(fā)布了 Wikidata 的首次嵌入,這是一個相似數(shù)據(jù)中更新的知識圖。

我們還評估了幾個公開的社交圖數(shù)據(jù)集的 PBG 嵌入,發(fā)現(xiàn) PBG 優(yōu)于其他競爭方法,并且分區(qū)和分布式執(zhí)行減少了內(nèi)存使用和培訓(xùn)時間。對于知識圖、分區(qū)或分布式執(zhí)行使得訓(xùn)練對超參數(shù)和建模選擇更加敏感。然而對于社交圖來說,嵌入質(zhì)量似乎對分區(qū)和并行化選擇并不敏感。

利用分布式訓(xùn)練的優(yōu)勢進(jìn)行嵌入

PBG 允許 AI 社區(qū)為大規(guī)模圖(包括知識圖譜)以及其他如股票交易圖、在線內(nèi)容圖和生物數(shù)據(jù)圖訓(xùn)練嵌入,而無需專門的計算資源(如 GPU 或大量內(nèi)存)。我們還希望 PBG 將成為小型公司和機(jī)構(gòu)的有用工具,他們可能擁有大型圖數(shù)據(jù)集,但沒有將這些數(shù)據(jù)應(yīng)用到其 ML 應(yīng)用程序的工具。

雖然我們在 Freebase 等數(shù)據(jù)集上演示了 PBG,但 PBG 真正的設(shè)計意圖是處理比此圖大 10~100 倍的圖。我們希望這能鼓勵實(shí)踐者發(fā)布和試驗(yàn)更大的數(shù)據(jù)集。計算機(jī)視覺(通過對標(biāo)簽的 Deep Learning 來改進(jìn)圖像識別質(zhì)量)和自然語言處理(word2vec、BERT、Elmo)的最新突破是對海量數(shù)據(jù)集進(jìn)行未知任務(wù)預(yù)訓(xùn)練的結(jié)果。我們希望通過對大規(guī)模圖的無監(jiān)督學(xué)習(xí),最終能夠得到更好的圖結(jié)構(gòu)化數(shù)據(jù)推理算法。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Facebook
    +關(guān)注

    關(guān)注

    3

    文章

    1432

    瀏覽量

    56745
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49019

    瀏覽量

    249474
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3688

    瀏覽量

    43830
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    809

    瀏覽量

    13960

原文標(biāo)題:Facebook開源圖嵌入“神器”:無需GPU,高效處理數(shù)十億級實(shí)體圖形 | 極客頭條

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)

    人工智能大模型重塑教育與社會發(fā)展的當(dāng)下,無論是探索未來職業(yè)方向,還是更新技術(shù)儲備,掌握大模型知識都已成為新時代的必修課。從職場上輔助工作的智能助手,到課堂用于學(xué)術(shù)研究的智能工具,大模型正在
    發(fā)表于 07-04 11:10

    Embarcadero:人工智能驅(qū)動發(fā)展我們的期望是什么

    人人都在談?wù)?b class='flag-5'>人工智能。我們的Visual Assist 團(tuán)隊(duì)人工智能有何期望?顯然,人工智能與我們息息相關(guān)——關(guān)于這一點(diǎn)的討論已經(jīng)無需多言
    的頭像 發(fā)表于 01-15 10:46 ?463次閱讀

    Tomcat開放源代碼的Web應(yīng)用服務(wù)器

    Tomcat 簡介 Tomcat 服務(wù)器是一個免費(fèi)的開放源代碼的Web 應(yīng)用服務(wù)器,屬于輕量級應(yīng)用服務(wù)器,在中小型系統(tǒng)和并發(fā)訪問用戶不是很多的場合下被普遍使用,是開發(fā)和調(diào)試JSP 程序的首選
    的頭像 發(fā)表于 12-23 11:24 ?613次閱讀
    Tomcat<b class='flag-5'>開放源代碼</b>的Web應(yīng)用服務(wù)器

    人工智能醫(yī)院年底即將上線

    ,計劃在明年上半年正式對公眾開放。 這家AI醫(yī)院不僅代表了人工智能技術(shù)在醫(yī)療領(lǐng)域的最新進(jìn)展,更預(yù)示著未來醫(yī)療服務(wù)的智能化轉(zhuǎn)型。與此同時,另一個由醫(yī)生
    的頭像 發(fā)表于 12-02 10:44 ?646次閱讀

    嵌入式和人工智能究竟是什么關(guān)系?

    、連接主義和深度學(xué)習(xí)等不同的階段。目前,人工智能已經(jīng)廣泛應(yīng)用于各種領(lǐng)域,如自然語言處理、計算機(jī)視覺、智能推薦等。 嵌入式系統(tǒng)和人工智能在許多方面都存在密切的關(guān)聯(lián)性。首先,嵌入式系統(tǒng)可
    發(fā)表于 11-14 16:39

    《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

    幸得一好書,特此來分享。感謝平臺,感謝作者。受益匪淺。 在閱讀《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》的第6章后,我深刻感受到人工智能在能源科學(xué)領(lǐng)域中的巨大潛力和廣泛應(yīng)用。這一章詳細(xì)
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    很幸運(yùn)社區(qū)給我一個閱讀此書的機(jī)會,感謝平臺。 《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第4章關(guān)于AI與生命科學(xué)的部分,為我們揭示了人工智能技術(shù)在生命科學(xué)領(lǐng)域中的廣泛應(yīng)用和深遠(yuǎn)影響。在
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第一章人工智能驅(qū)動的科學(xué)創(chuàng)新學(xué)習(xí)心得

    ,無疑為讀者鋪設(shè)了一條探索人工智能(AI)如何深刻影響推動科學(xué)創(chuàng)新的道路。在閱讀這一章后,我深刻感受到了人工智能技術(shù)在科學(xué)領(lǐng)域的廣泛應(yīng)用潛力以及其帶來的革命性變化,以下是我個人的學(xué)習(xí)心得: 1.
    發(fā)表于 10-14 09:12

    risc-v在人工智能圖像處理應(yīng)用前景分析

    和使用該技術(shù),無需支付專利費(fèi)或使用費(fèi)。這大大降低了人工智能圖像處理技術(shù)的研發(fā)成本,吸引了大量的開發(fā)者、企業(yè)和研究機(jī)構(gòu)參與其生態(tài)建設(shè)。 靈活性則體現(xiàn)在RISC-V可以根據(jù)不同的應(yīng)用場景進(jìn)行定制和優(yōu)化,從而
    發(fā)表于 09-28 11:00

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析 想問下哪些比較容易學(xué) 不過好像都是要學(xué)的
    發(fā)表于 09-26 15:24

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領(lǐng)域應(yīng)用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進(jìn)行描訴,有利于總結(jié)經(jīng)驗(yàn),擬按照要求準(zhǔn)備相關(guān)體會材料??茨芊裼兄谌腴T和提高ss
    發(fā)表于 09-09 15:36

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新

    AI for Science的基礎(chǔ)知識,梳理了產(chǎn)業(yè)地圖,給出了相關(guān)政策啟示。 內(nèi)容提要 人工智能驅(qū)動科學(xué)創(chuàng)新(AI for Science)帶來的產(chǎn)業(yè)變革與每個人息息相關(guān)。本書聚焦于人工智能
    發(fā)表于 09-09 13:54

    報名開啟!深圳(國際)通用人工智能大會將啟幕,國內(nèi)外大咖齊聚話AI

    8月28日至30日,2024深圳(國際)通用人工智能大會暨深圳(國際)通用人工智能產(chǎn)業(yè)博覽會將在深圳國際會展中心(寶安)舉辦。大會以“魅力AI·無限未來”為主題,致力于打造全球通用人工智能領(lǐng)域集產(chǎn)品
    發(fā)表于 08-22 15:00

    pytorch和python的關(guān)系是什么

    在當(dāng)今的人工智能領(lǐng)域,Python已經(jīng)成為了最受歡迎的編程語言之一。Python的易學(xué)易用、豐富的庫和框架以及強(qiáng)大的社區(qū)支持,使其成為了數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等領(lǐng)域的首選語言。而在深度學(xué)習(xí)領(lǐng)域
    的頭像 發(fā)表于 08-01 15:27 ?3282次閱讀

    FPGA在人工智能中的應(yīng)用有哪些?

    FPGA(現(xiàn)場可編程門陣列)在人工智能領(lǐng)域的應(yīng)用非常廣泛,主要體現(xiàn)在以下幾個方面: 一、深度學(xué)習(xí)加速 訓(xùn)練和推理過程加速:FPGA可以用來加速深度學(xué)習(xí)的訓(xùn)練和推理過程。由于其高并行性和低延遲特性
    發(fā)表于 07-29 17:05