一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CV迎來GPT-3時刻:Meta開源“萬物可分割A(yù)I”模型

vliwulianw ? 來源:CSDN ? 2023-04-07 09:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

4d55965e-d4d6-11ed-bfe3-dac502259ad0.jpg

通過單擊、交互式點擊即可分割圖像或視頻

英偉達 AI 科學(xué)家 Jim Fan 在 Twitter 上驚呼,Meta 發(fā)布的 SAM 讓計算機視覺(CV)迎來 GPT-3 時刻。更不可思議的是,模型和數(shù)據(jù)(1100萬張圖像,10億個掩碼)都已經(jīng)基于 Apache 2.0 許可開源。

4d74a198-d4d6-11ed-bfe3-dac502259ad0.png

今日,Meta 發(fā)布首個可“任意圖像分割”的基礎(chǔ)模型 Segment-Anything Model(SAM)和最大規(guī)模的“任意分割 10 億掩碼數(shù)據(jù)集「Segment Anything 1-Billion mask dataset (SA-1B)」,將自然語言領(lǐng)域的 prompt 范式引入了 CV 領(lǐng)域,進而為 CV 基礎(chǔ)模型提供更廣泛的支持與深度研究。

SAM Demo:https://segment-anything.com/

開源地址:https://github.com/facebookresearch/segment-anything

論文地址:https://ai.facebook.com/research/publications/segment-anything/

SA-1B數(shù)據(jù)集:https://ai.facebook.com/datasets/segment-anything/

1. 圖片、視頻皆可分割

分割,作為 CV 領(lǐng)域的核心任務(wù),被廣泛應(yīng)用在科學(xué)圖像到編輯照片等應(yīng)用程序員中,但是,為特定任務(wù)創(chuàng)建準(zhǔn)確的分割模型通常需要技術(shù)專家進行高度專業(yè)化的工作,并且需要訪問 AI 培訓(xùn)基礎(chǔ)設(shè)施和大量精心注釋領(lǐng)域內(nèi)方面的數(shù)據(jù)能力。

SAM 通過 prompt 工程能力即可分割任意想分割的圖像。

4da427f6-d4d6-11ed-bfe3-dac502259ad0.png

截圖自SAM論文

SAM 已經(jīng)學(xué)會了物體的一般概念,并且可以為任何圖像或視頻中的任何對象生成掩模,甚至包括在訓(xùn)練期間沒有遇到過的對象和圖像類型。

SAM 足夠通用,可以涵蓋廣泛的用例,并且可以直接在新的圖像“領(lǐng)域”上使用——無論是水下照片還是細(xì)胞顯微鏡——都不需要額外的訓(xùn)練(這種能力通常稱為零樣本遷移)。

之前,為了解決分割問題,一般會采用兩種分類方法:

第一種是交互式分割,可以對任何類別的對象進行分割,但需要人員通過迭代地細(xì)化掩模來指導(dǎo)該方法。

第二種是自動分割,允許預(yù)先定義特定對象類別(例如貓或椅子)的分割,但需要大量手動注釋的對象進行訓(xùn)練(例如數(shù)千甚至數(shù)萬個已經(jīng)過分割處理的貓示例),以及計算資源和技術(shù)專業(yè)知識來訓(xùn)練分割模型。這兩種方法都沒有提供通用、完全自動化的分割方法。

SAM 集合了上面兩種方法,成為一個單一模型,可以輕松執(zhí)行交互式分割和自動分割。

1、SAM 允許用戶通過單擊、交互式點擊或邊界框提示來分割對象;

2、當(dāng)面臨關(guān)于正在分割的對象歧義時,SAM可以輸出多個有效掩碼,這是解決現(xiàn)實世界中分割問題所必需的重要能力;

3、SAM可以自動查找并遮罩圖像中的所有對象;

4、在預(yù)計算圖像嵌入后,SAM 可以為任何提示生成實時分割掩碼,從而允許與模型進行實時交互。

SAM 在超過 10億個掩碼組成的多樣化高質(zhì)量數(shù)據(jù)集上進行訓(xùn)練(作為該項目的一部分),從而使其能夠推廣到訓(xùn)練期間未觀察到的新類型對象和圖像之外。這種推廣能力意味著,總體來說,從業(yè)者將不再需要收集自己的分割數(shù)據(jù)并微調(diào)用于他們用例場景中的模型。

2. SAM 背后的技術(shù)

Meta AI 團隊在官博中直言到,SAM 的研發(fā)靈感來自于自然語言和計算機視覺中的 “prompt 工程”,只需對新數(shù)據(jù)集和任務(wù)執(zhí)行零樣本學(xué)習(xí)和少樣本學(xué)習(xí)即可使其能夠基于任何提示返回有效的分割掩模。其中,提示可以是前景/背景點、粗略框或掩模、自由文本或者一般情況下指示圖像中需要進行分割的任何信息。有效掩模的要求意味著即使提示不明確并且可能涉及多個對象(例如,在襯衫上的一個點既可能表示襯衫也可能表示穿著它的人),輸出應(yīng)該是其中一個對象合理的掩模。這項任務(wù)用于預(yù)訓(xùn)練模型,并通過提示解決通用下游分割任務(wù)。

研發(fā)人員觀察到預(yù)訓(xùn)練任務(wù)和交互式數(shù)據(jù)收集對模型設(shè)計施加了特定的限制。特別是,為了使標(biāo)注員能夠在實時交互中高效地進行標(biāo)注,模型需要在 Web 瀏覽器上以實時方式運行于 CPU 上。雖然運行時間約束意味著質(zhì)量和運行時間之間存在權(quán)衡,但他們發(fā)現(xiàn),簡單的設(shè)計在實踐中產(chǎn)生良好的結(jié)果。

在模型設(shè)計中,圖像編碼器為圖像生成一次性嵌入,而輕量級編碼器實時將任何提示轉(zhuǎn)換為嵌入向量。然后,在輕量級解碼器中將這兩個信息源組合起來以預(yù)測分割掩模。計算出圖像嵌入后,SAM 可以在 Web 瀏覽器中僅用 50 毫秒的時間根據(jù)任何提示生成一個段落。

4dc3401e-d4d6-11ed-bfe3-dac502259ad0.png

在 Web 瀏覽器中,SAM 高效地將圖像特征和一組提示嵌入映射到生成分割掩模。

3. 超 1100 萬張照片,1B+掩碼

數(shù)據(jù)集來自 SAM 收集,而在訓(xùn)練起初,并無任何數(shù)據(jù),而今天發(fā)布的數(shù)據(jù)集已是迄今為止最大的數(shù)據(jù)了。注釋員使用 SAM 交互式地注釋圖像,然后新注釋的數(shù)據(jù)反過來用于更新 SAM,彼此相互作用,重復(fù)執(zhí)行此循環(huán)來改善模型和數(shù)據(jù)集。

使用 SAM 收集新分割掩碼比以往任何時候都更快,僅需約 14 秒即可交互式地注釋掩碼。相對于標(biāo)記邊界框所需時間約 7 秒鐘(使用最快速度標(biāo)記接口),每個掩碼標(biāo)記流程只慢 2 倍左右。與之前大規(guī)模分割數(shù)據(jù)收集努力相比,該模型比 COCO 完全手動基于多邊形遮罩注釋快 6.5 倍,比先前最大的數(shù)據(jù)注釋工作快了 2 倍,并且是基于模型協(xié)助完成任務(wù) 。

盡管如此,交互式的標(biāo)記掩碼依然無法擴展創(chuàng)建 10 億個掩碼數(shù)據(jù)庫,于是便有了用于創(chuàng)建 SA-1B 數(shù)據(jù)庫的“引擎”。該引擎有三個“檔位”。

在第一檔中,模型協(xié)助注釋員,相互作用;

第二檔是完全自動化的注釋與輔助注釋相結(jié)合,有助于增加收集到的掩碼的多樣性;

數(shù)據(jù)引擎的最后一個檔位是完全自動遮罩創(chuàng)建,進而使數(shù)據(jù)庫可以擴展。

最終,數(shù)據(jù)集在超過 1100 萬張經(jīng)過許可和隱私保護的圖像上收集到了超過 11 億個分割掩模。SA-1B 比任何現(xiàn)有的分割數(shù)據(jù)集多 400 倍,經(jīng)人類評估驗證,這些掩模具有高質(zhì)量和多樣性,在某些情況下甚至可以與以前規(guī)模小得多、完全手動注釋的數(shù)據(jù)集中的掩模相媲美。

4dd33dde-d4d6-11ed-bfe3-dac502259ad0.png

4ded0a3e-d4d6-11ed-bfe3-dac502259ad0.png

Segment Anything 是通過使用數(shù)據(jù)引擎收集數(shù)百萬張圖像和掩模進行訓(xùn)練,從而得到一個超 10 億個分割掩模的數(shù)據(jù)集,這比以往任何分割數(shù)據(jù)集都大400倍。

將來,SAM 可能被用于任何需要在圖像中找到和分割任何對象的領(lǐng)域應(yīng)用程序。

對于 AI 研究社區(qū)或其他人來說,SAM 可能更普遍理解世界、例如理解網(wǎng)頁視覺和文本內(nèi)容等更大型 AI 系統(tǒng)中組件;

在 AR/VR 領(lǐng)域,SAM 可以根據(jù)用戶注視選擇一個對象,然后將其“提升”到 3D;

對于內(nèi)容創(chuàng)作者來說,SAM 可以改進諸如提取碎片或視頻編輯等創(chuàng)意應(yīng)用程序;

SAM 也可用來輔助科學(xué)領(lǐng)域研究,如地球上甚至空間自然現(xiàn)象, 例如通過定位要研究并跟蹤視頻中的動物或物體。

4dfeb5ea-d4d6-11ed-bfe3-dac502259ad0.gif

5076095e-d4d6-11ed-bfe3-dac502259ad0.gif

最后,SAM 團隊表示,通過分享他們的研究和數(shù)據(jù)集,來進一步加速分割更常見的圖像和視頻??商崾臼椒指钅P涂梢宰鳛檩^大系統(tǒng)中的組件執(zhí)行分割任務(wù)。未來,通過組合系統(tǒng)可擴展單個模型使用,通過提示工程等技術(shù)實現(xiàn)可組合系統(tǒng)設(shè)計,進而使得比專門針對固定任務(wù)集訓(xùn)練的系統(tǒng)能夠得更廣泛的領(lǐng)域應(yīng)用。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280014
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3690

    瀏覽量

    43836
  • CV
    CV
    +關(guān)注

    關(guān)注

    0

    文章

    53

    瀏覽量

    17149
  • 計算機視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1709

    瀏覽量

    46781

原文標(biāo)題:CV 迎來 GPT-3 時刻:Meta 開源“萬物可分割 AI ”模型

文章出處:【微信號:軟件質(zhì)量報道,微信公眾號:軟件質(zhì)量報道】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    一文解析人工智能中GPT-3 到底有多厲害?

    對于我個人來說,剛剛步入媒體圈,職業(yè)生涯就將遭遇一次非常嚴(yán)重的 AI 威脅。 因為 GPT-3 來了,而且在寫文章、編故事的能力上面比上一代更能打了。 已經(jīng)得到微軟 Azure 算力加持
    的頭像 發(fā)表于 03-19 14:19 ?2.1w次閱讀

    線下活動 | 開源工作坊第2期——開源萬物互聯(lián)

    開源工作坊第2期——開源萬物互聯(lián)活動 將于12月18日在深圳市新一代產(chǎn)業(yè)園舉辦,感謝各位開發(fā)者一直以來對開放原子開源基金會及開源社區(qū)及
    發(fā)表于 12-15 14:07

    史上最大AI模型GPT-3你要開始收費了 接下去可能用不起它了

    還記得前不久被捧上天的GPT-3么?那個只有被邀請的用戶才能測試使用的,號稱史上最大AI模型。 OpenAI的1,750億參數(shù)語言模型GPT-3
    的頭像 發(fā)表于 09-25 11:38 ?3358次閱讀
    史上最大<b class='flag-5'>AI</b><b class='flag-5'>模型</b><b class='flag-5'>GPT-3</b>你要開始收費了  接下去可能用不起它了

    微軟獲得AI神器 GPT-3 獨家授權(quán),引來馬斯克等業(yè)內(nèi)人士怒懟

    今年以來,人工智能領(lǐng)域出現(xiàn)了一個熱詞:GPT-3。由人工智能非營利組織 OpenAI 耗資 1200 美元開發(fā),涵蓋 1750 億個參數(shù),達到了目前最佳 SOTA,寫作水平媲美人類。種種光環(huán)加持下,自然語言處理模型
    的頭像 發(fā)表于 09-29 09:52 ?2503次閱讀

    GPT-3引發(fā)公眾的遐想 能根據(jù)文字產(chǎn)生圖片的AI!

    在全球所有 AI 模型中,OpenAI 的 GPT-3 最能引發(fā)公眾的遐想。 雖然它可以僅憑很少的文本來輸出詩歌、短篇小說和歌曲,并且成功地讓人們相信這是人類的創(chuàng)作。但是,它在同人類對話時還是顯得
    的頭像 發(fā)表于 10-09 18:30 ?2840次閱讀

    史上最大AI模型GPT-3強勢霸榜Github

    最近,GPT-3火了!相信你已經(jīng)在網(wǎng)上看到各種有關(guān)GPT-3的演示。這個由OpenAI創(chuàng)建的大型機器學(xué)習(xí)模型,它不僅可以自己寫論文,還會寫詩歌,就連你寫的代碼都能幫你寫了。 ? 下面還是先讓你看看
    的頭像 發(fā)表于 01-06 17:06 ?3596次閱讀

    GPT系列的“高仿” 最大可達GPT-3大小 自主訓(xùn)練

    雖然GPT-3沒有開源,卻已經(jīng)有人在復(fù)刻GPT系列的模型了。 例如,慕尼黑工業(yè)大學(xué)的Connor Leahy,此前用200個小時、6000RMB,復(fù)現(xiàn)了
    的頭像 發(fā)表于 02-13 09:24 ?3071次閱讀

    谷歌開發(fā)出超過一萬億參數(shù)的語言模型,秒殺GPT-3

    GPT-3問世僅僅不到一年的時間,Google重磅推出Switch Transformer,直接將參數(shù)量從GPT-3的1750億拉高到1.6萬億,并比之前最大的、由google開發(fā)的語言模型
    的頭像 發(fā)表于 01-27 16:26 ?2485次閱讀
    谷歌開發(fā)出超過一萬億參數(shù)的語言<b class='flag-5'>模型</b>,秒殺<b class='flag-5'>GPT-3</b>

    Eleuther AI:已經(jīng)開源了復(fù)現(xiàn)版GPT-3模型參數(shù)

    GPT3終于開源!不過,不是官方開的(別打我 Eleuther AI推出的名為GPT-Neo的開源項目,于晨4點于twitter正式宣布:已
    的頭像 發(fā)表于 03-31 17:46 ?3677次閱讀

    萬物皆可ChatGPT ChatGPT的iPhone時刻已到 ChatGPT概念廠商概述

    萬物皆可ChatGPT ChatGPT的iPhone時刻已到 ChatGPT概念廠商概述 英偉達創(chuàng)始人黃仁勛直接表明“我們正處于AI的‘iPhone時刻’?!?ChatGPT是美國人工
    發(fā)表于 03-27 18:29 ?1058次閱讀

    第一篇綜述!分割一切模型(SAM)的全面調(diào)研

    SAM 是一個提示型模型,其在 1100 張圖像上訓(xùn)練了超過 10 億個掩碼,實現(xiàn)了強大的零樣本泛化。許多研究人員認(rèn)為「這是 CVGPT-3
    的頭像 發(fā)表于 05-24 14:36 ?1517次閱讀
    第一篇綜述!<b class='flag-5'>分割</b>一切<b class='flag-5'>模型</b>(SAM)的全面調(diào)研

    MEANEST家庭自動化AI(使用GPT-3

    電子發(fā)燒友網(wǎng)站提供《MEANEST家庭自動化AI(使用GPT-3).zip》資料免費下載
    發(fā)表于 06-15 11:33 ?0次下載
    MEANEST家庭自動化<b class='flag-5'>AI</b>(使用<b class='flag-5'>GPT-3</b>)

    Meta推出最強開源模型Llama 3 要挑戰(zhàn)GPT

    Meta推出最強開源模型Llama 3 要挑戰(zhàn)GPT Facebook母公司Meta Platf
    的頭像 發(fā)表于 04-19 17:00 ?1195次閱讀

    Jim Fan展望:機器人領(lǐng)域即將迎來GPT-3式突破

    英偉達科學(xué)家9月19日,科技媒體The Decoder發(fā)布了一則引人關(guān)注的報道,英偉達高級科學(xué)家Jim Fan在近期預(yù)測,機器人技術(shù)將在未來兩到三年內(nèi)迎來類似GPT-3在語言處理領(lǐng)域的革命性突破,他稱之為機器人領(lǐng)域的“GPT-3
    的頭像 發(fā)表于 09-19 15:13 ?949次閱讀

    英偉達預(yù)測機器人領(lǐng)域或迎“GPT-3時刻

    未來2-3年內(nèi),機器人基礎(chǔ)模型的研究將迎來重大突破,這一時刻被形象地比喻為機器人領(lǐng)域的“GPT-3時刻
    的頭像 發(fā)表于 09-20 17:05 ?1078次閱讀