一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Jina AI到底是做什么的?為什么要做這些

深度學習自然語言處理 ? 來源:Jina AI ? 2023-01-16 14:25 ? 次閱讀

我們正處于人工智能新時代的風口浪尖,正從單模態(tài)大步邁向多模態(tài) AI 時代。在 Jina AI,我們的 MLOps 平臺幫助企業(yè)和開發(fā)者加速整個應用開發(fā)的過程,在這一范式變革中搶占先機,構建起著眼于未來的應用程序。

如果別人問到我們 Jina AI 是做什么的,我會有以下兩種回答。1. 面對 AI 研究員時,我會說:Jina AI 是一個跨模態(tài)和多模態(tài)數(shù)據(jù)的 MLOps 平臺;2. 面向從業(yè)者和合作伙伴時,我會說:Jina AI 是用于神經(jīng)搜索和生成式 AI 應用的 MLOps 平臺。

但無論用哪種方式來介紹 Jina AI,大多數(shù)人對于這幾個詞語都是比較陌生的。

跨模態(tài)、多模態(tài)

神經(jīng)搜索、生成式 AI

你可能聽說過”非結構化數(shù)據(jù)“,但什么是“多模態(tài)數(shù)據(jù)”呢?你可能也聽說過“語義搜索”,那“神經(jīng)搜索”是什么新鮮玩意兒呢?可能更加令你困惑的是,Jina AI 為什么要將這四個概念混在一起,開發(fā)一個 MLOps 框架來囊括所有這些概念呢?

這篇文章就是為了幫助大家更好地理解 Jina AI 到底是做什么的,以及我們?yōu)槭裁匆鲞@些。首先,“人工智能已從單模態(tài) AI 轉(zhuǎn)向了多模態(tài) AI”,這一點已成為行業(yè)共識,如下圖所示:

9cc8eb86-7f73-11ed-8abf-dac502259ad0.jpg

Jina AI 愿景中的未來 AI 應用

在 Jina AI,我們的產(chǎn)品囊括了跨模態(tài)、多模態(tài)、神經(jīng)搜索和生成式 AI,涵蓋了未來 AI 應用的很大一部分。我們的 MLOps 平臺幫助企業(yè)和開發(fā)者加速整個應用開發(fā)的過程,在這一范式轉(zhuǎn)變中搶占先機,構建起著眼于未來的應用程序。

在接下來的文章里,我們將回顧單模態(tài) AI 的發(fā)展歷程,看看這種范式轉(zhuǎn)變是如何在我們眼下悄然發(fā)生的。

單模態(tài)人工智能

在計算機科學中,“模態(tài)”大致意思是“數(shù)據(jù)類型”。所謂的單模態(tài) AI,就是將 AI 應用于一種特定類型的數(shù)據(jù)。這在早期的機器學習領域非常普遍。直至今日,你在看機器學習相關的論文時,單模態(tài) AI 依然占據(jù)著半壁江山。

自然語言處理

我們從自然語言處理(NLP)開始回顧。早在 2010 年,我就發(fā)表了一篇關于 Latent Dirichlet Allocation(LDA)模型的改進 Gibbs sampling(吉布斯抽樣)算法的論文。

9ce60e1e-7f73-11ed-8abf-dac502259ad0.png

Efficient Collapsed Gibbs Sampling For Latent Dirichlet Allocation, 2010

一些資深的機器學習研究人員可能還記得 LDA,這是一種用于建模文本語料庫的參數(shù)貝葉斯模型。它將單詞“聚類”成主題,并將每個文檔表示為主題的組合。因此有人稱其為“主題模型”

9d1b8300-7f73-11ed-8abf-dac502259ad0.png

從 2008 年到 2012 年,主題模型一直是 NLP 社區(qū)中最有效和最受歡迎的模型之一——它的火熱程度相當于當時的 BERT/Transformer。每年在頂級 ML/NLP 會議上,許多論文都會擴展或改進原始模型。但今天回過頭來看,它是一個相當 "淺層學習"的模型,采用的是一次性的語言建模方法。它假定單詞是由多叉分布的混合物生成的。這對某些特定的任務來說是有意義的,但對其他任務、領域或模式來說卻不夠通用。

早在 2010-2020 年,像這樣的一次性方法是 NLP 研究的常態(tài)。研究人員和工程師開發(fā)了專門的算法,每種算法雖然都擅長解決一項任務,但是也僅僅只能解決一項任務:

9d6cc968-7f73-11ed-8abf-dac502259ad0.jpg

最常見的20種NLP任務

計算機視覺

相較于 NLP 領域,我進入計算機視覺 (CV) 領域要晚一些。2017 年在 Zalando 時,我發(fā)表了一篇關于 Fashion-MNIST 數(shù)據(jù)集 的論文。該數(shù)據(jù)集是 Yann LeCun 1990 年原始 MNIST 數(shù)據(jù)集(一組簡單的手寫數(shù)字,用于對計算機視覺算法進行基準測試)的直接替代品。原始 MNIST 數(shù)據(jù)集對于許多算法來說過于簡單 —— 邏輯回歸、決策樹等淺層學習算法樹和支持向量機可以輕松達到 90% 的準確率,留給深度學習算法發(fā)揮的空間很小。

9dca7c98-7f73-11ed-8abf-dac502259ad0.png

Fashion-mnist:用于基準機器學習算法的新型圖像數(shù)據(jù)集示例,2017

9e9ea324-7f73-11ed-8abf-dac502259ad0.png

Fashion-mnist:用于基準機器學習算法的新型圖像數(shù)據(jù)集論文,2017

Fashion-MNIST 提供了一個更具挑戰(zhàn)性的數(shù)據(jù)集,使研究人員能夠探索、測試和衡量其算法。時至今日,超過 5,000 篇學術論文在分類、回歸、去噪、生成等方面的研究中都還引用了 Fashion-MNIST,可見其價值所在。

但正如主題模型只適用于 NLP,F(xiàn)ashion-MNIST 也只適用于計算機視覺。它的缺陷在于,數(shù)據(jù)集中幾乎沒有任何信息可以用來研究其他模式。如果梳理2010-2020年間最常見的20個CV任務,你會發(fā)現(xiàn),幾乎所有任務都是單一模式的。同樣的,它們每一個都涵蓋了一個特定的任務,但也僅僅涉及一項任務:

9ebab8d4-7f73-11ed-8abf-dac502259ad0.jpg

最常見的 20 個 CV 任務

語音和音頻

針對語音和音頻機器學習遵循相同的模式:算法是為圍繞音頻模態(tài)的臨時任務而設計的。他們各自執(zhí)行一項任務,而且只執(zhí)行一項任務,但現(xiàn)在都在一起執(zhí)行:

9ee983c6-7f73-11ed-8abf-dac502259ad0.jpg

最常見的 20 項音頻處理任務

我對多模態(tài) AI 方面最早的嘗試之一是我在 2010 年發(fā)表的一篇論文,當時我建立了一個貝葉斯模型,對視覺、文本和聲音 3 種模態(tài)進行聯(lián)合建模。經(jīng)過訓練后,它就能完成兩項跨模式的檢索任務:從聲音片段中找到最匹配的圖像,反之亦然。我給這兩個任務起了一個很賽博朋克的名字:“Artificial Synesthesia,人機聯(lián)覺”。

9f0937f2-7f73-11ed-8abf-dac502259ad0.png

9f3986b4-7f73-11ed-8abf-dac502259ad0.png

Toward Artificial Synesthesia: Linking Images and Sounds via Words, 2010

9f75fae0-7f73-11ed-8abf-dac502259ad0.png

邁向多模態(tài)人工智能

從上面的例子中,我們可以看到所有的單模態(tài) AI 算法都有兩個共同的弊端:

任務只針對一種模態(tài)(例如文本、圖像、音頻等)。

知識只能從一種模態(tài)中學習,并應用在這一模式中(即視覺算法只能從圖像中學習,并應用于圖像)。

在上文中,我已經(jīng)討論了文本、圖像、音頻。還有其他模式,例如 3D、視頻、時間序列,也應該被考慮在內(nèi)。如果我們把來自不同模態(tài)的所有任務可視化,我們會得到一個下面立方體,其中各模態(tài)正交排列:

9fa4abc4-7f73-11ed-8abf-dac502259ad0.jpg

以一個立方體來表示單模態(tài)之間的關系,可以假定每個面代表一個單獨模態(tài)的任務

然而,多模態(tài) AI 就像將這個立方體重新粘合成一個球體,最重要的不同點在于它抹去了不同模態(tài)之間的界限,其中:

任務在多種模式之間共享和傳輸(因此一種算法可以處理圖像,文本和音頻)

知識是從多種模式中學習并應用于多種模式(因此一個算法可以從文本數(shù)據(jù)中學習并將其應用于視覺數(shù)據(jù)。

9fc0f126-7f73-11ed-8abf-dac502259ad0.jpg

多模態(tài)人工智能

多模態(tài) AI 的崛起可歸功于兩種機器學習技術的進步:表征學習和遷移學習。

表征學習:讓模型為所有模態(tài)創(chuàng)建通用的表征。

遷移學習:讓模型首先學習基礎知識,然后在特定領域進行微調(diào)。

如果沒有表征學習和遷移學習的進步,想在通用數(shù)據(jù)類型上實行多模態(tài)是非常難以落地的,就像我 2010 年的那篇關于聲音-圖像的論文一樣,一切都是紙上談兵。

2021 年,我們看到了 CLIP,這是一個關聯(lián)圖像和文本之間對應關系的模型;2022 年,我們看到 DALL·E 2 和 Stable Diffusion,根據(jù) prompts 文本生成對應高質(zhì)量的圖像。

由此可見,范式的轉(zhuǎn)變已然開啟:未來我們必將看到越來越多的AI應用將超越單個模態(tài),發(fā)展為多模態(tài),并巧妙利用不同模態(tài)之間的關系。隨著模態(tài)之間的界限變得模糊,一次性的方法也不再適用了。

9fda8aaa-7f73-11ed-8abf-dac502259ad0.jpg

從單模態(tài) AI 到多模態(tài) AI 的范式轉(zhuǎn)變

搜索和生成的二元性

搜索和生成是多模態(tài) AI 中的兩項基本任務。在多模態(tài) AI 領域,搜索是指神經(jīng)搜索,即使用深度神經(jīng)網(wǎng)絡進行搜索。對于大多數(shù)人來說,這兩個任務是完全孤立的,并且它們已經(jīng)被分開研究了很多年。但是,搜索和生成是緊密相連的,并且具有共同的二元性。為了理解這一點,我們可以看看下面的例子。

有了多模態(tài) AI,使用文本或圖像來搜索圖像數(shù)據(jù)集就非常簡單:

9ff07da6-7f73-11ed-8abf-dac502259ad0.png

搜索:找到你需要的

創(chuàng)作是類似的。你從文本提示中創(chuàng)建一個新圖像,或者通過豐富/修復現(xiàn)有圖像來創(chuàng)建新圖像:

a0394ad6-7f73-11ed-8abf-dac502259ad0.png

生成:制作你需要的

當把這兩個任務組合在一起并屏蔽掉它們的函數(shù)名時,你可以看到這兩個任務沒有區(qū)別。兩者都接收和輸出相同的數(shù)據(jù)類型。唯一的區(qū)別是,搜索是找到你需要的東西,而生成是制造你需要的東西。

a0af8412-7f73-11ed-8abf-dac502259ad0.png

DNA 是一個很好的類比:一旦你有了一個生物體的 DNA,就可以構建系統(tǒng)發(fā)生樹,并尋找已知最古老、最原始的源頭。另一方面,你可以將 DNA 注入卵子并創(chuàng)造新的東西。

a0e42f8c-7f73-11ed-8abf-dac502259ad0.jpg

左:多模態(tài)人工智能框架下的搜索與創(chuàng)造的二元性

右:《異形:契約》電影海報

類似于哆啦A夢和瑞克,他們都擁有令人羨慕的超能力。但他們的不同在于哆啦A夢在他的口袋里尋找現(xiàn)有的物品,而瑞克則從他的車間創(chuàng)造了新東西。

a101d0e6-7f73-11ed-8abf-dac502259ad0.png

哆啦A夢代表神經(jīng)搜索,而瑞克代表生成式 AI

搜索和生成的二元性也帶來了一個有趣的思想實驗:想象一下,當生活在一個所有圖像都由人工智能生成,而不是由人類構建的世界里。我們還需要(神經(jīng))搜索嗎?或者說,我們還需要將圖像嵌入到向量中,再使用向量數(shù)據(jù)庫對其進行索引和排序嗎?

答案是 NO。因為在觀察圖像之前,唯一代表圖像的 seed 和 prompts 是已知的,后果現(xiàn)在變成了前因。與經(jīng)典的表示法相比,學習圖像是原因,表示法是結果。為了搜索圖像,我們可以簡單地存儲 seed(一個整數(shù))和 prompts(一個字符串),這不過是一個好的老式 BM25 或二分搜索。當然,我們作為人類還是更偏愛由人類自己創(chuàng)造的藝術品,所以平行宇宙暫時還不是真正的現(xiàn)實。至于為什么我們更應該關注生成式 AI 的進展 —— 因為處理多模態(tài)數(shù)據(jù)的老方法可能已經(jīng)過時了。

總結

我們正處于人工智能新時代的前沿,多模態(tài)學習將很快占據(jù)主導地位。這種類型的學習結合了多種數(shù)據(jù)類型和模態(tài)的學習,有可能徹底改變我們與機器互動的方式。到目前為止,多模態(tài) AI 已經(jīng)在計算機視覺和自然語言處理等領域取得了巨大成功。在未來,毋庸置疑的是,多模態(tài) AI 將產(chǎn)生更大的影響。例如,開發(fā)能夠理解人類交流的細微差別的系統(tǒng),或創(chuàng)造更逼真的虛擬助手。總而言之,未來擁有萬種可能,而我們才只接觸到冰山一角!





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1804

    文章

    48477

    瀏覽量

    245174
  • 機器學習
    +關注

    關注

    66

    文章

    8481

    瀏覽量

    133876
  • LDA
    LDA
    +關注

    關注

    0

    文章

    29

    瀏覽量

    10743
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22425

原文標題:Jina AI創(chuàng)始人肖涵博士解讀多模態(tài)AI的范式變革

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    芯片行業(yè)的IP是什么?芯片 IP 公司到底是做什么的?

    在過去很多行業(yè)展會或論壇上,我們總會遇到有不少人疑問:IP 公司是做什么的?跟行業(yè)頭部的 GPU 芯片公司有什么不一樣?其實不難理解,盡管芯片行業(yè)被越來越多的大眾討論,但由于整個產(chǎn)業(yè)鏈涉及的環(huán)節(jié)多且
    的頭像 發(fā)表于 08-08 08:40 ?7813次閱讀
    芯片行業(yè)的IP是什么?芯片 IP 公司<b class='flag-5'>到底是</b><b class='flag-5'>做什么的</b>?

    請問培訓生是做什么的

    技術員培訓生工程師培訓生這些職位是做什么的·····以后怎么發(fā)展······
    發(fā)表于 02-18 01:24

    stm32的這些時鐘都是做什么的

    請問一下stm32的這些時鐘都是做什么的,有什么區(qū)別呢,什么時候改用哪個?SYSCLK,HCLK,PCLK,麻煩大家?guī)兔χ更c一下,謝謝!
    發(fā)表于 05-27 04:35

    請問NPU到底是什么?

    目前手機市場中,AI已成為標配,但手機里的AI夠不夠聰明,還得看手機芯片里的NPU是否夠強大。那么,NPU到底是什么呢?
    發(fā)表于 12-08 07:00

    Native是用來做什么的?

    PDK中的mos管類型中的Native是用來做什么的
    發(fā)表于 01-18 06:46

    嵌入式到底是什么的

    什么是嵌入式?嵌入式到底是什么的?也許很多人不了解,但我寧愿相信這一部分人都不是做技術開發(fā)的。如果你還非得要說是。那就該充充電了。那究竟什么是嵌入式呢?嵌入式是一個操作系統(tǒng),美國人定義為用于控制
    發(fā)表于 10-27 08:01

    MIPI CSI D-PHY寄存器中HS-SETTLE參數(shù)到底是做什么?

    ?我也不清楚時鐘頻率參數(shù)到底是做什么的。如果我查看驅(qū)動程序,我會看到這會設置 mipi_clk。當我測量 OV5640 的 mipi clk 通道上的時鐘時,我測量到 112MHz 的頻率。所以我不明白
    發(fā)表于 03-28 09:08

    半導體行業(yè)是做什么的_誰是中國半導體龍頭

    半導體是指常溫下導電性能介于導體與絕緣體之間的材料。由于其在收音機、電視機以及測溫方面的廣泛應用,半導體行業(yè)有著龐大且多變的發(fā)展?jié)撃?。半導體導電性可受控制的特性使得其在科技與經(jīng)濟領域都發(fā)揮著十分重要的作用。本文主要介紹半導體行業(yè)到底是做什么的以及誰才是中國半導體龍頭,跟隨
    的頭像 發(fā)表于 04-27 16:04 ?8.7w次閱讀
    半導體行業(yè)是<b class='flag-5'>做什么的</b>_誰是中國半導體龍頭

    程序員到底是做什么的

    很多人問程序員是是做什么的?或者問IT是做什么的?對于非IT行業(yè)的人很難有時間慢慢解釋清楚,下面我結合自己的理解談一談吧。
    的頭像 發(fā)表于 02-12 16:17 ?9606次閱讀

    ip地址是做什么的

    如果你現(xiàn)在正在看我的這篇文章,那說明你已經(jīng)連接上了互聯(lián)網(wǎng)。說到互聯(lián)網(wǎng),你一定聽說 ip 地址這個概念,你知道 ip 地址是做什么的嗎?與之而來的還有公網(wǎng) ip ,私網(wǎng) ip ,你知道有什么區(qū)別嗎?
    的頭像 發(fā)表于 09-16 10:03 ?3446次閱讀

    雙面金屬化聚丙烯膜電容到底是做什么用的?

    所謂聚丙烯電容,指的就是CBB電容器,但CBB電容種類還是極多的,其中有一個非常特殊的電容器,那就是雙面金屬化聚丙烯膜電容,它的簡稱是MMKP82電容,雙面金屬化聚丙烯膜電容到底是做什么用的?
    發(fā)表于 11-24 11:40 ?1402次閱讀

    芯片IP公司到底是做什么的

    在過去很多行業(yè)展會或論壇上,我們總會遇到有不少人疑問:IP公司是做什么的?跟行業(yè)頭部的GPU芯片公司有什么不一樣?其實不難理解,盡管芯片行業(yè)被越來越多的大眾討論,但由于整個產(chǎn)業(yè)鏈涉及的環(huán)節(jié)多且復雜
    的頭像 發(fā)表于 08-08 08:31 ?1452次閱讀
    芯片IP公司<b class='flag-5'>到底是</b><b class='flag-5'>做什么的</b>?

    什么是虛擬線程?虛擬線程到底是做什么用的呢?

    虛擬線程是在Java并發(fā)領域添加的一個新概念,那么虛擬線程到底是做什么用的呢?
    的頭像 發(fā)表于 10-29 10:23 ?3426次閱讀
    什么是虛擬線程?虛擬線程<b class='flag-5'>到底是</b><b class='flag-5'>做什么</b>用的呢?

    邊緣AI到底是什么?能做什么?

    邊緣AI到底是什么?能做什么? 邊緣人工智能是一種新興的人工智能技術,它將人工智能的計算和決策能力移動到離數(shù)據(jù)生成源和終端設備更近的邊緣節(jié)點上。與傳統(tǒng)的云計算方式相比,邊緣AI將計算
    的頭像 發(fā)表于 01-11 14:44 ?1625次閱讀

    AI工作流自動化是做什么的

    AI工作流自動化是指利用人工智能技術,對工作流程中的重復性、規(guī)則明確的任務進行自動化處理的過程。那么,AI工作流自動化是做什么的呢?接下來,AI部落小編為您分享。
    的頭像 發(fā)表于 01-06 17:57 ?524次閱讀