五月天色丁香婷婷欧美,欧美日韩亚洲一区二区在线观看,成人AV网址日韩

我們正處于人工智能新時(shí)代的風(fēng)口浪尖，正從單模態(tài)大步邁向多模態(tài) AI 時(shí)代。在 Jina AI，我們的 MLOps 平臺(tái)幫助企業(yè)和開(kāi)發(fā)者加速整個(gè)應(yīng)用開(kāi)發(fā)的過(guò)程，在這一范式變革中搶占先機(jī)，構(gòu)建起著眼于未來(lái)的應(yīng)用程序。

如果別人問(wèn)到我們 Jina AI 是做什么的，我會(huì)有以下兩種回答。1. 面對(duì) AI 研究員時(shí)，我會(huì)說(shuō)：Jina AI 是一個(gè)跨模態(tài)和多模態(tài)數(shù)據(jù)的 MLOps 平臺(tái)；2. 面向從業(yè)者和合作伙伴時(shí)，我會(huì)說(shuō)：Jina AI 是用于神經(jīng)搜索和生成式 AI 應(yīng)用的 MLOps 平臺(tái)。

但無(wú)論用哪種方式來(lái)介紹 Jina AI，大多數(shù)人對(duì)于這幾個(gè)詞語(yǔ)都是比較陌生的。

跨模態(tài)、多模態(tài)

神經(jīng)搜索、生成式 AI

你可能聽(tīng)說(shuō)過(guò)”非結(jié)構(gòu)化數(shù)據(jù)“，但什么是“多模態(tài)數(shù)據(jù)”呢？你可能也聽(tīng)說(shuō)過(guò)“語(yǔ)義搜索”，那“神經(jīng)搜索”是什么新鮮玩意兒呢？可能更加令你困惑的是，Jina AI 為什么要將這四個(gè)概念混在一起，開(kāi)發(fā)一個(gè) MLOps 框架來(lái)囊括所有這些概念呢？

這篇文章就是為了幫助大家更好地理解 Jina AI 到底是做什么的，以及我們?yōu)槭裁匆鲞@些。首先，“人工智能已從單模態(tài) AI 轉(zhuǎn)向了多模態(tài) AI”，這一點(diǎn)已成為行業(yè)共識(shí)，如下圖所示：

Jina AI 愿景中的未來(lái) AI 應(yīng)用

在 Jina AI，我們的產(chǎn)品囊括了跨模態(tài)、多模態(tài)、神經(jīng)搜索和生成式 AI，涵蓋了未來(lái) AI 應(yīng)用的很大一部分。我們的 MLOps 平臺(tái)幫助企業(yè)和開(kāi)發(fā)者加速整個(gè)應(yīng)用開(kāi)發(fā)的過(guò)程，在這一范式轉(zhuǎn)變中搶占先機(jī)，構(gòu)建起著眼于未來(lái)的應(yīng)用程序。

在接下來(lái)的文章里，我們將回顧單模態(tài) AI 的發(fā)展歷程，看看這種范式轉(zhuǎn)變是如何在我們眼下悄然發(fā)生的。

單模態(tài)人工智能

在計(jì)算機(jī)科學(xué)中，“模態(tài)”大致意思是“數(shù)據(jù)類型”。所謂的單模態(tài) AI，就是將 AI 應(yīng)用于一種特定類型的數(shù)據(jù)。這在早期的機(jī)器學(xué)習(xí)領(lǐng)域非常普遍。直至今日，你在看機(jī)器學(xué)習(xí)相關(guān)的論文時(shí)，單模態(tài) AI 依然占據(jù)著半壁江山。

自然語(yǔ)言處理

我們從自然語(yǔ)言處理（NLP）開(kāi)始回顧。早在 2010 年，我就發(fā)表了一篇關(guān)于 Latent Dirichlet Allocation（LDA）模型的改進(jìn) Gibbs sampling(吉布斯抽樣)算法的論文。

Efficient Collapsed Gibbs Sampling For Latent Dirichlet Allocation, 2010

一些資深的機(jī)器學(xué)習(xí)研究人員可能還記得 LDA，這是一種用于建模文本語(yǔ)料庫(kù)的參數(shù)貝葉斯模型。它將單詞“聚類”成主題，并將每個(gè)文檔表示為主題的組合。因此有人稱其為“主題模型”

從 2008 年到 2012 年，主題模型一直是 NLP 社區(qū)中最有效和最受歡迎的模型之一——它的火熱程度相當(dāng)于當(dāng)時(shí)的 BERT/Transformer。每年在頂級(jí) ML/NLP 會(huì)議上，許多論文都會(huì)擴(kuò)展或改進(jìn)原始模型。但今天回過(guò)頭來(lái)看，它是一個(gè)相當(dāng) "淺層學(xué)習(xí)"的模型，采用的是一次性的語(yǔ)言建模方法。它假定單詞是由多叉分布的混合物生成的。這對(duì)某些特定的任務(wù)來(lái)說(shuō)是有意義的，但對(duì)其他任務(wù)、領(lǐng)域或模式來(lái)說(shuō)卻不夠通用。

早在 2010-2020 年，像這樣的一次性方法是 NLP 研究的常態(tài)。研究人員和工程師開(kāi)發(fā)了專門的算法，每種算法雖然都擅長(zhǎng)解決一項(xiàng)任務(wù)，但是也僅僅只能解決一項(xiàng)任務(wù)：

最常見(jiàn)的20種NLP任務(wù)

計(jì)算機(jī)視覺(jué)

相較于 NLP 領(lǐng)域，我進(jìn)入計(jì)算機(jī)視覺(jué) (CV) 領(lǐng)域要晚一些。2017 年在 Zalando 時(shí)，我發(fā)表了一篇關(guān)于 Fashion-MNIST 數(shù)據(jù)集的論文。該數(shù)據(jù)集是 Yann LeCun 1990 年原始 MNIST 數(shù)據(jù)集（一組簡(jiǎn)單的手寫數(shù)字，用于對(duì)計(jì)算機(jī)視覺(jué)算法進(jìn)行基準(zhǔn)測(cè)試）的直接替代品。原始 MNIST 數(shù)據(jù)集對(duì)于許多算法來(lái)說(shuō)過(guò)于簡(jiǎn)單 —— 邏輯回歸、決策樹(shù)等淺層學(xué)習(xí)算法樹(shù)和支持向量機(jī)可以輕松達(dá)到 90% 的準(zhǔn)確率，留給深度學(xué)習(xí)算法發(fā)揮的空間很小。

Fashion-mnist：用于基準(zhǔn)機(jī)器學(xué)習(xí)算法的新型圖像數(shù)據(jù)集示例，2017

Fashion-mnist：用于基準(zhǔn)機(jī)器學(xué)習(xí)算法的新型圖像數(shù)據(jù)集論文，2017

Fashion-MNIST 提供了一個(gè)更具挑戰(zhàn)性的數(shù)據(jù)集，使研究人員能夠探索、測(cè)試和衡量其算法。時(shí)至今日，超過(guò) 5,000 篇學(xué)術(shù)論文在分類、回歸、去噪、生成等方面的研究中都還引用了 Fashion-MNIST，可見(jiàn)其價(jià)值所在。

但正如主題模型只適用于 NLP，F(xiàn)ashion-MNIST 也只適用于計(jì)算機(jī)視覺(jué)。它的缺陷在于，數(shù)據(jù)集中幾乎沒(méi)有任何信息可以用來(lái)研究其他模式。如果梳理2010-2020年間最常見(jiàn)的20個(gè)CV任務(wù)，你會(huì)發(fā)現(xiàn)，幾乎所有任務(wù)都是單一模式的。同樣的，它們每一個(gè)都涵蓋了一個(gè)特定的任務(wù)，但也僅僅涉及一項(xiàng)任務(wù)：

最常見(jiàn)的 20 個(gè) CV 任務(wù)

語(yǔ)音和音頻

針對(duì)語(yǔ)音和音頻機(jī)器學(xué)習(xí)遵循相同的模式：算法是為圍繞音頻模態(tài)的臨時(shí)任務(wù)而設(shè)計(jì)的。他們各自執(zhí)行一項(xiàng)任務(wù)，而且只執(zhí)行一項(xiàng)任務(wù)，但現(xiàn)在都在一起執(zhí)行：

最常見(jiàn)的 20 項(xiàng)音頻處理任務(wù)

我對(duì)多模態(tài) AI 方面最早的嘗試之一是我在 2010 年發(fā)表的一篇論文，當(dāng)時(shí)我建立了一個(gè)貝葉斯模型，對(duì)視覺(jué)、文本和聲音 3 種模態(tài)進(jìn)行聯(lián)合建模。經(jīng)過(guò)訓(xùn)練后，它就能完成兩項(xiàng)跨模式的檢索任務(wù)：從聲音片段中找到最匹配的圖像，反之亦然。我給這兩個(gè)任務(wù)起了一個(gè)很賽博朋克的名字：“Artificial Synesthesia，人機(jī)聯(lián)覺(jué)”。

Toward Artificial Synesthesia: Linking Images and Sounds via Words, 2010

邁向多模態(tài)人工智能

從上面的例子中，我們可以看到所有的單模態(tài) AI 算法都有兩個(gè)共同的弊端：

任務(wù)只針對(duì)一種模態(tài)（例如文本、圖像、音頻等）。

知識(shí)只能從一種模態(tài)中學(xué)習(xí)，并應(yīng)用在這一模式中（即視覺(jué)算法只能從圖像中學(xué)習(xí)，并應(yīng)用于圖像）。

在上文中，我已經(jīng)討論了文本、圖像、音頻。還有其他模式，例如 3D、視頻、時(shí)間序列，也應(yīng)該被考慮在內(nèi)。如果我們把來(lái)自不同模態(tài)的所有任務(wù)可視化，我們會(huì)得到一個(gè)下面立方體，其中各模態(tài)正交排列：

以一個(gè)立方體來(lái)表示單模態(tài)之間的關(guān)系，可以假定每個(gè)面代表一個(gè)單獨(dú)模態(tài)的任務(wù)

然而，多模態(tài) AI 就像將這個(gè)立方體重新粘合成一個(gè)球體，最重要的不同點(diǎn)在于它抹去了不同模態(tài)之間的界限，其中：

任務(wù)在多種模式之間共享和傳輸（因此一種算法可以處理圖像，文本和音頻）

知識(shí)是從多種模式中學(xué)習(xí)并應(yīng)用于多種模式（因此一個(gè)算法可以從文本數(shù)據(jù)中學(xué)習(xí)并將其應(yīng)用于視覺(jué)數(shù)據(jù)。

多模態(tài)人工智能

多模態(tài) AI 的崛起可歸功于兩種機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步：表征學(xué)習(xí)和遷移學(xué)習(xí)。

表征學(xué)習(xí)：讓模型為所有模態(tài)創(chuàng)建通用的表征。

遷移學(xué)習(xí)：讓模型首先學(xué)習(xí)基礎(chǔ)知識(shí)，然后在特定領(lǐng)域進(jìn)行微調(diào)。

如果沒(méi)有表征學(xué)習(xí)和遷移學(xué)習(xí)的進(jìn)步，想在通用數(shù)據(jù)類型上實(shí)行多模態(tài)是非常難以落地的，就像我 2010 年的那篇關(guān)于聲音-圖像的論文一樣，一切都是紙上談兵。

2021 年，我們看到了 CLIP，這是一個(gè)關(guān)聯(lián)圖像和文本之間對(duì)應(yīng)關(guān)系的模型；2022 年，我們看到 DALL·E 2 和 Stable Diffusion，根據(jù) prompts 文本生成對(duì)應(yīng)高質(zhì)量的圖像。

由此可見(jiàn)，范式的轉(zhuǎn)變已然開(kāi)啟：未來(lái)我們必將看到越來(lái)越多的AI應(yīng)用將超越單個(gè)模態(tài)，發(fā)展為多模態(tài)，并巧妙利用不同模態(tài)之間的關(guān)系。隨著模態(tài)之間的界限變得模糊，一次性的方法也不再適用了。

從單模態(tài) AI 到多模態(tài) AI 的范式轉(zhuǎn)變

搜索和生成的二元性

搜索和生成是多模態(tài) AI 中的兩項(xiàng)基本任務(wù)。在多模態(tài) AI 領(lǐng)域，搜索是指神經(jīng)搜索，即使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行搜索。對(duì)于大多數(shù)人來(lái)說(shuō)，這兩個(gè)任務(wù)是完全孤立的，并且它們已經(jīng)被分開(kāi)研究了很多年。但是，搜索和生成是緊密相連的，并且具有共同的二元性。為了理解這一點(diǎn)，我們可以看看下面的例子。

有了多模態(tài) AI，使用文本或圖像來(lái)搜索圖像數(shù)據(jù)集就非常簡(jiǎn)單：

搜索：找到你需要的

創(chuàng)作是類似的。你從文本提示中創(chuàng)建一個(gè)新圖像，或者通過(guò)豐富/修復(fù)現(xiàn)有圖像來(lái)創(chuàng)建新圖像：

生成：制作你需要的

當(dāng)把這兩個(gè)任務(wù)組合在一起并屏蔽掉它們的函數(shù)名時(shí)，你可以看到這兩個(gè)任務(wù)沒(méi)有區(qū)別。兩者都接收和輸出相同的數(shù)據(jù)類型。唯一的區(qū)別是，搜索是找到你需要的東西，而生成是制造你需要的東西。

DNA 是一個(gè)很好的類比：一旦你有了一個(gè)生物體的 DNA，就可以構(gòu)建系統(tǒng)發(fā)生樹(shù)，并尋找已知最古老、最原始的源頭。另一方面，你可以將 DNA 注入卵子并創(chuàng)造新的東西。

左：多模態(tài)人工智能框架下的搜索與創(chuàng)造的二元性

右：《異形：契約》電影海報(bào)

類似于哆啦A夢(mèng)和瑞克，他們都擁有令人羨慕的超能力。但他們的不同在于哆啦A夢(mèng)在他的口袋里尋找現(xiàn)有的物品，而瑞克則從他的車間創(chuàng)造了新東西。

哆啦A夢(mèng)代表神經(jīng)搜索，而瑞克代表生成式 AI

搜索和生成的二元性也帶來(lái)了一個(gè)有趣的思想實(shí)驗(yàn)：想象一下，當(dāng)生活在一個(gè)所有圖像都由人工智能生成，而不是由人類構(gòu)建的世界里。我們還需要（神經(jīng)）搜索嗎？或者說(shuō)，我們還需要將圖像嵌入到向量中，再使用向量數(shù)據(jù)庫(kù)對(duì)其進(jìn)行索引和排序嗎？

答案是 NO。因?yàn)樵谟^察圖像之前，唯一代表圖像的 seed 和 prompts 是已知的，后果現(xiàn)在變成了前因。與經(jīng)典的表示法相比，學(xué)習(xí)圖像是原因，表示法是結(jié)果。為了搜索圖像，我們可以簡(jiǎn)單地存儲(chǔ) seed（一個(gè)整數(shù)）和 prompts（一個(gè)字符串），這不過(guò)是一個(gè)好的老式 BM25 或二分搜索。當(dāng)然，我們作為人類還是更偏愛(ài)由人類自己創(chuàng)造的藝術(shù)品，所以平行宇宙暫時(shí)還不是真正的現(xiàn)實(shí)。至于為什么我們更應(yīng)該關(guān)注生成式 AI 的進(jìn)展 —— 因?yàn)樘幚矶嗄B(tài)數(shù)據(jù)的老方法可能已經(jīng)過(guò)時(shí)了。

總結(jié)

我們正處于人工智能新時(shí)代的前沿，多模態(tài)學(xué)習(xí)將很快占據(jù)主導(dǎo)地位。這種類型的學(xué)習(xí)結(jié)合了多種數(shù)據(jù)類型和模態(tài)的學(xué)習(xí)，有可能徹底改變我們與機(jī)器互動(dòng)的方式。到目前為止，多模態(tài) AI 已經(jīng)在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等領(lǐng)域取得了巨大成功。在未來(lái)，毋庸置疑的是，多模態(tài) AI 將產(chǎn)生更大的影響。例如，開(kāi)發(fā)能夠理解人類交流的細(xì)微差別的系統(tǒng)，或創(chuàng)造更逼真的虛擬助手。總而言之，未來(lái)?yè)碛腥f(wàn)種可能，而我們才只接觸到冰山一角！

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1806

文章
49019

瀏覽量
249474
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8503

瀏覽量
134612
LDA

LDA

+關(guān)注

關(guān)注
0

文章
29

瀏覽量
10825
nlp

nlp

+關(guān)注

關(guān)注
1

文章
490

瀏覽量
22621