一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于多模態(tài)機(jī)器學(xué)習(xí)綜述論文

mK5P_AItists ? 來源:lq ? 2019-01-21 13:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要:”當(dāng)研究問題或數(shù)據(jù)集包括多個(gè)這樣的模態(tài)時(shí),其特征在于多模態(tài)。

【導(dǎo)讀】人工智能領(lǐng)域最頂級(jí)國際期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEETPAMI,影響因子為 9.455),2019年1月最新一期發(fā)表了關(guān)于多模態(tài)機(jī)器學(xué)習(xí)綜述論文。我們周圍的世界涉及多種形式 - 我們看到物體,聽到聲音,感覺質(zhì)地,聞到異味等等。 一般而言,模態(tài)指的是事物發(fā)生或經(jīng)歷的方式。 大多數(shù)人將形態(tài)與感覺方式聯(lián)系起來,這些感覺方式代表了我們主要的交流和感覺渠道,例如視覺或觸覺。



因此,當(dāng)研究問題或數(shù)據(jù)集包括多個(gè)這樣的模態(tài)時(shí),其特征在于多模態(tài)。 本文主要關(guān)注但不僅僅關(guān)注三種形式:自然語言既可以是書面的,也可以是口頭的; 視覺信號(hào),通常用圖像或視頻表示; 和聲音信號(hào),編碼聲音和口頭信息,如韻律和聲音表達(dá)。

我們對(duì)世界的體驗(yàn)是多模式的 - 我們看到物體,聽到聲音,感覺質(zhì)地,聞到異味和味道。情態(tài)是指某種事物發(fā)生或經(jīng)歷的方式,并且當(dāng)研究問題包括多種這樣的形式時(shí),研究問題被描述為多模式。為了使人工智能在理解我們周圍的世界方面取得進(jìn)展,它需要能夠?qū)⑦@種多模態(tài)信號(hào)一起解釋。多模式機(jī)器學(xué)習(xí)旨在構(gòu)建可以處理和關(guān)聯(lián)來自多種模態(tài)的信息的模型。這是一個(gè)充滿活力的多學(xué)科領(lǐng)域,具有越來越重要的意義和非凡的潛力。本文不是關(guān)注特定的多模態(tài)應(yīng)用,而是研究多模態(tài)機(jī)器學(xué)習(xí)本身的最新進(jìn)展。我們超越了典型的早期和晚期融合分類,并確定了多模式機(jī)器學(xué)習(xí)所面臨的更廣泛的挑戰(zhàn),即:表示,翻譯,對(duì)齊,融合和共同學(xué)習(xí)。這種新的分類法將使研究人員能夠更好地了解該領(lǐng)域的狀況,并確定未來研究的方向。

論文地址:

http://www.zhuanzhi.ai/paper/2236c08ef0cd1bc87cae0f14cfbb9915

https://ieeexplore.ieee.org/document/8269806

模態(tài)特征表示

多模態(tài)的表示方法有兩類:

聯(lián)合表示將不同模態(tài)的特征映射到同一個(gè)空間,代表方法有神經(jīng)網(wǎng)絡(luò)的方法、圖模型方法與序列模型方法。

協(xié)調(diào)方法特征仍在原空間,但是通過相似度或者結(jié)構(gòu)特征協(xié)調(diào)。

多模態(tài)特征翻譯

多模態(tài)特征翻譯分為基于樣本的和生成式的:

基于樣本的方法從特征字典中找出最佳翻譯?;跇颖镜姆椒ǚ譃榛跈z索式的和合并的方法。

生成式的方法則是通過樣本,訓(xùn)練一個(gè)翻譯模型,并使用翻譯模型完成對(duì)特征的轉(zhuǎn)換。生成式的方法有基于語法的、encoder-decoder模型和連續(xù)模型。

多模態(tài)特征對(duì)齊

多模態(tài)特征對(duì)齊是找到同一個(gè)實(shí)例的不同之間模態(tài)特征之間的關(guān)系。

顯式對(duì)齊方法包括監(jiān)督模型和無監(jiān)督模型。無監(jiān)督模型如CCA和DTW(Dynamic time warping)等。

隱式對(duì)齊的方法包括圖模型和神經(jīng)網(wǎng)絡(luò)

多模態(tài)特征融合

多模態(tài)特征融合是指將從不同模態(tài)的特征集成在一起,共同完成一個(gè)任務(wù),如分類。

無模型融合的方法被分為早期模型(基于特征)、晚期模型(基于決策)和混合模型

有模型融合的方法有核方法、圖模型方法、神經(jīng)網(wǎng)絡(luò)模型方法等。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    48987

    瀏覽量

    249136
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8501

    瀏覽量

    134551
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13654

原文標(biāo)題:人工智能頂刊TPAMI2019最新《多模態(tài)機(jī)器學(xué)習(xí)綜述》

文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式
    的頭像 發(fā)表于 06-12 10:17 ?162次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式

    NVIDIA在模態(tài)生成式AI領(lǐng)域的突破性進(jìn)展

    在今年的國際學(xué)習(xí)表征大會(huì)(ICLR)上,NVIDIA 發(fā)表了 70 余篇論文,其內(nèi)容涵蓋醫(yī)療、機(jī)器人、自動(dòng)駕駛汽車以及大語言模型等領(lǐng)域。
    的頭像 發(fā)表于 05-15 10:49 ?423次閱讀

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態(tài)大模型

    熟悉愛芯通元NPU的網(wǎng)友很清楚,從去年開始我們?cè)诙藗?cè)模態(tài)大模型適配上一直處于主動(dòng)緊跟的節(jié)奏。先后適配了國內(nèi)最早開源的模態(tài)大模MiniCPM V 2.0,上海人工智能實(shí)驗(yàn)室的書生
    的頭像 發(fā)表于 04-21 10:56 ?1413次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型

    ?模態(tài)交互技術(shù)解析

    模態(tài)交互 模態(tài)交互( Multimodal Interaction )是指通過多種感官通道(如視覺、聽覺、觸覺等)或多種交互方式(如語音、手勢(shì)、觸控、眼動(dòng)等)與計(jì)算機(jī)系統(tǒng)進(jìn)行自然、
    的頭像 發(fā)表于 03-17 15:12 ?2024次閱讀

    AgiBot World Colosseo:構(gòu)建通用機(jī)器人智能的規(guī)?;瘮?shù)據(jù)平臺(tái)

    人數(shù)據(jù)的匱乏,制約了通用操縱能力的突破。上海人工智能實(shí)驗(yàn)室與AgiBot公司聯(lián)合研發(fā)的AgiBot World Colosseo平臺(tái),通過構(gòu)建大規(guī)模、模態(tài)的真實(shí)世界數(shù)據(jù)集與通用政策模型,為機(jī)器人學(xué)習(xí)
    的頭像 發(fā)表于 03-12 11:42 ?1072次閱讀
    AgiBot World Colosseo:構(gòu)建通用<b class='flag-5'>機(jī)器</b>人智能的規(guī)模化數(shù)據(jù)平臺(tái)

    ??低暟l(fā)布模態(tài)大模型文搜存儲(chǔ)系列產(chǎn)品

    模態(tài)大模型為安防行業(yè)帶來重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,??低晫⒋髤?shù)量、大樣本量的圖文模態(tài)大模型與嵌入式智能硬件深度融合,發(fā)布
    的頭像 發(fā)表于 02-18 10:33 ?673次閱讀

    2025年Next Token Prediction范式會(huì)統(tǒng)一模態(tài)

    訓(xùn)練方法與推理策略 性能評(píng)測(cè)體系 現(xiàn)存挑戰(zhàn)與未來方向 綜述的完整目錄如下: 模態(tài)的 Tokenization 我們認(rèn)為模態(tài)的 Token
    的頭像 發(fā)表于 01-21 10:11 ?454次閱讀
    2025年Next Token Prediction范式會(huì)統(tǒng)一<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嗎

    體驗(yàn)MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型

    。 模態(tài)融合的創(chuàng)新與突破 機(jī)器人控制技術(shù)的另一個(gè)重要突破在于模態(tài)大模型的應(yīng)用。相比于僅通過文字進(jìn)行人機(jī)交互的傳統(tǒng)方法,現(xiàn)代
    發(fā)表于 12-29 23:04

    商湯日日新模態(tài)大模型權(quán)威評(píng)測(cè)第一

    剛剛,商湯科技日日新SenseNova模態(tài)大模型,在權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的模態(tài)評(píng)測(cè)中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?1000次閱讀

    一文理解模態(tài)大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態(tài)大語言模型 - 上》介紹了什么是模態(tài)大語言模型,以及構(gòu)建
    的頭像 發(fā)表于 12-03 15:18 ?584次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言模型——下

    一文理解模態(tài)大語言模型——上

    /understanding-multimodal-llms 在過去幾個(gè)月中, OpenVINO? 架構(gòu)師 Yury閱讀了眾多有關(guān)模態(tài)大語言模型的論文和博客,在此基礎(chǔ)上,推薦了一篇解讀
    的頭像 發(fā)表于 12-02 18:29 ?1162次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言模型——上

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來說,
    的頭像 發(fā)表于 10-18 09:39 ?1236次閱讀

    云知聲推出山海模態(tài)大模型

    在人工智能技術(shù)的浩瀚星海中,模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創(chuàng)新之姿,推出了其匠心獨(dú)運(yùn)的山海模態(tài)大模型,正式宣告“Her時(shí)代
    的頭像 發(fā)表于 08-27 15:20 ?627次閱讀

    清華大學(xué):軟體機(jī)器人柔性傳感技術(shù)最新研究進(jìn)展

    傳感領(lǐng)域發(fā)表卷首(frontispiece)綜述論文。這項(xiàng)工作全面總結(jié)了用于柔性傳感器的智能材料以及先進(jìn)制造方法,詳盡歸納了不同類型的傳感模式。
    的頭像 發(fā)表于 08-13 16:28 ?1684次閱讀
    清華大學(xué):軟體<b class='flag-5'>機(jī)器</b>人柔性傳感技術(shù)最新研究進(jìn)展