一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語音識別技術(shù)最新進展:視聽融合的多模態(tài)交互成為主要演進方向

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-12-28 09:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/李彎彎)所謂“模態(tài)”,英文是modality,用通俗的話說,就是“感官”,多模態(tài)即將多種感官融合。多模態(tài)交互技術(shù)是近年來人工智能領(lǐng)域的一項重要創(chuàng)新。隨著語音識別技術(shù)的發(fā)展,采用多種模態(tài)(聲學(xué)、語言模型、視覺特征等)進行聯(lián)合建模,基于深度學(xué)習(xí)的多模態(tài)語音識別取得了新進展。

多模態(tài)交互的原理及優(yōu)勢

多模態(tài)交互技術(shù)融合了多種輸入方式,包括語音、手勢、觸摸和眼動等,使用戶可以根據(jù)自己的喜好和習(xí)慣選擇最方便的交互方式。多模態(tài)交互通過將不同輸入方式的數(shù)據(jù)進行融合和處理,實現(xiàn)更準確、智能的交互響應(yīng),提高用戶體驗。

上周在星宸科技2023開發(fā)者大會暨產(chǎn)品發(fā)布會論壇上,科大訊飛企業(yè)數(shù)字化副總裁盧堯談到,人工智能有三個層次,1、運算智能:能存會算;2、感知智能:能聽會說,能看會認;3、認知智能:能理解會思考。而感知智能典型的進展是多模態(tài)交互。

從盧堯的介紹來看,融合了視覺和語音的多模態(tài)免喚醒系統(tǒng)具有明顯優(yōu)勢。如下圖:這套多模態(tài)免喚醒交互系統(tǒng),同時采用視覺檢測和語音識別交互,誤喚醒率僅為0.01%,交互響應(yīng)成功率相較于僅基于語音識別交互系統(tǒng)大幅提升。

wKgaomWMymCACWUdAAZDJDahffk724.jpg

早在今年5月,科大訊飛AI研究院副院長高建清博士就在某論壇上介紹過公司在多模態(tài)語音交互技術(shù)方面的最新進展。據(jù)高建清介紹,科大訊飛依托語音與視覺方面的多年積累,打造了一套語音、視覺多模態(tài)融合的免喚醒多模態(tài)交互系統(tǒng)。

通過將麥克風提供的空間信息和音視頻提供的說話人相關(guān)信息進行融合綁定,實現(xiàn)高準確度的說話人分離;通過多模態(tài)VAD與端到端意圖技術(shù)的結(jié)合,實現(xiàn)無喚醒詞的自然人機交互,具有可靠、自然、魯棒的特點。

具體來看,基于多模態(tài)多通道的語音分離系統(tǒng),將語音信號、麥克風陣列提供的空間信息以及主說話人的唇形輸入分離模型,系統(tǒng)最終輸出視頻說話人的語音,抑制背景噪聲及干擾說話人語音。在多人同時講話、車載音樂情況下,語音識別效果相比單模分離系統(tǒng)有50%以上性能提升。不僅解決了傳統(tǒng)麥克風陣列方法無法有效區(qū)分同向干擾的問題,還可提升非同向干擾分離場景的性能。

多模態(tài)交互技術(shù)的應(yīng)用

語音識別是人工智能技術(shù)的一個重要分支,近些年來,智能語音也在多項技術(shù)難點上取得突破。業(yè)界普遍認為,在語音識別方面,視聽融合的多模態(tài)交互技術(shù)成為技術(shù)演進的主要方向。

科大訊飛是國內(nèi)主要的智能語音技術(shù)玩家,其多模語音增強技術(shù)融合語音與視覺的多模感知,讓高噪音場景下的語音交互跨過實用門檻,目前已經(jīng)在車載、會議、地鐵購票和醫(yī)療掛號等場景落地。

wKgaomWMymyAGg6TAAa96QItwQ8667.jpg

在車載領(lǐng)域,人機交互系統(tǒng)需要攻克兩大難題:一是環(huán)境噪音及人聲干擾,尤其是麥克風陣列技術(shù)難以解決的同向人聲干擾問題(如:駕駛員與左后方乘客同時說話);二是傳統(tǒng)語音交互系統(tǒng)每次啟動交互都需要說喚醒詞,難以做到像人與人交流一樣自然順暢。

此前就有消息顯示,科大訊飛多模態(tài)免喚醒交互解決方案將率先在廣汽傳祺和威馬等自主品牌車型上部署應(yīng)用。該方案能夠適應(yīng)復(fù)雜光線暗、語音嘈雜等多種工況,并支持主流SOC和DMS攝像頭。

在地鐵購票場景中,此前因為地鐵站點太多,買票難以找到目的地站點,而且這些操作對于老年人不太友好,而語音購票的功能讓這些問題迎刃而解。同時,因為地鐵站人聲嘈雜,也使得語音交互的體驗并不友好。

根據(jù)此前的報道,深圳地鐵12號線智能售票機及智慧客服終端上,率先采用了科大訊飛多模語音增強技術(shù),該技術(shù)通過識別人臉唇形等信息,同時結(jié)合人聲,使得即使在人聲嘈雜的環(huán)境,語音識別的準確率也大大提升。

多模態(tài)語音識別技術(shù)在智能家居場景中也非常實用。融合語音、手勢、視覺感知,用戶可以過簡單的口頭指令控制智能家居設(shè)備,實現(xiàn)智能燈光、家居安防等功能,通過攝像頭和深度學(xué)習(xí)技術(shù),智能家居可以識別用戶的手勢動作,實現(xiàn)手勢控制家居設(shè)備的操作。同時,通過視覺感知技術(shù),識別用戶的面部表情和情緒狀態(tài),根據(jù)不同情況提供相應(yīng)的互動體驗。

總結(jié)

經(jīng)過多年的發(fā)展,語音識別技術(shù)已經(jīng)相當成熟,并且在車載、智能家居等各種場景中實現(xiàn)應(yīng)用,并給人們的生活帶來便利。然而同時,一直以來語音識別也存在諸多難點,比如環(huán)境噪聲、多人同時發(fā)出聲音等情況,都會影響語音識別的準確率。而視聽融合的多模態(tài)技術(shù),將視覺和語音結(jié)合,能夠很好的解決這些問題,使得語音識別的準確率大幅提升。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1782

    瀏覽量

    114249
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    英特爾持續(xù)推進核心制程和先進封裝技術(shù)創(chuàng)新,分享最新進展

    近日,在2025英特爾代工大會上,英特爾展示了代核心制程和先進封裝技術(shù)最新進展,這些突破不僅體現(xiàn)了英特爾在技術(shù)開發(fā)領(lǐng)域的持續(xù)創(chuàng)新,也面向客戶需求提供了更高效、更靈活的解決方案。 在
    的頭像 發(fā)表于 05-09 11:42 ?227次閱讀
    英特爾持續(xù)推進核心制程和先進封裝<b class='flag-5'>技術(shù)</b>創(chuàng)新,分享<b class='flag-5'>最新進展</b>

    百度在AI領(lǐng)域的最新進展

    近日,我們在武漢舉辦了Create2025百度AI開發(fā)者大會,與全球各地的5000多名開發(fā)者,分享了百度在AI領(lǐng)域的新進展。
    的頭像 發(fā)表于 04-30 10:14 ?623次閱讀

    谷歌Gemini API最新進展

    體驗的 Live API 的最新進展,以及正式面向開發(fā)者開放的高質(zhì)量視頻生成工具 Veo 2。近期,我們面向在 Google AI Studio 中使用 Gemini API 的開發(fā)者推出了許多不容錯過的重要更新,一起來看看吧。
    的頭像 發(fā)表于 04-12 16:10 ?1025次閱讀

    移遠通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗

    隨著千行百業(yè)數(shù)智化進程的不斷加速,模態(tài)AI大模型的應(yīng)用需求不斷攀升,圖像、語音、視頻等多樣化的交互方式正逐漸成為推動行業(yè)變革的新動力。 ?
    發(fā)表于 03-21 14:12 ?284次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型,重塑智能<b class='flag-5'>交互</b>新體驗

    移遠通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗

    隨著千行百業(yè)數(shù)智化進程的不斷加速,模態(tài)AI大模型的應(yīng)用需求不斷攀升,圖像、語音、視頻等多樣化的交互方式正逐漸成為推動行業(yè)變革的新動力。3月
    的頭像 發(fā)表于 03-20 19:03 ?433次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型,重塑智能<b class='flag-5'>交互</b>新體驗

    ?模態(tài)交互技術(shù)解析

    模態(tài)交互 模態(tài)交互( Multimodal Interaction )是指通過多種感官通道(
    的頭像 發(fā)表于 03-17 15:12 ?2055次閱讀

    京東方華燦光電氮化鎵器件的最新進展

    日前,京東方華燦的氮化鎵研發(fā)總監(jiān)馬歡應(yīng)半導(dǎo)體在線邀請,分享了關(guān)于氮化鎵器件的最新進展,引起了行業(yè)的廣泛關(guān)注。隨著全球半導(dǎo)體領(lǐng)域?qū)Ω咝阅堋⒏咝势骷男枨蟛粩嗉哟?,氮化鎵(GaN)技術(shù)逐漸成為新一代電子器件的熱點,其優(yōu)越的性能使其
    的頭像 發(fā)表于 03-13 11:44 ?834次閱讀

    垂直氮化鎵器件的最新進展和可靠性挑戰(zhàn)

    過去兩年中,氮化鎵雖然發(fā)展迅速,但似乎已經(jīng)遇到了瓶頸。與此同時,不少垂直氮化鎵的初創(chuàng)企業(yè)倒閉或者賣盤,這引發(fā)大家對垂直氮化鎵未來的擔憂。為此,在本文中,我們先對氮化鎵未來的發(fā)展進行分析,并討論了垂直氮化鎵器件開發(fā)的最新進展以及相關(guān)的可靠性挑戰(zhàn)。
    的頭像 發(fā)表于 02-17 14:27 ?1190次閱讀
    垂直氮化鎵器件的<b class='flag-5'>最新進展</b>和可靠性挑戰(zhàn)

    FF將發(fā)布FX品牌最新進展

    "、"FF"或 "公司")今天宣布,將于2025年1月8日盤后公布其自2024年9月19日FX品牌發(fā)布以來的最新進展,包括最新項目進展、重大里程碑、新產(chǎn)品品類戰(zhàn)略及下一步計劃。
    的頭像 發(fā)表于 01-03 15:58 ?655次閱讀

    上海交大團隊發(fā)表MEMS視觸覺融合模態(tài)人機交互新進展

    ? 近日,上海交通大學(xué)電子信息與電氣工程學(xué)院微米納米加工技術(shù)全國重點實驗室劉景全團隊和上海交通大學(xué)人工智能學(xué)院盧策吾團隊在人機交互領(lǐng)域取得重要進展,相關(guān)成果以“Capturing forceful
    的頭像 發(fā)表于 11-28 10:50 ?2440次閱讀
    上海交大團隊發(fā)表MEMS視觸覺<b class='flag-5'>融合</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>人機<b class='flag-5'>交互</b><b class='flag-5'>新進展</b>

    揭秘超以太網(wǎng)聯(lián)盟(UEC)1.0 規(guī)范最新進展(2024Q4)

    近期,由博通、思科、Arista、微軟、Meta等國際頂級半導(dǎo)體、設(shè)備和云廠商牽頭成立的超以太網(wǎng)聯(lián)盟(UEC)在OCP Global Summit上對外公布其最新進展——UEC規(guī)范1.0的預(yù)覽版本。讓我們一睹為快吧!
    的頭像 發(fā)表于 11-18 16:53 ?1356次閱讀
    揭秘超以太網(wǎng)聯(lián)盟(UEC)1.0 規(guī)范<b class='flag-5'>最新進展</b>(2024Q4)

    Qorvo在射頻和電源管理領(lǐng)域的最新進展

    了半導(dǎo)體行業(yè)的重大變革,還成功引領(lǐng)Qorvo成為射頻技術(shù)的領(lǐng)導(dǎo)者。在本次專訪中,Philip將為大家分享Qorvo在射頻和電源管理領(lǐng)域的最新進展,并探討HPA事業(yè)部如何通過技術(shù)創(chuàng)新應(yīng)對
    的頭像 發(fā)表于 11-17 10:57 ?907次閱讀

    芯片和封裝級互連技術(shù)最新進展

    近年來,計算領(lǐng)域發(fā)生了巨大變化,通信已成為系統(tǒng)性能的主要瓶頸,而非計算本身。這一轉(zhuǎn)變使互連技術(shù) - 即實現(xiàn)計算系統(tǒng)各組件之間數(shù)據(jù)交換的通道 - 成為計算機架構(gòu)創(chuàng)新的焦點。本文探討了通用
    的頭像 發(fā)表于 10-28 09:50 ?1151次閱讀

    AI大模型的最新研究進展

    AI大模型的最新研究進展體現(xiàn)在多個方面,以下是對其最新進展的介紹: 一、技術(shù)創(chuàng)新與突破 生成式AI技術(shù)的爆發(fā) : 生成式AI技術(shù)正在迅速發(fā)展
    的頭像 發(fā)表于 10-23 15:19 ?1526次閱讀

    5G新通話技術(shù)取得新進展

    在探討5G新通話這一話題時,我們需首先明確其背景與重要性。自2022年4月國內(nèi)運營商正式推出以來,5G新通話作為傳統(tǒng)語音通話的升級版,迅速吸引了公眾的目光,并引起了社會的廣泛關(guān)注。它基于5G網(wǎng)絡(luò),代表了通信技術(shù)新進展。
    的頭像 發(fā)表于 10-12 16:02 ?1333次閱讀