一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

推出“唇語識別”技術(shù), 搜狗再上熱門 不出聲也能“聽”懂你

Qp2m_ggservicer ? 2017-12-15 11:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能概念火熱的當(dāng)下,人機(jī)交互的發(fā)展方向也正趨于多元化,從最初的鍵盤打字到觸控屏,再到現(xiàn)在的語音交互和手勢交互,無一不是前沿技術(shù)落地的結(jié)果。

12月14日消息,搜狗今天正式推出全新的人機(jī)交互新技術(shù)——唇語識別,這也是業(yè)內(nèi)首個(gè)公開演示的唇語識別系統(tǒng),通過機(jī)器視覺識別,不用聽聲音,僅靠識別說話人唇部動(dòng)作,就能解讀說話者所說的內(nèi)容。

與已有的語音識別產(chǎn)品不同,唇語識別是一項(xiàng)基于機(jī)器視覺與自然語言處理于一體的技術(shù),因此在研發(fā)難度上比語音識別大得多。

搜狗語音交互中心技術(shù)總監(jiān)陳偉告訴記者,搜狗的唇語識別技術(shù)首創(chuàng)了復(fù)雜端到端深度神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行中文唇語序列建模,通過數(shù)千小時(shí)的真實(shí)唇語數(shù)據(jù)訓(xùn)練,加上搜狗在自然語言處理方面的強(qiáng)大優(yōu)勢,最終取得了業(yè)界領(lǐng)先的唇語識別效果。

按照搜狗方面提供的數(shù)據(jù)顯示,在非特定人開放口語測試集上,搜狗唇語識別系統(tǒng)已經(jīng)達(dá)到60%以上的準(zhǔn)確率,超過google發(fā)布的英文唇語系統(tǒng)50%以上的準(zhǔn)確率,在垂直場景如車載、智能家居等場景下甚至已經(jīng)達(dá)到90%的準(zhǔn)確率。

在這里要著重說明的是,中文唇語識別的難度要高于英文唇語識別。

陳偉解釋到,中文有四個(gè)聲調(diào),英文的基本發(fā)音單元在50個(gè)左右,而如果中文的聲韻母切開來看,建模數(shù)量會(huì)超過200個(gè)。

在剛結(jié)束不久的烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)上,搜狗唇語識別技術(shù)亮相,在業(yè)內(nèi)大多數(shù)唇語識別技術(shù)實(shí)用性尚待考證的環(huán)境下,成功完成了業(yè)內(nèi)首個(gè)中文唇語識別系統(tǒng)的公開演示。

國內(nèi)大部分企業(yè)都扎堆聚集在智能語音、圖像識別等領(lǐng)域,陳偉表示,搜狗開發(fā)唇語識別技術(shù)是希望解決嘈雜環(huán)境下的語音識別準(zhǔn)確度問題。

目前有兩種方式可以解決這個(gè)問題:一是硬件層面的語音增強(qiáng),對噪音進(jìn)行屏蔽;二是增加多模態(tài)信息,比如唇語識別的圖像信息。

作為人機(jī)交互的形式之一,未來唇語識別技術(shù)可以輔助語音交互及圖像識別,在日常生活、安防、公益等各個(gè)領(lǐng)域?qū)崿F(xiàn)廣泛應(yīng)用。

比如在車載場景下,周圍噪音過大時(shí)會(huì)對語音指令產(chǎn)生干擾,通過唇語識別技術(shù)則可以規(guī)避干擾,保證人車交互的準(zhǔn)確性和穩(wěn)定性,日常不便發(fā)聲的公共場所也可以保證說話內(nèi)容的私密性;在安防領(lǐng)域,由于目前多數(shù)監(jiān)控只有攝像頭沒有麥克風(fēng),往往只能看清嘴型卻不知道在說什么,給案情分析帶來很多難題,而唇語識別技術(shù)可以幫助公安人員獲取重要的講話信息,為公共安全提供有效支持。

除此之外,唇語識別技術(shù)還能發(fā)揮巨大的公益價(jià)值,幫助先天性聽障人群或老年人,讓他們更好地理解和表達(dá)自己。

搜狗近年來一直在集中資源做自然語言的研究,目前在語音識別、語義理解、機(jī)器翻譯等方面均取得了比較領(lǐng)先的成果并實(shí)現(xiàn)產(chǎn)品落地,此次推出唇語識別技術(shù),將推動(dòng)整個(gè)AI行業(yè)的技術(shù)革新。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 搜狗
    +關(guān)注

    關(guān)注

    0

    文章

    91

    瀏覽量

    14112

原文標(biāo)題:GGAI 技術(shù)前沿 | 搜狗推出“唇語識別”技術(shù):不出聲也能“聽”懂你

文章出處:【微信號:ggservicerobot,微信公眾號:高工智能未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    曠世之聲全新無損藍(lán)牙發(fā)射器支持驍龍暢技術(shù)

    近日,曠世之聲正式推出QCC Dongle Pro和QCC Dongle無損藍(lán)牙發(fā)射器,該系列產(chǎn)品分別搭載第二代高通S5音頻平臺和第二代高通S3音頻平臺,支持Snapdragon Sound 驍龍暢技術(shù),賦
    的頭像 發(fā)表于 07-14 15:22 ?251次閱讀

    NRK3502語音識別芯片:開啟自動(dòng)炒菜機(jī)智能烹飪新時(shí)代

    "動(dòng)口不動(dòng)手"的烹飪革命來了!NRK3502語音芯片讓自動(dòng)炒菜機(jī)聽懂你的每句話,3-5米遠(yuǎn)場精準(zhǔn)識別,在油煙嘈雜中秒懂指令。從此預(yù)熱、炒菜、暫停全語音操控,邊做飯邊處理其他事,廚房
    的頭像 發(fā)表于 06-25 13:57 ?115次閱讀

    智能語音新風(fēng)尚:WTK6900語音識別芯片賦未來家居,讓涼爽觸“聲”可及

    起點(diǎn),我們開啟一場“解放雙手”的科技革命,讓每一縷涼風(fēng)都隨“聲”而至。一、核心技術(shù):精準(zhǔn)識別,無懼環(huán)境挑戰(zhàn)自適應(yīng)降噪,聽懂你的每一句話WTK6900系列芯片搭載前
    的頭像 發(fā)表于 04-08 08:43 ?511次閱讀
    智能語音新風(fēng)尚:WTK6900語音<b class='flag-5'>識別</b>芯片賦<b class='flag-5'>能</b>未來家居,讓涼爽觸“聲”可及

    中科芯:科技之光溫暖障人群

    樹立行業(yè)標(biāo)桿,講好中國故事,傳遞中國聲音,充分展現(xiàn)騰飛的中國經(jīng)濟(jì)、崛起的民族品牌和向上的企業(yè)家精神。近日,“崛起的民族品牌”專題系列節(jié)目對話天津中科芯科技有限公司(簡稱:中科芯)的創(chuàng)始人兼總經(jīng)理
    的頭像 發(fā)表于 01-13 10:54 ?549次閱讀
    中科<b class='flag-5'>聽</b>芯:科技之光溫暖<b class='flag-5'>聽</b>障人群

    ADS1255斷電之后再上電就不可以讀取了,是什么原因?

    如題,使用ADS1255芯片做數(shù)據(jù)采集的時(shí)候,STM32F107在下載數(shù)據(jù)之后第一次正確AD數(shù)據(jù)采集,在仿真的時(shí)候可以一直做AD數(shù)據(jù)采集。但是斷電之后再上電就不可以讀取了,請教一下什么原因。采集電壓不變,VREF不變。
    發(fā)表于 01-10 08:06

    亮亮視野攜者AR字幕眼鏡亮相2024福祉博覽會(huì)

    全球康復(fù)輔具產(chǎn)業(yè)注入新的活力與動(dòng)力!亮亮視野攜者AR字幕眼鏡亮相展會(huì),以其創(chuàng)新的科技和服務(wù)模式,獲得眾多參觀觀眾、機(jī)構(gòu)的一致好評。
    的頭像 發(fā)表于 12-05 16:33 ?999次閱讀

    語音識別與自然語言處理的關(guān)系

    了人機(jī)交互的革命,使得機(jī)器能夠更加自然地與人類溝通。 語音識別技術(shù)概述 語音識別,稱為自動(dòng)語音識別(ASR),是指將人類的語音轉(zhuǎn)換成文本的
    的頭像 發(fā)表于 11-26 09:21 ?1495次閱讀

    語音識別技術(shù)的應(yīng)用與發(fā)展

    語音識別技術(shù)的發(fā)展可以追溯到20世紀(jì)50年代,但直到近年來,隨著計(jì)算能力的提升和機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,這項(xiàng)技術(shù)才真正成熟并廣泛應(yīng)用于各個(gè)領(lǐng)域。語音識別
    的頭像 發(fā)表于 11-26 09:20 ?1631次閱讀

    Xiaomi Buds 5耳機(jī)支持Snapdragon Sound驍龍暢技術(shù)

    近日,小米舉辦旗艦新品發(fā)布會(huì),正式推出Xiaomi Buds 5耳機(jī)。該款耳機(jī)基于第二代高通S3音頻平臺打造,支持Snapdragon Sound驍龍暢和無損音頻技術(shù),在音質(zhì)表現(xiàn)、連接速度和游戲體驗(yàn)等方面都提升至全新水平,為用
    的頭像 發(fā)表于 11-08 11:27 ?1471次閱讀

    TAS5630強(qiáng)行復(fù)位后有時(shí)出聲音,但一會(huì)就保護(hù)了,為什么?

    1.加電后,處于保護(hù),SD低電平,otw1 otw2 高電平 2.強(qiáng)行復(fù)位后有時(shí)出聲音,但一會(huì)就保護(hù)了。 請問是何問題?
    發(fā)表于 11-05 07:52

    tas5186為什么死活不出聲?

    已經(jīng)按照電路圖接好了,就是不出聲,reset 一點(diǎn)多伏,SD OTW負(fù)幾毫伏,實(shí)在不可能,都接好了啊,大神幫我分析下,電壓GVDD12.1V,PVDD33V,死活不出聲
    發(fā)表于 11-01 08:26

    使用TAS5630DKD 保護(hù)后,再上電怎么不能恢復(fù),為什么?

    用同一塊電路板, 1、使用TAS5630DKD 保護(hù)后,再上電怎么不能恢復(fù)(依舊保護(hù)); 2、使用 TAS5630B DKD保護(hù)后再上電可以恢復(fù),但某些時(shí)刻不能立刻恢復(fù),得放置一段時(shí)間(時(shí)間沒有
    發(fā)表于 10-25 07:49

    TAS5754M在電腦上Motherboard板弄不出聲,是什么原因?

    大家好,TAS5754M 在電腦上Motherboard板弄不出聲輸入是USB源是USB ,不知什么原因,附件是PurePath設(shè)置介面。 我的初始化設(shè)置是這樣的 Page0: Reg 0x25
    發(fā)表于 10-23 08:19

    使用LM49350做音頻開發(fā),調(diào)來調(diào)去還是發(fā)不出聲音怎么辦?

    使用LM49350做音頻開發(fā),LM49350的寄存器太多了,調(diào)來調(diào)去還是發(fā)不出聲音。 因?yàn)轫?xiàng)目時(shí)間比較緊,想請教一下大家有什么可以參考的LM49350的寄存器配置?
    發(fā)表于 10-18 06:47

    PCM1794A I2S 16bit數(shù)據(jù)不出聲音的原因?

    PCM1794A支持I2S協(xié)議的16bit數(shù)據(jù)嗎?測試時(shí)不出聲音,切換到24bit數(shù)據(jù)就能夠正常出聲了,手冊里I2S協(xié)議給了參考波形是24bit數(shù)據(jù)的,PCM1794A是否支持向下兼容
    發(fā)表于 09-30 08:06