在人工智能概念火熱的當(dāng)下,人機(jī)交互的發(fā)展方向也正趨于多元化,從最初的鍵盤打字到觸控屏,再到現(xiàn)在的語音交互和手勢交互,無一不是前沿技術(shù)落地的結(jié)果。
12月14日消息,搜狗今天正式推出全新的人機(jī)交互新技術(shù)——唇語識別,這也是業(yè)內(nèi)首個(gè)公開演示的唇語識別系統(tǒng),通過機(jī)器視覺識別,不用聽聲音,僅靠識別說話人唇部動(dòng)作,就能解讀說話者所說的內(nèi)容。
與已有的語音識別產(chǎn)品不同,唇語識別是一項(xiàng)基于機(jī)器視覺與自然語言處理于一體的技術(shù),因此在研發(fā)難度上比語音識別大得多。
搜狗語音交互中心技術(shù)總監(jiān)陳偉告訴記者,搜狗的唇語識別技術(shù)首創(chuàng)了復(fù)雜端到端深度神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行中文唇語序列建模,通過數(shù)千小時(shí)的真實(shí)唇語數(shù)據(jù)訓(xùn)練,加上搜狗在自然語言處理方面的強(qiáng)大優(yōu)勢,最終取得了業(yè)界領(lǐng)先的唇語識別效果。
按照搜狗方面提供的數(shù)據(jù)顯示,在非特定人開放口語測試集上,搜狗唇語識別系統(tǒng)已經(jīng)達(dá)到60%以上的準(zhǔn)確率,超過google發(fā)布的英文唇語系統(tǒng)50%以上的準(zhǔn)確率,在垂直場景如車載、智能家居等場景下甚至已經(jīng)達(dá)到90%的準(zhǔn)確率。
在這里要著重說明的是,中文唇語識別的難度要高于英文唇語識別。
陳偉解釋到,中文有四個(gè)聲調(diào),英文的基本發(fā)音單元在50個(gè)左右,而如果中文的聲韻母切開來看,建模數(shù)量會(huì)超過200個(gè)。
在剛結(jié)束不久的烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)上,搜狗唇語識別技術(shù)亮相,在業(yè)內(nèi)大多數(shù)唇語識別技術(shù)實(shí)用性尚待考證的環(huán)境下,成功完成了業(yè)內(nèi)首個(gè)中文唇語識別系統(tǒng)的公開演示。
國內(nèi)大部分企業(yè)都扎堆聚集在智能語音、圖像識別等領(lǐng)域,陳偉表示,搜狗開發(fā)唇語識別技術(shù)是希望解決嘈雜環(huán)境下的語音識別準(zhǔn)確度問題。
目前有兩種方式可以解決這個(gè)問題:一是硬件層面的語音增強(qiáng),對噪音進(jìn)行屏蔽;二是增加多模態(tài)信息,比如唇語識別的圖像信息。
作為人機(jī)交互的形式之一,未來唇語識別技術(shù)可以輔助語音交互及圖像識別,在日常生活、安防、公益等各個(gè)領(lǐng)域?qū)崿F(xiàn)廣泛應(yīng)用。
比如在車載場景下,周圍噪音過大時(shí)會(huì)對語音指令產(chǎn)生干擾,通過唇語識別技術(shù)則可以規(guī)避干擾,保證人車交互的準(zhǔn)確性和穩(wěn)定性,日常不便發(fā)聲的公共場所也可以保證說話內(nèi)容的私密性;在安防領(lǐng)域,由于目前多數(shù)監(jiān)控只有攝像頭沒有麥克風(fēng),往往只能看清嘴型卻不知道在說什么,給案情分析帶來很多難題,而唇語識別技術(shù)可以幫助公安人員獲取重要的講話信息,為公共安全提供有效支持。
除此之外,唇語識別技術(shù)還能發(fā)揮巨大的公益價(jià)值,幫助先天性聽障人群或老年人,讓他們更好地理解和表達(dá)自己。
搜狗近年來一直在集中資源做自然語言的研究,目前在語音識別、語義理解、機(jī)器翻譯等方面均取得了比較領(lǐng)先的成果并實(shí)現(xiàn)產(chǎn)品落地,此次推出唇語識別技術(shù),將推動(dòng)整個(gè)AI行業(yè)的技術(shù)革新。
-
搜狗
+關(guān)注
關(guān)注
0文章
91瀏覽量
14112
原文標(biāo)題:GGAI 技術(shù)前沿 | 搜狗推出“唇語識別”技術(shù):不出聲也能“聽”懂你
文章出處:【微信號:ggservicerobot,微信公眾號:高工智能未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
曠世之聲全新無損藍(lán)牙發(fā)射器支持驍龍暢聽技術(shù)
NRK3502語音識別芯片:開啟自動(dòng)炒菜機(jī)智能烹飪新時(shí)代
智能語音新風(fēng)尚:WTK6900語音識別芯片賦能未來家居,讓涼爽觸“聲”可及

中科聽芯:科技之光溫暖聽障人群

評論