阿里又出黑科技。新的唇語閱讀 AI 系統(tǒng)在識別準(zhǔn)確率表現(xiàn)上不僅超越基線標(biāo)準(zhǔn),也優(yōu)于專家級人類水平,有望為全球近 5 億聽障人士帶來福音。
阿里巴巴又出黑科技,AI 看唇語知內(nèi)容!
實(shí)際上,能夠從視頻中讀取嘴唇的 AI 和機(jī)器學(xué)習(xí)算法并沒有什么不同。早在 2016 年,來自 Google 和牛津大學(xué)的研究人員就詳細(xì)介紹了一種系統(tǒng),該系統(tǒng)可以 46.8% 的準(zhǔn)確度注釋視頻錄像,這個(gè)表現(xiàn)明顯優(yōu)于專業(yè)唇語識別人士 12.4% 準(zhǔn)確度。但是,即使是最先進(jìn)的系統(tǒng),也難以克服唇語識別時(shí)的歧義問題,這使唇語 AI 的性能一直難以超越音頻語音識別。
為了追求更好的性能,浙江阿里巴巴公司和史蒂文斯理工學(xué)院的研究人員聯(lián)合設(shè)計(jì)了一種方法,稱為 LIBS,該方法利用從語音識別器中提取的特征作為唇語識別時(shí)的補(bǔ)充信息。研究人員表示,LIBS 系統(tǒng)在兩個(gè)基準(zhǔn)測試中都達(dá)到了業(yè)界領(lǐng)先的準(zhǔn)確度,在識別字符錯(cuò)誤率方面,LIBS 分別較基線性能高出 7.66% 和 2.75%。
LIBS 和其他類似的解決方案一樣,都可以幫助聽障人士觀看缺少字幕的視頻。據(jù)估計(jì),全世界有 4.66 億人患有失能性聽力障礙,約占世界人口的5%。根據(jù)世界衛(wèi)生組織的數(shù)據(jù),到 2050 年,這一數(shù)字可能會超過 9 億。
LIBS 會從說話人的視頻中以多種不同尺度提取有用的音頻信息,包括序列級、上下文級和幀級。然后,系統(tǒng)會識別這些信息之間的對應(yīng)關(guān)系,將數(shù)據(jù)與視頻數(shù)據(jù)進(jìn)行對齊(由于開頭或結(jié)尾有時(shí)會出現(xiàn)采樣率不一致、視頻和音頻序列的長度不一致等情況),并利用過濾技術(shù)來優(yōu)化蒸餾功能。
LIBS 系統(tǒng)架構(gòu)示意圖
LIBS 的語音識別器和口語閱讀器組件均基于注意力的 seq2seq 體系結(jié)構(gòu),這是一種機(jī)器翻譯方法,可將序列的輸入(即音頻或視頻)映射到帶有標(biāo)簽的輸出和注意力值上。研究人員對上述內(nèi)容在 LRS2 和 CMLR 數(shù)據(jù)集上進(jìn)行了訓(xùn)練,LRS2 包含來自 BBC 的 45000 多個(gè)口語句子,CMLR 則是最大的中文普通話口語語料庫,包括了來自中國網(wǎng)絡(luò)電視臺網(wǎng)站的 10 萬余個(gè)自然句(包括 3000 多個(gè)漢字和 20000 多個(gè)短語)。
不過,研究團(tuán)隊(duì)也表示,由于某些句子長度太短,該模型難以在 LRS2 數(shù)據(jù)集上實(shí)現(xiàn)“合理的”結(jié)果。(解碼器從少于 14 個(gè)字符的句子中提取相關(guān)信息時(shí)會遇到困難。)但是,一旦對最大長度為 16 個(gè)單詞的句子進(jìn)行了預(yù)訓(xùn)練,解碼器將可以通過對上下文級別的知識進(jìn)行設(shè)置,提高 LRS2 數(shù)據(jù)中句子結(jié)尾部分的質(zhì)量。
研究人員在描述其工作的論文中寫道:“ LIBS 減少了對無關(guān)框架的關(guān)注。” “幀級知識提煉進(jìn)一步提高了視頻幀特征的可分辨性,使注意力更加集中。”
-
AI
+關(guān)注
關(guān)注
88文章
35143瀏覽量
279817 -
語音識別
+關(guān)注
關(guān)注
39文章
1782瀏覽量
114228 -
阿里
+關(guān)注
關(guān)注
6文章
454瀏覽量
33332
發(fā)布評論請先 登錄
蘋果AI中國戰(zhàn)局大逆轉(zhuǎn)!百度出局,阿里上位
大家都在用什么AI軟件?有沒有好用的免費(fèi)的AI軟件推薦一下?
安森美展示專業(yè)數(shù)字助聽器和OTC輔聽設(shè)備解決方案

【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗(yàn)】+讀《零基礎(chǔ)開發(fā)AI Agent》掌握扣子平臺開發(fā)智能體方法
阿里稱要把AI融入每一塊業(yè)務(wù) 蔡崇信稱電商和云+AI是方向
RDK加持的導(dǎo)盲眼鏡:視障人士的“眼睛外掛”

百度AI手語數(shù)字人助力聽障人士“聽見”聲音
巨人網(wǎng)絡(luò)與阿里云深化AI合作
阿里國際站AI升級,接入DeepSeek等先進(jìn)模型
阿里巴巴否認(rèn)投資DeepSeek
阿里否認(rèn)投資DeepSeek傳聞
阿里AI To C業(yè)務(wù)調(diào)整:天貓精靈與夸克融合,探索AI眼鏡
中科聽芯:科技之光溫暖聽障人群

評論