UtterIdNet是一種新型的具有短語音片段識別能力的深度神經(jīng)網(wǎng)絡(luò)。該模型的靈感來自于兩個成功且非常流行的深度神經(jīng)網(wǎng)絡(luò)架構(gòu):ResNet和DeepID3。據(jù)該模型背后的研究人員稱,該模型采用了一種新的體系結(jié)構(gòu),通過在短語音片段中有效地增加信息的使用,使其適合于短片段說話人的識別。
他們在VoxCeleb數(shù)據(jù)集上對UtterIdNet進行了訓練和測試,這是說話人識別的最新基準,并證明UtterIdNet在短片段上的表現(xiàn)優(yōu)于最先進的技術(shù)。對不同分段持續(xù)時間的評估顯示,短分段的性能一致且穩(wěn)定,對于2秒、1秒、特別是微秒的分段,與之前的模型相比有顯著改進。
隨著智能虛擬助手的不斷發(fā)展,它們對增強語音識別算法的要求也越來越高。與傳統(tǒng)的先進模型相比,該模型顯示了更好的結(jié)果。雖然在完整的語音片段中表現(xiàn)出了微弱的優(yōu)勢,這也是研究人員打算在未來的工作中進行研究的,但是UtterIdNet在增強短片段語音識別方面有很大的潛力。
-
語音識別
+關(guān)注
關(guān)注
39文章
1780瀏覽量
114219 -
深度學習
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122789
原文標題:機器有了綜合感官?新研究結(jié)合視覺和聽覺進行情感預(yù)測 | 一周AI最火論文
文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論