吱一聲就知道你是誰,深度學習識別短片段說話人

UtterIdNet是一種新型的具有短語音片段識別能力的深度神經(jīng)網(wǎng)絡(luò)。該模型的靈感來自于兩個成功且非常流行的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)：ResNet和DeepID3。據(jù)該模型背后的研究人員稱，該模型采用了一種新的體系結(jié)構(gòu)，通過在短語音片段中有效地增加信息的使用，使其適合于短片段說話人的識別。

他們在VoxCeleb數(shù)據(jù)集上對UtterIdNet進行了訓練和測試，這是說話人識別的最新基準，并證明UtterIdNet在短片段上的表現(xiàn)優(yōu)于最先進的技術(shù)。對不同分段持續(xù)時間的評估顯示，短分段的性能一致且穩(wěn)定，對于2秒、1秒、特別是微秒的分段，與之前的模型相比有顯著改進。

隨著智能虛擬助手的不斷發(fā)展，它們對增強語音識別算法的要求也越來越高。與傳統(tǒng)的先進模型相比，該模型顯示了更好的結(jié)果。雖然在完整的語音片段中表現(xiàn)出了微弱的優(yōu)勢，這也是研究人員打算在未來的工作中進行研究的，但是UtterIdNet在增強短片段語音識別方面有很大的潛力。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語音識別

語音識別

+關(guān)注

關(guān)注
39

文章
1780

瀏覽量
114219
深度學習

深度學習

+關(guān)注

關(guān)注
73

文章
5561

瀏覽量
122789

原文標題：機器有了綜合感官？新研究結(jié)合視覺和聽覺進行情感預(yù)測 | 一周AI最火論文

文章出處：【微信號：BigDataDigest，微信公眾號：大數(shù)據(jù)文摘】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

吱一聲就知道你是誰,深度學習識別短片段說話人

評論