一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟或?qū)l(fā)布深度神經(jīng)網(wǎng)絡(luò)語音系列產(chǎn)品

璟琰乀 ? 來源:智能相對論 ? 作者:智能相對論 ? 2020-12-01 16:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

以往,談及對合成語音的刻板印象,很多人會聯(lián)想到《星球大戰(zhàn)》中的C-3PO——那個有著近似人類外形金光閃閃的家伙,它是整個系列影片中毫無爭議的搞笑擔當,其動作僵硬而滑稽,說起話來喋喋不休,聲音中混雜著輕微的交流聲和金屬質(zhì)感的回聲。直到今天,它那獨特的嗓音,仍然是很多科幻片中人工智能發(fā)聲的模板。

第一部《星球大戰(zhàn)》公映于1977年,彼時,個人電腦才剛剛走出實驗室,人們對于人工智能的想象力仍受限于時代。去年,該系列推出了最后一部作品《星球大戰(zhàn):天行者崛起》,C-3PO的聲音還是人們熟悉的老樣子。而現(xiàn)實中,智能語音技術(shù)飛速發(fā)展,取而代之的是聽感越來越趨于自然、逼真的“合成人聲”,讓越來越多的企業(yè)于實現(xiàn)了與客戶的多模態(tài)互動。

合成人聲的用途相當廣泛,我們熟知的便是手機中的語音助手,用戶可通過簡單的人機對話,獲知天氣、路況等實時信息,也可命令手機完成撥號、查詢等任務(wù)。這一類應(yīng)用被稱作實時語音合成,它對基于云的計算力提出了很高的要求,除了需要對聲音的自然度不斷地進行優(yōu)化外,實時合成對于語音合成引擎和平臺架構(gòu)也都有著極高的要求,必須保障在極低的延遲下,提供準確、穩(wěn)定、自然的聲音內(nèi)容。另一類常見的應(yīng)用是利用人工智能語音合成有聲內(nèi)容,這類應(yīng)用通常會在語音服務(wù)端進行非實時的批量合成,然后再將有聲內(nèi)容文件提供給用戶。有聲內(nèi)容合成的主要挑戰(zhàn)在于如何通過多種角色扮演和豐富情感表達,降低聽眾單向接收有聲內(nèi)容的聽覺疲勞。

以往,有聲書需要由專業(yè)朗誦者來錄制,制作周期長達數(shù)月且成本高昂。如今,通過智能合成語音錄制有聲書,制作周期可縮短至幾小時,甚至是幾分鐘。即便在需要人工干預校對和聲音編輯的情況下,制作周期也可縮短至數(shù)周,節(jié)省了大量的人力、物力及時間成本,且得到的效果幾乎與真人朗誦別無二致。今年的“世界讀書日”,由周迅與公益組織紅丹丹聯(lián)合發(fā)起的為視障人士讀書活動,向我們展示了語音合成技術(shù)的新高度。在此之前,創(chuàng)建一個高質(zhì)量的語音合成模型需要以大量真人原聲為樣本進行機器學習,樣本量通常會超過10小時或10000句。而這次公益活動的主辦方采用了由微軟最新開發(fā)的深度神經(jīng)網(wǎng)絡(luò)語音合成定制系統(tǒng),只采集了半小時大約500句的周迅原聲錄音,便通過深度定制的語音模型,惟妙惟肖地復原了周迅的聲音。

這里所說的“復原”不只是周迅頗具特色的聲線,也包括周迅在朗讀時的語氣、情緒、語調(diào)、抑揚頓挫等??梢韵胂螅S著這一技術(shù)的普及,有聲書行業(yè)也將隨之發(fā)生巨大的改變。微軟將在國際殘疾人日捐贈的100小時有聲書籍正昭示著這種改變的開始。

微軟深度神經(jīng)網(wǎng)絡(luò)是基于Azure云的端到端語音合成系統(tǒng),由前端、聲學模型和聲碼器三部分組成。前端主要解決基于語義理解的文本發(fā)音問題,比如“2020”在表示年份和數(shù)字時的讀法不一樣,這是上下文關(guān)聯(lián)問題;再比如“堡”字,用于地名時應(yīng)讀作“鋪”,“解”用在姓氏上應(yīng)讀作“謝”,這都是多音字問題;還有“一會兒”這類詞,不能讀成三個字,后兩個字應(yīng)合并為兒化音,這是語言習慣問題。聲學模型負責為語音賦予韻律,比如語速、語調(diào)、停頓、重音和情緒變化等。最后一部分聲碼器負責還原語音的聲學特征,也就是一般所說的嗓音或聲線,如振幅、頻率、波長等。

深度神經(jīng)網(wǎng)絡(luò)模型是當前最先進的語音合成技術(shù),但相應(yīng)的主流產(chǎn)品在合成效率、效果,以及所需聲音樣本量上,卻存在很大差異。以樣本量為例,微軟的語音合成定制技術(shù)處于行業(yè)領(lǐng)先地位,一般情況下,只需要不超過2000句的內(nèi)容,就可以做到非常逼真的還原。那么,在周迅的案例中,是如何做到只需500句甚至更少的聲音素材就達到類似效果呢?微軟還有一個“殺器”——通用模型。通用模型是在對海量語料庫進行大數(shù)據(jù)分析的基礎(chǔ)上,不斷訓練深度神經(jīng)網(wǎng)絡(luò)去學習人類語言與發(fā)聲特征后得到的。目前微軟通用語料庫的容量已經(jīng)超過3000小時,覆蓋了50多個語種,通過它提煉出來的通用模型已經(jīng)熟練掌握了這50多種語言的幾乎全部發(fā)聲規(guī)律,甚至包括真人說話時換氣和咽口水的細節(jié)都可以模仿出來。當微軟需要基于像周迅這樣只有500句話甚至更少內(nèi)容的語料庫做語音定制時,便可以在通用模型基礎(chǔ)上,通過遷移學習法來建立周迅聲音的擴展模型。

目前,微軟的語音合成定制系統(tǒng)只需要半小時左右的聲音樣本便可建立定制語音模型,與傳統(tǒng)TTS建模所需的至少10小時或10000句的聲音樣本量相比,是一個從量到質(zhì)的飛躍。這一飛躍使得面向更多的企業(yè)甚至于普通消費者的個人聲音定制成為可能。

微軟之所以能在語音合成領(lǐng)域保持領(lǐng)先地位,主要得益于其20多年來在算法和定制模型上所積累的深厚功力。自從1991年微軟研究院成立以來,微軟一直將語音作為主要的研究領(lǐng)域,儲備、積累了大量的人工智能相關(guān)技術(shù)。2018年9月,微軟率先開始測試基于深度神經(jīng)網(wǎng)絡(luò)的端到端語音合成系統(tǒng),為人工智能語音技術(shù)的發(fā)展揭開了新的一頁。

前不久,微軟將其定制的通用中文發(fā)聲與市場上的主流產(chǎn)品進行了盲測對比,微軟的MOS得分(5分制)為4.35,居于領(lǐng)先地位,表明合成語音與真人聲音已經(jīng)非常接近(真人的MOS得分為4.41)。

除了語音助手和有聲書籍錄制外,語音合成技術(shù)還廣泛應(yīng)用于智能語音客服領(lǐng)域,這也是微軟目前在to B領(lǐng)域的主要發(fā)力點,比如很多航空公司、電商平臺、電信運營商等都在嘗試使用微軟的智能語音客服來緩解人工壓力。智能語音客服可以解決很多常見的標準化問題,減少客戶的等待時間,為客戶帶來更好的服務(wù)體驗。在應(yīng)對突發(fā)事件方面,智能語音客服更有得天獨厚的優(yōu)勢,很多突發(fā)事件都會造成客戶咨詢量在短時間內(nèi)爆發(fā)式增長,在這種情況下,企業(yè)如果增設(shè)人工客服,一方面可能在時間上來不及,另一方面?zhèn)}促上崗也可能導致服務(wù)質(zhì)量的難以保證。

目前,微軟為企業(yè)定制智能語音客服大致需要300至2000句語料訓練,以滿足特定應(yīng)用場景的需求;對于需要定制適用于多場景、富有多種情緒甚至涵蓋多語種的品牌聲音的企業(yè)而言,語料訓練則有更高要求。

上述兩種定制目前都會有人工參與測試和適當調(diào)校并向客戶提供靈活的接入方式,即通過APISDK接入微軟的Azure公有云,實現(xiàn)端到端的實時合成。如果客戶有特殊需求,產(chǎn)品也可部署在私有云甚至離線設(shè)備中。未來,這兩種系統(tǒng)都將實現(xiàn)自動化定制。實際上,微軟已經(jīng)邀請合作伙伴開始小范圍的自動化系統(tǒng)測試,可能在不久的將來正式發(fā)布此系列產(chǎn)品。

可以預期,伴隨著相關(guān)技術(shù)的發(fā)展,智能語音在個人及商業(yè)領(lǐng)域中的應(yīng)用場景將更加豐富,不斷細分的合成語音服務(wù)也會給我們帶來更多的體驗和驚喜。同時,微軟提出了人工智能六項倫理道德準則:公平、可靠和安全、隱私和保證、包容、透明和責任。倡導負責任的人工智能。這些原則將為人工智能的發(fā)展保駕護航,予力全球每一人、每一組織,成就不凡!

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6686

    瀏覽量

    105771
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103643
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249577
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI神經(jīng)網(wǎng)絡(luò)降噪算法在語音通話產(chǎn)品中的應(yīng)用優(yōu)勢與前景分析

    語音保真度以及更低的延遲,能夠有效應(yīng)對復雜噪聲場景。本文探討AI神經(jīng)網(wǎng)絡(luò)降噪在語音通話產(chǎn)品中的核心優(yōu)勢,并分析其未來發(fā)展趨勢和市場前景
    的頭像 發(fā)表于 05-16 17:07 ?429次閱讀
    AI<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>降噪算法在<b class='flag-5'>語音</b>通話<b class='flag-5'>產(chǎn)品</b>中的應(yīng)用優(yōu)勢與前景分析

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)在多個方面存在顯著差異,以下是對兩者的比較: 一、結(jié)構(gòu)特點 BP神經(jīng)網(wǎng)絡(luò) : BP神經(jīng)網(wǎng)絡(luò)是一種多層的前饋神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 02-12 15:53 ?672次閱讀

    BP神經(jīng)網(wǎng)絡(luò)深度學習的關(guān)系

    ),是一種多層前饋神經(jīng)網(wǎng)絡(luò),它通過反向傳播算法進行訓練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、一個多個隱藏層和輸出層組成,通過逐層遞減的方式調(diào)整網(wǎng)絡(luò)權(quán)重,目的是最小化
    的頭像 發(fā)表于 02-12 15:15 ?863次閱讀

    深度學習入門:簡單神經(jīng)網(wǎng)絡(luò)的構(gòu)建與實現(xiàn)

    深度學習中,神經(jīng)網(wǎng)絡(luò)是核心模型。今天我們用 Python 和 NumPy 構(gòu)建一個簡單的神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)由多個神經(jīng)元組成,
    的頭像 發(fā)表于 01-23 13:52 ?530次閱讀

    人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

    在上一篇文章中,我們介紹了傳統(tǒng)機器學習的基礎(chǔ)知識和多種算法。在本文中,我們會介紹人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法,供各位老師選擇。 01 人工神經(jīng)網(wǎng)絡(luò) ? 人工神經(jīng)網(wǎng)絡(luò)模型之所
    的頭像 發(fā)表于 01-09 10:24 ?1202次閱讀
    人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>架構(gòu)方法

    卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用

    自然語言處理是人工智能領(lǐng)域的一個重要分支,它致力于使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)作為一種強大的模型,在圖像識別和語音處理等領(lǐng)域取得了顯著成果
    的頭像 發(fā)表于 11-15 14:58 ?807次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較

    深度學習領(lǐng)域,神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于各種任務(wù),如圖像識別、自然語言處理和游戲智能等。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)是兩種常見的模型。 1. 結(jié)構(gòu)差異 1.1 傳統(tǒng)
    的頭像 發(fā)表于 11-15 14:53 ?1878次閱讀

    深度學習中的卷積神經(jīng)網(wǎng)絡(luò)模型

    深度學習近年來在多個領(lǐng)域取得了顯著的進展,尤其是在圖像識別、語音識別和自然語言處理等方面。卷積神經(jīng)網(wǎng)絡(luò)作為深度學習的一個分支,因其在圖像處理任務(wù)中的卓越性能而受到廣泛關(guān)注。 卷積
    的頭像 發(fā)表于 11-15 14:52 ?846次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的基本原理與算法

    ),是深度學習的代表算法之一。 一、基本原理 卷積運算 卷積運算是卷積神經(jīng)網(wǎng)絡(luò)的核心,用于提取圖像中的局部特征。 定義卷積核:卷積核是一個小的矩陣,用于在輸入圖像上滑動,提取局部特征。 滑動窗口:卷積核在輸入圖像上滑動,每次滑
    的頭像 發(fā)表于 11-15 14:47 ?1785次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)語音識別中的應(yīng)用實例

    語音識別技術(shù)是人工智能領(lǐng)域的一個重要分支,它使計算機能夠理解和處理人類語言。隨著深度學習技術(shù)的發(fā)展,特別是長短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)的引入,語音識別的準確性和效率得到了顯著提升。
    的頭像 發(fā)表于 11-13 10:03 ?1853次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)RNN的區(qū)別

    深度學習領(lǐng)域,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)因其能夠處理序列數(shù)據(jù)而受到廣泛關(guān)注。然而,傳統(tǒng)RNN在處理長序列時存在梯度消失梯度爆炸的問題。為了解決這一問題,LSTM(長短期記憶)神經(jīng)網(wǎng)絡(luò)應(yīng)
    的頭像 發(fā)表于 11-13 09:58 ?1217次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)的基本原理 如何實現(xiàn)LSTM神經(jīng)網(wǎng)絡(luò)

    廣泛應(yīng)用。 LSTM神經(jīng)網(wǎng)絡(luò)的基本原理 1. 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的局限性 傳統(tǒng)的RNN在處理長序列數(shù)據(jù)時會遇到梯度消失梯度爆炸的問題,導致網(wǎng)絡(luò)難以學習到長期依賴信息。這是因為在反
    的頭像 發(fā)表于 11-13 09:53 ?1587次閱讀

    Moku人工神經(jīng)網(wǎng)絡(luò)101

    不熟悉神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識,或者想了解神經(jīng)網(wǎng)絡(luò)如何優(yōu)化加速實驗研究,請繼續(xù)閱讀,探索基于深度學習的現(xiàn)代智能化實驗的廣闊應(yīng)用前景。什么是神經(jīng)網(wǎng)絡(luò)?“人工
    的頭像 發(fā)表于 11-01 08:06 ?666次閱讀
    Moku人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>101

    FPGA在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)作為其核心算法之一,在圖像識別、語音識別、自然語言處理等領(lǐng)域取得了顯著成果。然而,傳統(tǒng)的深度
    的頭像 發(fā)表于 07-24 10:42 ?1206次閱讀

    如何構(gòu)建多層神經(jīng)網(wǎng)絡(luò)

    構(gòu)建多層神經(jīng)網(wǎng)絡(luò)(MLP, Multi-Layer Perceptron)模型是一個在機器學習和深度學習領(lǐng)域廣泛使用的技術(shù),尤其在處理分類和回歸問題時。在本文中,我們深入探討如何從頭開始構(gòu)建一個多層
    的頭像 發(fā)表于 07-19 17:19 ?1569次閱讀