小編說(shuō):在這個(gè)技術(shù)快速更迭的時(shí)代,人工智能的可能性在逐漸拓寬。為了讓大家可以更好的理解人工智能在智能語(yǔ)音方面的強(qiáng)大能力,今天小編就來(lái)詳細(xì)為大家介紹微軟在人工智能TTS語(yǔ)音合成(Text-to-Speech)技術(shù)上的一些最新進(jìn)展。
不同對(duì)話(huà)場(chǎng)景
用戶(hù)期待不同語(yǔ)氣的擬人 AI 語(yǔ)音
TTS 語(yǔ)音已被越來(lái)越多地用于支持人機(jī)對(duì)話(huà)或機(jī)器輔助的日常交流——例如人與人之間對(duì)話(huà)的同聲傳譯。在這些場(chǎng)景中,人們普遍期待能夠?qū)崿F(xiàn)更自然、更口語(yǔ)化的對(duì)話(huà)風(fēng)格。我們不妨從以下三個(gè)典型場(chǎng)景中,來(lái)理解用戶(hù)對(duì)于對(duì)話(huà)聲音和風(fēng)格的不同需求。
客服機(jī)器人:語(yǔ)氣要自然、友好且專(zhuān)業(yè)
很多企業(yè)正在使用支持語(yǔ)音的聊天機(jī)器人或 IVR(互動(dòng)式語(yǔ)音應(yīng)答)系統(tǒng),為客戶(hù)帶來(lái)相比傳統(tǒng)方式更為高效、體貼的客戶(hù)服務(wù)。例如國(guó)際移動(dòng)通訊網(wǎng)絡(luò)公司沃達(dá)豐就成功地創(chuàng)建了一個(gè)擁有自然語(yǔ)音的客服機(jī)器人 TOBi。Azure 的人工智能和自然語(yǔ)言處理功能賦予了 TOBi 鮮明的個(gè)性,使客戶(hù)與 TOBi 之間的人機(jī)對(duì)話(huà)變得輕松自然,讓客戶(hù)更樂(lè)于與之交流。
設(shè)想這樣的情景:在客戶(hù)對(duì) TOBi 報(bào)出姓名后,當(dāng) TOBi 需要了解客戶(hù)的地址以便提供進(jìn)一步服務(wù)時(shí),TOBi 并不會(huì)生硬地接著發(fā)問(wèn):「請(qǐng)說(shuō)出您的地址?!苟菚?huì)這樣表達(dá):「嘿,好名字!接下來(lái)我還需要了解一下您住在哪里?」此時(shí)此刻,客戶(hù)一定希望 AI 能夠以聽(tīng)起來(lái)熱情、友好、溫暖,且又專(zhuān)業(yè)的聲音來(lái)說(shuō)出這句話(huà)。類(lèi)似的需求不僅體現(xiàn)在 AI 解答客戶(hù)疑問(wèn)時(shí),還適用于 AI 語(yǔ)音向客戶(hù)打招呼,或表達(dá)共情態(tài)度時(shí)。個(gè)人助理:表情符號(hào)、重點(diǎn)強(qiáng)調(diào)要讀懂
隨著虛擬助手和虛擬現(xiàn)實(shí)技術(shù)的興起,使用 Neural TTS 來(lái)支持閑聊和日常對(duì)話(huà)功能的客戶(hù)數(shù)量正在不斷增加。想要讓 AI 與人類(lèi)的對(duì)話(huà)更加自然,最主要的挑戰(zhàn)之一在于如何讓 AI 理解包含特殊字符在內(nèi)的聊天用語(yǔ)——比如「呵呵」、「哈哈」、「哎喲」這類(lèi)詞匯。
這類(lèi)表情符號(hào),還有重復(fù)字母如「soooo good」——然后再以自然的語(yǔ)氣提供即時(shí)響應(yīng)。此外,讓 AI 能使用不同的信息來(lái)表達(dá)相應(yīng)情感,從而表現(xiàn)出對(duì)人類(lèi)感受的共鳴感,也正在成為一種越來(lái)越普遍的用戶(hù)需求。同聲傳譯:翻譯前后說(shuō)話(huà)風(fēng)格、語(yǔ)氣要一致
語(yǔ)音互譯是又一個(gè)對(duì)話(huà)式 AI 語(yǔ)音可支持的典型場(chǎng)景。Azure Neural TTS 已覆蓋 110 多種不同語(yǔ)言,被應(yīng)用于多種翻譯場(chǎng)景中。不過(guò),如何在翻譯的同時(shí)保持講話(huà)者的原始語(yǔ)氣風(fēng)格,一直都是個(gè)挑戰(zhàn)。尤其是在較為隨意的對(duì)話(huà)場(chǎng)景中,講話(huà)者往往會(huì)使用語(yǔ)氣上的細(xì)微差別來(lái)與聽(tīng)眾建立情感聯(lián)系。在這種情況下,如果 AI 語(yǔ)音可在提供同步翻譯的同時(shí),又能捕捉并理解講話(huà)者的風(fēng)格,就能使不同語(yǔ)言之間的對(duì)話(huà)依然生動(dòng)且具有吸引力。
Azure Neural TTS
進(jìn)化:多國(guó)語(yǔ)言皆可栩栩如生戶(hù)
Sara(英語(yǔ)):更能表現(xiàn)自然情感的聊天機(jī)器人語(yǔ)音
Sara 是一個(gè)新近推出的美式英語(yǔ)音色,尤其擅長(zhǎng)輕松的對(duì)話(huà)?!杆褂兄p松自然的年輕女性聲線(xiàn),能夠勝任各種需要聊天機(jī)器人的場(chǎng)景。Sara 擁有三種情緒:快樂(lè)、悲傷和氣憤。她在閱讀表情符號(hào)時(shí),可以發(fā)出笑聲、嘆息或氣憤語(yǔ)氣,而且還能發(fā)出「太~(拉長(zhǎng)語(yǔ)調(diào))好了」這種人類(lèi)特有的語(yǔ)調(diào)。播放下面的語(yǔ)音,親耳感受一下效果。
下面這段錄音,來(lái)自 Sara 作為聊天機(jī)器人與人類(lèi)用戶(hù)之間的自然對(duì)話(huà)。(此示例來(lái)自機(jī)器人和人類(lèi)用戶(hù)之間的閑聊,對(duì)話(huà)很隨意,可能包含錯(cuò)誤。)
除了預(yù)設(shè)的幾種「情緒」,用戶(hù)還可以通過(guò) SSML 讓 Sara 在常規(guī)交流、歡快、悲傷和憤怒等幾種語(yǔ)氣風(fēng)格之間隨意切換。
曉辰和曉顏(中文普通話(huà)):專(zhuān)為日常對(duì)話(huà)及客服場(chǎng)景而優(yōu)化的全新中文語(yǔ)音
曉辰和曉顏是專(zhuān)為中文用戶(hù)提供的普通話(huà)語(yǔ)音。其中曉辰擅長(zhǎng)逼真的自然語(yǔ)氣,曉顏與客戶(hù)服務(wù)場(chǎng)景更匹配。曉辰和曉顏?zhàn)铒@著的特征,在于能逼真模仿人類(lèi)在日常場(chǎng)合下的交流。與朗誦、播音這類(lèi)「嚴(yán)肅」場(chǎng)合不同,人們的日常對(duì)話(huà)中除了語(yǔ)氣隨意,韻律多變,而且常常出現(xiàn)詞語(yǔ)發(fā)音不完整,句子語(yǔ)法不像課本那么嚴(yán)謹(jǐn),且會(huì)出現(xiàn)重復(fù)、不完整、或者啰嗦等情況。借助先進(jìn)的建模技術(shù),曉辰和曉顏的 AI 語(yǔ)音能夠?qū)W習(xí)并活用這些人類(lèi)表達(dá)的「缺陷」,并逼真地還原這些「不完美」,使合成語(yǔ)音聽(tīng)起來(lái)更加真實(shí)親切。在下面這段客服場(chǎng)景模擬對(duì)話(huà)中,曉顏是客服助理,曉辰是客戶(hù)。您可以從中感受到他們?nèi)缤嫒艘话爿p松、自然的對(duì)話(huà)語(yǔ)氣。
Nanami(日語(yǔ)):元?dú)鉂M(mǎn)滿(mǎn)的東瀛女聲
Nanami 是擁有動(dòng)聽(tīng)女性聲線(xiàn)的日語(yǔ)語(yǔ)音?!杆褂兄N不同語(yǔ)音風(fēng)格:聊天風(fēng)格、客服風(fēng)格和開(kāi)朗風(fēng)格,讓合成語(yǔ)音在各種場(chǎng)景中都更具吸引力。
來(lái)聽(tīng)一聽(tīng) Nanami 元?dú)鉂M(mǎn)滿(mǎn)的聲音:
現(xiàn)在就來(lái)感受
Azure Neural TTS 擬人語(yǔ)音的動(dòng)人表現(xiàn)力吧!
微軟不斷傾聽(tīng)全球用戶(hù)對(duì)于 Azure Neural TTS 在不同情況下語(yǔ)音發(fā)音準(zhǔn)確性的反饋,以負(fù)責(zé)任的 AI 及公平、可靠和安全、隱私和保障、包容、透明、負(fù)責(zé)的六項(xiàng)人工智能準(zhǔn)則為前提,進(jìn)行了這次更新,為用戶(hù)帶來(lái)表達(dá)更自然、語(yǔ)義更清晰的語(yǔ)音體驗(yàn)?,F(xiàn)在,微軟的文本轉(zhuǎn)語(yǔ)音可以支持超過(guò) 110 種語(yǔ)言的 270 多種 AI 語(yǔ)音。如果想親身感受 Azure Neural TTS 的強(qiáng)大,就來(lái) Azure 官網(wǎng)親自體驗(yàn)吧!還有聲音定制平臺(tái)可以即刻為企業(yè)創(chuàng)建多種語(yǔ)言和風(fēng)格的獨(dú)特品牌語(yǔ)音。
原文標(biāo)題:什么!跟我說(shuō)話(huà)的竟然是AI!
文章出處:【微信公眾號(hào):微軟科技】歡迎添加關(guān)注!文轉(zhuǎn)載請(qǐng)注明出處。
審核編輯:湯梓紅
-
微軟
+關(guān)注
關(guān)注
4文章
6684瀏覽量
105673 -
AI
+關(guān)注
關(guān)注
88文章
34998瀏覽量
278684 -
人工智能
+關(guān)注
關(guān)注
1806文章
48983瀏覽量
248853
原文標(biāo)題:什么!跟我說(shuō)話(huà)的竟然是AI!
文章出處:【微信號(hào):mstech2014,微信公眾號(hào):微軟科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
百度在AI領(lǐng)域的最新進(jìn)展
智能收銀語(yǔ)音交互新標(biāo)桿—WT3000T8語(yǔ)音合成芯片TTS技術(shù)應(yīng)用解析

芯資訊|WT3000T8語(yǔ)音合成芯片TTS在智能收款機(jī)中的創(chuàng)新應(yīng)用設(shè)計(jì)方案介紹

谷歌Gemini API最新進(jìn)展
京東方華燦光電氮化鎵器件的最新進(jìn)展
TTS語(yǔ)音播報(bào)模塊簡(jiǎn)介
垂直氮化鎵器件的最新進(jìn)展和可靠性挑戰(zhàn)

Qorvo在手機(jī)RF和Wi-Fi 7技術(shù)上的最新進(jìn)展及市場(chǎng)策略
FF將發(fā)布FX品牌最新進(jìn)展
揭秘超以太網(wǎng)聯(lián)盟(UEC)1.0 規(guī)范最新進(jìn)展(2024Q4)

評(píng)論