【導(dǎo)讀】2016年152層殘差網(wǎng)絡(luò)圖像識別精準(zhǔn)率96%,2017年語音識別基準(zhǔn)測試誤差率5.1%,2018年1月文本理解測試精準(zhǔn)率88.5%,3月機(jī)器翻譯研究系統(tǒng)精準(zhǔn)率達(dá)到69.9%,12月語音合成測試版在Azure正式上線,并首次達(dá)到超過專業(yè)翻譯人士的水平,微軟人工智能(AI)再次刷新世界紀(jì)錄。
12月18日,在IoT In Action峰會上,微軟全球資深院士首席語音科學(xué)家黃學(xué)東博士介紹智能語音和語言上的最新進(jìn)展。首款媲美專業(yè)發(fā)音人的實(shí)時(shí)在線語音合成系統(tǒng)預(yù)覽版在Azure上正式運(yùn)營服務(wù)。
黃學(xué)東博士表示,微軟在云服務(wù)上提供了世界級的語音合成服務(wù),所有的互聯(lián)網(wǎng)內(nèi)容提供商都可以享受這個(gè)世界級的技術(shù)。它不僅解決了過去20年機(jī)器語音識別錯(cuò)誤率居高不下的難題,更是人工智能語音和語言上的一次歷史性突破——采用先進(jìn)深度網(wǎng)絡(luò)學(xué)習(xí),簡化了傳統(tǒng)語音合成的架構(gòu)。
從以上圖片可以看出,左邊紫色系統(tǒng)架構(gòu)下,微軟通過端到端的深度學(xué)習(xí)優(yōu)化,為大家提供前所未有的、最自然的語音合成系統(tǒng)。
“基于神經(jīng)網(wǎng)絡(luò)的語音合成系統(tǒng)”是業(yè)界第一個(gè)實(shí)時(shí)的在語音上上線的人工智能服務(wù)。黃學(xué)東博士指出,大家可以享受更好的語音合成質(zhì)量、更快的引擎性能、更廣的全球服務(wù)部署。所有的內(nèi)容提供商,不管是有沒有音頻、你的內(nèi)容都可以轉(zhuǎn)換成自然的聲音表達(dá),不管是在開車還是在睡覺,都可以享受高質(zhì)量的交互。
同時(shí),微軟聯(lián)合全球合作伙伴一起推出強(qiáng)大的語音麥克風(fēng)陣列開發(fā)系統(tǒng)(Speech Devices SDK簡稱Speech DDK),它可以在25m之外都可以轉(zhuǎn)寫你的聲音,DDK不僅可供用戶免費(fèi)使用,還可以整合到任何硬件設(shè)備中去,通過微軟云服務(wù)為用戶提供最先進(jìn)的、世界一流的語音交互服務(wù)。
DDK讓智能音箱“說話”。這是一款眼觀六路的智能音箱系統(tǒng),為企業(yè)級的會議轉(zhuǎn)寫提供前所未有的智能服務(wù)。
可以看到,它不僅僅是業(yè)界第一臺多人原場會議轉(zhuǎn)錄系統(tǒng),而且是業(yè)界第一臺“睜開雙眼”的智能音箱。
隨著語音識別技術(shù)不斷取得進(jìn)步。放眼未來,各國間的語言溝通障礙不再有任何問題,人類離人工智能真正的目標(biāo)又將推進(jìn)一小步。
-
微軟
+關(guān)注
關(guān)注
4文章
6685瀏覽量
105730 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103562 -
語音識別
+關(guān)注
關(guān)注
39文章
1780瀏覽量
114218 -
人工智能
+關(guān)注
關(guān)注
1806文章
49008瀏覽量
249309 -
語音合成
+關(guān)注
關(guān)注
2文章
92瀏覽量
16495
發(fā)布評論請先 登錄
USB PD 3.0控制器TPS65987DDK浪涌防護(hù)方案

語音識別技術(shù)在通信領(lǐng)域中的應(yīng)用實(shí)例
詳解語音識別技術(shù)在通信領(lǐng)域中的應(yīng)用

AI助力實(shí)時(shí)翻譯耳機(jī)

NRK3502系列芯片 | 制氧機(jī)離線語音識別方案

語音識別在智能家居中的應(yīng)用
語音識別與自然語言處理的關(guān)系
語音識別技術(shù)的應(yīng)用與發(fā)展
ASR與傳統(tǒng)語音識別的區(qū)別
ASR語音識別技術(shù)應(yīng)用
基于Arm Neoverse N2實(shí)現(xiàn)自動(dòng)語音識別技術(shù)

物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的語音識別方案_離線語音識別芯片分析



評論