一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語(yǔ)音識(shí)別技術(shù)的發(fā)展歷程,語(yǔ)音識(shí)別是如何工作的?語(yǔ)音識(shí)別資料概述

TdyZ_gh_70d0cce ? 來(lái)源:未知 ? 作者:易水寒 ? 2018-09-01 10:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

你一定不會(huì)懷疑自己電腦的麥克風(fēng)正背著你偷偷摸摸做些什么,因?yàn)槟阋呀?jīng)很久沒(méi)有用過(guò)它了。

但事實(shí)真的是這樣嗎?

難道谷歌真的在“監(jiān)聽(tīng)”用戶嗎?

挨君想告訴你,這基本沒(méi) 可 能。

谷歌瀏覽器的用戶已經(jīng)超過(guò)20億了,要是監(jiān)聽(tīng)每個(gè)用戶每天說(shuō)的話,這個(gè)數(shù)據(jù)量太過(guò)驚人。投入高昂的成本就為了實(shí)現(xiàn)廣告精準(zhǔn)投放,還冒著巨大的法律風(fēng)險(xiǎn),這種事正常人是不會(huì)去做的。

對(duì)于視頻中展現(xiàn)的“事實(shí)”,可能的操作是谷歌使用了一個(gè)語(yǔ)音關(guān)鍵詞識(shí)別系統(tǒng)。

有商業(yè)價(jià)值的關(guān)鍵詞總共就幾百萬(wàn)個(gè),為了簡(jiǎn)單,可以只做頭部那些最賺錢(qián)的幾十萬(wàn)個(gè)。這幾十萬(wàn)個(gè)關(guān)鍵詞也不需要先跑語(yǔ)音識(shí)別再跑文本匹配,拿原始的語(yǔ)音文件來(lái)搞一個(gè)中等深度的神經(jīng)網(wǎng)絡(luò)甚至線性特征模型就可以,速度也非??臁?/p>

所以大家不用擔(dān)心語(yǔ)音識(shí)別正在侵犯你的隱私。相反,作為人類與機(jī)器最自然的交互形式(絕對(duì)不是打字),在未來(lái),當(dāng)你不想用手或者像殘障人士難以用手的時(shí)候,語(yǔ)音識(shí)別將會(huì)是操作一切最方便的鑰匙。

語(yǔ)音識(shí)別發(fā)展史

說(shuō)到語(yǔ)音識(shí)別,大家熟悉的可能是最近十年里才出現(xiàn)的微信語(yǔ)音轉(zhuǎn)文字,或者語(yǔ)音實(shí)時(shí)記錄和翻譯。但其實(shí)語(yǔ)音識(shí)別的歷史比互聯(lián)網(wǎng)還早,現(xiàn)代計(jì)算機(jī)誕生的那一刻,就已經(jīng)埋下了語(yǔ)音識(shí)別的種子。

1946年,現(xiàn)代計(jì)算機(jī)誕生。它的誕生讓人們意識(shí)到,原來(lái)計(jì)算機(jī)能完成這么多工作,而且做得比人還好;

(馮諾依曼和第一臺(tái)現(xiàn)代計(jì)算機(jī))

1950年,圖靈在《思想》雜志發(fā)表了一篇題為《計(jì)算機(jī)器和智能》的論文,來(lái)探討計(jì)算機(jī)是否可以具備智能;

在圖靈思想的啟發(fā)下,人們想著既然計(jì)算機(jī)這么能干,干嘛不把它設(shè)計(jì)得和人類一樣能看能說(shuō)能聽(tīng)呢,這不就能幫人類做更多事了嘛?。ü?,懶才是科學(xué)發(fā)展的源動(dòng)力啊)

于是,第一代語(yǔ)音識(shí)別系統(tǒng)誕生,被稱為機(jī)器的聽(tīng)覺(jué)系統(tǒng)。

1952年,貝爾研究所研制了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。也就是你說(shuō)“yi”,計(jì)算機(jī)就知道這是“1”,能力跟嬰兒差不多。

1960年,英國(guó)的Denes等人研制了第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。

但是因?yàn)樽R(shí)別量小,這些系統(tǒng)根本達(dá)不到實(shí)際應(yīng)用的要求,包括后續(xù)的20年間,都是在走彎路,沒(méi)有什么研究成果。

直到1970年,統(tǒng)計(jì)語(yǔ)言學(xué)的出現(xiàn)才使得語(yǔ)音識(shí)別重獲新生。

統(tǒng)計(jì)語(yǔ)言學(xué)帶來(lái)的重生

推動(dòng)這個(gè)技術(shù)路線轉(zhuǎn)變的關(guān)鍵人物是德里克·賈里尼克(Frederick Jelinek)和他領(lǐng)導(dǎo)的IBM華生實(shí)驗(yàn)室(T.J.Watson)。

統(tǒng)計(jì)語(yǔ)言學(xué)帶來(lái)的結(jié)果是,讓IBM當(dāng)時(shí)的語(yǔ)音識(shí)別率從70%提升到90%,同時(shí)語(yǔ)音識(shí)別的規(guī)模從幾百單詞上升到幾萬(wàn)單詞,這樣語(yǔ)音識(shí)別就有了從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用的可能。

人類的語(yǔ)言是非常復(fù)雜的。不同于音頻識(shí)別,語(yǔ)音識(shí)別的難點(diǎn)在于把一段音頻不僅轉(zhuǎn)換成對(duì)應(yīng)的字,還要是一段邏輯清晰、語(yǔ)音明確的語(yǔ)句。

舉個(gè)例子,我們對(duì)計(jì)算機(jī)念一句話,“周五一起吃飯吧”。計(jì)算機(jī)根據(jù)音頻做出的識(shí)別可能結(jié)果是這樣的:州午衣起癡范爸。

如果僅看讀音和文字的一一對(duì)應(yīng),這個(gè)準(zhǔn)確度可以說(shuō)是很高了,因?yàn)槿绻畹目邶X稍有不清更糟糕的結(jié)果可能是“鄒五意起次換吧”。

但是無(wú)論哪種結(jié)果,在實(shí)際應(yīng)用上都是不可行的,完全沒(méi)法交流嘛。

那么統(tǒng)計(jì)語(yǔ)言學(xué)帶來(lái)的變革是什么呢?

我們知道,雖然人類的語(yǔ)言很復(fù)雜,但仍有一定規(guī)律可循,無(wú)論是“州午衣起癡范爸”,還是“鄒五意起次換吧”都不是一個(gè)正常人會(huì)說(shuō)的話。統(tǒng)計(jì)語(yǔ)言學(xué)的作用就是找出人類說(shuō)話的規(guī)律,這樣就可以大大減少了語(yǔ)言識(shí)別產(chǎn)生的誤差。這其中一個(gè)非常關(guān)鍵的概念就是語(yǔ)素。

語(yǔ)素是語(yǔ)言中最小的音義結(jié)合體,一個(gè)語(yǔ)言單位必須同時(shí)滿足三個(gè)條件——“最小、有音、有義”才能被稱作語(yǔ)素。語(yǔ)素又可以分成三類:

單音節(jié)語(yǔ)素:構(gòu)詞由一個(gè)字才有意思的詞組成

雙音節(jié)語(yǔ)素:構(gòu)詞由兩個(gè)字才有意思的詞組成

多音節(jié)語(yǔ)素:構(gòu)詞由兩個(gè)字以上才有意思的詞組成

啥意思呢?舉個(gè)例子。

你、我、他,這三個(gè)字都是單音節(jié)語(yǔ)素,因?yàn)槊總€(gè)字都能自成一個(gè)含義。

你可能要說(shuō)了,那不是廢話嗎,還有什么字是沒(méi)有含義的嗎?

當(dāng)然有!比如挨君最喜歡吃的“餛飩”。

餛飩就是一個(gè)雙音節(jié)語(yǔ)素。單獨(dú)的餛或者飩都不具備任何含義,只有組合在一起的時(shí)候才有真正的意義。類似的還有“琵琶”、“霹靂”等等。另外比如“沙發(fā)”這類詞,一旦拆分開(kāi)其含義就完全脫離原來(lái)語(yǔ)素的,也被稱為雙音節(jié)語(yǔ)素。

最后一種情況就是多音節(jié)語(yǔ)素,主要是專有名詞還有擬聲詞,比如喜馬拉雅,動(dòng)次打次。

我們?cè)倏椿貏偛诺睦樱?dāng)機(jī)器知道語(yǔ)素之后,即便同音它也不會(huì)把“周五”識(shí)別成“州午”,因?yàn)楹笳邲](méi)有任何意義,也不會(huì)把“吃飯”識(shí)別成“癡范”。

又有人要說(shuō)了,現(xiàn)在很多網(wǎng)絡(luò)用語(yǔ)把吃飯說(shuō)成次飯,我也能看懂啊。

如果說(shuō)“次飯”你能理解那當(dāng)然普大喜奔啦,要是“鄒五意起次換吧”你都能理解的話,那對(duì)于語(yǔ)音識(shí)別團(tuán)隊(duì)來(lái)說(shuō)可真是天大的喜訊了。然而真實(shí)情況是,視人視場(chǎng)景不同,識(shí)別準(zhǔn)確率永遠(yuǎn)是語(yǔ)音識(shí)別第一位的追求。

以上,根據(jù)語(yǔ)素等人類語(yǔ)言規(guī)律挑選同音字的工作,在語(yǔ)音識(shí)別中我們稱為語(yǔ)言模型。

語(yǔ)言模型的好基友

語(yǔ)音識(shí)別中還有一個(gè)模型,就是聲學(xué)模型。

聲學(xué)模型和語(yǔ)言模型是語(yǔ)音識(shí)別里的一對(duì)好基友。聲學(xué)模型負(fù)責(zé)挑選出與音頻匹配的所有字,語(yǔ)言模型負(fù)責(zé)從所有同音字里挑出符合原句意思的字。

聲學(xué)模型的原理說(shuō)起來(lái)跟做牛肉火鍋有點(diǎn)像。

我們拿到一段語(yǔ)音,首先要把它切成若干小段,這個(gè)過(guò)程叫做分幀。

跟片好的牛肉會(huì)被分成匙仁、吊龍、匙柄一樣,片好的幀會(huì)根據(jù)聲學(xué)特征被計(jì)算機(jī)算法識(shí)別為一個(gè)個(gè)【狀態(tài)】,多個(gè)狀態(tài)又可以組合成音素。

音素是語(yǔ)音中的最小的單位,比如哦(o),只有一個(gè)音素;我(wo)則有兩個(gè)音素,w、o;吼(hou),則有三個(gè)音素,h、o、u。

有了音素就可以對(duì)應(yīng)找到匹配的字。

所以你可以這么理解,【狀態(tài)】就像生牛肉,還不是人類可以“食用”的模樣,需要用計(jì)算機(jī)算法來(lái)“涮一涮”成為音素才能成為一個(gè)【字】。

PS:如果你對(duì)【狀態(tài)】這個(gè)概念還不太理解,那也沒(méi)關(guān)系,因?yàn)榻鼛啄瓿霈F(xiàn)了一個(gè)叫CTC的新技術(shù),建模單元放大到了音節(jié)或音素的單位,直接跳過(guò)了【狀態(tài)】這個(gè)概念,所以這個(gè)知識(shí)點(diǎn)以后都不會(huì)考了。

剛才提到語(yǔ)言模型為語(yǔ)音識(shí)別帶來(lái)的重生,并不是說(shuō)在此之前聲學(xué)模型就已經(jīng)非常成熟了,相反,語(yǔ)音識(shí)別重生不久(到20世紀(jì)90年代)再次轉(zhuǎn)涼就是因?yàn)槁晫W(xué)模型太弱,缺少足夠的數(shù)據(jù)和算法。這一狀況直到互聯(lián)網(wǎng)的出現(xiàn)并且?guī)?lái)了極其豐富的大數(shù)據(jù)后,才稍微得以改善。

可以這么說(shuō),語(yǔ)音識(shí)別的童年,是灰暗坎坷的。

語(yǔ)音識(shí)別是如何工作的

說(shuō)完語(yǔ)音識(shí)別的兩個(gè)模型,現(xiàn)在我們可以大致梳理下語(yǔ)音識(shí)別的基本步驟,如下圖:

你通過(guò)微信發(fā)送了一段語(yǔ)音,對(duì)方因?yàn)樵陂_(kāi)會(huì)無(wú)法聽(tīng),于是使用了語(yǔ)音轉(zhuǎn)文字的功能。語(yǔ)音識(shí)別系統(tǒng)先把這段語(yǔ)音分幀,然后提取每一幀的特征形成【狀態(tài)】,幾個(gè)狀態(tài)(通常為3個(gè))又會(huì)組合成一個(gè)音素,音素又構(gòu)成了諸多同音字,接著語(yǔ)言模型從諸多同音字中挑選出可以使語(yǔ)義完整的字,最后一個(gè)個(gè)呈現(xiàn)在你面前。

雖然過(guò)程看著挺簡(jiǎn)單的,但事實(shí)上,受各種語(yǔ)音語(yǔ)調(diào)、方言、說(shuō)話環(huán)境、說(shuō)話方式等等的影響,語(yǔ)音識(shí)別要提高準(zhǔn)確率非常非常非常…非 常 難。得虧現(xiàn)在有了大數(shù)據(jù)和深度學(xué)習(xí),這兩個(gè)模型才得到了好好的訓(xùn)練,包括現(xiàn)在很多語(yǔ)音識(shí)別廠商都表示已經(jīng)可以實(shí)現(xiàn)97%的識(shí)別準(zhǔn)確率。

這里插播一段廣告,

網(wǎng)易人工智能對(duì)語(yǔ)音識(shí)別技術(shù)的研究開(kāi)始于2014年,目前通過(guò)網(wǎng)易AI平臺(tái)已服務(wù)于網(wǎng)易游戲、有道詞典等產(chǎn)品。網(wǎng)易AI平臺(tái)語(yǔ)音識(shí)別技術(shù)的優(yōu)勢(shì)有:領(lǐng)先的中英文語(yǔ)音識(shí)別轉(zhuǎn)寫(xiě)技術(shù),中文轉(zhuǎn)寫(xiě)準(zhǔn)確率可達(dá)97%以上;提供基于垂直行業(yè)語(yǔ)音模型進(jìn)行深度優(yōu)化訓(xùn)練,在游戲行業(yè)的語(yǔ)音識(shí)別準(zhǔn)確性保持業(yè)界頂尖水平;提供標(biāo)準(zhǔn)規(guī)范的SDK和API接口,接入迅速,使用便捷。

說(shuō)了這么多,語(yǔ)音識(shí)別算是人工智能領(lǐng)域比較成熟的技術(shù),但對(duì)于人類的遠(yuǎn)大愿景而言,這才只是起步,就像小嬰兒現(xiàn)在只能聽(tīng),接下來(lái)還要會(huì)說(shuō)、會(huì)做、會(huì)想。不過(guò)有了深度學(xué)習(xí)之后,這一切現(xiàn)在看來(lái)似乎有了觸達(dá)的可能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:科普 | 一文讀懂AI大勢(shì)技術(shù)-語(yǔ)音識(shí)別

文章出處:【微信號(hào):gh_70d0cce81c74,微信公眾號(hào):網(wǎng)易人工智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    語(yǔ)音識(shí)別技術(shù)的應(yīng)用及發(fā)展

    語(yǔ)音識(shí)別是語(yǔ)音為研究對(duì)象,通過(guò)語(yǔ)音信號(hào)處理和模式識(shí)別讓機(jī)器自動(dòng)識(shí)別和理解人類口述的語(yǔ)言。
    發(fā)表于 12-16 11:11 ?2441次閱讀

    基于labview的語(yǔ)音識(shí)別

    `1系統(tǒng)概述語(yǔ)音識(shí)別技術(shù)是二十世紀(jì)信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。
    發(fā)表于 03-10 22:00

    語(yǔ)音識(shí)別】你知道什么是離線語(yǔ)音識(shí)別和在線語(yǔ)音識(shí)別嗎?

    很多都會(huì)問(wèn):我測(cè)X大訊飛的識(shí)別效果很好呀,為什么你們的不能達(dá)到這個(gè)效果呢?原因很簡(jiǎn)單,因?yàn)槟闼鶞y(cè)試的是X大訊飛在線的語(yǔ)音識(shí)別模塊,而我們的是離線的語(yǔ)音
    發(fā)表于 04-01 17:11

    單片機(jī)語(yǔ)音識(shí)別的原理是什么

    語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科。近二十年來(lái),語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來(lái)10年內(nèi),
    發(fā)表于 11-17 08:02

    離線語(yǔ)音識(shí)別和控制的工作原理及應(yīng)用

    引言   離線語(yǔ)音識(shí)別是指在沒(méi)有網(wǎng)絡(luò)連接的情況下,通過(guò)在本地設(shè)備上進(jìn)行語(yǔ)音信號(hào)處理和識(shí)別,實(shí)現(xiàn)語(yǔ)音命令的轉(zhuǎn)化和執(zhí)行。隨著智能設(shè)備的普及,離
    發(fā)表于 11-07 18:01

    離線語(yǔ)音識(shí)別及控制是怎樣的技術(shù)?

    引言:  隨著人工智能的飛速發(fā)展,離線語(yǔ)音識(shí)別技術(shù)成為了一項(xiàng)備受矚目的創(chuàng)新。離線語(yǔ)音識(shí)別
    發(fā)表于 11-24 17:41

    語(yǔ)音識(shí)別技術(shù),語(yǔ)音識(shí)別技術(shù)是什么意思

    語(yǔ)音識(shí)別技術(shù),語(yǔ)音識(shí)別技術(shù)是什么意思  語(yǔ)音
    發(fā)表于 03-06 11:16 ?2980次閱讀

    語(yǔ)音識(shí)別,什么是語(yǔ)音識(shí)別

    語(yǔ)音識(shí)別,什么是語(yǔ)音識(shí)別 語(yǔ)音識(shí)別  與機(jī)器進(jìn)行語(yǔ)音
    發(fā)表于 03-06 11:19 ?2682次閱讀

    國(guó)內(nèi)語(yǔ)音識(shí)別技術(shù)上市公司匯總_語(yǔ)音識(shí)別技術(shù)現(xiàn)狀_語(yǔ)音識(shí)別原理及應(yīng)用

    語(yǔ)音識(shí)別技術(shù)發(fā)展已經(jīng)普遍的存在了我們生活當(dāng)中,本文主要詳細(xì)介紹了語(yǔ)音識(shí)別
    發(fā)表于 12-13 18:04 ?1w次閱讀
    國(guó)內(nèi)<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b><b class='flag-5'>技術(shù)</b>上市公司匯總_<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b><b class='flag-5'>技術(shù)</b>現(xiàn)狀_<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>原理及應(yīng)用

    語(yǔ)音識(shí)別是什么

    語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科。近二十年來(lái),語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來(lái)10年內(nèi),
    的頭像 發(fā)表于 11-18 09:28 ?1w次閱讀

    語(yǔ)音識(shí)別技術(shù)歷程

    深度學(xué)習(xí)技術(shù)自 2009 年興起之后,已經(jīng)取得了長(zhǎng)足進(jìn)步。語(yǔ)音識(shí)別的精度和速度取決于實(shí)際應(yīng)用環(huán)境,但在安靜環(huán)境、標(biāo)準(zhǔn)口音、常見(jiàn)詞匯場(chǎng)景下的語(yǔ)音識(shí)別
    的頭像 發(fā)表于 08-22 14:21 ?4784次閱讀

    淺析語(yǔ)音識(shí)別技術(shù)發(fā)展歷程

    ? ? 語(yǔ)音識(shí)別,通常稱為自動(dòng)語(yǔ)音識(shí)別,主要是將人類語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,也有可能是按鍵、二進(jìn)制編碼或者字符序列。但是,我
    的頭像 發(fā)表于 02-07 10:43 ?5431次閱讀

    語(yǔ)音識(shí)別技術(shù):現(xiàn)狀、挑戰(zhàn)與未來(lái)發(fā)展

    一、引言 語(yǔ)音識(shí)別技術(shù)是一種將人類語(yǔ)音轉(zhuǎn)化為計(jì)算機(jī)可讀文本的技術(shù),它在許多領(lǐng)域都有廣泛的應(yīng)用,如智能助手、智能家居、醫(yī)療診斷等。本文將探討
    的頭像 發(fā)表于 10-12 16:57 ?3827次閱讀

    情感語(yǔ)音識(shí)別技術(shù)發(fā)展與挑戰(zhàn)

    一、引言 情感語(yǔ)音識(shí)別是人工智能領(lǐng)域的重要研究方向,它通過(guò)分析人類語(yǔ)音中的情感信息,實(shí)現(xiàn)人機(jī)之間的情感交互。本文將探討情感語(yǔ)音識(shí)別
    的頭像 發(fā)表于 11-28 18:26 ?952次閱讀

    語(yǔ)音識(shí)別技術(shù)的應(yīng)用與發(fā)展

    語(yǔ)音識(shí)別技術(shù)發(fā)展可以追溯到20世紀(jì)50年代,但直到近年來(lái),隨著計(jì)算能力的提升和機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,這項(xiàng)
    的頭像 發(fā)表于 11-26 09:20 ?1631次閱讀