一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于語(yǔ)音識(shí)別類產(chǎn)品細(xì)分及其應(yīng)用場(chǎng)景分析

訊飛開放平臺(tái) ? 來(lái)源:djl ? 作者:焦糖瑪奇朵 ? 2019-09-27 14:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

你的童年是否也曾這樣對(duì)著大門發(fā)出命令?

當(dāng)然,大門用靜止表示對(duì)你的“忽視”。樂(lè)此不疲的孩子還是會(huì)時(shí)不時(shí)對(duì)著門喊上幾句,我們的潛意識(shí)是希望得到門有所回應(yīng),比如:門開了。

命令失效的原因是什么?因?yàn)榇箝T本身不具備聽到聲音的能力,如果我們能讓大門可以聽到你說(shuō)的話、發(fā)出的命令,進(jìn)一步才可以啟動(dòng)語(yǔ)義和執(zhí)行系統(tǒng)控制它的開關(guān)。

這就引申到本次重點(diǎn)介紹的技術(shù)——語(yǔ)音識(shí)別。本次干貨分享由語(yǔ)音識(shí)別產(chǎn)品經(jīng)理:@ 焦糖瑪奇朵進(jìn)行提供。希望能為大家打開語(yǔ)音識(shí)別的大門。

語(yǔ)音識(shí)別是一項(xiàng)將人類的聲音信號(hào)轉(zhuǎn)化為文字的過(guò)程。本文將從產(chǎn)品的角度對(duì)業(yè)界的語(yǔ)音識(shí)別產(chǎn)品進(jìn)行歸類和說(shuō)明。不同的產(chǎn)品類型具有不同的算法或者接口特性,對(duì)應(yīng)不同的需求場(chǎng)景。

根據(jù)識(shí)別內(nèi)容的范圍,語(yǔ)音識(shí)別的大類分列如下

1、封閉域識(shí)別:

識(shí)別范圍為預(yù)先指定的字/詞集合,即算法只在開發(fā)者預(yù)先設(shè)定的封閉域識(shí)別詞的集合內(nèi)進(jìn)行語(yǔ)音識(shí)別,對(duì)范圍之外的語(yǔ)音會(huì)進(jìn)行拒識(shí)。因此,可以將其聲學(xué)模型和語(yǔ)言模型進(jìn)行裁剪,使得識(shí)別引擎的運(yùn)算量也較小。并且可將引擎封到嵌入式芯片或者本地化的SDK中,從而使識(shí)別過(guò)程完全脫離云端,擺脫對(duì)網(wǎng)絡(luò)的依賴,并且不會(huì)影響識(shí)別率。業(yè)界廠商提供的引擎部署方式包括云端和本地化(如:芯片,模塊和純軟件SDK)。

產(chǎn)品類型:命令字/詞識(shí)別,語(yǔ)音喚醒,語(yǔ)法識(shí)別

產(chǎn)品形態(tài):流式傳輸-同步獲取

典型的應(yīng)用場(chǎng)景:不涉及到多輪交互和多種語(yǔ)義說(shuō)法的場(chǎng)景,如簡(jiǎn)單指令交互的智能家居和電視盒子,語(yǔ)音控制指令一般只有:“打開窗簾”,“打開中央臺(tái)”等,但是一旦涉及到程序猿大大們?cè)诤笈_(tái)配置識(shí)別詞集合之外的命令,如“給小編這篇文章來(lái)個(gè)打賞”,識(shí)別系統(tǒng)將拒識(shí)這段語(yǔ)音,不會(huì)返回相應(yīng)的文字結(jié)果,更不會(huì)做相應(yīng)的回復(fù)或者指令動(dòng)作。

2、開放域識(shí)別:

無(wú)需預(yù)先指定識(shí)別詞集合,算法將在整個(gè)語(yǔ)言大集合范圍中進(jìn)行識(shí)別。為適應(yīng)此類場(chǎng)景,聲學(xué)模型和語(yǔ)音模型一般都比較大,引擎運(yùn)算量也較大。將其封裝到嵌入式芯片或者本地化的SDK中,耗能較高并且影響識(shí)別效果。業(yè)界廠商基本上都以云端形式提供,云端包括公有云形式和私有云形式。本地化形式只有帶服務(wù)器級(jí)別計(jì)算能力的嵌入式系統(tǒng),如會(huì)議字幕系統(tǒng)。

產(chǎn)品類型按照說(shuō)話風(fēng)格的特點(diǎn),分為:

(1)語(yǔ)音聽寫:語(yǔ)音時(shí)長(zhǎng)較短(<1min),一般情況下均為一句話。訓(xùn)練語(yǔ)料為朗讀風(fēng)格,語(yǔ)速較為平均。一般為人機(jī)對(duì)話場(chǎng)景,錄音質(zhì)量較好。

按照音頻錄入和結(jié)果獲取方式定義產(chǎn)品形態(tài):

(a)流式上傳-同步獲取,應(yīng)用/軟件會(huì)對(duì)說(shuō)話人的語(yǔ)音進(jìn)行自動(dòng)錄制并將其連續(xù)上傳至云端,說(shuō)話人在說(shuō)完話的同時(shí)能實(shí)時(shí)地看到返回的文字。語(yǔ)音云服務(wù)廠商的產(chǎn)品接口中會(huì)提供音頻錄制接口和格式編碼算法,供客戶端進(jìn)行邊錄制邊上傳,并與云端建立長(zhǎng)連接,同步監(jiān)聽并獲取識(shí)別結(jié)果。

(b)已錄制音頻文件上傳-同步獲取,用戶需自行預(yù)先錄制好規(guī)定格式的音頻,并使用語(yǔ)音云服務(wù)廠商提供的接口進(jìn)行音頻上傳,客戶端與云端的連接和結(jié)果獲取方式與上述音頻流類似。

典型應(yīng)用場(chǎng)景:應(yīng)用發(fā)展已經(jīng)比較成熟:主要在輸入場(chǎng)景,如輸入法;與麥克風(fēng)陣列和語(yǔ)義結(jié)合的人機(jī)交互場(chǎng)景,如具備更自然交互形態(tài)的智能音響,如“叮咚叮咚,轉(zhuǎn)發(fā)小編這篇文章?!?,在無(wú)配置的情況下,識(shí)別系統(tǒng)也能夠識(shí)別這段語(yǔ)音,返回相應(yīng)的文字結(jié)果。

(2)語(yǔ)音轉(zhuǎn)寫:語(yǔ)音時(shí)長(zhǎng)一般較長(zhǎng)(五小時(shí)內(nèi)),句子較多。訓(xùn)練語(yǔ)料為交談風(fēng)格,即說(shuō)話人說(shuō)話無(wú)組織性比較強(qiáng),因此語(yǔ)速較不平均,吞字&連字現(xiàn)象較多。錄音大多為遠(yuǎn)場(chǎng)或帶噪的。

除了模型不同之外,按照音頻錄入和結(jié)果獲取方式定義產(chǎn)品形態(tài):

(a)音頻流轉(zhuǎn)寫:流式上傳-同步獲取,與上述語(yǔ)音聽寫類似,唯一不同的是,識(shí)別的時(shí)長(zhǎng)不會(huì)有一句話的限制。

(b)非實(shí)時(shí)已錄制音頻轉(zhuǎn)寫:已錄制音頻文件上傳-異步獲取,用戶需自行調(diào)用軟件接口或者是硬件平臺(tái)預(yù)先錄制好規(guī)定格式的音頻,并使用語(yǔ)音云服務(wù)廠商提供的接口進(jìn)行音頻上傳,上傳完成之后便可以斷掉連接。用戶通過(guò)輪詢語(yǔ)音云服務(wù)器或者使用回調(diào)接口進(jìn)行結(jié)果獲取。

由于長(zhǎng)語(yǔ)音的計(jì)算量較大,計(jì)算時(shí)間較長(zhǎng),因此采取異步獲取的方式可以避免由于網(wǎng)絡(luò)問(wèn)題帶來(lái)的結(jié)果丟失。也因?yàn)檎Z(yǔ)音轉(zhuǎn)寫系統(tǒng)通常是非實(shí)時(shí)處理的,這種工程形態(tài)也給了識(shí)別算法更多的時(shí)間進(jìn)行多遍解碼。而長(zhǎng)時(shí)的語(yǔ)料,也給了算法使用更長(zhǎng)時(shí)的信息進(jìn)行長(zhǎng)短期記憶網(wǎng)絡(luò)建模。在同樣的輸入音頻下,此類型產(chǎn)品形態(tài)犧牲了一部分實(shí)時(shí)率,花費(fèi)了更高的資源消耗,但是卻可以得到最高的識(shí)別率。在時(shí)間允許的使用場(chǎng)景下,非實(shí)時(shí)已錄制音頻轉(zhuǎn)寫無(wú)疑是最推薦的產(chǎn)品形態(tài)!

典型應(yīng)用場(chǎng)景:如字幕配置,客服語(yǔ)音質(zhì)檢,UGC語(yǔ)音內(nèi)容審查

概念厘清

1、離線VS在線

在訊飛開放平臺(tái)的產(chǎn)品定義和較多的客戶認(rèn)知中,離/在線的區(qū)別在于識(shí)別過(guò)程是否需要通過(guò)云端請(qǐng)求,即識(shí)別引擎是在云端還是本地。而云計(jì)算中的離/在線產(chǎn)品的引擎都處在云端,區(qū)別在于在計(jì)算過(guò)程中,客戶端是否需要與云端進(jìn)行實(shí)時(shí)數(shù)據(jù)交互,即上述所述的音頻流和非實(shí)時(shí)已錄制音頻轉(zhuǎn)寫。兩者的定義有沖突,因此并不建議使用離/在線概念進(jìn)行相關(guān)產(chǎn)品定義。

2、8K VS 16Khz采樣率語(yǔ)音模型

在眾多語(yǔ)音云服務(wù)廠商中,會(huì)根據(jù)音頻采樣率進(jìn)行分類,從而訓(xùn)練出更適合各類采樣率的語(yǔ)音模型,最典型的為8K和16K模型。原始音頻信息保留越多越有利于識(shí)別率的提升,因此,16K音頻采用16K語(yǔ)音模型,其識(shí)別率會(huì)普遍高于8K音頻采用8K模型。

3、語(yǔ)音識(shí)別VS語(yǔ)義識(shí)別

語(yǔ)音識(shí)別是語(yǔ)義識(shí)別的前提基礎(chǔ)。語(yǔ)音識(shí)別將聲音轉(zhuǎn)化成文字,語(yǔ)義識(shí)別提取文字中的相關(guān)信息和相應(yīng)意圖,通過(guò)執(zhí)行模塊進(jìn)行相應(yīng)的問(wèn)題回復(fù)或者反饋動(dòng)作。

結(jié)語(yǔ):

最后舉一個(gè)栗子作為收尾:“叮咚叮咚,給小編這篇文章點(diǎn)個(gè)贊唄?!?,在無(wú)后臺(tái)配置的情況下,封閉域的語(yǔ)音識(shí)別系統(tǒng)會(huì)拒識(shí)這段語(yǔ)音,開放域的識(shí)別系統(tǒng)卻能夠識(shí)別這段語(yǔ)音,返回相應(yīng)的文字結(jié)果。而現(xiàn)階段的開放域語(yǔ)義系統(tǒng)在大概率情況下,還是會(huì)回復(fù)得比較生硬,并且也不會(huì)自動(dòng)識(shí)別出相應(yīng)的意圖并做出指令。按照現(xiàn)有的比較通用的方法,這個(gè)功能需要使用封閉域的語(yǔ)義識(shí)別在后臺(tái)預(yù)先配置相關(guān)答案,并且根據(jù)預(yù)先配置的信息抽取意圖,再根據(jù)意圖類別和槽位信息執(zhí)行相應(yīng)的動(dòng)作——即調(diào)用微信的點(diǎn)贊接口(假設(shè)可以)進(jìn)行相應(yīng)的點(diǎn)贊操作。

聽起來(lái)好繞呀,是不是覺得還是自己手動(dòng)點(diǎn)個(gè)贊簡(jiǎn)單粗暴省事得多了呢?然而,一切現(xiàn)代人類做起來(lái)自然而然&毫不費(fèi)力的動(dòng)作,卻都是建構(gòu)在經(jīng)過(guò)了億萬(wàn)年的學(xué)習(xí)進(jìn)化,兆億次閉環(huán)重復(fù)練習(xí)的智人基因!而任何的人工智能技術(shù)也是需要一個(gè)巨量的數(shù)據(jù)訓(xùn)練和一定的演變周期。并且在所有的科技發(fā)展進(jìn)程中,率先取得突破并且在應(yīng)用領(lǐng)域產(chǎn)品成熟化往往都是在封閉域,亦如現(xiàn)在正處封閉域產(chǎn)品化的語(yǔ)義識(shí)別(如:AIUI,echo等),而語(yǔ)音識(shí)別的產(chǎn)品成熟化已經(jīng)走過(guò)了封閉域到達(dá)了開放域,正在向各行各業(yè)輸送人工智能的力量!

附圖:語(yǔ)音識(shí)別產(chǎn)品類別圖

關(guān)于語(yǔ)音識(shí)別類產(chǎn)品細(xì)分及其應(yīng)用場(chǎng)景分析

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    39

    文章

    1782

    瀏覽量

    114229
  • 云服務(wù)
    +關(guān)注

    關(guān)注

    0

    文章

    855

    瀏覽量

    39707
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    語(yǔ)音識(shí)別芯片選型有哪些技術(shù)參數(shù)要注意

    語(yǔ)音識(shí)別芯片的使用場(chǎng)景越來(lái)越多涉及的范圍也越來(lái)越廣!那么語(yǔ)音芯片的選型就很重要了,選型不對(duì)直接影響產(chǎn)品的使用體驗(yàn),下面小編從不同的維度來(lái)給大
    的頭像 發(fā)表于 06-23 17:31 ?207次閱讀
    <b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>芯片選型有哪些技術(shù)參數(shù)要注意

    芯資訊|廣州唯創(chuàng)電子語(yǔ)音識(shí)別芯片:全場(chǎng)景覆蓋與長(zhǎng)效品質(zhì)

    芯片市場(chǎng)中脫穎而出,成為行業(yè)標(biāo)桿。一、全場(chǎng)景覆蓋的產(chǎn)品矩陣,精準(zhǔn)匹配多元需求廣州唯創(chuàng)電子深挖市場(chǎng)需求,針對(duì)不同應(yīng)用場(chǎng)景和成本需求,構(gòu)建了業(yè)內(nèi)最完善的語(yǔ)音
    的頭像 發(fā)表于 05-20 08:36 ?179次閱讀
    芯資訊|廣州唯創(chuàng)電子<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>芯片:全<b class='flag-5'>場(chǎng)景</b>覆蓋與長(zhǎng)效品質(zhì)

    廣州唯創(chuàng)電子語(yǔ)音識(shí)別芯片選型指南:場(chǎng)景化設(shè)計(jì)與技術(shù)適配策略

    了全場(chǎng)景應(yīng)用需求。本文將深度解析不同應(yīng)用場(chǎng)景的技術(shù)需求,并提供系統(tǒng)化的芯片選型方法論。一、應(yīng)用場(chǎng)景與技術(shù)需求映射模型1.1玩具類產(chǎn)品典型需求:低成本BOM方案(15)
    的頭像 發(fā)表于 03-27 08:55 ?425次閱讀
    廣州唯創(chuàng)電子<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>芯片選型指南:<b class='flag-5'>場(chǎng)景</b>化設(shè)計(jì)與技術(shù)適配策略

    頻域示波器的技術(shù)原理和應(yīng)用場(chǎng)景

    頻域示波器,其主要技術(shù)原理基于信號(hào)的傅里葉變換理論,通過(guò)快速傅里葉變換(FFT)算法將時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào),從而進(jìn)行頻譜分析。以下是對(duì)頻域示波器的技術(shù)原理和應(yīng)用場(chǎng)景的詳細(xì)分析:一、技術(shù)
    發(fā)表于 03-11 14:37

    直接數(shù)字式頻譜分析儀的技術(shù)原理和應(yīng)用場(chǎng)景

    直接數(shù)字式頻譜分析儀的技術(shù)原理和應(yīng)用場(chǎng)景如下:一、技術(shù)原理直接數(shù)字式頻譜分析儀采用數(shù)字信號(hào)處理技術(shù),其核心技術(shù)在于對(duì)輸入信號(hào)進(jìn)行離散傅里葉變換(FFT)。具體而言,輸入信號(hào)首先經(jīng)過(guò)預(yù)處理,如衰減器
    發(fā)表于 02-17 15:00

    時(shí)域反射計(jì)的技術(shù)原理和應(yīng)用場(chǎng)景

    位置及其阻抗值。反射信號(hào)的幅度和特性與傳輸線的阻抗密切相關(guān)。應(yīng)用場(chǎng)景時(shí)域反射計(jì)在多個(gè)領(lǐng)域有廣泛的應(yīng)用,具體包括: 電氣工程與通信:用于檢測(cè)通信電纜和金屬電纜(如雙絞線、同軸電纜)中的斷點(diǎn)位置、連接器位置
    發(fā)表于 02-11 14:39

    脈沖信號(hào)分析儀?的原理和應(yīng)用場(chǎng)景

    脈沖信號(hào)分析儀是一種用于測(cè)量和分析脈沖信號(hào)的精密儀器。以下是對(duì)其原理和應(yīng)用場(chǎng)景的詳細(xì)介紹:一、原理脈沖信號(hào)分析儀的工作原理主要基于電子測(cè)量技術(shù)和信號(hào)處理技術(shù)。當(dāng)脈沖信號(hào)被
    發(fā)表于 01-23 14:00

    混合信號(hào)分析儀的原理和應(yīng)用場(chǎng)景

    混合信號(hào)分析儀是一種集成度高、功能強(qiáng)大的電子測(cè)量設(shè)備,其原理和應(yīng)用場(chǎng)景如下:一、原理混合信號(hào)分析儀由模擬部分和數(shù)字部分組成,用于混合信號(hào)的分析。其工作原理主要包括以下幾個(gè)方面: 信號(hào)采
    發(fā)表于 01-21 16:45

    信號(hào)分析儀的原理和應(yīng)用場(chǎng)景

    信號(hào)分析儀是一種用于分析電信號(hào)頻譜和特性的儀器,其原理和應(yīng)用場(chǎng)景如下:一、信號(hào)分析儀的原理信號(hào)分析儀的工作原理基于頻譜
    發(fā)表于 01-17 14:37

    數(shù)據(jù)網(wǎng)絡(luò)分析儀的原理和應(yīng)用場(chǎng)景

    數(shù)據(jù)網(wǎng)絡(luò)分析儀的原理和應(yīng)用場(chǎng)景可以分別闡述如下:一、數(shù)據(jù)網(wǎng)絡(luò)分析儀的原理數(shù)據(jù)網(wǎng)絡(luò)分析儀的原理主要涉及以下幾個(gè)方面: 數(shù)據(jù)捕獲:網(wǎng)絡(luò)分析儀通過(guò)
    發(fā)表于 01-16 14:57

    PCBA分析儀的技術(shù)原理和應(yīng)用場(chǎng)景

    PCBA分析儀,通常指的是多功能PCBA測(cè)試儀,是一種綜合性測(cè)試設(shè)備,能夠同時(shí)進(jìn)行多種測(cè)試,如功能測(cè)試、ICT(在線測(cè)試)、AOI(自動(dòng)光學(xué)檢測(cè))、X射線檢測(cè)等。以下是對(duì)其技術(shù)原理和應(yīng)用場(chǎng)景的詳細(xì)
    發(fā)表于 12-04 14:31

    射頻分析儀的技術(shù)原理和應(yīng)用場(chǎng)景

    射頻分析儀是一種功能強(qiáng)大的電子測(cè)量?jī)x器,在無(wú)線通信、電子測(cè)試等領(lǐng)域具有廣泛的應(yīng)用。以下是關(guān)于射頻分析儀的技術(shù)原理和應(yīng)用場(chǎng)景的詳細(xì)介紹:一、射頻分析
    發(fā)表于 11-26 14:32

    SUMIF函數(shù)的應(yīng)用場(chǎng)景分析

    SUMIF函數(shù)在Excel中是一個(gè)強(qiáng)大的數(shù)據(jù)分析工具,特別適用于需要對(duì)數(shù)據(jù)進(jìn)行條件篩選并求和的場(chǎng)景。以下是對(duì)SUMIF函數(shù)應(yīng)用場(chǎng)景分析: 1. 財(cái)務(wù)數(shù)據(jù)
    的頭像 發(fā)表于 10-30 09:55 ?2859次閱讀

    參數(shù)分析儀的技術(shù)原理和應(yīng)用場(chǎng)景

    參數(shù)分析儀的技術(shù)原理和應(yīng)用場(chǎng)景因其具體類型和用途的不同而有所差異。以下是對(duì)參數(shù)分析儀技術(shù)原理和應(yīng)用場(chǎng)景的詳細(xì)歸納: 技術(shù)原理 基于物理性質(zhì)的測(cè)量: 某些參數(shù)
    發(fā)表于 10-17 14:42

    NFC協(xié)議分析儀的技術(shù)原理和應(yīng)用場(chǎng)景

    的安全性,并提出相應(yīng)的防護(hù)措施和改進(jìn)建議。 綜上所述,NFC協(xié)議分析儀在移動(dòng)支付、門禁系統(tǒng)、智能標(biāo)簽識(shí)別、物聯(lián)網(wǎng)設(shè)備控制以及安全分析等領(lǐng)域都有廣泛的應(yīng)用場(chǎng)景。它能夠幫助用戶快速準(zhǔn)確地
    發(fā)表于 09-25 14:45