一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌手機(jī)重磅推出了一款端到端、全神經(jīng)、基于設(shè)備的語(yǔ)音識(shí)別器

電子工程師 ? 來(lái)源:lp ? 2019-03-28 14:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

識(shí)別延遲一直是設(shè)備端語(yǔ)音識(shí)別技術(shù)需要解決的重大問(wèn)題,谷歌手機(jī)今天更新了手機(jī)端的語(yǔ)音識(shí)別技術(shù)——Gboard,重磅推出了一款端到端、全神經(jīng)、基于設(shè)備的語(yǔ)音識(shí)別器,支持Gboard中的語(yǔ)音輸入。通過(guò)谷歌最新的(RNN-T)技術(shù)訓(xùn)練的模型,該模型精度超過(guò)CTC,并且只有80M,可直接在設(shè)備上運(yùn)行。

2012年,語(yǔ)音識(shí)別研究獲得新突破——深度學(xué)習(xí)可以提高識(shí)別的準(zhǔn)確性,最早探索這項(xiàng)技術(shù)的產(chǎn)品便是谷歌語(yǔ)音搜索了。這標(biāo)志這語(yǔ)音識(shí)別革命的開(kāi)始,從深層神經(jīng)網(wǎng)絡(luò)(DNNs)到遞歸神經(jīng)網(wǎng)絡(luò)(RNNs),長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTMs),卷積網(wǎng)絡(luò)(CNNs)等等,新的架構(gòu)和開(kāi)發(fā)質(zhì)量每年都在快速提升。在發(fā)展過(guò)程中,識(shí)別延遲仍然是攻關(guān)難點(diǎn)。

今天,谷歌官方宣布,推出一款端到端、全神經(jīng)、基于設(shè)備的語(yǔ)音識(shí)別器,支持Gboard中的語(yǔ)音輸入。

在谷歌最近的論文“移動(dòng)設(shè)備的流媒體端到端語(yǔ)音識(shí)別”中,提出了一種使用RNN傳感器(RNN-T)技術(shù)訓(xùn)練的模型,并且可以在手機(jī)上實(shí)現(xiàn)。這意味著即使你的手機(jī)網(wǎng)絡(luò)延遲,甚至處于離線狀態(tài),新的識(shí)別器也始終可用。

谷歌論文下載鏈接:

https://arxiv.org/abs/1811.06621

該模型以單詞級(jí)別運(yùn)行,也就是說(shuō),當(dāng)你說(shuō)話時(shí),它會(huì)逐個(gè)字符地輸出單詞,就像是你自己在敲鍵盤一樣。

語(yǔ)音識(shí)別的歷史

最初,語(yǔ)音識(shí)別系統(tǒng)由這樣幾個(gè)部分組成,將音頻片段(通常為10毫秒幀)映射到音素的聲學(xué)模型,將音素連接在一起形成單詞的發(fā)音模型,語(yǔ)言模型給出相應(yīng)的短語(yǔ)。這些組件在早期系統(tǒng)中都是相互獨(dú)立的。

大約在2014年,研究人員開(kāi)始專注于訓(xùn)練單個(gè)神經(jīng)網(wǎng)絡(luò),將輸入音頻波形直接映射到輸出句子。

也就是說(shuō),通過(guò)給定一系列音頻特征,生成一系列單詞或字形來(lái)建立學(xué)習(xí)模型,這種seq2seq模型的出現(xiàn)促進(jìn)了“attention-based ”和“l(fā)isten-attend-spell” 模型的進(jìn)展。

這些模型期望在識(shí)別準(zhǔn)確度上做出突破,但其需要通檢查整個(gè)輸入序列來(lái)工作,并且在輸入時(shí)不允許輸出,這就很難實(shí)現(xiàn)實(shí)時(shí)語(yǔ)音轉(zhuǎn)錄了。

幾乎同一時(shí)間,一個(gè)被稱為CTC的獨(dú)立技術(shù)出現(xiàn)了,成功解決了識(shí)別延時(shí)的問(wèn)題,采用CTC技術(shù)也就成為邁向RNN-T架構(gòu)最重要一步。

遞歸神經(jīng)網(wǎng)絡(luò)傳感器

RNN-Ts是一種非注意機(jī)制的seq2seq模型。與大多數(shù)seq2seq模型(通常需要處理整個(gè)輸入序列(在我們的例子中是波形)以產(chǎn)生輸出(句子))不同,RNN-T可以連續(xù)處理輸入樣本和流輸出符號(hào),這種屬性對(duì)于語(yǔ)音識(shí)別尤其友好。在實(shí)現(xiàn)過(guò)程中,輸出符號(hào)是字母表的字符。RNN-T識(shí)別器會(huì)逐個(gè)輸出字符,并在適當(dāng)?shù)奈恢幂斎肟崭?。它通過(guò)反饋循環(huán)執(zhí)行此操作,該循環(huán)將模型預(yù)測(cè)的符號(hào)反饋到其中,以預(yù)測(cè)下一個(gè)符號(hào),如下圖所示。

訓(xùn)練這樣一只有效運(yùn)行的模型已經(jīng)很困難,并且隨著我們開(kāi)發(fā)的進(jìn)展——進(jìn)一步將單詞錯(cuò)誤率降低了5%,模型變得更加計(jì)算密集。為了解決這個(gè)問(wèn)題,我們開(kāi)發(fā)了并行實(shí)現(xiàn),使得RNN-T損失功能可以在Google的高性能CloudTPU v2硬件上大批量運(yùn)行。這在訓(xùn)練中實(shí)現(xiàn)了約3倍的加速。

離線識(shí)別

在傳統(tǒng)的語(yǔ)音識(shí)別引擎中,我們上面描述的聲學(xué)、發(fā)音和語(yǔ)言模型會(huì)被“組合”成一個(gè)大的圖搜索算法。當(dāng)語(yǔ)音波形被呈現(xiàn)給識(shí)別器時(shí),“解碼器”在給定輸入信號(hào)的情況下,會(huì)在該圖中搜索相似度最高的路徑,并讀出該路徑所采用的字序列。

通常,解碼器采用基礎(chǔ)模型的有限狀態(tài)傳感器(FST)表示。然而,盡管有復(fù)雜的解碼技術(shù),圖搜索算法仍然非常之大,以我們的模型為例,可以達(dá)到了2GB。如此大的模型根本無(wú)法在移動(dòng)設(shè)備上運(yùn)行,因此這種方法需要在連線時(shí)才能正常工作。

為了提高語(yǔ)音識(shí)別的有效性,我們?cè)噲D通過(guò)直接在設(shè)備上運(yùn)行新模型,來(lái)避免通信網(wǎng)絡(luò)的延遲和不可靠性。因此,我們的端到端方法不需要在大型解碼器圖上進(jìn)行搜索。

相反,只通過(guò)單個(gè)神經(jīng)網(wǎng)絡(luò)的波束搜索進(jìn)行。我們訓(xùn)練的RNN-T提供與傳統(tǒng)的基于服務(wù)器的模型相同的精度,但只有450MB,可以更加智能地使用參數(shù)和打包信息。然而,即使在今天的智能手機(jī)上,450MB也不小了,并且,通過(guò)如此龐大的網(wǎng)絡(luò)傳輸信號(hào)依然很慢。

進(jìn)一步的,我們通過(guò)使用參數(shù)量化和混合內(nèi)核技術(shù)來(lái)縮小模型,我們?cè)?016年開(kāi)發(fā)了這一技術(shù)并在TensorFlow精簡(jiǎn)版庫(kù)上公開(kāi)提供了模型優(yōu)化工具包。

模型量化相對(duì)于訓(xùn)練的浮點(diǎn)模型提供4倍壓縮,在運(yùn)行時(shí)提供4倍加速,使我們的RNN-T比單核上的實(shí)時(shí)語(yǔ)音運(yùn)行得更快。壓縮后,我們模型的最終大小達(dá)到了80MB。

終于,當(dāng)當(dāng)當(dāng),我們的新型設(shè)備端神經(jīng)網(wǎng)絡(luò)Gboard語(yǔ)音識(shí)別器上線了。最初的版本,我們僅提供英語(yǔ)語(yǔ)言,適配所有Pixel手機(jī)。鑒于行業(yè)趨勢(shì),隨著專業(yè)硬件和算法改進(jìn)的融合,我們希望這里介紹的技術(shù)可以很快用于更多語(yǔ)言和更廣泛的應(yīng)用領(lǐng)域。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6231

    瀏覽量

    108158
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    39

    文章

    1782

    瀏覽量

    114249
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122800

原文標(biāo)題:全離線,無(wú)延遲!谷歌手機(jī)更新語(yǔ)音識(shí)別系統(tǒng),模型大小僅80M

文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    為何成為各車企智駕布局的首要選擇?

    算法實(shí)現(xiàn)輸入輸出的整體映射,技術(shù)通過(guò)將原始傳感數(shù)據(jù)直接輸入單
    的頭像 發(fā)表于 06-07 11:52 ?177次閱讀
    為何<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>成為各車企智駕布局的首要選擇?

    文帶你厘清自動(dòng)駕駛架構(gòu)差異

    大模型則嘗試直接將傳感輸入映射到車輛控制指令上,實(shí)現(xiàn)聯(lián)合優(yōu)化。雖同為
    的頭像 發(fā)表于 05-08 09:07 ?300次閱讀
    <b class='flag-5'>一</b>文帶你厘清自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架構(gòu)差異

    自動(dòng)駕駛中基于規(guī)則的決策和大模型有何區(qū)別?

    在自動(dòng)駕駛架構(gòu)的選擇上,也經(jīng)歷了從感知、決策控制、執(zhí)行的三段式架構(gòu)到現(xiàn)在火熱的大模型,尤其是在2024年特斯拉推出FSD V12后,各車企更是陸續(xù)
    的頭像 發(fā)表于 04-13 09:38 ?2914次閱讀
    自動(dòng)駕駛中基于規(guī)則的決策和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有何區(qū)別?

    自動(dòng)駕駛技術(shù)研究與分析

    傳遞和全局優(yōu)化的優(yōu)勢(shì),成為智能駕駛技術(shù)發(fā)展的重要方向。與傳統(tǒng)模塊化架構(gòu)相比,技術(shù)通過(guò)深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)從傳感數(shù)據(jù)輸入
    的頭像 發(fā)表于 12-19 13:07 ?898次閱讀

    階躍星辰發(fā)布國(guó)內(nèi)首個(gè)千億參數(shù)語(yǔ)音大模型

    近日,階躍星辰在官方公眾號(hào)上宣布了項(xiàng)重大突破——推出Step-1o千億參數(shù)語(yǔ)音大模型。該
    的頭像 發(fā)表于 12-17 13:43 ?752次閱讀

    準(zhǔn)確性超Moshi和GLM-4-Voice,語(yǔ)音雙工模型Freeze-Omni

    GPT-4o 提供的全雙工語(yǔ)音對(duì)話帶來(lái)了股研究熱潮,目前諸多工作開(kāi)始研究如何利用 LLM 來(lái)實(shí)現(xiàn)
    的頭像 發(fā)表于 12-17 10:21 ?929次閱讀
    準(zhǔn)確性超Moshi和GLM-4-Voice,<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>語(yǔ)音</b>雙工模型Freeze-Omni

    黑芝麻智能算法參考模型公布

    黑芝麻智能計(jì)劃推出支持華山及武當(dāng)系列芯片的算法參考方案。該方案采用One Model架構(gòu),并在決策規(guī)劃單元引入了VLM視覺(jué)語(yǔ)言大模型和PRR行車規(guī)則的概率化表征子模塊,進(jìn)
    的頭像 發(fā)表于 12-03 12:30 ?944次閱讀
    黑芝麻智能<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>算法參考模型公布

    爆火的如何加速智駕落地?

    編者語(yǔ):「智駕最前沿」微信公眾號(hào)后臺(tái)回復(fù):C-0551,獲取本文參考報(bào)告:《智能汽車技術(shù)研究報(bào)告》pdf下載方式。 “
    的頭像 發(fā)表于 11-26 13:17 ?1163次閱讀
    爆火的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>如何加速智駕落地?

    Waymo利用谷歌Gemini大模型,研發(fā)端自動(dòng)駕駛系統(tǒng)

    邁新步,為其機(jī)器人出租車業(yè)務(wù)引入了種基于谷歌多模態(tài)大語(yǔ)言模型(MLLM)“Gemini”的全新訓(xùn)練模型——“多模態(tài)自動(dòng)駕駛模型”(E
    的頭像 發(fā)表于 10-31 16:55 ?1730次閱讀

    智己汽車“”智駕方案推出,老司機(jī)真的會(huì)被取代嗎?

    隨著智能駕駛技術(shù)的發(fā)展,行業(yè)已經(jīng)從早期基于簡(jiǎn)單規(guī)則和模塊化邏輯的自動(dòng)駕駛,逐步邁向依托深度學(xué)習(xí)的高復(fù)雜度智能駕駛解決方案,各車企也緊跟潮流,先后宣布了自己的智駕方案。就在近期,智己汽車
    的頭像 發(fā)表于 10-30 09:47 ?836次閱讀
    智己汽車“<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”智駕方案<b class='flag-5'>推出</b>,老司機(jī)真的會(huì)被取代嗎?

    InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

    ChatGPT對(duì)技術(shù)的影響引發(fā)了對(duì)人工智能未來(lái)的預(yù)測(cè),尤其是多模態(tài)技術(shù)的關(guān)注。OpenAI推出了具有突破性的多模態(tài)模型GPT-4,使各個(gè)領(lǐng)域取得了顯著的發(fā)展。 這些AI進(jìn)步是通過(guò)大規(guī)模模型訓(xùn)練實(shí)現(xiàn)
    的頭像 發(fā)表于 10-23 11:26 ?2254次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

    語(yǔ)音解決方案的Renesas RA8M1語(yǔ)音套件

    Renesas Electronics RA8M1語(yǔ)音套件(VK-RA8M1) Renesas Electronics RA8M1語(yǔ)音套件(VK-RA8M1)可滿足智能揚(yáng)聲、智能手機(jī)
    的頭像 發(fā)表于 09-27 16:12 ?6810次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>語(yǔ)音</b>解決方案的Renesas RA8M1<b class='flag-5'>語(yǔ)音</b>套件

    測(cè)試用例怎么寫(xiě)

    編寫(xiě)測(cè)試用例是確保軟件系統(tǒng)從頭到尾能夠正常工作的關(guān)鍵步驟。以下是個(gè)詳細(xì)的指南,介紹如何編寫(xiě)
    的頭像 發(fā)表于 09-20 10:29 ?978次閱讀

    恩智浦完整的Matter解決方案

    恩智浦為打造Matter設(shè)備,提供了完整的解決方案,從連接和安全解決方案到處理和軟件,應(yīng)有盡有,為Matter標(biāo)準(zhǔn)的規(guī)模化商用提供有
    的頭像 發(fā)表于 08-26 18:04 ?3017次閱讀
    恩智浦完整的Matter<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>解決方案

    實(shí)現(xiàn)自動(dòng)駕駛,唯有

    ,去年行業(yè)主流方案還是輕高精地圖城區(qū)智駕,今年大家的目標(biāo)都瞄到了(End-to-End, E2E)。
    的頭像 發(fā)表于 08-12 09:14 ?1524次閱讀
    實(shí)現(xiàn)自動(dòng)駕駛,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?