一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA Riva實(shí)現(xiàn)將語(yǔ)音轉(zhuǎn)錄成文本

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:About Sirisha Rella, ? 2022-03-31 17:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

每天,電信、金融和統(tǒng)一通信即服務(wù)( UCaaS )等行業(yè)都會(huì)產(chǎn)生數(shù)百萬(wàn)分鐘的音頻。這些音頻會(huì)議記錄可以轉(zhuǎn)錄,以便為呼叫中心代理提供實(shí)時(shí)建議,從客戶呼叫記錄中提取見(jiàn)解,或在視頻會(huì)議中生成實(shí)時(shí)字幕。

Industries that commonly use AI include telco, financial services, healthcare, unified communication as a service, and retail.

圖 1 。人工智能在工業(yè)中的應(yīng)用

自動(dòng)語(yǔ)音識(shí)別使您能夠?qū)⒄Z(yǔ)音轉(zhuǎn)錄成文本。生成高質(zhì)量的文字記錄是一項(xiàng)挑戰(zhàn),因?yàn)檫@些技能需要理解特定于行業(yè)的術(shù)語(yǔ)、數(shù)百到數(shù)千分鐘特定于領(lǐng)域的培訓(xùn)音頻以及實(shí)時(shí)運(yùn)行的管道。 NVIDIA Riva 語(yǔ)音識(shí)別是一項(xiàng)技術(shù),可為跨行業(yè)的幾個(gè)常見(jiàn)用例提供世界級(jí)的實(shí)時(shí)準(zhǔn)確度。

在這篇文章中,我們討論 Riva 語(yǔ)音識(shí)別。后續(xù)文章將討論如何定制語(yǔ)音識(shí)別模型,并將其作為優(yōu)化技能進(jìn)行部署:

Customizing Speech Recognition Models to Your Domain Using TAO Toolkit

Deploying Speech Recognition Models to Production Using Riva

Riva 語(yǔ)音識(shí)別

Riva 是 GPU 加速的 AI 語(yǔ)音 SDK ,用于實(shí)時(shí)轉(zhuǎn)錄和虛擬助理等對(duì)話 AI 應(yīng)用程序。 Riva 具有以下優(yōu)點(diǎn):

NGC 中經(jīng)過(guò)預(yù)訓(xùn)練的最先進(jìn)的語(yǔ)音模型

沒(méi)有編碼工具,例如TAO Toolkit,用于在自定義數(shù)據(jù)集上微調(diào)這些模型

用于高性能推理的優(yōu)化語(yǔ)音識(shí)別和語(yǔ)音合成管道

Riva 下面的模型是基于數(shù)百到數(shù)千小時(shí)的開(kāi)放和真實(shí)世界數(shù)據(jù)進(jìn)行訓(xùn)練的,這些數(shù)據(jù)來(lái)自電信、金融、醫(yī)療保健和 NVIDIA 超級(jí)計(jì)算機(jī)上的教育等行業(yè)。數(shù)據(jù)集樣本還來(lái)自嘈雜的環(huán)境、自發(fā)的語(yǔ)音對(duì)話、多種英語(yǔ)口音和不同的采樣率。所有這些屬性都有助于生成噪聲魯棒、高質(zhì)量的轉(zhuǎn)錄。

Riva 語(yǔ)音識(shí)別技能在各種真實(shí)世界的用例數(shù)據(jù)集上進(jìn)行評(píng)估,包括視頻會(huì)議、聯(lián)絡(luò)中心、播客和技術(shù)視頻。您可以在云中、數(shù)據(jù)中心和邊緣部署這些技能。

Riva 語(yǔ)音識(shí)別管道在保持準(zhǔn)確性的同時(shí),為新的最先進(jìn)的體系結(jié)構(gòu)提供支持。圖 2 顯示了在過(guò)去 3 年中,通過(guò)新的模型體系結(jié)構(gòu)、訓(xùn)練方法以及最新的基于 TensorRT 和 GPU 的優(yōu)化,語(yǔ)音準(zhǔn)確性的提高。

Riva ASR accuracy improved by 50% in 3 years.

圖 2 。 Riva ASR 精度改進(jìn)

使用 Riva ,您可以在流式或批處理模式下以實(shí)時(shí)延遲快速部署和擴(kuò)展到數(shù)百和數(shù)千個(gè)并發(fā)流。

關(guān)于作者

About Sirisha Rella

Sirisha Rella 是 NVIDIA 的技術(shù)產(chǎn)品營(yíng)銷經(jīng)理,專注于計(jì)算機(jī)視覺(jué)、語(yǔ)音和基于語(yǔ)言的深度學(xué)習(xí)應(yīng)用。 Sirisha 獲得了密蘇里大學(xué)堪薩斯城分校的計(jì)算機(jī)科學(xué)碩士學(xué)位,是國(guó)家科學(xué)基金會(huì)大學(xué)習(xí)中心的研究生助理。

About Tanay Varshney

Tanay Varshney 是 NVIDIA 的一名深入學(xué)習(xí)的技術(shù)營(yíng)銷工程師,負(fù)責(zé)廣泛的 DL 軟件產(chǎn)品。他擁有紐約大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位,專注于計(jì)算機(jī)視覺(jué)、數(shù)據(jù)可視化和城市分析的橫斷面。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106458
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    39

    文章

    1782

    瀏覽量

    114253
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Air8000 TTS開(kāi)源,語(yǔ)音合成從此“零距離”!

    文本轉(zhuǎn)語(yǔ)音)——是一種將書(shū)面文本轉(zhuǎn)換為人類可聽(tīng)語(yǔ)音的技術(shù),通過(guò)算法和模型模擬人類發(fā)聲,實(shí)現(xiàn)機(jī)器“說(shuō)話”。其核心目標(biāo)是生成自然、流暢且富有表現(xiàn)
    的頭像 發(fā)表于 07-03 16:33 ?207次閱讀
    Air8000 TTS開(kāi)源,<b class='flag-5'>語(yǔ)音</b>合成從此“零距離”!

    怎么用labview實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)文字

    請(qǐng)問(wèn)怎么用labview實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)文字
    發(fā)表于 07-01 16:27

    【CW32模塊使用】語(yǔ)音合成播報(bào)模塊

    。SYN6288E 通過(guò)異步串 口(UART)通訊方式,接收待合成的文本數(shù)據(jù),實(shí)現(xiàn)文本語(yǔ)音(或 TTS 語(yǔ)音)的轉(zhuǎn)換。
    的頭像 發(fā)表于 03-29 17:25 ?646次閱讀
    【CW32模塊使用】<b class='flag-5'>語(yǔ)音</b>合成播報(bào)模塊

    把樹(shù)莓派打造成識(shí)別文本的“神器”!

    。RaspberryPi也能實(shí)現(xiàn)這種文本識(shí)別,而且并不困難。我們可以從靜態(tài)圖像或攝像頭的實(shí)時(shí)流中讀取文本。在本教程中,我們將探討如何使用RaspberryPi實(shí)現(xiàn)
    的頭像 發(fā)表于 03-25 09:30 ?428次閱讀
    把樹(shù)莓派打造成識(shí)別<b class='flag-5'>文本</b>的“神器”!

    網(wǎng)絡(luò)語(yǔ)音控制器的原理與應(yīng)用

    隨著科技的飛速發(fā)展,網(wǎng)絡(luò)語(yǔ)音控制器作為一種新興的技術(shù)產(chǎn)品,已經(jīng)在各個(gè)領(lǐng)域展現(xiàn)出了其巨大的應(yīng)用潛力和價(jià)值。網(wǎng)絡(luò)語(yǔ)音控制器是一種人機(jī)系統(tǒng)中以語(yǔ)言驅(qū)動(dòng)的控制器,通過(guò)語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)用戶的
    的頭像 發(fā)表于 02-20 18:16 ?492次閱讀

    TTS語(yǔ)音播報(bào)模塊簡(jiǎn)介

    在現(xiàn)代科技日新月異的時(shí)代,語(yǔ)音技術(shù)作為人工智能領(lǐng)域的重要分支,正以前所未有的速度改變著我們的生活方式。其中,TTS(Text To Speech,文本轉(zhuǎn)語(yǔ)音)語(yǔ)音播報(bào)模塊作為連接數(shù)字世
    的頭像 發(fā)表于 02-18 16:16 ?998次閱讀

    聯(lián)發(fā)科與NVIDIA合作 為NVIDIA 個(gè)人AI超級(jí)計(jì)算機(jī)設(shè)計(jì)NVIDIA GB10超級(jí)芯片

    聯(lián)發(fā)科近日宣布與NVIDIA合作設(shè)計(jì)NVIDIA GB10 Grace Blackwell超級(jí)芯片,將應(yīng)用于NVIDIA 的個(gè)人AI超級(jí)計(jì)算機(jī)NVIDIA? Project DIGIT
    的頭像 發(fā)表于 01-07 16:26 ?601次閱讀

    HarmonyOS NEXT 應(yīng)用開(kāi)發(fā)練習(xí):AI智能語(yǔ)音播報(bào)

    一、DEMO思路 在這個(gè)HarmonyOS NEXT原生應(yīng)用DEMO中,我們將使用ArkTS開(kāi)發(fā)語(yǔ)言創(chuàng)建一個(gè)簡(jiǎn)單的AI智能語(yǔ)音播報(bào)應(yīng)用。 該應(yīng)用能夠接收用戶輸入的文本,并使用TTS
    發(fā)表于 01-06 15:33

    NVIDIA推出全新生成式AI模型Fugatto

    NVIDIA 開(kāi)發(fā)了一個(gè)全新的生成式 AI 模型。利用輸入的文本和音頻,該模型可以創(chuàng)作出包含任意的音樂(lè)、人聲和聲音組合的作品。
    的頭像 發(fā)表于 11-27 11:29 ?829次閱讀

    語(yǔ)音識(shí)別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用

    語(yǔ)音識(shí)別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用已經(jīng)越來(lái)越廣泛,為醫(yī)療服務(wù)帶來(lái)了諸多便利和效率提升。以下是對(duì)語(yǔ)音識(shí)別技術(shù)在醫(yī)療領(lǐng)域應(yīng)用的介紹: 一、語(yǔ)音病歷 語(yǔ)音識(shí)別技術(shù)可以將醫(yī)生或患者的
    的頭像 發(fā)表于 11-26 09:35 ?1218次閱讀

    語(yǔ)音識(shí)別與自然語(yǔ)言處理的關(guān)系

    了人機(jī)交互的革命,使得機(jī)器能夠更加自然地與人類溝通。 語(yǔ)音識(shí)別技術(shù)概述 語(yǔ)音識(shí)別,也稱為自動(dòng)語(yǔ)音識(shí)別(ASR),是指將人類的語(yǔ)音轉(zhuǎn)換成文本
    的頭像 發(fā)表于 11-26 09:21 ?1509次閱讀

    ASR語(yǔ)音識(shí)別技術(shù)應(yīng)用

    ASR(Automatic Speech Recognition)語(yǔ)音識(shí)別技術(shù),是計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域的重要突破,能將人類語(yǔ)音轉(zhuǎn)換為文本,廣泛應(yīng)用于智能家居、醫(yī)療、交通等多個(gè)領(lǐng)域。以下是對(duì)ASR
    的頭像 發(fā)表于 11-18 15:12 ?2072次閱讀

    基于Arm Neoverse N2實(shí)現(xiàn)自動(dòng)語(yǔ)音識(shí)別技術(shù)

    自動(dòng)語(yǔ)音識(shí)別 (Automatic Speech Recognition) 技術(shù)已經(jīng)深入到現(xiàn)代生活的方方面面,廣泛應(yīng)用于從語(yǔ)音助手、轉(zhuǎn)錄服務(wù),到呼叫中心分析和語(yǔ)音轉(zhuǎn)
    的頭像 發(fā)表于 11-15 11:35 ?1106次閱讀
    基于Arm Neoverse N2<b class='flag-5'>實(shí)現(xiàn)</b>自動(dòng)<b class='flag-5'>語(yǔ)音</b>識(shí)別技術(shù)

    NVIDIA文本嵌入模型NV-Embed的精度基準(zhǔn)

    NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分?jǐn)?shù)創(chuàng)下了嵌入準(zhǔn)確率的新紀(jì)錄海量文本嵌入基準(zhǔn)測(cè)試(MTEB)涵蓋 56 項(xiàng)嵌入任務(wù)。
    的頭像 發(fā)表于 08-23 16:54 ?2503次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>文本</b>嵌入模型NV-Embed的精度基準(zhǔn)

    LM358如何實(shí)現(xiàn)將50HZ的方波轉(zhuǎn)換為正弦波?

    基于單電源供電的LM358 。。如何實(shí)現(xiàn)將50HZ的方波轉(zhuǎn)換為正弦波。。。下面是我設(shè)計(jì)的電路圖,可是結(jié)果不行。。請(qǐng)指教,謝謝了。。。
    發(fā)表于 08-21 06:18