一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

計算模型通過預測對語音進行解碼

倩倩 ? 來源:互聯(lián)網(wǎng)分析沙龍 ? 2020-07-03 10:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大腦通過識別音節(jié)來分析口語。日內(nèi)瓦大學(UNIGE)和不斷發(fā)展的語言國家能力研究中心(NCCR)的科學家設(shè)計了一種計算模型,該模型再現(xiàn)了中樞神經(jīng)系統(tǒng)執(zhí)行此操作所采用的復雜機制。該模型匯集了兩個獨立的理論框架,使用等效于大腦活動產(chǎn)生的神經(jīng)元振動來處理關(guān)聯(lián)語音的連續(xù)聲音流。

該模型根據(jù)稱為預測編碼的理論起作用,從而大腦通過不斷嘗試基于候選假設(shè)(此模型中的音節(jié))來預測感覺信號來優(yōu)化感知。結(jié)果模型在《自然通訊》雜志上進行了描述,該模型有助于實時識別以自然語言說出的數(shù)百個句子中包含的數(shù)千個音節(jié)。這證實了神經(jīng)元振動可以用來協(xié)調(diào)我們聽到的音節(jié)流與大腦預測的想法。

UNIGE醫(yī)學院基礎(chǔ)神經(jīng)科學系教授,不斷發(fā)展的語言NCCR聯(lián)合主任Anne-Lise Giraud說:“腦部活動會產(chǎn)生可通過腦電圖測量的神經(jīng)元振蕩?!边@些是電磁波,是由整個神經(jīng)元網(wǎng)絡(luò)的相干電活動產(chǎn)生的。有幾種類型,根據(jù)它們的頻率定義。它們被稱為α,β,θ,δ或γ波。這些節(jié)奏單獨或疊加在一起,與不同的認知功能相關(guān),例如感知,記憶,注意力,機敏性等。

但是,神經(jīng)科學家尚不知道他們是否對這些功能做出積極貢獻以及如何發(fā)揮作用。在2015年發(fā)表的一項較早研究中,Giraud教授的團隊表明,theta波(低頻)和gamma波(高頻)相互配合,對音節(jié)中的音流進行排序,并分析其內(nèi)容,以便對其進行識別。

總部位于日內(nèi)瓦的科學家根據(jù)這些生理節(jié)律開發(fā)了一種突跳的神經(jīng)網(wǎng)絡(luò)計算機模型,該模型在現(xiàn)場(在線)音節(jié)排序方面的性能優(yōu)于傳統(tǒng)的自動語音識別系統(tǒng)。

在他們的第一個模型中,theta波(介于4赫茲與8赫茲之間)使跟隨系統(tǒng)感知的音節(jié)節(jié)奏成為可能。伽馬波(大約30赫茲)用于將聽覺信號切成較小的切片并進行編碼。這會產(chǎn)生一個鏈接到每個聲音序列的“音素”配置文件,可以將其與后一個音節(jié)進行比較,并與已知音節(jié)庫進行比較。這種類型的模型的優(yōu)點之一是,它可以自發(fā)地適應(yīng)語音速度,語音速度可能因人而異。

在這篇新文章中,為了更接近生物學現(xiàn)實,Giraud教授和她的團隊開發(fā)了一種新模型,其中結(jié)合了來自另一個理論框架的元素,而與神經(jīng)元振蕩無關(guān):“預測編碼”。

“該理論認為,大腦的功能是如此之好,因為它一直在使用外界事件如何產(chǎn)生感官信號的學習模型來不斷嘗試預測和解釋環(huán)境中正在發(fā)生的事情。就口語而言,它試圖找到最有效的方法。根據(jù)已學到的,并且正在不斷更新的一組心理表征,可能會隨著聲音的發(fā)展而使耳朵感知到的聲音的可能原因?!?Giraud小組的計算神經(jīng)科學家Itsaso Olasagasti博士說。模型實施。

“我們開發(fā)了一種模擬這種預測編碼的計算機模型,”基礎(chǔ)神經(jīng)科學系研究員,該論文的第一作者Sevada Hovsepyan解釋說?!岸椅覀兺ㄟ^引入振蕩機制來實現(xiàn)它?!?/p>

進入系統(tǒng)的聲音首先由類似于神經(jīng)元種群產(chǎn)生的θ(慢)波調(diào)制。這樣就可以發(fā)信號通知音節(jié)的輪廓。然后,(快速)伽馬波序列有助于在音節(jié)被感知時對音節(jié)進行編碼。在此過程中,系統(tǒng)會建議可能的音節(jié),并在必要時更正選擇。在兩個級別之間來回幾次后,它會發(fā)現(xiàn)正確的音節(jié)。隨后,系統(tǒng)在每個音節(jié)結(jié)束時將其重置為零。

該模型已成功使用220個句子中的2888個不同音節(jié)以英語自然語言進行了測試。Giraud教授說:“一方面,我們成功地將兩個非常不同的理論框架整合到一個計算機模型中?!薄傲硪环矫妫覀円呀?jīng)表明,神經(jīng)元振蕩很可能在節(jié)奏上使大腦的內(nèi)源性功能與通過感覺器官從外部傳入的信號對齊。如果將其放回預測編碼理論中,則意味著這些振蕩可能使大腦大腦在正確的時機做出正確的假設(shè)。”

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103692
  • 計算模型
    +關(guān)注

    關(guān)注

    0

    文章

    29

    瀏覽量

    9951
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13657
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    模型推理顯存和計算量估計方法研究

    方法。 一、引言 大模型推理是指在已知輸入數(shù)據(jù)的情況下,通過深度學習模型進行預測或分類的過程。然而,大
    發(fā)表于 07-03 19:43

    明遠智睿SSD2351開發(fā)板:語音機器人領(lǐng)域的變革力量

    的四核1.4GHz處理器具備強勁的運算性能,能夠高效處理語音機器人運行過程中的復雜任務(wù)。語音識別和合成需要大量的計算資源,該處理器可以快速對語音信號
    發(fā)表于 05-28 11:36

    芯資訊|廣州唯創(chuàng)電子MP3語音芯片IC的音頻解碼方式解析

    音頻解碼語音芯片的核心功能之一,決定了音質(zhì)表現(xiàn)和應(yīng)用場景的適配性。廣州唯創(chuàng)電子作為國內(nèi)領(lǐng)先的語音芯片廠商,其MP3語音芯片系列(如WT2003H)以靈活的
    的頭像 發(fā)表于 05-28 08:48 ?173次閱讀
    芯資訊|廣州唯創(chuàng)電子MP3<b class='flag-5'>語音</b>芯片IC的音頻<b class='flag-5'>解碼</b>方式解析

    預測性維護實戰(zhàn):如何通過數(shù)據(jù)模型實現(xiàn)故障預警?

    預測性維護正逐步成為企業(yè)降本增效的核心手段,通過數(shù)據(jù)驅(qū)動的故障預警邏輯框架,可以預測設(shè)備是否正常運行,提前預警并避免損失。案例中,通過振動傳感器采集數(shù)據(jù),發(fā)現(xiàn)軸承故障,
    的頭像 發(fā)表于 03-21 10:21 ?976次閱讀
    <b class='flag-5'>預測</b>性維護實戰(zhàn):如何<b class='flag-5'>通過數(shù)據(jù)模型</b>實現(xiàn)故障預警?

    聆思CSK6大模型語音開發(fā)板接入DeepSeek資料匯總(包含深度求索/火山引擎/硅基流動華為昇騰滿血版)

    調(diào)用DeepSeek節(jié)點,最終將大模型輸出的結(jié)果進行語音合成實現(xiàn)端側(cè)播報 下載工程模板導入,配置參數(shù)后綁定開發(fā)板ID即可。 關(guān)鍵參數(shù)說明(以火山引擎版為例): HOST
    發(fā)表于 03-06 17:02

    請問是否可以在模型服務(wù)器中使用REST請求OpenVINO?預測

    是否可以在模型服務(wù)器中使用 REST 請求OpenVINO?預測?
    發(fā)表于 03-05 08:06

    大語言模型解碼策略與關(guān)鍵優(yōu)化總結(jié)

    本文系統(tǒng)性地闡述了大型語言模型(LargeLanguageModels,LLMs)中的解碼策略技術(shù)原理及其實踐應(yīng)用。通過深入分析各類解碼算法的工作機制、性能特征和優(yōu)化方法,為研究者和工
    的頭像 發(fā)表于 02-18 12:00 ?590次閱讀
    大語言<b class='flag-5'>模型</b>的<b class='flag-5'>解碼</b>策略與關(guān)鍵優(yōu)化總結(jié)

    信道預測模型在數(shù)據(jù)通信中的作用

    信道預測模型是一種數(shù)學模型,用于預測無線通信信道的未來狀態(tài)。這些模型通?;跉v史數(shù)據(jù)和當前的信道狀態(tài)信息,
    的頭像 發(fā)表于 01-22 17:16 ?802次閱讀

    如何通過仿真準確的預測信號完整性

    解釋完帶寬這一概念,我們來考慮如何才能通過仿真準確的預測信號完整性。 信號帶寬的確定、器件模型的獲取 當我們確定了要分析的信號的信息(包含速率、接口電平、上升時間等等)、以及驅(qū)動器和接收器型號之后
    的頭像 發(fā)表于 01-22 11:51 ?1893次閱讀
    如何<b class='flag-5'>通過</b>仿真準確的<b class='flag-5'>預測</b>信號完整性

    【「大模型啟示錄」閱讀體驗】營銷領(lǐng)域大模型的應(yīng)用

    用戶體驗和滿意度,進而增加轉(zhuǎn)化率。通過精準匹配消費者需求和產(chǎn)品特性,大模型幫助企業(yè)實現(xiàn)更高效的市場滲透和銷售增長。 大模型能夠處理和分析大量的市場數(shù)據(jù),預測市場趨勢和消費者需求的變化。
    發(fā)表于 12-24 12:48

    語音識別技術(shù)的應(yīng)用與發(fā)展

    體驗。 語音識別技術(shù)的原理 語音識別技術(shù)的核心在于將聲波信號轉(zhuǎn)換為可理解的文本信息。這一過程通常包括以下幾個步驟: 聲學模型 :用于識別語音信號中的聲學特征。 語言
    的頭像 發(fā)表于 11-26 09:20 ?1635次閱讀

    語音識別機器人的工作原理

    語音識別機器人的工作原理主要基于一系列復雜的技術(shù)流程,包括信號采集、預處理、特征提取、聲學模型匹配、語言模型預測以及最終的解碼輸出。 一、信
    的頭像 發(fā)表于 10-25 09:25 ?1099次閱讀

    構(gòu)建語音控制機器人 - 線性模型和機器學習

    輪子并識別音頻信號,但它仍然無法通過語音命令控制或按預定義路徑行駛。 線性控制模型 首先要解決的問題是實現(xiàn)直線驅(qū)動。為此,我們使用線性模型來控制提供給車輪的電壓。使用線性
    的頭像 發(fā)表于 10-02 16:31 ?582次閱讀
    構(gòu)建<b class='flag-5'>語音</b>控制機器人 - 線性<b class='flag-5'>模型</b>和機器學習

    NVIDIA Modulus助力風阻預測模型實現(xiàn)

    NVIDIA 與百度飛槳雙方技術(shù)團隊通過在數(shù)據(jù)、算法、模型等多個方面的合作,共同打造了一款適用于車輛空氣動力學數(shù)值模擬的 3D 高精度汽車風阻預測模型——DNNFluid-Car。經(jīng)過
    的頭像 發(fā)表于 08-23 17:10 ?1437次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學習

    習語言的表達方式和生成能力。通過預測文本中缺失的部分或下一個詞,模型逐漸掌握語言的規(guī)律和特征。 常用的模型結(jié)構(gòu) Transformer架構(gòu):大語言
    發(fā)表于 08-02 11:03