一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

將語音到文本推理模型壓縮到小型 MCU

王靜 ? 來源:nhonglan ? 作者:nhonglan ? 2022-07-21 11:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來自加拿大初創(chuàng)公司的新技術(shù)意味著用于自然語言處理的 AI 模型可以在小型 CPU 甚至微控制器上高效運行。語音控制功能,現(xiàn)在通常通過互聯(lián)網(wǎng)連接到云來完成,現(xiàn)在可以添加到各種設(shè)備中。

初創(chuàng)公司 PicoVoice(加拿大溫哥華)推出了一個緊湊的語音到文本推理引擎,可以在最少的計算資源上運行。該公司表示,與競爭的邊緣自然語言處理解決方案相比,PicoVoice 技術(shù)在計算和內(nèi)存方面使用的資源要少一個數(shù)量級。這可以在各種設(shè)備上啟用語音識別,而無需將任何數(shù)據(jù)發(fā)送到云端。

雖然云端處理模型對于亞馬遜 Alexa 和 Google Home 等助手來說是眾所周知的,但它可能無法轉(zhuǎn)化為需要嚴(yán)格隱私或低成本的邊緣設(shè)備中的語音識別。

PicoVoice 創(chuàng)始人兼總裁 Alireza Kenarsari-Anhari 表示:“隨著[支持語音的] 設(shè)備變得越來越普遍,在服務(wù)器端處理所有內(nèi)容在財務(wù)上將無法正常工作?!?“計算資源不是免費的。要為所有東西制作語音界面,你需要讓它足夠便宜。在設(shè)備上運行是做到這一點的唯一方法?!?/p>

例如,根據(jù) Kenarsari-Anhari 的說法,使用公共云服務(wù)的聲控咖啡機,如果每天使用 10 次,每臺設(shè)備每年的成本約為 15 美元。

“如果您使用咖啡機 CPU 上已有的資源,您可以免費執(zhí)行此操作,”他說。

根據(jù)具體的應(yīng)用,在邊緣執(zhí)行語音識別還可以提供更好的延遲和可靠性。

pYYBAGLXUXmANyZxADSFZ06vPZU925.jpg

語音激活助手,如 Amazon Alexa,使用云進(jìn)行自然語言處理,但這種模式可能不適用于更便宜的設(shè)備(圖片:Loewe Technologies

語音轉(zhuǎn)文本

PicoVoice 的新產(chǎn)品是一種用于語音到文本轉(zhuǎn)錄的機器學(xué)習(xí)模型,它在小型 CPU 上運行,就像 Raspberry Pi Zero 上的 ARM11 內(nèi)核一樣。該模型可以理解大約 200,000 個英語單詞,單詞錯誤率與基于云的家庭助手相當(dāng)。這可以用于需要云外轉(zhuǎn)錄能力的設(shè)備。

“市場上有一些活動圍繞捕獲或總結(jié)公司會議中發(fā)生的事情,”Kenarsari-Anhari 說,引用了不想將專有信息提交到云中的公司,或者有大量數(shù)據(jù)需要轉(zhuǎn)錄的公司,在云中做這件事的成本太高了。

語音到文本引擎加入了該公司的兩個現(xiàn)有產(chǎn)品。第一個是喚醒詞引擎,可以定制為使用遷移學(xué)習(xí)快速、廉價地接受任何喚醒詞。

第二個是用于設(shè)備的語音到意圖引擎,可以理解有限域內(nèi)的語音命令(例如要求打開或關(guān)閉燈)。

“如果我有一個定義明確的域,并且用戶要在該域中發(fā)出語音命令,我們可以在該域中進(jìn)行自然語言理解,并且我們可以非常有效地做到這一點,整個模型小于半兆字節(jié)。這就是為什么我們可以在低于 1 美元的 MCU 上做到這一點,”Kenarsari-Anhari 說。“如果客戶想要制造智能冰箱,并使用一組定義的語音命令,我們將為該特定應(yīng)用程序訓(xùn)練模型,然后他們將其部署在他們的冰箱中,并向我們支付版稅?!?/p>

這個怎么運作

為了在小型 CPU 上運行自然語言處理模型,PicoVoice 發(fā)明了一種訓(xùn)練模型的新方法,使模型更小,計算效率更高。

“我們查看目標(biāo)設(shè)備上的指令集,并嘗試找到使用這些指令有效實施的數(shù)學(xué)運算,”Kenarsari-Anhari 說。“我們用不同的數(shù)學(xué)運算模擬矩陣乘法,使用該設(shè)備上的指令來實現(xiàn)更有效?!?/p>

這意味著經(jīng)過訓(xùn)練的模型是特定于設(shè)備的,因為它們?nèi)Q于所使用的確切指令集,但他說,在實踐中,絕大多數(shù)音頻處理器僅基于三個選項(ARM、Tensilica HiFi 和 Ceva TeakLite)。

pYYBAGLO_PeAdmBnAAGjieDGWvk030.png

Alireza Kenarsari-Anhari
(圖片:PicoVoice)

“我們在這三種不同類型的 CPU 上找到了指令,我們可以在其中非常有效地實現(xiàn)模擬矩陣乘法的東西,”他說?!拔覀兛梢葬槍@三個不同的目標(biāo)訓(xùn)練模型,但是我們針對 ARM 訓(xùn)練模型的方式與針對 Tensilica HiFi 訓(xùn)練模型的方式不同。從用戶的角度來看,[模型] 提供了相似的性能,但底層的數(shù)學(xué)公式不同,這導(dǎo)致在目標(biāo)設(shè)備上的高效執(zhí)行?!?/p>

雖然 Kenarsari-Anhari 拒絕進(jìn)一步詳細(xì)說明 PicoVoice 使用了哪些指令,但他表示基本概念類似于位于西雅圖的 Xnor,后者使用 XNOR 指令加速計算機視覺模型。然而,與基于循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 的加速語音模型相比,通常基于卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的加速視覺模型是一項更簡單的任務(wù)。

他解釋說,對于查看相機圖片的 CNN,模型看到的內(nèi)容是有限的,但 RNN 包含時間的概念。

“通過語音,當(dāng)我說話時,你的大腦會保存我所說的歷史,并用它來推斷我現(xiàn)在所說的,”他說。“加速 RNN 更難的原因是因為沒有記憶可以幫助你避免復(fù)合錯誤。加速模型中通常有更多的噪聲,而對于 RNN,噪聲會隨著時間的推移而累積,使神經(jīng)網(wǎng)絡(luò)變得不穩(wěn)定?!?/p>

收入來源

PicoVoice 的“不到 10 人”核心團(tuán)隊大部分來自亞馬遜,其中包括 2018 年 1 月創(chuàng)辦公司的 Kenarsari-Anhari。PicoVoice 根據(jù)工業(yè)研究援助計劃 (IRAP) 獲得了加拿大國家研究委員會的資助,但迄今為止沒有其他外部資金。

Kenarsari-Anhari 說,不籌集資金的決定使公司有時間“解決實驗開發(fā)和應(yīng)用研究的基本問題”。

該公司已經(jīng)從包括 LG、惠而浦和 Local Motors 在內(nèi)的眾多客戶那里獲得了收入來源。


審核編輯 黃昊宇
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • mcu
    mcu
    +關(guān)注

    關(guān)注

    146

    文章

    17984

    瀏覽量

    367039
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語言模型(LLM)的推理能力成了最熱門的話題之一,大量優(yōu)化推理能力的新策略開始出現(xiàn),包括擴展推理時間計算、運用強化學(xué)習(xí)、開展監(jiān)督微調(diào)和進(jìn)行提煉等。本文
    的頭像 發(fā)表于 04-03 12:09 ?507次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現(xiàn)狀

    中科馭數(shù)高性能網(wǎng)卡產(chǎn)品 成就DeepSeek推理模型網(wǎng)絡(luò)底座

    的突破性進(jìn)展,而且開源模型發(fā)展帶來部署成本的極速下降,為定制化AGI服務(wù),推理本地化部署,帶來發(fā)展機遇,也掀起了新的一輪智算基礎(chǔ)設(shè)施建設(shè)浪潮。 與按Token生成數(shù)量計費的AI云服務(wù)模式不同,出于數(shù)據(jù)安全的考慮,很多用戶選擇采用本地化部署
    的頭像 發(fā)表于 03-31 11:56 ?301次閱讀
    中科馭數(shù)高性能網(wǎng)卡產(chǎn)品 成就DeepSeek<b class='flag-5'>推理模型</b>網(wǎng)絡(luò)底座

    英偉達(dá)GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展 AI 工廠中的 AI 推理模型。 作為 NVIDIA
    的頭像 發(fā)表于 03-20 15:03 ?650次閱讀

    AI大模型在汽車應(yīng)用中的推理、降本與可解釋性研究

    佐思汽研發(fā)布《2024-2025年AI大模型及其在汽車領(lǐng)域的應(yīng)用研究報告》。 推理能力成為大模型性能提升的驅(qū)動引擎 2024下半年以來,國內(nèi)外大模型公司紛紛推出
    的頭像 發(fā)表于 02-18 15:02 ?1238次閱讀
    AI大<b class='flag-5'>模型</b>在汽車應(yīng)用中的<b class='flag-5'>推理</b>、降本與可解釋性研究

    科大訊飛發(fā)布星火深度推理模型X1,技術(shù)升級引領(lǐng)行業(yè)創(chuàng)新

    近日,科大訊飛在人工智能技術(shù)領(lǐng)域再次取得重大突破,正式發(fā)布星火深度推理模型X1。這一創(chuàng)新成果的發(fā)布,標(biāo)志著科大訊飛在推動人工智能深度應(yīng)用方面邁出了堅實的一步。 與此同時,科大訊飛還宣布對星火4.0
    的頭像 發(fā)表于 01-15 16:43 ?688次閱讀

    科大訊飛發(fā)布星火深度推理模型X1

    今天,科大訊飛正式發(fā)布星火深度推理模型X1,星火4.0 Turbo底座全面升級,首發(fā)星火語音同傳大模型
    的頭像 發(fā)表于 01-15 15:54 ?720次閱讀

    科大訊飛即將發(fā)布訊飛星火深度推理模型X1

    近日,科大訊飛在1月7日成功舉辦的辦公智能體產(chǎn)品升級發(fā)布會上,宣布了一項令人振奮的新進(jìn)展。據(jù)科大訊飛官方透露,公司將于1月15日正式對外發(fā)布其最新的“訊飛星火深度推理模型X1”。 這一新模型的發(fā)布
    的頭像 發(fā)表于 01-08 10:30 ?757次閱讀

    智譜推出深度推理模型GLM-Zero預(yù)覽版

    近日,智譜公司正式發(fā)布了其深度推理模型GLM-Zero的預(yù)覽版——GLM-Zero-Preview。這款模型標(biāo)志著智譜在擴展強化學(xué)習(xí)技術(shù)訓(xùn)練推理模型方面的重大突破,成為其首個專注于增強AI推理
    的頭像 發(fā)表于 01-03 10:42 ?511次閱讀

    智譜GLM-Zero深度推理模型預(yù)覽版正式上線

    近日,智譜公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上線。這款模型是智譜首個基于擴展強化學(xué)習(xí)技術(shù)訓(xùn)練的推理模型,標(biāo)志著智譜在AI推理領(lǐng)域
    的頭像 發(fā)表于 01-02 10:55 ?527次閱讀

    阿里云發(fā)布開源多模態(tài)推理模型QVQ-72B-Preview

    近日,阿里云宣布了一項重大技術(shù)突破,正式發(fā)布了業(yè)界首個開源多模態(tài)推理模型——QVQ-72B-Preview。這一模型的問世,標(biāo)志著阿里云在AI技術(shù)領(lǐng)域的又一次重要飛躍
    的頭像 發(fā)表于 12-27 10:28 ?616次閱讀

    OpenAI發(fā)布新一代推理模型o3及o3-mini

    近日,OpenAI在為期12天的發(fā)布會上宣布了新一代推理模型o3及其精簡版o3-mini。這兩款模型被專門設(shè)計用于在回答問題之前進(jìn)行更深入的思考,以期提高答案的準(zhǔn)確性。 據(jù)悉,o3模型
    的頭像 發(fā)表于 12-24 09:29 ?854次閱讀

    阿里云開源推理模型QwQ

    近日,阿里云通義團(tuán)隊宣布推出全新AI推理模型QwQ-32B-Preview,并同步實現(xiàn)了開源。這一舉措標(biāo)志著阿里云在AI推理領(lǐng)域邁出了重要一步。 據(jù)評測數(shù)據(jù)顯示,QwQ預(yù)覽版本已具備研究生水平的科學(xué)
    的頭像 發(fā)表于 11-29 11:30 ?1172次閱讀

    Kimi發(fā)布新一代數(shù)學(xué)推理模型k0-math

    近日,Kimi正式推出了其新一代數(shù)學(xué)推理模型k0-math。據(jù)基準(zhǔn)測試顯示,該模型的數(shù)學(xué)能力可與全球領(lǐng)先的OpenAI o1系列中的o1-mini和o1-preview模型相媲美。 在針對中考、高考
    的頭像 發(fā)表于 11-18 11:38 ?970次閱讀

    OpenAI即將發(fā)布“草莓”推理模型

    科技界迎來新動態(tài),據(jù)可靠消息透露,OpenAI正緊鑼密鼓地籌備著一項重大發(fā)布——預(yù)計在兩周內(nèi),正式推出名為“草莓”的新型AI推理模型,并將其無縫融入ChatGPT服務(wù)中。這款以卓越推理能力為核心的大
    的頭像 發(fā)表于 09-11 16:53 ?822次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個研究熱點,旨在提高模型在處理復(fù)雜任務(wù)時的效率和響應(yīng)速度。以下是對LLM大模型
    的頭像 發(fā)表于 07-24 11:38 ?1824次閱讀