開源硬件邊緣語音識別

2513691 2022-11-14 | zip | 2.23 MB | 次下載 | 2積分

資料介紹

描述

介紹

在這個項目中，我圍繞一個訓練識別單詞left 、right 、up和down的模型構(gòu)建了一個應(yīng)用程序。它所做的只是捕獲和處理音頻，將其輸入 TensorFlow Lite 模型，然后在 OLED 顯示器上顯示輸出。我將介紹如何使用 i.MXR1010 評估套件在邊緣設(shè)置和進行機器學習。

設(shè)置開發(fā)環(huán)境

任何機器學習和嵌入式電子項目都需要許多硬件和軟件才能使用。我正在使用 MacOS 進行開發(fā)。由于 Nvidia GPU 不支持 MacOS，所以我使用 Linux 桌面進行訓練和模型生成。

安裝 MCUExpresso IDE

下載 SDK 后，我們需要將下載的包拖放到 MCUExpresso IDE Installed SDKs區(qū)域，如下所示（紅色框）。

我們可以從 Quickstart Panel > New Project 創(chuàng)建一個新項目，它會顯示一個向?qū)?，我們可以在其中選擇 IMXRT1010 作為開發(fā)板。我們可以使用此向?qū)渲盟璧尿?qū)動程序/組件，如下所示。添加/刪除驅(qū)動程序和其他組件可以在此期間完成。發(fā)展。由于我們將使用 TensorFlow C++ 庫，所以我選擇了C++ Project 。

為微控制器安裝 TensorFlow Lite

用于微控制器的 TensorFlow Lite 能夠生成包含所有必要源文件的獨立項目。我的 MCUXpresso IDE 工作區(qū)位于 ~/Documents/MCUXpressoIDE_11.1.0/workspace/。您可能需要根據(jù)您的目錄結(jié)構(gòu)更改路徑。我們還需要制作3.82 或更高版本。MacOS Catalina 上捆綁的make版本為 3.81。我們可以使用安裝所需的版本

brew install make

并且可以使用gmake命令運行它。

cd ~

git clone https://github.com/tensorflow/tensorflow.git

cd tensorflow

gmake -f tensorflow/lite/micro/tools/make/Makefile generate_projects

cp -r tensorflow/lite/micro/tools/make/gen/osx_x86_64/prj/micro_speech/make/* ~/Documents/MCUXpressoIDE_11.1.0/workspace/IMXRT1010_Speech_Recognition/source

復制后，我們將擁有 TensorFlow C++ 庫以及其他一些用于音頻處理的第三方庫。我們需要使用Quickstart Panel > Edit Project Settings > C/C++ build > Settings > MCU C++ Compiler > Includes為不屬于 SDK 的庫（在下面的屏幕截圖中突出顯示）設(shè)置包含路徑。

應(yīng)用程序?qū)⒉东@的音頻數(shù)據(jù)保存在運行時創(chuàng)建的緩沖區(qū)中，因此我們需要將默認堆大小（僅 2KB）調(diào)整為 14 KB。此外，一些緩沖區(qū)數(shù)據(jù)需要是不可緩存的。我們可以利用 i.MXRT1010 的FlexRAM功能。堆棧/堆大小和不可緩存數(shù)據(jù)可以使用Quickstart Panel > Edit Project Settings > C/C++ build > Settings > MCU C++ Linker > Managed Linker Script進行配置。

i.MXRT1010 具有有限的 128 KB 內(nèi)存，分為 32 KB 庫。由于內(nèi)存溢出，編譯失敗。

section `.heap' will not fit in region `SRAM_DTC'
arm-none-eabi/bin/ld: region `SRAM_DTC' overflowed by 15920 bytes

Memory region  Used Size Region Size %age Used
BOARD_FLASH:   215432 B  16 MB       1.28%
SRAM_DTC:      48688 B   32 KB       148.58%
SRAM_ITC:      0 GB      32 KB       0.00%
SRAM_OC:       0 GB      32 KB       0.00%
NCACHE_REGION: 4748 B    32 KB       14.49%

多虧了FlexRAM ，我們可以使用下面的代碼配置變量聲明以選擇內(nèi)存庫。__DATA(RAM3)用于告訴編譯器將大約 16 KB 的變量g_audio_capture_buffer保存到 FlexRAM 的 OCRAM 部分 (SRAM_OC) 中。

__DATA(RAM3) int16_t g_audio_capture_buffer[kAudioCaptureBufferSize];

編譯后，我們可以在下面看到內(nèi)存分配的編譯器輸出。

Memory region  Used Size Region Size %age Used
BOARD_FLASH:   231432 B   16 MB      1.38%
SRAM_DTC:      32688 B    32 KB      99.76%
SRAM_ITC:      0 GB       32 KB      0.00%
SRAM_OC:       16000 B    32 KB      48.83%
NCACHE_REGION: 4748 B     32 KB      14.49%

訓練數(shù)據(jù)集和模型生成

我們使用的模型是使用 TensorFlow Simple Audio Recognition 腳本訓練的，這是一個示例腳本，旨在演示如何使用 TensorFlow 構(gòu)建和訓練音頻識別模型。該模型在帶有 eGPU（Nvidia 1080 Ti）的 Linux 桌面上進行了訓練，其中包含“上”、“下”、“左”、“右”四個詞。數(shù)據(jù)集中的其他詞被用作“未知”。將創(chuàng)建的模型轉(zhuǎn)換為 TensorFlow Lite 模型，并將轉(zhuǎn)換后的模型轉(zhuǎn)換為 C 數(shù)組文件，以便與推理代碼一起部署。TensorFlow Lite Micro SDK 用于在設(shè)備上運行推理。卷積神經(jīng)網(wǎng)絡(luò)用于模型創(chuàng)建。

設(shè)備端推理

使用帶有增強型直接內(nèi)存訪問 (eDMA) 控制器的同步音頻接口 (SAI) 捕獲音頻。該過程首先為給定的時間片生成快速傅立葉變換 (FFT)，在本例中為 30 ms 的捕獲音頻數(shù)據(jù)。TensorFlow Lite 模型不接收原始音頻樣本數(shù)據(jù)。相反，它適用于頻譜圖，頻譜圖是由頻率信息切片組成的二維數(shù)組，每個切片取自不同的時間窗口。我們可以將頻譜圖視為輸入模型進行推理的圖像數(shù)據(jù)。OLED 顯示器通過 I2C 連接到 i.MXRT1010 EVK。The預測的單詞顯示在 OLED 顯示屏上。

構(gòu)建和調(diào)試

可以分別使用 MCUExpresso IDE Quickstart Panel > Build和Quickstart Panel > Debug來構(gòu)建和調(diào)試項目。使用菜單ConfigTools > Pins將 UART 引腳配置為在調(diào)試期間重定向打印。

在 MacOS 上可以使用以下命令查看調(diào)試打?。?/font>

screen /dev/cu.usbmodem14202 115200

板載 LED 也配置為在推理時閃爍。

演示視頻

現(xiàn)場演示如下。它并不完美，但有效。

改進范圍

如果使用 8 位量化模型，可以提高推理率。目前，TensorFlow Lite Micro SDK 中缺少一些操作，這些操作不允許將 Conv 2D 轉(zhuǎn)換為量化版本。目前，由于音頻數(shù)據(jù)中的口音或噪音，有時會漏掉一些單詞。如果使用遷移學習使用更多自己的語音數(shù)據(jù)進行訓練，則可以提高模型的準確性。此外，板載麥克風數(shù)據(jù)有一些噪音，可以使用某些設(shè)置進行修復，或者可以使用外部數(shù)字麥克風以獲得更好的性能。

此應(yīng)用程序的 MCUExpresso 項目可以在代碼部分提到的 Github 存儲庫中找到。