一、概述
近年來,隨著半導(dǎo)體制程的進(jìn)步,硬件計算能力和數(shù)據(jù)量都有了飛躍性的提升,使得 計算機(jī)視覺(Computer Vision) 領(lǐng)域迎來了全新的發(fā)展階段。過去,圖像處理大多依賴像素級別的逐一運(yùn)算,而現(xiàn)在,通過 大數(shù)據(jù)(Big Data) 的支撐以及 深度學(xué)習(xí)(Deep Learning) 隨著AI模型的成熟,它能夠通過固定的學(xué)習(xí)模式從海量數(shù)據(jù)中快速創(chuàng)造出各種各樣的應(yīng)用。
人工智能技術(shù)的普及與邊緣計算在工業(yè)與車輛應(yīng)用中的雙向崛起
在人工智能(AI)技術(shù)迅速普及的浪潮中,邊緣計算(Edge Computing) 正成為工業(yè)與車輛應(yīng)用的共同核心推動力。傳統(tǒng)云計算雖然擁有強(qiáng)大的集中處理能力,但在實時性、高數(shù)據(jù)吞吐量以及敏感數(shù)據(jù)保護(hù)的多場景需求下,逐漸暴露其短板。而邊緣計算的崛起,通過將計算能力分散至工廠現(xiàn)場、設(shè)備端及車輛內(nèi)部,為此提供了解決方案。兩個領(lǐng)域提供了解決方案。
工業(yè)應(yīng)用的價值
■ 降低延遲:就近處理來自傳感器與設(shè)備的數(shù)據(jù),確保生產(chǎn)線與工業(yè)機(jī)器人等實時反應(yīng)能力。
■ 減輕網(wǎng)絡(luò)負(fù)擔(dān):在邊緣端完成大數(shù)據(jù)預(yù)處理,減少工廠內(nèi)部和外部網(wǎng)絡(luò)的壓力,提升運(yùn)營效率。
■ 保護(hù)隱私:在邊緣完成關(guān)鍵工業(yè)數(shù)據(jù)處理,避免敏感生產(chǎn)數(shù)據(jù)外流,確保企業(yè)機(jī)密和用戶隱私。
車輛應(yīng)用的價值
■ 即時決策:車載邊緣設(shè)備實時處理攝像頭、LIDAR 和雷達(dá)數(shù)據(jù),確保自動駕駛汽車的快速決策。
■ 本地運(yùn)算優(yōu)化:降低車輛對外部網(wǎng)絡(luò)的依賴,并確保在網(wǎng)絡(luò)中斷的情況下仍然可靠執(zhí)行。
■ 數(shù)據(jù)隱私保障:本地化處理車輛內(nèi)部數(shù)據(jù)(如駕駛行為與位置信息),減少對云端的依賴,保護(hù)駕駛者隱私。
隨著 2024 年生成式 AI 的爆發(fā),創(chuàng)造出更多 AI 應(yīng)用需求的多樣化發(fā)展,邊緣計算不僅僅是一項輔助技術(shù),更成為現(xiàn)代 AI 應(yīng)用的重要基石。
MemryX:邊緣計算與浮點(diǎn)計算的革新者
在邊緣計算浪潮中,MemryX 加速卡脫穎而出,憑借其強(qiáng)大的浮點(diǎn)運(yùn)算能力和全面的軟件支持,成為邊緣 AI 應(yīng)用的理想選擇。與傳統(tǒng)專注于整型運(yùn)算的解決方案不同,浮點(diǎn)運(yùn)算對于需要高度精確的 AI 推理場景至關(guān)重要。MemryX 解決方案在低功耗 ( 1W / 5 TFLOPS ) 的情況下提供 20 TFLOPS 的卓越性能,成為物體檢測、圖像識別、肢體識別、語義分割、深度估計和自然語言處理等應(yīng)用的關(guān)鍵推動力。
全面的軟件支持:助力開發(fā)者快速部署
MemryX 不僅硬件性能卓越,還提供豐富的軟件生態(tài),包括模塊評估工具、API 接口、驅(qū)動程序與開發(fā)工具,幫助開發(fā)者快速整合并優(yōu)化 AI 模型運(yùn)行。其軟件支持涵蓋:
■ 芯片模擬性能(Simulator)
■ 權(quán)重精度調(diào)整(Weight Precision)
■ 模型裁剪(Model Cropping)工具
■ AI DEMO GitHub 資源
■ 模型庫資源
■ 模型探索器資源
卓越的AI性能
利用 MemryX MX3 芯片運(yùn)行當(dāng)前最熱門的 YOLOv8-Nano 目標(biāo)檢測算法,可輕松達(dá)到每秒約 350 張。

二、MemryX:邊緣運(yùn)算與浮點(diǎn)計算的革新者
MemryX 于2019年由現(xiàn)任密歇根大學(xué)電機(jī)系的盧偉博士與張正亞博士共同創(chuàng)立,目前由前高通(Qualcomm)副總裁 Keith Kressin 擔(dān)任首席執(zhí)行官。其設(shè)計理念主打輕便、小巧、省電、高精度(浮點(diǎn)運(yùn)算)、可迭代算力、不占用主平臺資源等特點(diǎn),榮獲2022 EE Awards 亞洲金選獎- 最具潛力產(chǎn)品(Most Promising Product)。同時,活躍于各大社交媒體,趕快加入吧!領(lǐng)英 官方賬號??!即時發(fā)布最新的 MemryX 信息。
MemryX 最新的 MX3 芯片,具有低功耗、高計算能力 ( 1W / 5 TFLOPS )、高跨平臺整合性等等優(yōu)勢,其中以 16 位浮點(diǎn)運(yùn)算 (BF16) 為主,可以確保模型的準(zhǔn)確度,并提供豐富的模塊資源與整合套件,能讓用戶體驗更完善的 AI 資源整合,如下圖所示。其中 AI 芯片內(nèi)部亦有高頻的內(nèi)存配置,用以消除高運(yùn)算時所帶來的內(nèi)存瓶頸。因此需要衡量所使用的模塊大小,一顆芯片大約能夠處理 10 M 參數(shù)數(shù)據(jù)量。舉例來說,A 模塊為 40 M 參數(shù)量,則需要搭配 4 顆 MX3 芯片才能使用。
規(guī)格

優(yōu)勢介紹
(1) 采用浮點(diǎn)數(shù) (BF16) 進(jìn)行計算,確保模塊準(zhǔn)確度。
(2) 不占用系統(tǒng)內(nèi)存
(3) 可擴(kuò)展性 (最多可連接 16 個芯片)
(4) 最佳數(shù)據(jù)流優(yōu)化,能夠最大限度地減少數(shù)據(jù)移動
(5) 模塊具有最佳可操作性,能夠配合其他硬件加速器進(jìn)行二次優(yōu)化

軟件框架 (Software Framework)
MemryX開發(fā)者中心包含編譯器(Compiler)、運(yùn)行時(Runtime)、公用工具(Utility Tools)來驅(qū)動旗下的MemryX AI SoCs系列。如下圖所示:

▼ 編譯器(Compiler)
神經(jīng)編譯器提供多種功能,例如多模型整合(Multi-Model)、模型剪枝(Model Cropping)、多路流輸入單一應(yīng)用(Multiple Input Streams)、單路流輸入多個應(yīng)用(Shared Input Stream)、混合精度權(quán)重(Mixed-Precision Weights)、模塊資源使用情況顯示(Resources Utilization)。通過簡單的命令行指令,能夠幫助開發(fā)者??焖俎D(zhuǎn)換模塊將 Pytorch、Keras、Tensorflow、Tensorflow Lite、ONNX 等模型轉(zhuǎn)換為 MemryX DFP 模組格式。
▼ 運(yùn)行器(Runtime)
提供優(yōu)化的用戶體驗,利用 Benchmark 搭配模型庫能夠幫助開發(fā)者快速評估其硬件性能與準(zhǔn)確度,并且提供多種開源示例 DEMO ( MemryX Example ) 與簡潔有力的 API 能夠幫助開發(fā)者快速實現(xiàn)與部署AI應(yīng)用。
加速器 API(Python,C/C++)
▼ 公用工具(Utility Tools)
模擬器 (Simulator) : 為 MemryX 提供的軟件,幫助沒有 MX3 芯片的開發(fā)者完成性能評估。
可視化工具(Viewer ) : 為 MemryX 提供的 GUI 界面,包括上述編譯器、模擬器、加速器。
檢查器(DFP Inspect): 為 MemryX 提供的一套檢查 DFP 文件的工具。
▼ DEMO 示例
MemryX 原廠提供許多 AI 示例,一步步教導(dǎo)開發(fā)者如何實現(xiàn) AI 應(yīng)用!
https://github.com/memryx/MemryX_eXamples/tree/release
注意:必須注意以下示例均為開源模型,不能用于商業(yè)用途!謝謝。


三、結(jié)語
如下列原廠發(fā)布的新聞稿提到,MemryX 是如何通過 AI 芯片來改變邊緣人工智能應(yīng)用的客戶體驗
1. 高幀率 (High FPS)
MemryX 的數(shù)據(jù)流與內(nèi)存計算架構(gòu)適合流水線操作。一張低功耗的 MemryX M.2 卡可以同時處理 10 個攝像頭流,運(yùn)行一個或多個 AI 模型,特別適合如視頻管理系統(tǒng)等對實時性要求高的應(yīng)用場景。
2. 高模型精度與自動化編譯
MemryX 提供只需一鍵即可完成高精度 AI 模型編譯的工具。MX3 支持浮點(diǎn)運(yùn)算 (BF16),能確保模型的準(zhǔn)確性與完整性,無需重新訓(xùn)練模型或進(jìn)行額外調(diào)整。相比于目前主流的整數(shù)模塊 (INT),MemryX 能夠讓客戶快速部署高效且準(zhǔn)確的 AI 應(yīng)用。
3. 保持原始模型的完整性
不同于其他解決方案需要改動模型來適配硬件,MemryX 支持直接在 MX3 上編譯與運(yùn)行原始模型,并提供可選的模型剪枝與壓縮功能以實現(xiàn)設(shè)計優(yōu)化。
4. 自動前/后處理
MemryX 自動識別并打包 AI 模型中的前處理與后處理代碼,幫助開發(fā)者快速整合,減少手動調(diào)整的復(fù)雜度,提升部署效率。
5. 卓越的可擴(kuò)展性
MX3 可以單芯片使用,也可以多芯片結(jié)合為邏輯單元,支持從單臺智能攝像機(jī)到 16 芯片邊緣服務(wù)器的應(yīng)用,所有配置共享相同的軟件和接口,無需增加 PCIe 交換器等額外硬件。
6. 低功耗設(shè)計
每個 MX3 芯片僅消耗 0.5-2.0 W,而整個 4 芯片 M.2 模組的功耗不到主流 GPU 的十分之一,同時提供更高效的邊緣 AI 性能。
7. 廣泛的軟件與硬件支持
MemryX 支持多種操作系統(tǒng)及 x86、ARM 和 RISC-V 平臺,適配廣泛的硬件環(huán)境,為開發(fā)者提供靈活性。
因此,MemryX 憑借其創(chuàng)新的 MX3 解決方案,正在重新定義邊緣人工智能的應(yīng)用范疇從高效的浮點(diǎn)運(yùn)算能力到豐富的軟件支持,再到可擴(kuò)展性和低功耗設(shè)計,MemryX 正在為邊緣計算的未來奠定堅實的基礎(chǔ)。其核心技術(shù)不僅解決了當(dāng)前市場的諸多痛點(diǎn),更為開發(fā)者和企業(yè)用戶提供了靈活、快速且可靠的 AI 部署方案。此外,MemryX 提供多種核心平臺的硬件加速解決方案將 MX3 芯片與周邊硬件整合,更能充分發(fā)揮 1+1 大于 2 的平臺性能。
隨著人工智能在零售、汽車、工業(yè)、農(nóng)業(yè)和機(jī)器人等行業(yè)中的廣泛應(yīng)用,MemryX 正站在邊緣計算技術(shù)的前沿,為客戶提供卓越的性能和更高的價值。在未來,MemryX 將繼續(xù)推動技術(shù)創(chuàng)新,成為 AI 邊緣計算領(lǐng)域中不可或缺的合作伙伴通過上述原廠提供的工具與示例,AI 不再是遙不可及的夢想,只需一步步按照示例步驟操作,就可以快速實現(xiàn)任何智能應(yīng)用。若想試用或購買 MemryX 產(chǎn)品的新伙伴,請直接聯(lián)系伊布小編(email: weilly.li@wpi-group.com)!謝謝!
四、參考文件
[1] MemryX 官方網(wǎng)站
[2] MemryX 開發(fā)者中心技術(shù)網(wǎng)站
[3] EE Awards 2022 亞洲金選獎
[4] MemryX - LinkedIn 官方賬號
[5] MemryX_示例
[6] PR Newswire - MemryX宣布MX3邊緣AI加速器正式投產(chǎn)
歡迎關(guān)注大大通博主:ATU 伊布小編 (一部)
了解MPU技術(shù)整合、深度學(xué)習(xí)、電腦視覺技術(shù)與人工智能(AI)的發(fā)展等更多相關(guān)內(nèi)容
-
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122805 -
NPU
+關(guān)注
關(guān)注
2文章
330瀏覽量
19769 -
AI芯片
+關(guān)注
關(guān)注
17文章
1983瀏覽量
35924
發(fā)布評論請先 登錄
輕松上手邊緣AI:MemryX MX3芯片與Orange Pi 5 Plus的完美結(jié)合

輕松上手邊緣AI:MemryX MX3+結(jié)合Orange Pi 5 Plus的C/C++實戰(zhàn)指南

Nordic nRF54 系列芯片:開啟 AI 與物聯(lián)網(wǎng)新時代?
英偉達(dá)GTC25亮點(diǎn):NVIDIA Blackwell Ultra 開啟 AI 推理新時代
驅(qū)動 AI 邊緣計算新時代!高性能 i.MX 95 應(yīng)用平臺引領(lǐng)未來

設(shè)計了一個基于浮點(diǎn)數(shù)運(yùn)算的協(xié)處理器,使用C語言編程時沒法輸入float型數(shù)據(jù),請問有哪些部分需要修改?
邊緣AI新突破:MemryX AI加速卡與RK3588打造高效多路物體檢測方案

舵機(jī)精度大揭秘:微米級控制,引領(lǐng)精準(zhǔn)定位新時代
【「從算法到電路—數(shù)字芯片算法的電路實現(xiàn)」閱讀體驗】+內(nèi)容簡介
FPGA中的浮點(diǎn)四則運(yùn)算是什么

FPGA中浮點(diǎn)四則運(yùn)算的實現(xiàn)過程

評論