一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

無縫替代GPU,讓FPGA來加速你的AI推理

電子設(shè)計 ? 來源:電子設(shè)計 ? 作者:電子設(shè)計 ? 2020-10-30 12:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如今,基于深度學(xué)習(xí)(DL)的人工智能AI)應(yīng)用越來越廣泛,不論是在與個人消費者相關(guān)的智能家居、智能駕駛等領(lǐng)域,還是在視頻監(jiān)控、智慧城市等公共管理領(lǐng)域,我們都能看到其身影。

眾所周知,實施一個完整的 AI 應(yīng)用需要經(jīng)歷訓(xùn)練和推理兩個過程。所謂“訓(xùn)練”,就是我們要將大量的數(shù)據(jù)代入到神經(jīng)網(wǎng)絡(luò)模型中運算并反復(fù)迭代,“教會”算法模型如何正確的工作,訓(xùn)練出一個 DL 模型。而接下來,我們就可以利用訓(xùn)練出來的模型來在線響應(yīng)用戶的需求,根據(jù)輸入的新數(shù)據(jù)做出正確而及時的決策判斷,這個過程就是“推理”。

通常來講,一個 AI 應(yīng)用中“訓(xùn)練”只需要做一次——有時這個工作會交給第三方專業(yè)的且有充沛算力資源的團隊去做,而應(yīng)用開發(fā)工程師要做的則是將訓(xùn)練好的模型部署到特定的硬件平臺上,滿足目標(biāo)應(yīng)用場景中推理過程的需要。由于推理過程會直接聯(lián)系最終用戶,推理的準(zhǔn)確性和速度也會直接影響到用戶體驗的好壞,因此如何有效地為 AI 推理做加速,也就成了當(dāng)下開發(fā)者普遍關(guān)心的一個熱門的話題。


AI 推理加速,FPGA 勝出!

從硬件架構(gòu)來看,可以支持 AI 推理加速的有四個可選方案,它們分別是:CPU、GPU、FPGA 和 ASIC,如果對這幾類器件的特性進行比較,會發(fā)現(xiàn)按照從左到右的順序,器件的靈活性 / 適應(yīng)性是遞減的,而處理能力和性能功耗比則是遞增的。

CPU 是基于馮?諾依曼架構(gòu),雖然其很靈活,但由于存儲器訪問往往要耗費幾個時鐘周期才能執(zhí)行一個簡單的任務(wù),延遲會很長,應(yīng)對神經(jīng)網(wǎng)絡(luò)(NN)這種計算密集型的任務(wù),功耗也會比較大,顯然最不適合做 AI 推理。

GPU 具有強大的數(shù)據(jù)并行處理能力,在做海量數(shù)據(jù)訓(xùn)練方面優(yōu)勢明顯,而推理計算通常一次只對一個輸入項進行處理的應(yīng)用,GPU 并行計算的優(yōu)勢發(fā)揮不出來,再加上其功耗相對較大,所以在 AI 推理方面也不是最優(yōu)選擇。

從高性能和低功耗的角度來看,定制的 ASIC 似乎是一種理想的解決方案,但其開發(fā)周期長、費用高,對于總是處于快速演進和迭代中的 DL 和 NN 算法來說,靈活性嚴(yán)重受限,風(fēng)險太大,在 AI 推理中人們通常不會考慮它。

所以我們的名單上只剩下 FPGA 了。這些年來大家對于 FPGA 快速、靈活和高效的優(yōu)點認(rèn)識越來越深入,硬件可編程的特性使其能夠針對 DL 和 NN 處理的需要做針對性的優(yōu)化,提供充足的算力,而同時又保持了足夠的靈活性。今天基于 FPGA 的異構(gòu)計算平臺,除了可編程邏輯,還會集成多個 Arm 處理器內(nèi)核、DSP、片上存儲器等資源,DL 所需的處理能力可以很好地映射到這些 FPGA 資源上,而且所有這些資源都可以并行工作 ,即每個時鐘周期可觸發(fā)多達數(shù)百萬個同時的操作,這對于 AI 推理是再合適不過了。

與 CPU 和 GPU 相比,F(xiàn)PGA 在 AI 推理應(yīng)用方面的優(yōu)勢還表現(xiàn)在:

不受數(shù)據(jù)類型的限制,比如它可以處理非標(biāo)準(zhǔn)的低精度數(shù)據(jù),從而提高數(shù)據(jù)處理的吞吐量。


功耗更低,針對相同的 NN 計算,F(xiàn)PGA 與 CPU/GPU 相比平均功耗低 5~10 倍。


可通過重新編程以適應(yīng)不同任務(wù)的需要,這種靈活性對于適應(yīng)持續(xù)發(fā)展中的 DL 和 NN 算法尤為關(guān)鍵。


應(yīng)用范圍廣,從云端到邊緣端的 AI 推理工作,都可勝任。

總之一句話,在 AI 推理計算的競爭中,F(xiàn)PGA 的勝出沒有懸念。


GPU 無縫對接,F(xiàn)PGA 即插即用

不過,雖然 FPGA 看上去“真香”,但是很多 AI 應(yīng)用的開發(fā)者還是對其“敬而遠(yuǎn)之”,究其原因最重要的一點就是——FPGA 上手使用太難了!

難點主要體現(xiàn)在兩個方面:

首先,對 FPGA 進行編程需要特定的技能和知識,要熟悉專門的硬件編程語言,還要熟練使用 FPGA 的特定工具,才能通過綜合、布局和布線等復(fù)雜的步驟來編譯設(shè)計。這對于很多嵌入式工程師來說,完全是一套他們所不熟悉的“語言”。


再有,因為很多 DL 模型是在 GPU 等計算架構(gòu)上訓(xùn)練出來的,這些訓(xùn)練好的模型移植、部署到 FPGA 上時,很可能會遇到需要重新訓(xùn)練和調(diào)整參數(shù)等問題,這要求開發(fā)者有專門的 AI 相關(guān)的知識和技能。

如何能夠降低大家在 AI 推理中使用 FPGA 的門檻?在這方面,Mipsology 公司給我們帶來了一個“驚喜”——該公司開發(fā)了一種基于 FPGA 的深度學(xué)習(xí)推理引擎 Zebra,可以讓開發(fā)者在“零努力(Zero Effort)”的情況下,對 GPU 訓(xùn)練的模型代碼進行轉(zhuǎn)換,使其能夠在 FPGA 上運行,而無需改寫任何代碼或者進行重新訓(xùn)練。

這也就意味著,調(diào)整 NN 參數(shù)甚至改變神經(jīng)網(wǎng)絡(luò)并不需要強制重新編譯 FPGA,而這些重新編譯工作可能需要花費數(shù)小時、數(shù)天,甚至更長時間。可以說,Zebra 讓 FPGA 對于開發(fā)者成了“透明”的,他們可以在 NN 模型訓(xùn)練好之后,無縫地從 CPU 或 GPU 切換到 FPGA 進行推理,而無需花費更多的時間!

目前,Zebra 可以支持 Caffe、Caffe2、MXNet 和 TensorFlow 等主流 NN 框架。在硬件方面,Zebra 已經(jīng)可以完美地支持 Xilinx 的系列加速卡,如 Alveo U200、Alveo U250 和 Alveo U50 等。對于開發(fā)者來說,“一旦將 FPGA 板插入 PC,只需一個 Linux 命令”,F(xiàn)PGA 就能夠代替 CPU 或 GPU 立即進行無縫的推斷,可以在更低的功耗下將計算速度提高一個數(shù)量級。對用戶來說,這無疑是一種即插即用的體驗。

強強聯(lián)手,全生態(tài)支持

更好的消息是:為了能夠加速更多 AI 應(yīng)用的落地,安富利亞洲和 Mipsology 達成了合作協(xié)議,將向其亞太區(qū)客戶推廣和銷售 Mipsology 這一獨特的 FPGA 深度學(xué)習(xí)推理加速軟件 —— Zebra。

這對于合作的雙方無疑是一個雙贏的局面:對于 Mipsology 來說,可以讓 Zebra 這個創(chuàng)新的工具以更快的速度覆蓋和惠及更多的開發(fā)者;對安富利來說,此舉也進一步擴展了自身強大的物聯(lián)網(wǎng)生態(tài)系統(tǒng),為客戶帶來更大的價值,為希望部署 DL 的客戶提供一整套全面的服務(wù),包括硬件、軟件、系統(tǒng)集成、應(yīng)用開發(fā)、設(shè)計鏈和專業(yè)技術(shù)。

安富利推理加速成功應(yīng)用案例:智能網(wǎng)絡(luò)監(jiān)控平臺 AI Bluebox

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4945

    瀏覽量

    131230
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35136

    瀏覽量

    279795
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI推理的存儲,看好SRAM?

    看到了其前景并提前布局。AI推理也使得存儲HBM不再是唯一熱門,更多存儲芯片與AI推理芯片結(jié)合,擁有了市場機會。 ? 已經(jīng)有不少AI
    的頭像 發(fā)表于 03-03 08:51 ?1679次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存儲,看好SRAM?

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    模態(tài)的技術(shù)特性,DeepSeek正加速推動AI在金融、政務(wù)、科研及網(wǎng)絡(luò)智能化等關(guān)鍵領(lǐng)域的深度應(yīng)用。 信而泰:AI推理引擎賦能網(wǎng)絡(luò)智能診斷新范式信而泰深度整合DeepSeek-R1大模型
    發(fā)表于 07-16 15:29

    智算加速卡是什么東西?它真能在AI戰(zhàn)場上干掉GPU和TPU!

    隨著AI技術(shù)火得一塌糊涂,大家都在談"大模型"、"AI加速"、"智能計算",可真到了落地環(huán)節(jié),算力才是硬通貨。有沒有發(fā)現(xiàn),現(xiàn)在越來越多的AI
    的頭像 發(fā)表于 06-05 13:39 ?561次閱讀
    智算<b class='flag-5'>加速</b>卡是什么東西?它真能在<b class='flag-5'>AI</b>戰(zhàn)場上干掉<b class='flag-5'>GPU</b>和TPU!

    RK3588核心板在邊緣AI計算中的顛覆性優(yōu)勢與場景落地

    推理任務(wù),需額外部署GPU加速卡,導(dǎo)致成本與功耗飆升。 擴展性受限:老舊接口(如USB 2.0、百兆網(wǎng)口)無法支持5G模組、高速存儲等現(xiàn)代外設(shè),升級困難。 開發(fā)周期長:BSP適配不完善,跨平臺
    發(fā)表于 04-15 10:48

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    Triton 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)軟件,旨在為部署推理 AI 模型的
    的頭像 發(fā)表于 03-20 15:03 ?647次閱讀

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎(chǔ)設(shè)施以及生成式 AI 服務(wù)首次實現(xiàn)集成,以幫助全球企業(yè)組織
    發(fā)表于 03-19 15:24 ?358次閱讀
    Oracle 與 NVIDIA 合作助力企業(yè)<b class='flag-5'>加速</b>代理式 <b class='flag-5'>AI</b> <b class='flag-5'>推理</b>

    無法調(diào)用GPU插件推理的遠(yuǎn)程張量API怎么解決?

    運行了使用 GPU 插件的遠(yuǎn)程張量 API 的推理。但是,它未能共享 OpenCL* 內(nèi)存,但結(jié)果不正確。
    發(fā)表于 03-06 06:13

    FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預(yù)測......

    。? AI加速器的開發(fā):FPGA被廣泛用于開發(fā)專為AI算法優(yōu)化的加速器,例如深度學(xué)習(xí)推理
    發(fā)表于 03-03 11:21

    當(dāng)我問DeepSeek AI爆發(fā)時代的FPGA是否重要?答案是......

    資源浪費。例如,在深度學(xué)習(xí)模型推理階段,FPGA可以針對特定的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行硬件加速,提高推理速度。 3.支持邊緣計算與實時應(yīng)用 ? 邊緣計算:隨著物聯(lián)網(wǎng)的發(fā)展,越來越多的
    發(fā)表于 02-19 13:55

    FPGA和ASIC在大模型推理加速中的應(yīng)用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經(jīng)有了專門做推理的ASIC,像Gro
    的頭像 發(fā)表于 10-29 14:12 ?2024次閱讀
    <b class='flag-5'>FPGA</b>和ASIC在大模型<b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的應(yīng)用

    NVIDIA助力麗蟾科技打造AI訓(xùn)練與推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業(yè)和科研機構(gòu)提供了一套高效、靈活的 AI 訓(xùn)練與推理加速解決方案。無論是在復(fù)雜的
    的頭像 發(fā)表于 10-27 10:03 ?826次閱讀
    NVIDIA助力麗蟾科技打造<b class='flag-5'>AI</b>訓(xùn)練與<b class='flag-5'>推理</b><b class='flag-5'>加速</b>解決方案

    GPU加速計算平臺是什么

    GPU加速計算平臺,簡而言之,是利用圖形處理器(GPU)的強大并行計算能力加速科學(xué)計算、數(shù)據(jù)分析、機器學(xué)習(xí)等復(fù)雜計算任務(wù)的軟硬件結(jié)合系統(tǒng)。
    的頭像 發(fā)表于 10-25 09:23 ?593次閱讀

    有沒有大佬知道NI vision 有沒有辦法通過gpu和cuda加速圖像處理

    有沒有大佬知道NI vision 有沒有辦法通過gpu和cuda加速圖像處理
    發(fā)表于 10-20 09:14

    什么是AI服務(wù)器?AI服務(wù)器的優(yōu)勢是什么?

    AI服務(wù)器是一種專門為人工智能應(yīng)用設(shè)計的服務(wù)器,它采用異構(gòu)形式的硬件架構(gòu),通常搭載GPUFPGA、ASIC等加速芯片,利用CPU與加速芯片
    的頭像 發(fā)表于 09-21 11:43 ?2029次閱讀

    AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

    HyperAccel 是一家成立于 2023 年 1 月的韓國初創(chuàng)企業(yè),致力于開發(fā) AI 推理專用型半導(dǎo)體器件和硬件,最大限度提升推理工作負(fù)載的存儲器帶寬使用,并通過將此解決方案應(yīng)用于大型語言模型
    的頭像 發(fā)表于 09-18 09:37 ?878次閱讀
    AMD助力HyperAccel開發(fā)全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務(wù)器