一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在推理引擎中去除TOPS的頂部

星星科技指導(dǎo)員 ? 來源:嵌入式計算設(shè)計 ? 作者:Geoff Tate ? 2022-12-01 15:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著 AI 的爆炸式增長,人們開始高度關(guān)注能夠提供 AI 所需性能的新型專用推理引擎。因此,在過去的六個月里,我們看到了一系列神經(jīng)推理硬件的發(fā)布,所有這些都有望提供比市場上任何其他產(chǎn)品更好的加速。然而,挑戰(zhàn)在于沒有人真正知道如何從另一個衡量一個。這是一項(xiàng)新技術(shù),像任何新技術(shù)一樣,我們需要指標(biāo),我們需要真正重要的指標(biāo)。

一切都與吞吐量有關(guān)

當(dāng)推理引擎的性能出現(xiàn)時,供應(yīng)商會拋出基準(zhǔn)測試,引用TOPS(Tera-Operations/second)性能和TOPS/Watt等內(nèi)容。研究這些數(shù)字的系統(tǒng)/芯片設(shè)計人員很快意識到這些數(shù)字通常毫無意義。真正重要的是推理引擎可以為模型、圖像大小、批量大小和過程以及 PVT(過程/電壓/溫度)條件提供多少吞吐量。這是衡量其性能的第一標(biāo)準(zhǔn),但令人驚訝的是,很少有供應(yīng)商提供它。

TOPS最大的問題是,當(dāng)一家公司說他們的發(fā)動機(jī)做X TOPS時,他們通常會引用這個而不說明條件是什么。在不知道這些信息的情況下,他們錯誤地認(rèn)為X TOPS意味著它可以執(zhí)行X萬億次操作。實(shí)際上,報價 130 TOPS 的公司可能只能提供 27 TOPS 的可用吞吐量。

另一個正在使用但不太常見的基準(zhǔn)測試是ResNet-50。這個基準(zhǔn)的問題在于,大多數(shù)引用它的公司都沒有給出批量大小。當(dāng)他們不提供這一點(diǎn)時,芯片設(shè)計人員可以假設(shè)這將是一個大批量大小,以最大限度地提高他們的硬件利用率百分比。這使得 ResNet-50 作為基準(zhǔn)測試不是很有幫助。相比之下,例如,YOLOv3 需要 100 倍以上的操作來處理 200 萬像素的圖像。硬件利用率在“現(xiàn)實(shí)世界”模型上將面臨更大的挑戰(zhàn)。

如何正確測量神經(jīng)推理引擎

在評估神經(jīng)推理引擎時,有幾個關(guān)鍵事項(xiàng)需要考慮。以下是最重要的考慮因素以及它們真正重要的原因。

定義什么是操作:一些供應(yīng)商將乘法(通常為 INT 8 乘以 INT 8)計為一個運(yùn)算,將累加(加法,通常為 INT 32)計為一個運(yùn)算。因此,單個乘法累加等于 2 個運(yùn)算。但是,一些供應(yīng)商在其TOPS規(guī)范中包含其他類型的操作,因此必須在開始時進(jìn)行澄清。

詢問操作條件是什么:如果供應(yīng)商在沒有提供條件的情況下給出 TOPS,他們通常使用室溫、標(biāo)稱電壓和典型工藝。通常他們會提到他們指的是哪個工藝節(jié)點(diǎn),但不同供應(yīng)商的運(yùn)行速度不同,大多數(shù)工藝都提供 2、3 或更高的標(biāo)稱電壓。由于性能是頻率的函數(shù),而頻率是電壓的函數(shù),因此芯片設(shè)計人員在0.9V下可以獲得比0.6V時兩倍以上的性能。頻率因條件/假設(shè)而異。有關(guān)此方面的更多信息,請參閱本應(yīng)用筆記。

查看批量大小:即使供應(yīng)商提供了最壞情況的TOPS,芯片設(shè)計人員也需要弄清楚所有這些操作是否真的有助于計算他們的神經(jīng)網(wǎng)絡(luò)模型。實(shí)際上,實(shí)際利用率可能非常低,因?yàn)闆]有推理引擎始終對所有 MAC 具有 100% 的利用率。這就是為什么批量大小很重要的原因。批處理是為給定層加載權(quán)重并同時處理多個數(shù)據(jù)集。這樣做的原因是提高吞吐量,但放棄的是更長的延遲。ResNet-50 有超過 2000 萬個權(quán)重;YOLOv3 有超過 6000 萬個權(quán)重;并且必須獲取每個權(quán)重并將其加載到每個圖像的MAC結(jié)構(gòu)中。有太多的權(quán)重,無法將它們?nèi)狂v留在 MAC 結(jié)構(gòu)中。

查找您的 MAC 利用率:并非所有神經(jīng)網(wǎng)絡(luò)的行為都相同。您需要以所需的批大小找出要部署的神經(jīng)網(wǎng)絡(luò)模型的神經(jīng)推理引擎的實(shí)際 MAC 利用率。

深入了解 TOPS

如果你是一個正在研究神經(jīng)推理引擎的設(shè)計師,希望這篇文章能闡明要尋找什么。請記住,吞吐量才是最重要的。重要的是不要陷入無意義的基準(zhǔn)測試,如TOPS和ResNet-50,除非你知道要問的事情。首先提出以下問題:在批量大小= A和XYZ PVT條件下,特定模型(例如YOLOv3)可以處理多少圖像/秒。一旦你開始指定條件和假設(shè),你就會開始了解任何神經(jīng)推理在現(xiàn)實(shí)世界中的表現(xiàn)。歸根結(jié)底,這才是最重要的。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    459

    文章

    52452

    瀏覽量

    439944
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103431
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35004

    瀏覽量

    278709
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    大模型推理顯存和計算量估計方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型各個領(lǐng)域得到了廣泛應(yīng)用。然而,大模型的推理過程對顯存和計算資源的需求較高,給實(shí)際應(yīng)用帶來了挑戰(zhàn)。為了解決這一問題,本文將探討大模型推理顯存和計算量的估計
    發(fā)表于 07-03 19:43

    芯原超低能耗NPU可為移動端大語言模型推理提供超40 TOPS算力

    芯原股份今日宣布其超低能耗且高性能的神經(jīng)網(wǎng)絡(luò)處理器(NPU)IP現(xiàn)已支持移動端進(jìn)行大語言模型(LLM)推理,AI算力可擴(kuò)展至40 TOPS以上。該高能效NPU架構(gòu)專為滿足移動平臺日益增長的生成式
    的頭像 發(fā)表于 06-11 10:47 ?224次閱讀

    6TOPS算力NPU加持!RK3588如何重塑8K顯示的邊緣計算新邊界

    ,RK3588都能快速解析復(fù)雜的8K視頻流。以交通監(jiān)控為例,傳統(tǒng)設(shè)備處理8K分辨率的交通視頻時,往往難以實(shí)時識別車牌和行人動作,而RK3588憑借6TOPS的強(qiáng)大算力,不僅能夠?qū)崟r解碼8K視頻,還能同步
    發(fā)表于 04-18 15:32

    OpenHarmony5.0系統(tǒng)怎么去除鎖屏直接進(jìn)入界面?教你2步搞定

    本文介紹OpenHarmony5.0Release操作系統(tǒng)下,去除鎖屏開機(jī)后直接進(jìn)入界面的方法。觸覺智能PurplePiOH鴻蒙開發(fā)板演示,搭載了瑞芯微RK3566四核處理器,1TOPS算力NPU
    的頭像 發(fā)表于 03-12 18:51 ?500次閱讀
    OpenHarmony5.0系統(tǒng)怎么<b class='flag-5'>去除</b>鎖屏直接進(jìn)入界面?教你2步搞定

    使用OpenVINO?進(jìn)行推理時的內(nèi)存泄漏怎么解決?

    使用 OpenVINO? 進(jìn)行推理時,內(nèi)存會隨著時間的推移而增加,并導(dǎo)致程序崩潰。
    發(fā)表于 03-06 08:29

    使用OpenVINO?推理引擎進(jìn)行推理時,如何更改模型布局?

    無法為一系列網(wǎng)絡(luò)準(zhǔn)備輸入。 第一個模型的輸出在 CHW 布局中,但第二個模型的輸入 NCHW 布局中。
    發(fā)表于 03-06 07:21

    采用異構(gòu)模式推理時,如何檢查每層使用的設(shè)備是什么?

    異構(gòu)模式推理時,無法檢查每層使用的設(shè)備是什么
    發(fā)表于 03-06 06:49

    AI大模型汽車應(yīng)用中的推理、降本與可解釋性研究

    佐思汽研發(fā)布《2024-2025年AI大模型及其汽車領(lǐng)域的應(yīng)用研究報告》。 推理能力成為大模型性能提升的驅(qū)動引擎 2024下半年以來,國內(nèi)外大模型公司紛紛推出推理模型,通過以CoT為
    的頭像 發(fā)表于 02-18 15:02 ?1203次閱讀
    AI大模型<b class='flag-5'>在</b>汽車應(yīng)用中的<b class='flag-5'>推理</b>、降本與可解釋性研究

    新品| LLM630 Compute Kit,AI 大語言模型推理開發(fā)平臺

    處理器,集成了3.2TOPs@INT8算力的高能效NPU,提供強(qiáng)大的AI推理能力,能夠高效執(zhí)行復(fù)雜的視覺(CV)及大語言模型(LLM)任務(wù),滿足各類智能應(yīng)用場景的需求
    的頭像 發(fā)表于 01-17 18:48 ?673次閱讀
    新品| LLM630 Compute Kit,AI 大語言模型<b class='flag-5'>推理</b>開發(fā)平臺

    高效大模型的推理綜述

    大模型由于其各種任務(wù)中的出色表現(xiàn)而引起了廣泛的關(guān)注。然而,大模型推理的大量計算和內(nèi)存需求對其資源受限場景的部署提出了挑戰(zhàn)。業(yè)內(nèi)一直努力開發(fā)旨在提高大模型
    的頭像 發(fā)表于 11-15 11:45 ?1433次閱讀
    高效大模型的<b class='flag-5'>推理</b>綜述

    AI推理CPU當(dāng)?shù)溃珹rm驅(qū)動高效引擎

    AI的訓(xùn)練和推理共同鑄就了其無與倫比的處理能力。AI訓(xùn)練方面,GPU因其出色的并行計算能力贏得了業(yè)界的青睞,成為了當(dāng)前AI大模型最熱門的芯片;而在 AI 推理方面,具備卓越通用性和靈活性的CPU
    的頭像 發(fā)表于 11-13 14:34 ?3367次閱讀
    AI<b class='flag-5'>推理</b>CPU當(dāng)?shù)溃珹rm驅(qū)動高效<b class='flag-5'>引擎</b>

    FPGA和ASIC大模型推理加速中的應(yīng)用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進(jìn)行推理加速的研究也越來越多,從目前的市場來說,有些公司已經(jīng)有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的推理做了優(yōu)化,因此相比GPU這種通過計算平臺,功耗更低、
    的頭像 發(fā)表于 10-29 14:12 ?1933次閱讀
    FPGA和ASIC<b class='flag-5'>在</b>大模型<b class='flag-5'>推理</b>加速中的應(yīng)用

    李開復(fù):中國擅長打造經(jīng)濟(jì)實(shí)惠的AI推理引擎

    10月22日上午,零一萬物公司的創(chuàng)始人兼首席執(zhí)行官李開復(fù)與外媒的交流中透露,其公司旗下的Yi-Lightning(閃電模型)推理成本上已實(shí)現(xiàn)了顯著優(yōu)勢,比OpenAI的GPT-4o模型低了31倍。他強(qiáng)調(diào),中國擅長打造經(jīng)濟(jì)實(shí)惠
    的頭像 發(fā)表于 10-22 16:54 ?724次閱讀

    澎峰科技高性能大模型推理引擎PerfXLM解析

    模型的高性能推理框架,并受到廣泛關(guān)注。歷經(jīng)數(shù)月的迭代開發(fā)后,澎峰科技重磅發(fā)布升級版本,推出全新的高性能大模型推理引擎:PerfXLM。
    的頭像 發(fā)表于 09-29 10:14 ?1436次閱讀
    澎峰科技高性能大模型<b class='flag-5'>推理</b><b class='flag-5'>引擎</b>PerfXLM解析

    深度學(xué)習(xí)編譯器和推理引擎的區(qū)別

    深度學(xué)習(xí)編譯器和推理引擎人工智能領(lǐng)域中都扮演著至關(guān)重要的角色,但它們各自的功能、應(yīng)用場景以及優(yōu)化目標(biāo)等方面存在顯著的差異。以下是對兩者區(qū)別的詳細(xì)探討。
    的頭像 發(fā)表于 07-17 18:12 ?1785次閱讀