一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

不要相信報(bào)告的深度學(xué)習(xí)TOPS指標(biāo)

蕭藹晨 ? 來(lái)源:njlbdz ? 作者:njlbdz ? 2022-07-15 16:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能公司通常會(huì)關(guān)注一個(gè)標(biāo)準(zhǔn):每秒更多 tera 操作 (TOPS)。不幸的是,當(dāng)硅制造商宣傳他們的 TOPS 指標(biāo)時(shí),他們并沒(méi)有真正提供準(zhǔn)確的指導(dǎo)。在大多數(shù)情況下,被炒作的數(shù)字并不是真正的 TOPS,而是峰值 TOPS。換句話說(shuō),你認(rèn)為你在卡中獲得的 TOPS 數(shù)字實(shí)際上是芯片在一個(gè)非常完美的世界中表現(xiàn)的最佳情況。

我將討論行業(yè)因錯(cuò)誤標(biāo)記性能指標(biāo)而造成的問(wèn)題,并解釋用戶如何獨(dú)立評(píng)估現(xiàn)實(shí)世界的 TOPS。

人造上衣與真上衣

AI 應(yīng)用程序開(kāi)發(fā)人員通常會(huì)通過(guò)衡量芯片制造商發(fā)布的 TOPS 性能數(shù)據(jù)是否足以支持他們的項(xiàng)目來(lái)開(kāi)始進(jìn)行盡職調(diào)查。

假設(shè)您嘗試在 U-Net 神經(jīng)網(wǎng)絡(luò)上以 10 fps(每秒幀數(shù))重新制作全高清圖像。由于 U-Net 操作每張圖像需要 3 TOPS,簡(jiǎn)單的數(shù)學(xué)表示您需要 30 TOPS 才能以所需的 FPS 完成項(xiàng)目。因此,在購(gòu)買芯片時(shí),您會(huì)假設(shè)聲稱運(yùn)行 50、40 甚至 32 TOPS 的卡對(duì)項(xiàng)目來(lái)說(shuō)是安全的。在一個(gè)完美的世界里,是的,但你很快就會(huì)發(fā)現(xiàn)這張卡很少能達(dá)到廣告的數(shù)字。而且我們不是在談?wù)搩H僅幾滴TOPS;計(jì)算效率可低至 10%。

雖然調(diào)整神經(jīng)網(wǎng)絡(luò)以從卡中獲得更好的性能當(dāng)然是可能的,但您幾乎不可能接近供應(yīng)商列出的峰值 TOPS。試圖獲得 60% 或 70% 的計(jì)算效率將耗費(fèi)大量時(shí)間。如果神經(jīng)網(wǎng)絡(luò)發(fā)生任何變化,您將不得不回到原點(diǎn)重新優(yōu)化所有內(nèi)容——但它甚至可能不適用于您的應(yīng)用程序。這個(gè)問(wèn)題對(duì)于小批量處理尤其明顯;你會(huì)很幸運(yùn)能獲得超過(guò) 15% 的峰值 TOPS。

計(jì)算效率

此時(shí),您可能想知道如何計(jì)算真正的 TOPS。這很簡(jiǎn)單!

要了解特定卡將提供多少真實(shí) TOPS,您首先需要確定該卡的計(jì)算效率。理想情況下,這可以通過(guò)簡(jiǎn)單地在目標(biāo)卡上運(yùn)行所需的神經(jīng)網(wǎng)絡(luò)來(lái)完成。但是,您可能沒(méi)有該卡。您仍然可以通過(guò)查看供應(yīng)商的營(yíng)銷數(shù)據(jù)的詳細(xì)信息來(lái)進(jìn)行估算。通??梢垣@得像 ResNet50(或類似的)這樣的神經(jīng)網(wǎng)絡(luò)的性能數(shù)據(jù)。假設(shè)這是一個(gè)典型的 ResNet50 實(shí)現(xiàn),您可以找到計(jì)算單個(gè)圖像的每秒千兆操作數(shù)(GOPS,而不是 TOPS)。然后,只需將其乘以供應(yīng)商宣傳的每秒圖像數(shù) (IPS),瞧!您就有了更真實(shí)的 TOPS 或“真實(shí)”TOPS。

效率只是 real 除以峰值 TOPS 的比率,或者:

峰值 TOPS x 計(jì)算效率 = 實(shí)際 TOPS

這個(gè)公式使用戶能夠在購(gòu)買任何東西之前比較卡在運(yùn)行神經(jīng)網(wǎng)絡(luò)時(shí)的真實(shí)效率。您可以使用所需的 TOPS 重用效率,看看它是否符合您的需求。雖然功率和批量大小等因素會(huì)影響結(jié)果,但如果您知道卡的效率,則此公式可以很好地估計(jì)其在實(shí)際用例中的實(shí)際性能。當(dāng)然,供應(yīng)商發(fā)布的神經(jīng)網(wǎng)絡(luò)的 IPS 仍然可以質(zhì)疑,但至少估計(jì)比比較你真正需要的 TOPS 和一張卡的峰值 TOPS 更好。

還值得注意的是,這不僅僅是 GPU 問(wèn)題。大多數(shù)專業(yè) ASIC 的實(shí)際效率非常低,即使他們的營(yíng)銷促進(jìn)了高效率。只需使用 IPS、已知的網(wǎng)絡(luò) GOPS 和簡(jiǎn)單的乘法運(yùn)算,您就可以了解一個(gè)真實(shí)的數(shù)字。

高效的替代品

盡管 GPU 和 ASIC 都在效率和性能上苦苦掙扎,但有一種替代解決方案不涉及這些芯片中的任何一個(gè)。

2020 年 10 月的 MLPerf 結(jié)果表明,與推理加速相結(jié)合的 FPGA 比其他替代方案的效率要高得多,因此可以更接近其他芯片制造商宣傳的最高 TOPS 數(shù)。

pYYBAGLO9LqAb-1dAACNdthL3nw757.jpg


比較不同架構(gòu)下每個(gè)發(fā)布的 TOPS 數(shù)據(jù)的每秒幀數(shù) (FPS)(來(lái)源:Mipsology)

FPGA 不僅在計(jì)算方面更高效,而且在計(jì)算硅片使用方面也更高效。從本質(zhì)上講,這些卡“事半功倍”,從而以一小部分成本獲得更好的神經(jīng)網(wǎng)絡(luò)性能。

值得重復(fù)一遍:買家不應(yīng)該因?yàn)?TOPS 營(yíng)銷炒作而墮落。這是一個(gè)夸大的性能數(shù)字,大多數(shù)神經(jīng)網(wǎng)絡(luò)在現(xiàn)實(shí)條件下永遠(yuǎn)不會(huì)看到。相反,利用這個(gè)公式:

峰值 TOPS x 計(jì)算效率 = 實(shí)際 TOPS

這樣做將幫助您快速、輕松、準(zhǔn)確地將您的性能需求與芯片的實(shí)際性能進(jìn)行比較,而不是任何夸大的供應(yīng)商聲稱。

——Ludovic Larzul 是 Mipsology 的創(chuàng)始人兼首席執(zhí)行官。



審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103639
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280007
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    用樹(shù)莓派搞深度學(xué)習(xí)?TensorFlow啟動(dòng)!

    介紹本頁(yè)面將指導(dǎo)您在搭載64位Bullseye操作系統(tǒng)的RaspberryPi4上安裝TensorFlow。TensorFlow是一個(gè)專為深度學(xué)習(xí)開(kāi)發(fā)的大型軟件庫(kù),它消耗大量資源。您可以在
    的頭像 發(fā)表于 03-25 09:33 ?442次閱讀
    用樹(shù)莓派搞<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>?TensorFlow啟動(dòng)!

    如何排除深度學(xué)習(xí)工作臺(tái)上量化OpenVINO?的特定層?

    無(wú)法確定如何排除要在深度學(xué)習(xí)工作臺(tái)上量化OpenVINO?特定層
    發(fā)表于 03-06 07:31

    軍事應(yīng)用中深度學(xué)習(xí)的挑戰(zhàn)與機(jī)遇

    人工智能尤其是深度學(xué)習(xí)技術(shù)的最新進(jìn)展,加速了不同應(yīng)用領(lǐng)域的創(chuàng)新與發(fā)展。深度學(xué)習(xí)技術(shù)的發(fā)展深刻影響了軍事發(fā)展趨勢(shì),導(dǎo)致戰(zhàn)爭(zhēng)形式和模式發(fā)生重大變化。本文將概述
    的頭像 發(fā)表于 02-14 11:15 ?539次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)之間存在著密切的關(guān)系,以下是對(duì)它們之間關(guān)系的介紹: 一、BP神經(jīng)網(wǎng)絡(luò)的基本概念 BP神經(jīng)網(wǎng)絡(luò),即反向傳播神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Network
    的頭像 發(fā)表于 02-12 15:15 ?863次閱讀

    百度深度學(xué)習(xí)專利申請(qǐng)量位列全球第一

    近日,全球領(lǐng)先的知識(shí)產(chǎn)權(quán)解決方案提供商Questel,發(fā)布全球深度學(xué)習(xí)專利全景報(bào)告。
    的頭像 發(fā)表于 01-15 09:29 ?560次閱讀

    NPU在深度學(xué)習(xí)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心驅(qū)動(dòng)力之一,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價(jià)值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)是專門為深度學(xué)習(xí)
    的頭像 發(fā)表于 11-14 15:17 ?1918次閱讀

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。
    的頭像 發(fā)表于 10-28 14:05 ?659次閱讀
    Pytorch<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練的方法

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識(shí)別 圖像識(shí)別是深度學(xué)習(xí)
    的頭像 發(fā)表于 10-27 11:13 ?1381次閱讀

    激光雷達(dá)技術(shù)的基于深度學(xué)習(xí)的進(jìn)步

    信息。這使得激光雷達(dá)在自動(dòng)駕駛、無(wú)人機(jī)、機(jī)器人等領(lǐng)域具有廣泛的應(yīng)用前景。 二、深度學(xué)習(xí)技術(shù)的發(fā)展 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,它通過(guò)模擬人
    的頭像 發(fā)表于 10-27 10:57 ?1071次閱讀

    FPGA加速深度學(xué)習(xí)模型的案例

    FPGA(現(xiàn)場(chǎng)可編程門陣列)加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個(gè)熱門研究方向。以下是一些FPGA加速深度學(xué)習(xí)模型的案例: 一、基于FPGA的AlexNet卷積運(yùn)算加速 項(xiàng)目名稱
    的頭像 發(fā)表于 10-25 09:22 ?1235次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對(duì)兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度
    的頭像 發(fā)表于 10-23 15:25 ?2898次閱讀

    深度學(xué)習(xí)GPU加速效果如何

    圖形處理器(GPU)憑借其強(qiáng)大的并行計(jì)算能力,成為加速深度學(xué)習(xí)任務(wù)的理想選擇。
    的頭像 發(fā)表于 10-17 10:07 ?617次閱讀

    FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?

    ,共同進(jìn)步。 歡迎加入FPGA技術(shù)微信交流群14群! 交流問(wèn)題(一) Q:FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?現(xiàn)在用FPGA做深度學(xué)習(xí)加速成為一個(gè)熱門,深鑒科技,商湯,曠視科技等都有基于FPG
    發(fā)表于 09-27 20:53

    ARMxy ARM嵌入式計(jì)算機(jī)搭載 1 TOPS NPU支持深度學(xué)習(xí)

    ARMxy ARM嵌入式計(jì)算機(jī)BL410系列內(nèi)置了1TOPS算力 NPU,它每秒可以執(zhí)行高達(dá)一萬(wàn)億次的浮點(diǎn)運(yùn)算,這為復(fù)雜的圖像處理和深度學(xué)習(xí)任務(wù)提供了充足的計(jì)算資源。在產(chǎn)品缺陷檢測(cè)領(lǐng)域,ARMxy ARM嵌入式計(jì)算機(jī)具備的這一算
    的頭像 發(fā)表于 08-20 11:53 ?857次閱讀
    ARMxy ARM嵌入式計(jì)算機(jī)搭載 1 <b class='flag-5'>TOPS</b> NPU支持<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>

    NVIDIA推出全新深度學(xué)習(xí)框架fVDB

    在 SIGGRAPH 上推出的全新深度學(xué)習(xí)框架可用于打造自動(dòng)駕駛汽車、氣候科學(xué)和智慧城市的 AI 就緒型虛擬表示。
    的頭像 發(fā)表于 08-01 14:31 ?1150次閱讀