一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基準分數(shù)突出了廣泛的機器學(xué)習(xí)推理性能

張艷 ? 來源:Lucia_nie ? 作者:Lucia_nie ? 2022-07-21 10:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

繼今年早些時候發(fā)布的訓(xùn)練基準分數(shù)之后,MLPerf 發(fā)布了其推理基準的第一組基準分數(shù)。

與目前有 5 家公司的 63 份參賽作品的訓(xùn)練輪相比,更多的公司提交了基于 MobileNet、ResNet、Yolo 等神經(jīng)網(wǎng)絡(luò)架構(gòu)的推理結(jié)果。總共有來自 14 個組織的 500 多個分數(shù)進行了驗證。這包括來自幾家初創(chuàng)公司的數(shù)據(jù),而一些知名初創(chuàng)公司仍然明顯缺席。

在封閉的部門,其嚴格的條件可以直接比較系統(tǒng),結(jié)果顯示性能差異為 5 個數(shù)量級,并且在估計的功耗方面跨越三個數(shù)量級。在開放部門中,提交可以使用一系列模型,包括低精度實現(xiàn)。

Nvidia 在封閉部門的所有類別中都獲得了商用設(shè)備的第一名。其他領(lǐng)先者包括數(shù)據(jù)中心類別的 Habana Labs、谷歌和英特爾,而 Nvidia 在邊緣類別中與英特爾和高通競爭。

pYYBAGLXT8uAc4TSAAEshK1KHAk991.jpg

英偉達用于數(shù)據(jù)中心推理的 EGX 平臺(圖片:英偉達)

Moor Insights and Strategy 分析師 Karl Freund 表示:“Nvidia 是唯一一家擁有生產(chǎn)芯片、軟件、可編程性和人才的公司,可以發(fā)布跨 MLPerf 范圍內(nèi)的基準測試,并在幾乎所有類別中獲勝?!?“GPU 的可編程性為未來的 MLPerf 版本提供了獨特的優(yōu)勢……我認為這展示了 [Nvidia] 實力的廣度,以及挑戰(zhàn)者的利基性質(zhì)。但隨著時間的推移,許多挑戰(zhàn)者會變得成熟,因此英偉達需要繼續(xù)在硬件和軟件方面進行創(chuàng)新?!?/p>

Nvidia 發(fā)布的圖表顯示了其對結(jié)果的解釋,在商用設(shè)備的封閉部門的所有四個場景中,它都位居第一。

這些場景代表不同的用例。離線和服務(wù)器場景用于數(shù)據(jù)中心的推理。離線場景可能代表大量圖片的離線照片標記并測量純吞吐量。服務(wù)器場景代表一個用例,其中包含來自不同用戶的多個請求,在不可預(yù)測的時間提交請求,并在固定時間測量吞吐量。邊緣場景是單流,它對單個圖像進行推理,例如在手機應(yīng)用程序中,以及多流,它測量可以同時推理多少個圖像流,用于多攝像頭系統(tǒng)。

公司可以為選定的機器學(xué)習(xí)模型提交結(jié)果,這些模型在四種場景中的每一種中執(zhí)行圖像分類、對象檢測和語言翻譯。

數(shù)據(jù)中心結(jié)果

“從數(shù)據(jù)中心的結(jié)果來看,Nvidia 在服務(wù)器和離線類別的所有五個基準測試中均名列前茅,”Nvidia 加速計算產(chǎn)品管理總監(jiān) Paresh Kharya 說?!霸谏逃媒鉀Q方案中,我們的 Turing GPU 的性能優(yōu)于其他所有人?!?/p>

Kharya 強調(diào)了這樣一個事實,即英偉達是唯一一家在數(shù)據(jù)中心類別的所有五個基準模型中提交結(jié)果的公司,而對于服務(wù)器類別(這是更困難的情況),英偉達的性能相對于其競爭對手有所提高。

pYYBAGLXT9CAY9DfAADuOqQxTLg534.jpg

選定的數(shù)據(jù)中心基準測試結(jié)果來自封閉部門,在商用設(shè)備類別中處于領(lǐng)先地位。結(jié)果顯示相對于每個加速器的 Nvidia 分數(shù)。X 代表“未提交結(jié)果”(圖片:Nvidia)

英偉達在數(shù)據(jù)中心領(lǐng)域最接近的競爭對手是擁有Goya 推理芯片的以色列初創(chuàng)公司 Habana Labs 。

分析師 Karl Freund 表示:“Habana 是唯一一個全面生產(chǎn)高性能芯片的挑戰(zhàn)者,當下一個 MLPerf 套件有望包含功耗數(shù)據(jù)時,它應(yīng)該會做得很好。”

Habana Labs 在接受 EETimes 采訪時指出,基準分數(shù)純粹基于性能——功耗不是衡量標準,實用性也不是(例如考慮解決方案是被動冷卻還是水冷),成本也不是。

poYBAGLXT9mAV4bIAAD-pxpLakQ911.jpg

Habana Labs PCIe 卡采用 Goya 推理芯片(圖片:Habana Labs)

Habana 還使用開放分區(qū)來展示其低延遲能力,比封閉分區(qū)進一步限制延遲,并為多流場景提交結(jié)果。

邊緣計算結(jié)果

在邊緣基準測試中,Nvidia 贏得了所有四個在封閉部門提交商用解決方案的類別。高通的 Snapdragon 855 SoC 和英特爾的 Xeon CPU 在單流類別中落后于英偉達,高通和英特爾都沒有提交更困難的多流場景的結(jié)果。

poYBAGLXT9-AeURxAADPVeR-l4A989.jpg

選定的邊緣基準測試結(jié)果來自封閉部門,在商用設(shè)備類別中處于領(lǐng)先地位。結(jié)果顯示相對于每個加速器的 Nvidia 分數(shù)。X 代表“未提交結(jié)果”(圖片:Nvidia)

“預(yù)覽”系統(tǒng)(尚未商業(yè)化)的結(jié)果將阿里巴巴 T-Head 的含光芯片與英特爾的 Nervana NNP-I、Hailo-8和 Centaur Technologies 的參考設(shè)計進行了對比。與此同時,研發(fā)類別的特色是一家隱秘的韓國初創(chuàng)公司 Furiosa AI,對此我們知之甚少。

MLPerf 網(wǎng)站上提供了最近的推理分數(shù)以及早期的訓(xùn)練分數(shù)。



審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 基準測試
    +關(guān)注

    關(guān)注

    0

    文章

    21

    瀏覽量

    7691
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8499

    瀏覽量

    134314
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優(yōu)化將
    的頭像 發(fā)表于 03-20 15:03 ?599次閱讀

    從零復(fù)現(xiàn),全面開源:360 Light-R1-14B/7B帶來端側(cè)AI平權(quán)時刻

    14B開源颶風(fēng),360掀起端側(cè)推理性能革命
    的頭像 發(fā)表于 03-16 10:47 ?495次閱讀
    從零復(fù)現(xiàn),全面開源:360 Light-R1-14B/7B帶來端側(cè)AI平權(quán)時刻

    使用修改后的基準C++工具推斷灰度圖像時的推理速度慢怎么解決?

    修改了 基準測試 C++ 工具 ,以加載灰度圖像。 獲得的推理速度非常低。
    發(fā)表于 03-06 07:11

    探討DeepSeek-R1滿血版的推理部署與優(yōu)化策略

    DeepSeek的原廠方案. 1. 前情回顧2. 推理性能指標概述3. 推理系統(tǒng)性能約束3.1 用戶SLA的約束3.2 內(nèi)存
    的頭像 發(fā)表于 02-14 10:19 ?1316次閱讀
    探討DeepSeek-R1滿血版的<b class='flag-5'>推理</b>部署與優(yōu)化策略

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?658次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺提高AI<b class='flag-5'>推理性能</b>

    《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型

    共同挑戰(zhàn):如何從高維噪聲數(shù)據(jù)中提取有效特征?如何平衡模型復(fù)雜度和計算效率?如何保證系統(tǒng)在真實環(huán)境中的穩(wěn)定性?書中提出的技術(shù)方案對我的工作很有啟發(fā)。多模態(tài)融合策略可用于處理異構(gòu)數(shù)據(jù)源,元學(xué)習(xí)思想可指導(dǎo)增量學(xué)習(xí)系統(tǒng)設(shè)計,而模型優(yōu)化方法則有助于提升
    發(fā)表于 12-24 15:03

    NVIDIA Jetson Orin Nano開發(fā)者套件的新功能

    生成式 AI 領(lǐng)域正在迅速發(fā)展,每天都有新的大語言模型(LLM)、視覺語言模型(VLM)和視覺語言動作模型(VLA)出現(xiàn)。為了在這一充滿變革的時代保持領(lǐng)先,開發(fā)者需要一個足夠強大的平臺將云端的最新模型無縫部署到邊緣,從而獲得基于 CUDA 的優(yōu)化推理性能和開放式機器
    的頭像 發(fā)表于 12-23 12:54 ?1005次閱讀
    NVIDIA Jetson Orin Nano開發(fā)者套件的新功能

    利用Arm Kleidi技術(shù)實現(xiàn)PyTorch優(yōu)化

    PyTorch 是一個廣泛應(yīng)用的開源機器學(xué)習(xí) (ML) 庫。近年來,Arm 與合作伙伴通力協(xié)作,持續(xù)改進 PyTorch 的推理性能。本文將詳細介紹如何利用 Arm Kleidi 技術(shù)
    的頭像 發(fā)表于 12-23 09:19 ?989次閱讀
    利用Arm Kleidi技術(shù)實現(xiàn)PyTorch優(yōu)化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能。
    的頭像 發(fā)表于 12-17 17:47 ?781次閱讀

    Arm KleidiAI助力提升PyTorch上LLM推理性能

    熱門的深度學(xué)習(xí)框架尤為突出,許多企業(yè)均會選擇其作為開發(fā) AI 應(yīng)用的庫。通過部署 Arm Kleidi 技術(shù),Arm 正在努力優(yōu)化 PyTorch,以加速在基于 Arm 架構(gòu)的處理器上運行 LLM 的性能。Arm 通過將 Kle
    的頭像 發(fā)表于 12-03 17:05 ?1437次閱讀
    Arm KleidiAI助力提升PyTorch上LLM<b class='flag-5'>推理性能</b>

    Arm成功將Arm KleidiAI軟件庫集成到騰訊自研的Angel 機器學(xué)習(xí)框架

    KleidiAI 技術(shù)融入騰訊混元自研的 Angel 機器學(xué)習(xí)框架。這一合作旨在提高移動端人工智能 (AI) 服務(wù)的推理性能和效率,為用戶提供卓越
    的頭像 發(fā)表于 11-24 15:33 ?1228次閱讀

    澎峰科技高性能大模型推理引擎PerfXLM解析

    模型的高性能推理框架,并受到廣泛關(guān)注。在歷經(jīng)數(shù)月的迭代開發(fā)后,澎峰科技重磅發(fā)布升級版本,推出全新的高性能大模型推理引擎:PerfXLM。
    的頭像 發(fā)表于 09-29 10:14 ?1378次閱讀
    澎峰科技高<b class='flag-5'>性能</b>大模型<b class='flag-5'>推理</b>引擎PerfXLM解析

    開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性能

    近期,第五代英特爾?至強?可擴展處理器通過了中國電子技術(shù)標準化研究院組織的人工智能服務(wù)器系統(tǒng)性能測試(AISBench)。英特爾成為首批通過AISBench大語言模型(LLM)推理性能測試的企業(yè)
    的頭像 發(fā)表于 09-06 15:33 ?732次閱讀
    開箱即用,AISBench測試展示英特爾至強處理器的卓越<b class='flag-5'>推理性能</b>

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務(wù)的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應(yīng)用部署,提高了大模型產(chǎn)業(yè)應(yīng)用效率,更大規(guī)模地釋放大模型的應(yīng)用價值?!?/div>
    的頭像 發(fā)表于 08-23 15:48 ?1060次閱讀

    FPGA在人工智能中的應(yīng)用有哪些?

    FPGA(現(xiàn)場可編程門陣列)在人工智能領(lǐng)域的應(yīng)用非常廣泛,主要體現(xiàn)在以下幾個方面: 一、深度學(xué)習(xí)加速 訓(xùn)練和推理過程加速:FPGA可以用來加速深度學(xué)習(xí)的訓(xùn)練和
    發(fā)表于 07-29 17:05