一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA RTX 5880 Ada顯卡部署DeepSeek-R1模型實(shí)測報(bào)告

麗臺(tái)科技 ? 來源:麗臺(tái)科技 ? 2025-03-17 11:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeepSeek-R1 模型在 4 張 NVIDIA RTX 5880 Ada 顯卡配置下,面對(duì)短文本生成、長文本生成、總結(jié)概括三大實(shí)戰(zhàn)場景,會(huì)碰撞出怎樣的性能火花?參數(shù)規(guī)模差異懸殊的 70B 與 32B 兩大模型,在 BF16 精度下的表現(xiàn)又相差幾何?本篇四卡環(huán)境實(shí)測報(bào)告,將為用戶提供實(shí)用的數(shù)據(jù)支持和性能參考。

1測試環(huán)境

e3c22236-fd5d-11ef-9310-92fbcf53809c.png

2測試指標(biāo)

首次 token 生成時(shí)間(Time to First Token, TTFT(s))越低,模型響應(yīng)速度越快;每個(gè)輸出 token 的生成時(shí)間(Time Per Output Token, TPOT(s))越低,模型生成文本的速度越快。

輸出 Token 吞吐量(Output Token Per Sec, TPS):反映系統(tǒng)每秒能夠生成的輸出 token 數(shù)量,是評(píng)估系統(tǒng)響應(yīng)速度的關(guān)鍵指標(biāo)。多并發(fā)情況下,使用單個(gè)請(qǐng)求的平均吞吐量作為參考指標(biāo)。

首次 Token 生成時(shí)間(Time to First Token, TTFT(s)):指從發(fā)出請(qǐng)求到接收到第一個(gè)輸出 token 所需的時(shí)間,這對(duì)實(shí)時(shí)交互要求較高的應(yīng)用尤為重要。多并發(fā)情況下,平均首次 token 時(shí)間 (s) 作為參考指標(biāo)。

單 Token 生成時(shí)間(Time Per Output Token,TPOT(s)):系統(tǒng)生成每個(gè)輸出 token 所需的時(shí)間,直接影響了整個(gè)請(qǐng)求的完成速度。多并發(fā)情況下,使用平均每個(gè)輸出 token 的時(shí)間 (s) 作為參考指標(biāo)。這里多并發(fā)時(shí)跟單個(gè)請(qǐng)求的 TPOT 不一樣,多并發(fā) TPOT 計(jì)算不包括生成第一個(gè) token 的時(shí)間。

并發(fā)數(shù)(Concurrency):指的是系統(tǒng)同時(shí)處理的任務(wù)數(shù)量。適當(dāng)?shù)牟l(fā)設(shè)置可以在保證響應(yīng)速度的同時(shí)最大化資源利用率,但過高的并發(fā)數(shù)可能導(dǎo)致請(qǐng)求打包過多,從而增加單個(gè)請(qǐng)求的處理時(shí)間,影響用戶體驗(yàn)。

3測試場景

在實(shí)際業(yè)務(wù)部署中,輸入/輸出 token 的數(shù)量直接影響服務(wù)性能與資源利用率。本次測試針對(duì)三個(gè)不同應(yīng)用場景設(shè)計(jì)了具體的輸入 token 和輸出 token 配置,以評(píng)估模型在不同任務(wù)中的表現(xiàn)。具體如下:

e3e5b386-fd5d-11ef-9310-92fbcf53809c.png

4測試結(jié)果

4.1 短文本生成場景

使用 DeepSeek-R1-70B(BF16),單請(qǐng)求吞吐量約 19.9 tokens/s,并發(fā) 100 時(shí)降至約 9.9 tokens/s(約為單請(qǐng)求的 50%)。最佳工作區(qū)間為低并發(fā)場景(1-50 并發(fā))。

e3f92af6-fd5d-11ef-9310-92fbcf53809c.pnge40b9d44-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-70B(BF16) 測試結(jié)果圖表

2025 麗臺(tái)(上海)信息科技有限公司

本文所有測試結(jié)果均由麗臺(tái)科技實(shí)測得出,如果您有任何疑問或需要使用此測試結(jié)果,請(qǐng)聯(lián)系麗臺(tái)科技(下同)

使用 DeepSeek-R1-32B(BF16),單請(qǐng)求吞吐量達(dá)約 39.5 tokens/s,并發(fā) 100 時(shí)仍保持約 18.1 tokens/s,能夠滿足高并發(fā)場景(100 并發(fā))。

e419d346-fd5d-11ef-9310-92fbcf53809c.pnge42e041a-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-32B(BF16) 測試結(jié)果圖表

4.2 長文本生成場景

使用 DeepSeek-R1-70B(BF16),單請(qǐng)求吞吐量約 20 tokens/s,并發(fā) 100 時(shí)降至約 8.8 tokens/。最佳工作區(qū)間為低并發(fā)場景(1-50 并發(fā))。

e43cd60c-fd5d-11ef-9310-92fbcf53809c.pnge455e160-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-70B(BF16) 測試結(jié)果圖表

使用 DeepSeek-R1-32B(BF16),單請(qǐng)求吞吐量達(dá)約 39.7 tokens/s,并發(fā) 250 時(shí)仍保持約 10.6 tokens/s,能夠滿足較高并發(fā)場景(250 并發(fā))。

e4697df6-fd5d-11ef-9310-92fbcf53809c.pnge4859ad6-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-32B(BF16) 測試結(jié)果圖表

4.3 總結(jié)概括場景

使用 DeepSeek-R1-70B(BF16),單請(qǐng)求吞吐量約 18.7 tokens/s,并發(fā) 10 時(shí)降至約 10.9 tokens/。最佳工作區(qū)間為低并發(fā)場景(10 并發(fā))。

e4957988-fd5d-11ef-9310-92fbcf53809c.pnge4ab47ea-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-70B(BF16) 測試結(jié)果圖表

使用 DeepSeek-R1-32B(BF16),單請(qǐng)求吞吐量達(dá)約 37 tokens/s,并發(fā) 25 時(shí)仍保持約 15.3 tokens/s,能夠滿足中等并發(fā)場景(25 并發(fā))。

e4bbca5c-fd5d-11ef-9310-92fbcf53809c.pnge4d18324-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-32B(BF16) 測試結(jié)果圖表

5總結(jié)

5.1 測試模型性能

DeepSeek-R1-70B(BF16) 模型表現(xiàn):

短文本生成:支持 75 并發(fā)量,單請(qǐng)求平均吞吐量>10.9 tokens/s

長文本生成:支持 50 并發(fā)量,單請(qǐng)求平均吞吐量>12.5 tokens/s

總結(jié)概括:支持 10 并發(fā)量,單請(qǐng)求平均吞吐量>10.9 tokens/s

DeepSeek-R1-32B(BF16) 模型表現(xiàn):

短文本生成:支持 100 并發(fā)量,單請(qǐng)求平均吞吐量>18.1 tokens/s

長文本生成:支持 250 并發(fā)量,單請(qǐng)求平均吞吐量>10.6 tokens/s

總結(jié)概括:支持 25 并發(fā)量,單請(qǐng)求平均吞吐量>15.3 tokens/s

5.2 部署建議

基于 4 卡 RTX 5880 Ada GPU 的硬件配置下:

推薦優(yōu)先部署 DeepSeek-R1-32B(BF16) 模型,其在高并發(fā)場景下展現(xiàn)出更優(yōu)的吞吐性能與響應(yīng)效率;

當(dāng)業(yè)務(wù)場景對(duì)模型輸出質(zhì)量有更高要求,且系統(tǒng)并發(fā)壓力較低時(shí),建議選用 DeepSeek-R1-70B(BF16) 模型。

5.3 測試說明

本次基準(zhǔn)測試在統(tǒng)一硬件環(huán)境下完成,未采用任何專項(xiàng)優(yōu)化策略。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106452
  • 顯卡
    +關(guān)注

    關(guān)注

    16

    文章

    2505

    瀏覽量

    69561
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50445
  • DeepSeek
    +關(guān)注

    關(guān)注

    1

    文章

    798

    瀏覽量

    1765

原文標(biāo)題:4 卡戰(zhàn) 70B/32B!RTX 5880 Ada 跑 DeepSeek-R1 結(jié)果如何?

文章出處:【微信號(hào):Leadtek,微信公眾號(hào):麗臺(tái)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何使用OpenVINO運(yùn)行DeepSeek-R1蒸餾模型

    DeepSeek-R1在春節(jié)期間引發(fā)了全球科技界的熱度,DeepSeek-R1 是由 DeepSeek 開發(fā)的開源推理模型,用于解決需要邏輯推理、數(shù)學(xué)問題解決和實(shí)時(shí)決策的任務(wù)。
    的頭像 發(fā)表于 03-12 13:45 ?1438次閱讀
    如何使用OpenVINO運(yùn)行<b class='flag-5'>DeepSeek-R1</b>蒸餾<b class='flag-5'>模型</b>

    了解DeepSeek-V3 和 DeepSeek-R1兩個(gè)大模型的不同定位和應(yīng)用選擇

    DeepSeek-V3 和 DeepSeek-R1 是深度求索公司(DeepSeek)推出的兩個(gè)不同定位的大模型,其核心差異主要體現(xiàn)在目標(biāo)場景、能力側(cè)重和技術(shù)優(yōu)化方向上。以下是二者的實(shí)
    發(fā)表于 02-14 02:08

    RK3588開發(fā)板上部署DeepSeek-R1模型的完整指南

    DeepSeek作為國產(chǎn)AI大數(shù)據(jù)模型的代表,憑借其卓越的推理能力和高效的文本生成技術(shù),在全球人工智能領(lǐng)域引發(fā)廣泛關(guān)注。DeepSeek-R1作為該系列最新迭代版本,實(shí)現(xiàn)了長文本處理效能躍遷、多模態(tài)
    發(fā)表于 02-27 16:45

    NVIDIA RTX 5000 Ada顯卡性能實(shí)測報(bào)告

    單精度浮點(diǎn)運(yùn)算性能是顯卡一項(xiàng)重要的指標(biāo),很多計(jì)算都是使用單精度來完成的。從測試結(jié)果來看 RTX 5000 Ada 的性能達(dá)到了 63.1T,而 RTX A5000 只有 30.5T。由
    的頭像 發(fā)表于 12-21 15:58 ?1.1w次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> 5000 <b class='flag-5'>Ada</b><b class='flag-5'>顯卡</b>性能<b class='flag-5'>實(shí)測報(bào)告</b>

    RTX 5880 Ada Generation GPU與RTX? A6000 GPU對(duì)比

    NVIDIA RTX? 5880 Ada Generation GPU 是目前國內(nèi)重量級(jí) GPU,基于全新 NVIDIA
    的頭像 發(fā)表于 04-19 10:20 ?4037次閱讀
    <b class='flag-5'>RTX</b> <b class='flag-5'>5880</b> <b class='flag-5'>Ada</b> Generation GPU與<b class='flag-5'>RTX</b>? A6000 GPU對(duì)比

    芯動(dòng)力神速適配DeepSeek-R1模型,AI芯片設(shè)計(jì)邁入“快車道”!

    近期,國產(chǎn)大模型 DeepSeek-R1橫空出世,迅速成為AI領(lǐng)域的焦點(diǎn)。 芯動(dòng)力在24小時(shí)內(nèi)完成了與DeepSeek-R1模型的適配。 Deep
    的頭像 發(fā)表于 02-07 16:55 ?637次閱讀
    芯動(dòng)力神速適配<b class='flag-5'>DeepSeek-R1</b>大<b class='flag-5'>模型</b>,AI芯片設(shè)計(jì)邁入“快車道”!

    deepin UOS AI接入DeepSeek-R1模型

    DeepSeek-R1 模型自發(fā)布以來吸引了眾多用戶關(guān)注,為了讓 deepin 用戶更好地體驗(yàn)這一前沿技術(shù),UOS AI 現(xiàn)已適配接入 DeepSeek-R1 端側(cè)模型!無需忍受服務(wù)器
    的頭像 發(fā)表于 02-08 09:52 ?1101次閱讀

    DeepSeek-R1本地部署指南,開啟你的AI探索之旅

    R1 2025.01.20 DeepSeek-R1 發(fā)布,DeepSeek R1DeepSeek AI 開發(fā)的第一代推理
    的頭像 發(fā)表于 02-08 10:30 ?5584次閱讀
    <b class='flag-5'>DeepSeek-R1</b>本地<b class='flag-5'>部署</b>指南,開啟你的AI探索之旅

    廣和通支持DeepSeek-R1蒸餾模型

    近期,國產(chǎn)大模型DeepSeek憑借開放性、更低訓(xùn)練成本、端側(cè)部署等優(yōu)勢,迅速成為增速最快的AI應(yīng)用之一,推動(dòng)AI普惠化。目前,廣和通高算力AI模組及解決方案全面支持小尺寸的DeepSeek-
    的頭像 發(fā)表于 02-11 09:41 ?586次閱讀

    Deepseek R1模型離線部署教程

    DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研發(fā)的推理模型 。DeepSeek-R1采用強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練,旨在提升推理能力,尤其擅長數(shù)學(xué)、代碼和自然語言
    的頭像 發(fā)表于 02-12 09:37 ?1790次閱讀
    <b class='flag-5'>Deepseek</b> <b class='flag-5'>R1</b>大<b class='flag-5'>模型</b>離線<b class='flag-5'>部署</b>教程

    超星未來驚蟄R1芯片適配DeepSeek-R1模型

    日前,超星未來研發(fā)團(tuán)隊(duì)成功完成了驚蟄R1芯片對(duì)DeepSeek-R1模型的適配工作,實(shí)現(xiàn)了與用戶之間的流暢對(duì)話。這一成果標(biāo)志著超星未來在人工智能芯片和模型優(yōu)化方面取得了重要進(jìn)展
    的頭像 發(fā)表于 02-13 14:05 ?690次閱讀

    宇芯基于T527成功部署DeepSeek-R1

    近日,宇芯成功在全志T527 Linux系統(tǒng)上本地部署并運(yùn)行了DeepSeek-R1 1.5B模型
    的頭像 發(fā)表于 02-15 09:06 ?1087次閱讀
    宇芯基于T527成功<b class='flag-5'>部署</b><b class='flag-5'>DeepSeek-R1</b>

    行芯完成DeepSeek-R1模型本地化部署

    近日,行芯正式宣布完成 DeepSeek-R1模型本地化部署,實(shí)現(xiàn)在多場景、多產(chǎn)品中應(yīng)用。解鎖“芯”玩法,開啟“芯”未來!
    的頭像 發(fā)表于 02-24 15:17 ?901次閱讀

    在英特爾哪吒開發(fā)套件上部署DeepSeek-R1的實(shí)現(xiàn)方式

    隨著人工智能技術(shù)的快速發(fā)展,企業(yè)對(duì) AI 模型部署方式有了更多選擇。本地部署 DeepSeek-R1 模型具有以下顯著優(yōu)勢,使其成為許多企
    的頭像 發(fā)表于 03-12 13:38 ?577次閱讀
    在英特爾哪吒開發(fā)套件上<b class='flag-5'>部署</b><b class='flag-5'>DeepSeek-R1</b>的實(shí)現(xiàn)方式

    NVIDIA RTX 5880 Ada與Qwen3系列模型實(shí)測報(bào)告

    全場景的 AI 模型矩陣。其中旗艦模型 Qwen3-235B-A22B 在代碼、數(shù)學(xué)及通用能力基準(zhǔn)測試中,展現(xiàn)出與 DeepSeek-R1、OpenAI-o1、Grok-3、Gemin
    的頭像 發(fā)表于 05-09 15:05 ?972次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> <b class='flag-5'>5880</b> <b class='flag-5'>Ada</b>與Qwen3系列<b class='flag-5'>模型</b><b class='flag-5'>實(shí)測報(bào)告</b>