一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA RTX 5880 Ada與Qwen3系列模型實測報告

麗臺科技 ? 來源:麗臺科技 ? 2025-05-09 15:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,阿里巴巴通義千問團(tuán)隊正式推出新一代開源大語言模型——Qwen3 系列,該系列包含 6 款 Dense 稠密模型和 2 款 MoE 混合專家模型,參數(shù)規(guī)模覆蓋 0.6B 至 235B,構(gòu)建了覆蓋全場景的 AI 模型矩陣。其中旗艦?zāi)P?Qwen3-235B-A22B 在代碼、數(shù)學(xué)及通用能力基準(zhǔn)測試中,展現(xiàn)出與 DeepSeek-R1、OpenAI-o1、Grok-3、Gemini-2.5-Pro 等頂級模型比肩的實力。

而對于Qwen3-30B-A3B,其激活量只有 QwQ-32B 的 10%,表現(xiàn)超過 DeepSeek V3/GPT-4o。就中小型企業(yè)的定制化需求而已,從部署成本角度看,Qwen3-30B-A3B 相較于先前熱門 Deepseek-R1-70B(BF16),部署成本降低約 40%,其模型性能表現(xiàn)接近 Qwen2.5-72B 級別的性能。使得中小企業(yè)在有限預(yù)算下即可實現(xiàn)高水準(zhǔn)的 AI 應(yīng)用定制,進(jìn)一步降低了技術(shù)落地門檻。

Qwen3 集合 6 款 Dense 稠密模型:從適用于輕量級任務(wù)的 Qwen3-0.6B、1.7B,到應(yīng)對中大型復(fù)雜場景的 4B、8B、14B,再到超大規(guī)模算力需求的 32B,以及 2 款 MoE 模型 Qwen3-30B-A3B、Qwen3-235B-A22B,形成豐富完備的模型體系,全方位滿足不同層次、不同類型的應(yīng)用需求。

505d2180-2c6a-11f0-9310-92fbcf53809c.png

5071c39c-2c6a-11f0-9310-92fbcf53809c.png

▲ Qwen3 系列模型一覽

1 Qwen3 技術(shù)突破與核心優(yōu)勢

作為實現(xiàn)"雙模推理"的開源模型,Qwen3 創(chuàng)新性融合了深度思考與快速響應(yīng)機(jī)制:混合推理模型,具備思考和快速回答雙模式。

思考模式:模型通過多步推理和深度分析以解決復(fù)雜問題,類似人類理性決策過程。這種模式適用于需要深入思考的復(fù)雜問題。

快速回答(非思考模式):模型提供快速、近乎即時的響應(yīng),直接基于已有的知識和簡單的邏輯關(guān)系生成答案,而不會進(jìn)行深入的多步推理。這種模式適用于那些對速度要求高于深度的簡單問題。

簡單來說,類似于將 DeepSeek-R1 和 V3 揉在一起。既可以當(dāng)沒有思維鏈的普通模型,又可以開啟深度思考模式變成推理模型。用戶可以通過設(shè)置enable_thinking參數(shù)來實現(xiàn)兩種模式的切換。

5082b8dc-2c6a-11f0-9310-92fbcf53809c.png

▲ Qwen3 思考模式

509b9b40-2c6a-11f0-9310-92fbcf53809c.png

▲ Qwen3 快速回答

此外,Qwen3 還具備以下優(yōu)勢:

模型能力躋身全球 top。

MoE 和 Dense 兩種架構(gòu)共 8 款模型,基本覆蓋所有應(yīng)用場景。

Agent 能力升級:優(yōu)化了 Qwen3 模型的 Agent 和代碼能力,同時支持最新的 MCP(模型上下文協(xié)議)。

支持 119 種語言。

海量訓(xùn)練數(shù)據(jù):Qwen3 使用的數(shù)據(jù)量達(dá)到了約 36 萬億個 token。

Qwen3 系列通過"小而強(qiáng)大"的技術(shù)突破(如 30B 模型超越 72B 前輩),為中小企業(yè)提供高性價比 AI 解決方案。其 Apache2.0 開源協(xié)議和免費商用特性,能夠配合 AI 一體機(jī)基礎(chǔ)設(shè)施支持,推動 AI 應(yīng)用進(jìn)入"平民化"時代。隨著混合推理模式的普及,Qwen3 或?qū)⒅匦露x大模型在智能客服、代碼開發(fā)、科研創(chuàng)新等領(lǐng)域的應(yīng)用范式。

2 2/4 卡 RTX 5880 Ada 實測報告

2.1 測試環(huán)境

50b21f0a-2c6a-11f0-9310-92fbcf53809c.png

2.2 測試指標(biāo)

首次 token 生成時間(Time to First Token, TTFT(s))越低,模型響應(yīng)速度越快;每個輸出 token 的生成時間(Time Per Output Token, TPOT(s))越低,模型生成文本的速度越快。

輸出 Token 吞吐量(Output Token Per Sec, TPS):反映系統(tǒng)每秒能夠生成的輸出 token 數(shù)量,是評估系統(tǒng)響應(yīng)速度的關(guān)鍵指標(biāo)。多并發(fā)情況下,使用單個請求的平均吞吐量作為參考指標(biāo)。

首次 Token 生成時間(Time to First Token, TTFT(s)):指從發(fā)出請求到接收到第一個輸出 token 所需的時間,這對實時交互要求較高的應(yīng)用尤為重要。多并發(fā)情況下,平均首次 token 時間 (s) 作為參考指標(biāo)。

單 Token 生成時間(Time Per Output Token,TPOT(s)):系統(tǒng)生成每個輸出 token 所需的時間,直接影響了整個請求的完成速度。多并發(fā)情況下,使用平均每個輸出 token 的時間 (s) 作為參考指標(biāo)。這里多并發(fā)時跟單個請求的 TPOT 不一樣,多并發(fā) TPOT 計算不包括生成第一個 token 的時間。

并發(fā)數(shù)(Concurrency):指的是系統(tǒng)同時處理的任務(wù)數(shù)量。適當(dāng)?shù)牟l(fā)設(shè)置可以在保證響應(yīng)速度的同時最大化資源利用率,但過高的并發(fā)數(shù)可能導(dǎo)致請求打包過多,從而增加單個請求的處理時間,影響用戶體驗。

2.3 測試場景

在實際業(yè)務(wù)部署中,輸入/輸出 token 的數(shù)量直接影響服務(wù)性能與資源利用率。本次測試針對兩種不同應(yīng)用場景設(shè)計了具體的輸入 token 和輸出 token 配置,以評估模型在不同任務(wù)中的表現(xiàn)。具體如下:

50ce69e4-2c6a-11f0-9310-92fbcf53809c.png

2.4 測試結(jié)果

4 卡 NVIDIA RTX 5880 Ada 測試

文本生成場景測試中,單請求吞吐量約39.07tokens/s,并發(fā) 200 時降至約10.59tokens/s。

50dbecf4-2c6a-11f0-9310-92fbcf53809c.png

50ee9318-2c6a-11f0-9310-92fbcf53809c.png

▲ 4 卡 RTX 5880 Ada 文本生成場景測試結(jié)果圖表

2025 麗臺(上海)信息科技有限公司

本文所有測試結(jié)果均由麗臺科技實測得出,如果您有任何疑問或需要使用此測試結(jié)果,請聯(lián)系麗臺科技(下同)

文本總結(jié)場景測試中,單請求吞吐量約38.35tokens/s,并發(fā) 150 時降至約10.78tokens/s。

5106a480-2c6a-11f0-9310-92fbcf53809c.png

511ce358-2c6a-11f0-9310-92fbcf53809c.png

▲ 4 卡 RTX 5880 Ada 文本總結(jié)場景測試結(jié)果圖表

2 卡 NVIDIA RTX 5880 Ada 測試

文本生成場景測試中,單請求吞吐量約25.14tokens/s,并發(fā) 150 時降至約9.24tokens/s。

51357a08-2c6a-11f0-9310-92fbcf53809c.png

514b1aca-2c6a-11f0-9310-92fbcf53809c.png

▲ 2 卡 RTX 5880 Ada 文本生成場景測試結(jié)果圖表

文本總結(jié)場景測試中,單請求吞吐量約23.63tokens/s,并發(fā) 150 時降至約8.75tokens/s。

5163e172-2c6a-11f0-9310-92fbcf53809c.png

5174974c-2c6a-11f0-9310-92fbcf53809c.png

▲ 2 卡 RTX 5880 Ada 文本總結(jié)場景測試結(jié)果圖表

3 總結(jié)

3.1 性能亮點速覽

高并發(fā)文本生成場景:4 卡優(yōu)勢顯著

輸入 32 tokens + 輸出 1024 tokens(文本生成)

4 卡配置:150 并發(fā)下吞吐量13.30tokens/s,較 2 卡(9.24 tokens/s)提升43.94%;

延遲表現(xiàn):4 卡的“首次 token 時間”顯著低于 2 卡,響應(yīng)更敏捷。

文本總結(jié)場景:吞吐與延遲平衡

輸入 512 tokens + 輸出 64 tokens(文本總結(jié))

4 卡配置:150 并發(fā)下吞吐量10.78tokens/s,延遲控制在1.62s內(nèi);

2 卡配置:適配 100 并發(fā)以內(nèi)場景,吞吐量12.52tokens/s,滿足日常推理需求。

吞吐量衰減率:4 卡更穩(wěn)定

隨著并發(fā)數(shù)從 1 增至 200,并發(fā)量翻倍時,4 卡吞吐量衰減率(63%),體現(xiàn)更強(qiáng)的負(fù)載均衡能力。

3.2 Leadtek AI 一體機(jī)

51918316-2c6a-11f0-9310-92fbcf53809c.png

▲ Leadtek AI 一體機(jī)

基于NVIDIA RTX 5880 Ada顯卡的 Leadtek AI 一體機(jī),搭配通義千問 Qwen3-30B-A3B 模型,在大模型推理場景中展現(xiàn)出卓越性能:

4 卡配置:在高并發(fā)(200 并發(fā))下仍能保持10.59 tokens/s的吞吐量,且單請求延遲可控;

2 卡配置:在中低并發(fā)場景下表現(xiàn)穩(wěn)定,滿足中小型任務(wù)需求;

NVIDIA RTX 5880 Ada完美適配 Qwen3-30B-A3B 的 MoE 結(jié)構(gòu)(激活參數(shù)僅 30 億,性能超越 QwQ-32B),實現(xiàn)高效能比。

適用場景

智能辦公與教育:智能辦公助手(如日程管理、文檔生成);個性化學(xué)習(xí)輔導(dǎo)(根據(jù)學(xué)生進(jìn)度定制內(nèi)容);教育領(lǐng)域的智能答疑與內(nèi)容創(chuàng)作。

企業(yè)級應(yīng)用與開發(fā):智能客服(高效處理用戶咨詢);復(fù)雜任務(wù)推理(數(shù)學(xué)計算、編程分析,需思考模式);API 集成與微調(diào)(適配特定業(yè)務(wù)需求,如工具調(diào)用)。

目前,麗臺訓(xùn)推一體機(jī)、大模型一體機(jī)等都已集成 Qwen3 系列模型。

Leadtek AI 一體機(jī)憑借NVIDIA RTX 5880 Ada的硬核性能與Qwen3-30B-A3B的卓越優(yōu)化,重新定義了本地化大模型推理的天花板。無論是追求極限吞吐的商業(yè)場景,還是注重成本效益的中小團(tuán)隊,都能尋求到最優(yōu)解。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34765

    瀏覽量

    276916
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3642

    瀏覽量

    43659
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3085

    瀏覽量

    3963

原文標(biāo)題:Qwen3 正式發(fā)布!30B 大模型 4 卡 RTX 5880 Ada 實測

文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Intel OpenVINO? Day0 實現(xiàn)阿里通義 Qwen3 快速部署

    本文將以 Qwen3-8B 為例,介紹如何利用 OpenVINO 的 Python API 在英特爾平臺(GPU, NPU)Qwen3 系列模型
    的頭像 發(fā)表于 05-11 11:36 ?748次閱讀
    Intel OpenVINO? Day0 實現(xiàn)阿里通義 <b class='flag-5'>Qwen3</b> 快速部署

    在openEuler上基于vLLM Ascend部署Qwen3

    近日,阿里巴巴正式發(fā)布新一代Qwen大語言模型系列Qwen3Qwen3-MoE),在模型規(guī)模
    的頭像 發(fā)表于 05-07 14:44 ?532次閱讀
    在openEuler上基于vLLM Ascend部署<b class='flag-5'>Qwen3</b>

    NVIDIA使用Qwen3系列模型的最佳實踐

    阿里巴巴近期發(fā)布了其開源的混合推理大語言模型 (LLM) 通義千問 Qwen3,此次 Qwen3 開源模型系列包含兩款混合專家
    的頭像 發(fā)表于 05-08 11:45 ?1013次閱讀
    <b class='flag-5'>NVIDIA</b>使用<b class='flag-5'>Qwen3</b><b class='flag-5'>系列</b><b class='flag-5'>模型</b>的最佳實踐

    NVIDIA RTX 5000 Ada顯卡性能實測報告

    單精度浮點運算性能是顯卡一項重要的指標(biāo),很多計算都是使用單精度來完成的。從測試結(jié)果來看 RTX 5000 Ada 的性能達(dá)到了 63.1T,而 RTX A5000 只有 30.5T。由此, R
    的頭像 發(fā)表于 12-21 15:58 ?1.1w次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> 5000 <b class='flag-5'>Ada</b>顯卡性能<b class='flag-5'>實測報告</b>

    RTX 5880 Ada Generation GPU與RTX? A6000 GPU對比

    NVIDIA RTX? 5880 Ada Generation GPU 是目前國內(nèi)重量級 GPU,基于全新 NVIDIA
    的頭像 發(fā)表于 04-19 10:20 ?3735次閱讀
    <b class='flag-5'>RTX</b> <b class='flag-5'>5880</b> <b class='flag-5'>Ada</b> Generation GPU與<b class='flag-5'>RTX</b>? A6000 GPU對比

    NVIDIA RTX 4500 AdaNVIDIA RTX A5000的對比

    基于大眾所熟知的 NVIDIA Ada Lovelace 架構(gòu),NVIDIA RTX 4500 Ada Generation是一款介于
    的頭像 發(fā)表于 03-05 10:30 ?1270次閱讀

    NVIDIA RTX 5880 Ada顯卡部署DeepSeek-R1模型實測報告

    DeepSeek-R1 模型在 4 張 NVIDIA RTX 5880 Ada 顯卡配置下,面對短文本生成、長文本生成、總結(jié)概括三大實戰(zhàn)場景
    的頭像 發(fā)表于 03-17 11:12 ?1262次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> <b class='flag-5'>5880</b> <b class='flag-5'>Ada</b>顯卡部署DeepSeek-R1<b class='flag-5'>模型</b><b class='flag-5'>實測報告</b>

    壁仞科技完成阿里巴巴通義千問Qwen3系列模型支持

    4月29日,阿里巴巴通義千問發(fā)布并開源8款新版Qwen3系列“混合推理模型”(簡稱“Qwen3”)。Qwen3發(fā)布后數(shù)小時內(nèi),壁仞科技完成全
    的頭像 發(fā)表于 04-30 15:19 ?659次閱讀

    幾B都有!BM1684X一鍵適配全系列Qwen3

    Qwen3發(fā)布,大小尺寸通吃Qwen3一發(fā)布,登頂開源大模型排行榜!235B、32B、8B、4B、1.7B云邊端全尺寸模型,BF16和FP8兩種精度,一次性發(fā)布,無論云端大卡還是邊緣A
    的頭像 發(fā)表于 04-30 18:37 ?481次閱讀
    幾B都有!BM1684X一鍵適配全<b class='flag-5'>系列</b><b class='flag-5'>Qwen3</b>

    中科曙光DeepAI深算智能引擎全面支持Qwen3

    日前,Qwen3正式發(fā)布并全部開源8款混合推理模型。作為Qwen系列中的最新一代大型語言模型Qwen3
    的頭像 發(fā)表于 05-06 15:17 ?485次閱讀

    摩爾線程GPU率先支持Qwen3系列模型

    近日,阿里云正式發(fā)布Qwen3系列的8款開源混合推理模型。摩爾線程團(tuán)隊在模型發(fā)布當(dāng)天,率先完成了Qwen3
    的頭像 發(fā)表于 05-07 15:24 ?404次閱讀

    寒武紀(jì)率先支持Qwen3系列模型

    近日,阿里Qwen團(tuán)隊一口氣上新8大模型,Qwen3正式發(fā)布并全部開源。
    的頭像 發(fā)表于 05-07 15:51 ?346次閱讀

    后摩智能NPU適配通義千問Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列開源混合推理模型。用時不到1天,后摩智能自研NPU迅速實現(xiàn)Qwen3 系列
    的頭像 發(fā)表于 05-07 16:46 ?471次閱讀

    Arm CPU適配通義千問Qwen3系列模型

    近日,阿里巴巴開源了新一代通義千問模型 Qwen3,Arm 率先成為首批成功適配該模型的計算平臺廠商。與此同時,Arm 面向人工智能 (AI) 框架開發(fā)者的開源計算內(nèi)核 Arm KleidiAI
    的頭像 發(fā)表于 05-12 16:37 ?518次閱讀

    壁仞科技完成Qwen3旗艦模型適配

    近日,在高效適配Qwen3系列模型推理后,壁仞科技宣布完成旗艦版Qwen3-235B-A22B模型的訓(xùn)練適配和優(yōu)化。由此,壁仞科技已實現(xiàn)
    的頭像 發(fā)表于 05-16 16:23 ?347次閱讀