一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在openEuler上基于vLLM Ascend部署Qwen3

開放原子 ? 來源:開放原子 ? 2025-05-07 14:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,阿里巴巴正式發(fā)布新一代Qwen大語言模型系列(Qwen3與Qwen3-MoE),在模型規(guī)模與性能上實(shí)現(xiàn)多方面升級。openEuler社區(qū)團(tuán)隊(duì)與vLLM社區(qū)通力合作,在第一時(shí)間完成Qwen3模型驗(yàn)證。目前,開發(fā)者可以基于OpenAtom openEuler(簡稱“openEuler”)和vLLM在昇騰設(shè)備上完成 Qwen3 推理。

7e9ed7b2-24e2-11f0-9310-92fbcf53809c.png

新一代Qwen大語言模型主要包含2個(gè)版本:

?Qwen3,包括Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B

?Qwen3-MoE,包括Qwen3-MoE-15B-A2B、Qwen3-30B-A3B、Qwen3-235B-A22B

早在4月中旬,vLLM發(fā)布的v0.8.4版本中已經(jīng)包括對Qwen3最新結(jié)構(gòu)的支持。隨即,vLLM社區(qū)的vLLM Ascend團(tuán)隊(duì)同步發(fā)布了v0.8.4rc1版本,并完成了跟進(jìn)和適配。在該版本中,openEuler成為上游默認(rèn)支持的操作系統(tǒng)之一,同步發(fā)布容器鏡像。

Qwen3發(fā)布后,openEuler社區(qū)與vLLM社區(qū)通力合作,在第一時(shí)間完成Qwen3模型驗(yàn)證,這意味著開發(fā)者現(xiàn)在就可以一鍵拉起基于openEuler的vLLM-Ascend容器鏡像在昇騰設(shè)備上實(shí)現(xiàn)Qwen3的推理。

快速體驗(yàn)Qwen3

體驗(yàn)之前,您需確認(rèn)固件/驅(qū)動已正確安裝,可運(yùn)行如下命令確認(rèn):

npu-smi info

您可以使用如下命令,一鍵拉起基于openEuler的vLLM-Ascend容器鏡像:

# Update DEVICE according to your device (/dev/davinci[0-7])
exportDEVICE=/dev/davinci0
# Update the openeuler-vllm-ascend image
exportIMAGE=quay.io/ascend/vllm-ascend:v0.8.4rc2-openeuler
docker run --rm
--name openeuler-vllm-ascend 
--device$DEVICE
--device /dev/davinci_manager 
--device /dev/devmm_svm 
--device /dev/hisi_hdc 
-v /usr/local/dcmi:/usr/local/dcmi 
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi 
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ 
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info 
-v /etc/ascend_install.info:/etc/ascend_install.info 
-v /root/.cache:/root/.cache 
-p 8000:8000 
-it$IMAGEbash

進(jìn)入容器環(huán)境后,使用ModelScope平臺進(jìn)行下載加速:

exportVLLM_USE_MODELSCOPE=true

在線推理

您可以使用vLLM和vLLM Ascend一鍵部署在線推理服務(wù):

vllmserve Qwen/Qwen3-8B

服務(wù)啟動后,您可以通過curl請求來進(jìn)行內(nèi)容生成:

curl http://localhost:8000/v1/completions 
-H"Content-Type: application/json"
-d '{"model":"Qwen/Qwen3-8B","prompt":"The future of AI is","max_tokens":5, "temperature":0}'|python3-m json.tool

離線推理

您可以使用vLLM和vLLM Ascend進(jìn)行離線推理。

以下是example.py的示例:

fromvllmimportLLM, SamplingParams
prompts = [
 "Hello, my name is",
 "The future of AI is",]
# Create a sampling params object.
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
# Create an LLM.
llm = LLM(model="Qwen/Qwen3-8B")
# Generate texts from the prompts.
outputs = llm.generate(prompts, sampling_params)
foroutputinoutputs:
  prompt = output.prompt
  generated_text = output.outputs[0].text
 print(f"Prompt:{prompt!r}, Generated text:{generated_text!r}")

運(yùn)行以上腳本即可使用vLLM和vLLM Ascend進(jìn)行推理:

#exportVLLM_USE_MODELSCOPE=trueto speed up downloadifhuggingface is not reachable.
python example.py

推理結(jié)果如下圖所示:

7eb22d3a-24e2-11f0-9310-92fbcf53809c.png

問題反饋

若您在openEuler上部署與運(yùn)行Qwen3時(shí)遇到任何問題,可在openEuler官方論壇【Qwen3 on openEuler】問題收集與討論專帖下面進(jìn)行反饋。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 操作系統(tǒng)
    +關(guān)注

    關(guān)注

    37

    文章

    7152

    瀏覽量

    125620
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50441
  • 昇騰
    +關(guān)注

    關(guān)注

    1

    文章

    158

    瀏覽量

    7016
  • openEuler
    +關(guān)注

    關(guān)注

    2

    文章

    328

    瀏覽量

    6342

原文標(biāo)題:搶先體驗(yàn)!在openEuler上基于vLLM Ascend部署Qwen3

文章出處:【微信號:開放原子,微信公眾號:開放原子】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    Intel OpenVINO? Day0 實(shí)現(xiàn)阿里通義 Qwen3 快速部署

    本文將以 Qwen3-8B 為例,介紹如何利用 OpenVINO 的 Python API 英特爾平臺(GPU, NPU)Qwen3 系列模型。
    的頭像 發(fā)表于 05-11 11:36 ?856次閱讀
    Intel OpenVINO? Day0 實(shí)現(xiàn)阿里通義 <b class='flag-5'>Qwen3</b> 快速<b class='flag-5'>部署</b>

    NVIDIA使用Qwen3系列模型的最佳實(shí)踐

    阿里巴巴近期發(fā)布了其開源的混合推理大語言模型 (LLM) 通義千問 Qwen3,此次 Qwen3 開源模型系列包含兩款混合專家模型 (MoE),235B-A22B(總參數(shù) 2,350 億,激活參數(shù)
    的頭像 發(fā)表于 05-08 11:45 ?1277次閱讀
    NVIDIA使用<b class='flag-5'>Qwen3</b>系列模型的最佳實(shí)踐

    使用 Canonical MAAS 部署 openEuler 測試

    云、HPC 場景時(shí),使用MAAS 是減少運(yùn)維成本的最佳選擇之一。本文的測試 中,展示了如何通過Packer 為 MAAS 構(gòu)建 openEuler 映像并驗(yàn)證MAAS部署,可使用的臨時(shí)解決方法以及如
    發(fā)表于 08-24 11:43

    一次 Rancher 和 openEuler云之旅

    22.03 LTSRancherv2.6.8K3sv1.24.4+k3s1RKE2v1.24.4+rke2r1構(gòu)建 openEuler AMIopenEuler Cloud Image 這方面還不夠完善,目前主要提供
    發(fā)表于 09-29 10:57

    壁仞科技完成阿里巴巴通義千問Qwen3全系列模型支持

    ,Qwen3部署成本大幅下降 Qwen3包括兩款混合專家(MoE)模型Qwen3-235B-A22B和Qwen3-30B-A3B;同時(shí)還包括
    的頭像 發(fā)表于 04-30 15:19 ?774次閱讀

    幾B都有!BM1684X一鍵適配全系列Qwen3

    Qwen3發(fā)布,大小尺寸通吃Qwen3一發(fā)布,登頂開源大模型排行榜!235B、32B、8B、4B、1.7B云邊端全尺寸模型,BF16和FP8兩種精度,一次性發(fā)布,無論云端大卡還是邊緣AI設(shè)備,都可
    的頭像 發(fā)表于 04-30 18:37 ?580次閱讀
    幾B都有!BM1684X一鍵適配全系列<b class='flag-5'>Qwen3</b>

    中科曙光DeepAI深算智能引擎全面支持Qwen3

    日前,Qwen3正式發(fā)布并全部開源8款混合推理模型。作為Qwen系列中的最新一代大型語言模型,Qwen3推理、指令遵循、工具調(diào)用、多語言能力等方面實(shí)現(xiàn)全面增強(qiáng)。
    的頭像 發(fā)表于 05-06 15:17 ?557次閱讀

    摩爾線程GPU率先支持Qwen3全系列模型

    近日,阿里云正式發(fā)布Qwen3系列的8款開源混合推理模型。摩爾線程團(tuán)隊(duì)模型發(fā)布當(dāng)天,率先完成了Qwen3全系列模型全功能GPU的高效支
    的頭像 發(fā)表于 05-07 15:24 ?484次閱讀

    寒武紀(jì)率先支持Qwen3全系列模型

    近日,阿里Qwen團(tuán)隊(duì)一口氣上新8大模型,Qwen3正式發(fā)布并全部開源。
    的頭像 發(fā)表于 05-07 15:51 ?424次閱讀

    后摩智能NPU適配通義千問Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列開源混合推理模型。用時(shí)不到1天,后摩智能自研NPU迅速實(shí)現(xiàn)Qwen3 系列模型(Qwen3 0.6B-14B)端邊側(cè)的高效
    的頭像 發(fā)表于 05-07 16:46 ?572次閱讀

    MediaTek天璣9400率先完成阿里Qwen3模型部署

    通義大模型團(tuán)隊(duì)天璣 9400 旗艦移動平臺上率先完成 Qwen3(千問 3)的端側(cè)部署。未來,搭載天璣 9400 移動平臺的設(shè)備可充分發(fā)揮端側(cè) AI 性能潛力,運(yùn)行千問
    的頭像 發(fā)表于 05-08 10:11 ?505次閱讀

    NVIDIA RTX 5880 Ada與Qwen3系列模型實(shí)測報(bào)告

    近日,阿里巴巴通義千問團(tuán)隊(duì)正式推出新一代開源大語言模型——Qwen3 系列,該系列包含 6 款 Dense 稠密模型和 2 款 MoE 混合專家模型,參數(shù)規(guī)模覆蓋 0.6B 至 235B,構(gòu)建了覆蓋
    的頭像 發(fā)表于 05-09 15:05 ?972次閱讀
    NVIDIA RTX 5880 Ada與<b class='flag-5'>Qwen3</b>系列模型實(shí)測報(bào)告

    Arm CPU適配通義千問Qwen3系列模型

    與阿里巴巴開源的輕量級深度學(xué)習(xí)框架 MNN 已深度集成。得益于此,Qwen3-0.6B、Qwen3-1.7B 及 Qwen3-4B 三款模型能夠搭載 Arm 架構(gòu) CPU 的移動設(shè)
    的頭像 發(fā)表于 05-12 16:37 ?657次閱讀

    壁仞科技完成Qwen3旗艦?zāi)P瓦m配

    近日,高效適配Qwen3系列模型推理后,壁仞科技宣布完成旗艦版Qwen3-235B-A22B模型的訓(xùn)練適配和優(yōu)化。由此,壁仞科技已實(shí)現(xiàn)Qwen3系列模型
    的頭像 發(fā)表于 05-16 16:23 ?413次閱讀

    廣和通加速通義千問Qwen3端側(cè)全面落地

    6月,廣和通宣布:率先完成通義千問Qwen3系列混合推理模型高通QCS8550平臺端側(cè)的適配部署。廣和通通過定制化混合精度量化方案與創(chuàng)新硬件加速算法,成功突破Qwen3新型架構(gòu)
    的頭像 發(fā)表于 06-25 15:35 ?333次閱讀