一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用vLLM+OpenVINO加速大語言模型推理

英特爾物聯(lián)網(wǎng) ? 來源:英特爾物聯(lián)網(wǎng) ? 2024-11-15 14:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:

武卓 博士 英特爾 OpenVINO 布道師

隨著大語言模型的廣泛應(yīng)用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰(zhàn)。vLLM 作為高效的大模型推理框架,通過 OpenVINO 的優(yōu)化,vLLM 用戶不僅能夠更高效地部署大模型,還能提升吞吐量和處理能力,從而在成本、性能和易用性上獲得最佳平衡。這種優(yōu)化對于需要快速響應(yīng)和節(jié)省資源的云端或邊緣推理應(yīng)用尤為重要。目前,OpenVINO 最新版本 OpenVINO 2024.4 中已經(jīng)支持與 vLLM 框架的集成,只需要一步安裝,一步配置,就能夠以零代碼修改的方式,將 OpenVINO 作為推理后端,在運(yùn)行 vLLM 對大語言模型的推理時獲得推理加速。

15954672-9db3-11ef-93f3-92fbcf53809c.png

01vLLM 簡介

vLLM 是由加州大學(xué)伯克利分校開發(fā)的開源框架,專門用于高效實(shí)現(xiàn)大語言模型(LLMs)的推理和部署。它具有以下優(yōu)勢:

高性能:相比 HuggingFace Transformers 庫,vLLM 能提升多達(dá)24倍的吞吐量。

易于使用:無需對模型架構(gòu)進(jìn)行任何修改即可實(shí)現(xiàn)高性能推理。

低成本:vLLM 的出現(xiàn)使得大模型的部署更加經(jīng)濟(jì)實(shí)惠。

02一步安裝:搭建 vLLM+OpenVINO 阿里云ECS開發(fā)環(huán)境

下面我們以在阿里云的免費(fèi)云服務(wù)器 ECS 上運(yùn)行通義千問 Qwen2.5 模型為例,詳細(xì)介紹如何通過簡單的兩步,輕松實(shí)現(xiàn) OpenVINO 對 vLLM 大語言模型推理服務(wù)的加速。

在阿里云上申請免費(fèi)的云服務(wù)器 ECS 資源,并選擇 Ubuntu22.04 作為操作系統(tǒng)。

159ee2fe-9db3-11ef-93f3-92fbcf53809c.png

接著進(jìn)行遠(yuǎn)程連接后,登錄到終端操作界面。

請按照以下步驟配置開發(fā)環(huán)境:

1. 更新系統(tǒng)并安裝 Python 3 及虛擬環(huán)境:

sudo apt-get update -y
sudo apt-get install python3 python3.10-venv -y

2. 建立并激活 Python 虛擬環(huán)境:

python3 -m venv vllm_env
source vllm_env/bin/activate

3. 克隆 vLLM 代碼倉庫并安裝依賴項(xiàng):

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install --upgrade 
pippip install -r requirements-build.txt --extra-index-url https://download.pytorch.org/whl/cpu

4. 安裝 vLLM 的 OpenVINO 后端:

PIP_EXTRA_INDEX_URL="https://download.pytorch.org/whl/cpu" VLLM_TARGET_DEVICE=openvino python -m pip install -v .

至此,環(huán)境搭建完畢。

03魔搭社區(qū)大語言模型下載

接下來,去魔搭社區(qū)下載最新的通義千問2.5系列大語言模型,這里以 Qwen2.5-0.5B-Instruct 模型的下載為例。

模型下載地址為:

https://www.modelscope.cn/models/Qwen/Qwen2.5-0.5B-Instruct

魔搭社區(qū)為開發(fā)者提供了多種模型下載的方式,這里我們以“命令行下載“方式為例。

首先用以下命令安裝 modelscope:

pip install modelscope

接著運(yùn)行以下命令完成模型下載:

modelscope download --model Qwen/Qwen2.5-0.5B-Instruct

下載后的模型,默認(rèn)存放在以下路徑中:

/root/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct

本次運(yùn)行的推理腳本,我們以 vllm 倉庫中 examples 文件夾中的 offline_inference.py 推理腳本為例。由于 vLLM 默認(rèn)的腳本是從 Hugging Face 平臺上直接下載模型,而由于網(wǎng)絡(luò)連接限制無法從該平臺直接下載模型,因此我們采用上面的方式將模型從魔搭社區(qū)中下載下來,接下來使用以下命令,修改腳本中第14行,將原腳本中的模型名稱“"facebook/opt-125m"”替換為下載后存放Qwen2.5模型的文件夾路徑”

/root/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct“即可,效果如下圖所示。

15c54458-9db3-11ef-93f3-92fbcf53809c.png

04一步配置:配置并運(yùn)行推理腳本

接下來,在運(yùn)行推理腳本,完成 LLMs 推理之前,我們再針對 OpenVINO 作為推理后端,進(jìn)行一些優(yōu)化的配置。使用如下命令進(jìn)行配置:

export VLLM_OPENVINO_KVCACHE_SPACE=1 
export VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8 
export VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON

VLLM_OPENVINO_KVCACHE_SPACE:用于指定鍵值緩存(KV Cache)的大?。ɡ?,VLLM_OPENVINO_KVCACHE_SPACE=100 表示為 KV 緩存分配 100 GB 空間)。較大的設(shè)置可以讓 vLLM 支持更多并發(fā)請求。由于本文運(yùn)行在阿里云的免費(fèi) ECS 上空間有限,因此本次示例中我們將該值設(shè)置為1。實(shí)際使用中,該參數(shù)應(yīng)根據(jù)用戶的硬件配置和內(nèi)存管理方式進(jìn)行設(shè)置。

VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8:用于控制 KV 緩存的精度。默認(rèn)情況下,會根據(jù)平臺選擇使用 FP16 或 BF16 精度。

VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS:用于啟用模型加載階段的 U8 權(quán)重壓縮。默認(rèn)情況下,權(quán)重壓縮是關(guān)閉的。通過設(shè)置 VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON 來開啟權(quán)重壓縮。

為了優(yōu)化 TPOT(Token Processing Over Time)和 TTFT(Time To First Token)性能,可以使用 vLLM 的分塊預(yù)填充功能(--enable-chunked-prefill)。根據(jù)實(shí)驗(yàn)結(jié)果,推薦的批處理大小為 256(--max-num-batched-tokens=256)。

最后,讓我們來看看 vLLM 使用 OpenVINO 后端運(yùn)行大語言模型推理的效果,運(yùn)行命令如下:

python offline_inference.py

除了運(yùn)行以上配置,可以利用 OpenVINO 在 CPU 上輕松實(shí)現(xiàn) vLLM 對大語言模型推理加速外,也可以利用如下配置在英特爾集成顯卡和獨(dú)立顯卡等 GPU 設(shè)備上獲取 vLLM 對大語言模型推理加速。

export VLLM_OPENVINO_DEVICE=GPU 
export VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON

05結(jié)論

通過在 vLLM 中集成 OpenVINO 優(yōu)化,用戶能夠顯著提升大語言模型的推理效率,減少延遲并提高資源利用率。簡單的配置步驟即可實(shí)現(xiàn)推理加速,使得在阿里云等平臺上大規(guī)模并發(fā)請求的處理變得更加高效和經(jīng)濟(jì)。OpenVINO 的優(yōu)化讓用戶在保持高性能的同時降低部署成本,為 AI 模型的實(shí)時應(yīng)用和擴(kuò)展提供了強(qiáng)有力的支持。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10188

    瀏覽量

    174277
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3085

    瀏覽量

    3963
  • OpenVINO
    +關(guān)注

    關(guān)注

    0

    文章

    114

    瀏覽量

    446

原文標(biāo)題:開發(fā)者實(shí)戰(zhàn)|一步安裝,一步配置:用 vLLM + OpenVINO? 輕松加速大語言模型推理

文章出處:【微信號:英特爾物聯(lián)網(wǎng),微信公眾號:英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    在openEuler上基于vLLM Ascend部署Qwen3

    近日,阿里巴巴正式發(fā)布新一代Qwen大語言模型系列(Qwen3與Qwen3-MoE),在模型規(guī)模與性能上實(shí)現(xiàn)多方面升級。openEuler社區(qū)團(tuán)隊(duì)與vLLM社區(qū)通力合作,在第一時間完成
    的頭像 發(fā)表于 05-07 14:44 ?532次閱讀
    在openEuler上基于<b class='flag-5'>vLLM</b> Ascend部署Qwen3

    為什么無法在運(yùn)行時C++推理中讀取OpenVINO?模型?

    使用模型優(yōu)化器 2021.1 版OpenVINO?轉(zhuǎn)換模型 使用 Runtime 2022.3 版本在 C++ 推理實(shí)現(xiàn) ( core.read_model()) 中讀取
    發(fā)表于 03-05 06:17

    使用OpenVINO?進(jìn)行推理時的內(nèi)存泄漏怎么解決?

    使用 OpenVINO? 進(jìn)行推理時,內(nèi)存會隨著時間的推移而增加,并導(dǎo)致程序崩潰。
    發(fā)表于 03-06 08:29

    壓縮模型加速推理嗎?

    位壓縮和“無”配置下都運(yùn)行了 115 毫秒,盡管精度有所下降。我認(rèn)為將 float 網(wǎng)絡(luò)參數(shù)壓縮為 uint8_t 不僅可以節(jié)省內(nèi)存,還可以加快推理速度。那么,壓縮模型是否應(yīng)該加速推理
    發(fā)表于 01-29 06:24

    在AI愛克斯開發(fā)板上用OpenVINO?加速YOLOv8目標(biāo)檢測模型

    《在 AI 愛克斯開發(fā)板上用 OpenVINO 加速 YOLOv8 分類模型》介紹了在 AI 愛克斯開發(fā)板上使用 OpenVINO 開發(fā)套件部署并測評 YOLOv8 的分類
    的頭像 發(fā)表于 05-12 09:08 ?1734次閱讀
    在AI愛克斯開發(fā)板上用<b class='flag-5'>OpenVINO</b>?<b class='flag-5'>加速</b>YOLOv8目標(biāo)檢測<b class='flag-5'>模型</b>

    AI愛克斯開發(fā)板上使用OpenVINO加速YOLOv8目標(biāo)檢測模型

    《在AI愛克斯開發(fā)板上用OpenVINO加速YOLOv8分類模型》介紹了在AI愛克斯開發(fā)板上使用OpenVINO 開發(fā)套件部署并測評YOLOv8的分類
    的頭像 發(fā)表于 05-26 11:03 ?1756次閱讀
    AI愛克斯開發(fā)板上使用<b class='flag-5'>OpenVINO</b><b class='flag-5'>加速</b>YOLOv8目標(biāo)檢測<b class='flag-5'>模型</b>

    如何將Pytorch自訓(xùn)練模型變成OpenVINO IR模型形式

    本文章將依次介紹如何將Pytorch自訓(xùn)練模型經(jīng)過一系列變換變成OpenVINO IR模型形式,而后使用OpenVINO Python API 對IR
    的頭像 發(fā)表于 06-07 09:31 ?2559次閱讀
    如何將Pytorch自訓(xùn)練<b class='flag-5'>模型</b>變成<b class='flag-5'>OpenVINO</b> IR<b class='flag-5'>模型</b>形式

    主流大模型推理框架盤點(diǎn)解析

    vLLM是一個開源的大模型推理加速框架,通過PagedAttention高效地管理attention中緩存的張量,實(shí)現(xiàn)了比HuggingFace Transformers高14-24倍
    發(fā)表于 10-10 15:09 ?6678次閱讀
    主流大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>框架盤點(diǎn)解析

    基于OpenVINO Python API部署RT-DETR模型

    平臺實(shí)現(xiàn) OpenVINO 部署 RT-DETR 模型實(shí)現(xiàn)深度學(xué)習(xí)推理加速, 在本文中,我們將首先介紹基于 OpenVINO Python
    的頭像 發(fā)表于 10-20 11:15 ?1574次閱讀
    基于<b class='flag-5'>OpenVINO</b> Python API部署RT-DETR<b class='flag-5'>模型</b>

    如何加速語言模型推理

    的主要挑戰(zhàn)。本文將從多個維度深入探討如何加速語言模型推理過程,以期為相關(guān)領(lǐng)域的研究者和開發(fā)者提供參考。
    的頭像 發(fā)表于 07-04 17:32 ?989次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)
    的頭像 發(fā)表于 07-24 11:38 ?1723次閱讀

    使用OpenVINO C++在哪吒開發(fā)板上推理Transformer模型

    OpenVINO 是一個開源工具套件,用于對深度學(xué)習(xí)模型進(jìn)行優(yōu)化并在云端、邊緣進(jìn)行部署。它能在諸如生成式人工智能、視頻、音頻以及語言等各類應(yīng)用場景中加快深度學(xué)習(xí)推理的速度,且支持來自
    的頭像 發(fā)表于 10-12 09:55 ?960次閱讀
    使用<b class='flag-5'>OpenVINO</b> C++在哪吒開發(fā)板上<b class='flag-5'>推理</b>Transformer<b class='flag-5'>模型</b>

    FPGA和ASIC在大模型推理加速中的應(yīng)用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進(jìn)行推理加速的研究也越來越多,從目前的市場來說,有些公司已經(jīng)有了專門做推理的ASIC,像Groq的LPU,專門針對大語言
    的頭像 發(fā)表于 10-29 14:12 ?1901次閱讀
    FPGA和ASIC在大<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的應(yīng)用

    vLLM項(xiàng)目加入PyTorch生態(tài)系統(tǒng),引領(lǐng)LLM推理新紀(jì)元

    vLLM項(xiàng)目概述 vLLM的成就與實(shí)際應(yīng)用 支持流行模型 安裝與使用vLLM 總結(jié) 一,vLLM項(xiàng)目概述
    的頭像 發(fā)表于 12-18 17:06 ?772次閱讀
    <b class='flag-5'>vLLM</b>項(xiàng)目加入PyTorch生態(tài)系統(tǒng),引領(lǐng)LLM<b class='flag-5'>推理</b>新紀(jì)元

    如何在Ollama中使用OpenVINO后端

    Ollama 和 OpenVINO 的結(jié)合為大型語言模型(LLM)的管理和推理提供了強(qiáng)大的雙引擎驅(qū)動。Ollama 提供了極簡的模型管理工具
    的頭像 發(fā)表于 04-14 10:22 ?396次閱讀