一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

雙卡銳炫來助陣,本地部署DeepSeek也能性價比

looger123 ? 來源:looger123 ? 作者:looger123 ? 2025-03-19 09:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

對于“AI模型是顯存殺手”這事,我想就算那些沒有本地部署過,甚至沒有特別關注過我們顯卡和筆記本評測中的AI體驗部分的玩家應該也知道這個事實——畢竟從年初到現(xiàn)在,DeepSeek已經足夠火爆,以至于公園下棋老大爺都能給您編排出一段AI界的三國演義出來.....回到本文的主題,今天我們還是聊聊本地部署DeepSeek模型這事。

wKgZPGfaIkqAZxvhAApLUaiA7kg634.png

首先還是要說明的是,我們部署的是DeepSeek-R1蒸餾模型,而不是DeepSeek-R1 671B。老實說,671B的滿血版確實超出普通玩家的范疇了,和個人范疇內的“性價比”更是毫不相關。不過,蒸餾模型還是能做不少事情的,比如用于翻譯服務,而且本地部署有很多好處,除了老生常談的隱私問題外,還能避免“服務器繁忙,請稍后再試”這種情況發(fā)生。

然而就算是蒸餾模型,對于顯卡的要求也是相當高。這里不說DeepSeek-R1蒸餾模型中最大的DeepSeek-R1-Distill-Llama-70B了,就算是排第二的DeepSeek-R1-Distill-Qwen-32B,要想單卡運行的話您至少需要一張RTX 5090或者RTX 4090??紤]到它倆現(xiàn)時的價格,這仍然算不上是很“性價比”。那么,還有什么便宜大碗的方案呢?

那當然還是有的,而且可能比買二手顯卡這事還要穩(wěn)——兩張英特爾銳炫A770 16GB便是個值得嘗試的方案。別被雙卡這個概念嚇到,以顯存容量去評判的話,兩張銳炫A770加一塊也就3600元,可是要比RTX 4070還要實惠。唯一有要求的可能是您的主板和電源,前者是PCIe速度,后者自然是兩張A770的功耗了。

wKgZPGfaIl2AKZu-AArMGn3XgyM147.png

“大顯存支持:16GB GDDR6顯存(顯存帶寬560GB/s)為大型模型訓練和推理提供了充足的資源,尤其適合需要高顯存容量的AI應用和內容創(chuàng)作場景。”——節(jié)選自DeepSeek-R1對銳炫A770 16GB的評價。

測試平臺

wKgZO2faImyAHhgHAAEtWmJNSKU401.png

本次測試的平臺是英特爾大全套,處理器是酷睿Ultra 9 285K。其實在這次測試中,CPU反而不太重要,拿顆酷睿Ultra 5也行。重點反而是主板,最好選一些兩個PCIe 5.0 x8插槽的主板。

wKgZO2faIn6AMzYQAArf0T5TiDM652.png

您也許會問為什么我給出這樣的建議但是卻用了技嘉Z890 AORUS MASTER這塊配置為PCIe 5.0 x16(CPU)、PCIe 4.0 x1(芯片組)和PCIe 4.0 x4(芯片組)各一個的主板。原因也很簡單,本來打算用的Z890主板的Killer網卡比較新,在本次系統(tǒng)里似乎暫時缺乏驅動支持,于是就這樣了。

前期準備

目前這個方案只能在Linux環(huán)境下面用,因此安裝系統(tǒng)便成了首先要解決的問題。根據(jù)英特爾樹外驅動的要求,我安裝了Ubuntu 22.04.1(內核是Kernel 6.5.0-35-generic)。因為Linux基本離不開終端操作,所以接下來我會說得簡要一點,畢竟要把一大段命令當成正文頗有種水字數(shù)的感覺,不利于閱讀(我就假定在讀本文的各位和我一樣略懂點Ubuntu就好了,反正也就用到sudo apt install這些命令)。

裝完系統(tǒng)之后便是樹外驅動了。反正照著英特爾的文檔添加軟件源,然后裝上intel-i915-dkms和intel-fw-gpu這兩個軟件包,把當前用戶分到渲染組就可以了。

重啟后,用lspci或者xpu-smi(這個需要額外安裝)可以看到兩張銳炫A770 16GB已經就位。至于多出來的那個non-VGA設備則是酷睿Ultra的NPU,不用去管它。

wKgZO2faIpCAU5VtAAMeG2Yuek4629.pngwKgZO2faIrmAD8LcAAapkW4-cHM206.png

接下來的操作就很簡單了,畢竟我們是通過docker來運行前后端的,如果玩過NAS的話應該知道docker有多好用——只要您有一個足夠良好的網絡。不過我們有現(xiàn)成的鏡像和腳本,倒不用進行拉取這一步,如果您要照做的話,請拉取open-webui(前端)和intelanalytics/ipex-llm-serving-xpu:2.2.0-b12-client(后端)這兩個鏡像。腳本的話可以結合最下面的鏈接,同時參考下面的截圖。

wKgZO2faIhWACLuaAAFXxl0NUIs117.jpgwKgZPGfaIhaAZCiLAAFWPvqLvSc942.jpgwKgZO2faIsyAB7BGAAaXiY8Yf_I635.png

這里順便說一下ipex-llm是什么,它是一個為英特爾GPU打造的LLM加速庫,支持核顯、銳炫獨立顯卡和數(shù)據(jù)中心顯卡等設備,并已經和llama.cpp、Ollama和vLLM等框架無縫集成。

最后是AI模型DeepSeek-R1-Distill-Qwen-32B-AWQ,這個用huggingface-cli下載就行。記得把環(huán)境變量改成鏡像站hf-mirror.com,可以提高下載速度;還有就是把模型下到本地文件夾里面,不使用huggingface-cli的緩存系統(tǒng)。

對了,如果您不打算更改上面的腳本內容,這里建議把下載的所有東西都扔到根目錄下的/model文件夾中。

參考閱讀1:樹外驅動安裝《Installing Data Center GPU: LTS Releases》

參考閱讀2:通過docker部署AI服務《vLLM Serving with IPEX-LLM on Intel GPUs via Docker》

實際體驗

準備工作完了之后,接下來就非常簡單了,用腳本啟動前后端容器,并啟動后端應用即可。

在本地機上訪問127.0.0.1:8080就能見到Open WebUI的主界面了,這個服務是對局域網開放的,所以我們也可以用連到同一個網絡的設備去訪問它,比如手機和平板。

wKgZO2faIhaAGyAIAADGLIxhxzo851.jpgwKgZO2faIuSAdsQRAAQAv4bQc2I442.png

接下來的界面相信大家就很熟悉了,就和平時用的網頁chatbot一樣。只不過這一次所有的服務都運行于本地,不受網絡波動的影響,拔掉路由器的WAN口也一切如常。

wKgZPGfaIvmAYAfZAAN8ymW8U0Q031.png

來看看它的運行速度。單個用戶訪問時,平均生成速度在26 tokens/s左右。在上圖的演示里面,我們讓它用HTML寫了個貪吃蛇,完成后右側就出現(xiàn)了窗口,可以馬上進行游玩。另外,還可以根據(jù)需求叫AI修改代碼,比如這次我叫它把貪吃蛇改成自動運行,這樣截圖會方便一點。

wKgZPGfaIwaAUiZ0AAmx4vlz12Q294.png


單用戶使用

但這顯然還不是這套平臺的極限。我們試了試在三臺設備(本機 + 另一臺電腦 + 手機)上同時訪問AI服務,平均生成速度可以達到66tokens/s。無論在哪臺設備上,AI都沒有出現(xiàn)卡殼的現(xiàn)象,輸出文字的速度很快。

wKgZPGfaIxSAczwcAAoJjG_nxFM079.png


多用戶使用

附加內容:如何切換模型?

正當我們體驗DeepSeek-R1蒸餾模型的時候,國內另一家實力同樣強勁的大模型團隊通義發(fā)布了他們的推理模型QwQ-32B。該模型在AIME24、LiveBench等多個基準測試中表現(xiàn)出不弱于DeepSeek-R1 671B也就是滿血版DeepSeek-R1的實力,更是要比上面運行的蒸餾模型要強得多。因此我們也在這里介紹一下如何把模型切換成QwQ-32B(以及其他你想體驗的模型)。

wKgZPGfaIhmAQsiNAAD3aV7wgks148.jpg


來源:Qwen博客

首先還是用huggingface-cli把QwQ-32B的模型拖到/model文件夾中,我們這次選擇的是QwQ-32B-AWQ,也就是用AWQ量化的版本。

接下來只需要修改上面圖片中的ds.sh腳本就行,當然,這里建議直接復制一份并重命名為QwQ.sh再進行修改,便于日后操作。要修改的地方不多,就是前面兩行的路徑和命名而已。做好這部分工作后重啟一下后端容器,用腳本啟動即可。

wKgZPGfaIyeASbogAAU_OE3DXic811.png


我這里沒有改名,直接保存了

至于QwQ-32B-AWQ在這套平臺上的運行情況和蒸餾模型時類似,平均生成速度也是26 token/s。另外我們特意用xpu-smi監(jiān)測了兩張顯卡的顯存占用情況,每張顯卡各消耗了14GB顯存左右,合起來大約是28GB。如果要僅用一張卡處理這么大的模型,那預算真的要花上不少。

wKgZO2faIzqALGqPAAV2GLrpmcU052.pngwKgZO2faIhqATlO9AAF0cJo57Bo877.jpg

總結

總的來說,兩張銳炫A770 16GB確實是一個性價比較高的本地部署AI方案。正如我在開頭所說,不把二手設備算在內的話,現(xiàn)在3600元您真的很難買到一張NVIDIA或者AMD的大顯存顯卡,但是一口氣買兩張銳炫A770 16GB(甚至還是OC版)是完全有可能的,更進一步地說,由于單卡價格的足夠實惠,你還可以買更多張去運行參數(shù)量更大的模型(當然,這時候主板和處理器會比銳炫A770要貴得多)。除了硬件上足夠有性價比外,我們還要強調一下軟件上的優(yōu)勢:銳炫顯卡有著來自英特爾完善的驅動和加速庫支持,部署時docker鏡像一拉就完事,然后運行時雙卡都能拼盡全力,這些點也是相當重要的。

wKgZPGfaI0iAXvg8AArxcsmFBQQ418.png

接下來也說說這個方案的一些注意的點。首先就是功耗和發(fā)熱了,雖然您不會每分鐘都向AI提問,但是如果把它當作一臺全時運行的AI服務器的話,累積下來的耗電(還有制造的熱量)還是挺“可觀”的。其次就是部署的難度問題,如果您不是從事計算機方面的工作,用Ubuntu這些Linux發(fā)行版還是一件蠻有挑戰(zhàn)性的事——事實上在測試過程中,我也因為太久沒搗鼓路由器和NAS而忘掉一些命令的用法,只好不停地“--help”。

不過話說回來,這兩種情況在未來都是可以改變的。英特爾表示在未來,玩家將可以用2塊銳炫B580搭建AI服務器,以及加入對Windows 11的支持,對于絕大部分的玩家來說,后者尤其是好事。當然,如果你只是想簡單體驗英特爾硬件的AI性能,也可以直接下載英特爾AI Playground這個應用就是了。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10196

    瀏覽量

    174690
  • DeepSeek
    +關注

    關注

    1

    文章

    798

    瀏覽量

    1747
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    ElfBoard技術實戰(zhàn)|ELF 2開發(fā)板本地部署DeepSeek大模型的完整指南

    ELF 2開發(fā)板本地部署DeepSeek大模型的完整指南
    的頭像 發(fā)表于 05-16 11:13 ?1829次閱讀
    ElfBoard技術實戰(zhàn)|ELF 2開發(fā)板<b class='flag-5'>本地</b><b class='flag-5'>部署</b><b class='flag-5'>DeepSeek</b>大模型的完整指南

    DeepSeek R1模型本地部署與產品接入實操

    針對VS680/SL1680系列大算力芯片,我們的研發(fā)團隊正在研究將蒸餾后的輕量級DeepSeek模型(DeepSeek-R1-Distill-Qwen-1.5B)部署到SOC本地,以
    的頭像 發(fā)表于 04-19 16:32 ?281次閱讀
    <b class='flag-5'>DeepSeek</b> R1模型<b class='flag-5'>本地</b><b class='flag-5'>部署</b>與產品接入實操

    【幸狐Omni3576邊緣計算套件試用體驗】DeepSeek 部署及測試

    【幸狐 Omni3576 邊緣計算套件測評】DeepSeek 部署及測試 本文介紹了幸狐 Omni3576 邊緣計算套件實現(xiàn) DeepSeek 部署及測試的相關流程,包括模型介紹、
    發(fā)表于 03-21 19:31

    博實結完成DeepSeek大模型本地部署

    近日,公司完成DeepSeek R1 671B大模型本地部署。通過構建自主可控的AI基礎設施,公司同步實現(xiàn)研發(fā)智能升級、研發(fā)成本重構、數(shù)據(jù)安全閉環(huán)與應用場景突破,為產業(yè)智能化賦
    的頭像 發(fā)表于 03-19 16:31 ?641次閱讀

    依托raksmart服務器在多種系統(tǒng)上本地部署deepseek注意事項

    在RAKsmart服務器上本地部署DeepSeek時,需根據(jù)不同的操作系統(tǒng)和環(huán)境做好全面適配。以下是關鍵注意事項及分步指南,主機推薦小編為您整理發(fā)布依托raksmart服務器在多種系統(tǒng)上本地
    的頭像 發(fā)表于 03-19 11:25 ?375次閱讀

    成本打到6萬以下 手把手教你用4路? 顯卡+至強? W跑DeepSeek

    憑借卓越性能表現(xiàn)與先天開源優(yōu)勢,DeepSeek正迅速成為全球擴展大模型應用實踐的一大“圓心”。作為英特爾在GPU領域的重要布局,英特爾?顯卡既是游戲黨與視頻生產力工作者的新歡,
    的頭像 發(fā)表于 03-05 11:23 ?646次閱讀
    成本打到6萬以下 手把手教你用4路<b class='flag-5'>銳</b><b class='flag-5'>炫</b>? 顯卡+至強? W跑<b class='flag-5'>DeepSeek</b>

    RK3588開發(fā)板上部署DeepSeek-R1大模型的完整指南

    現(xiàn)任何延遲或頓現(xiàn)象。CPU占用:DeepSeek-R1在OK3588-C開發(fā)板上運行的CPU占用為12%~17%,這一表現(xiàn)證明了框架的高效性,使其即便在資源受限的設備上順利運行,
    發(fā)表于 02-27 16:45

    9.9萬元用上“滿血”DeepSeek R1一體機,本地部署成新商機?引發(fā)外媒熱議

    本地部署的熱潮 DeepSeek R1作為一款強大的AI大模型,其本地部署能夠帶來諸多優(yōu)勢,如保護數(shù)據(jù)安全和隱私、避免核心數(shù)據(jù)傳輸至第三方
    的頭像 發(fā)表于 02-27 09:20 ?1667次閱讀

    行芯完成DeepSeek-R1大模型本地部署

    近日,行芯正式宣布完成 DeepSeek-R1 大模型本地部署,實現(xiàn)在多場景、多產品中應用。解鎖“芯”玩法,開啟“芯”未來!
    的頭像 發(fā)表于 02-24 15:17 ?893次閱讀

    華為云發(fā)布DeepSeek本地部署方案

    華為云正式推出基于華為云Stack混合云的DeepSeek本地部署方案。
    的頭像 發(fā)表于 02-18 10:05 ?1078次閱讀

    英特爾賦DeepSeek本地運行,助力汽車升級“最強大腦”

    提升GPU內存的利用率。這一突破為DeepSeek技術在汽車領域的應用開辟了新路徑。 隨著第二代英特爾?B系列車載獨立顯卡的發(fā)布,所支持的DeepSeek模型參數(shù)更是躍升至32B,
    的頭像 發(fā)表于 02-17 09:37 ?704次閱讀

    添越智創(chuàng)基于 RK3588 開發(fā)板部署測試 DeepSeek 模型全攻略

    DeepSeek 模型的部署與測試,開啟這場充滿挑戰(zhàn)與驚喜的技術探索之旅。 RK3588 開發(fā)板:AI 性能擔當 RK3588 開發(fā)板基于先進的 8nm LP 制程工藝精心打造,其硬件配置堪稱豪華,在 AI
    發(fā)表于 02-14 17:42

    DeepSeek本地部署硬件配置推薦

    近日,關于 DeepSeek 的話題如同一場風暴,席卷了整個大語言模型領域。
    的頭像 發(fā)表于 02-11 10:54 ?2995次閱讀
    <b class='flag-5'>DeepSeek</b><b class='flag-5'>本地</b><b class='flag-5'>部署</b>硬件配置推薦

    DeepSeek-R1本地部署指南,開啟你的AI探索之旅

    春節(jié)期間突然被DeepSeek刷屏了,這熱度是真大,到處都是新聞和本地部署的教程,等熱度過了過,簡單記錄下自己本地部署及相關的內容,就當電子
    的頭像 發(fā)表于 02-08 10:30 ?5551次閱讀
    <b class='flag-5'>DeepSeek</b>-R1<b class='flag-5'>本地</b><b class='flag-5'>部署</b>指南,開啟你的AI探索之旅

    誠邁信創(chuàng)電腦實現(xiàn)本地部署DeepSeek,開啟智慧辦公新體驗

    近期,中國人工智能平臺深度求索(DeepSeek)迅速走紅,成為當下熱門的AI應用之一,在國內外引發(fā)了廣泛的關注。目前,誠邁信創(chuàng)電腦和望龍電腦已實現(xiàn)本地部署DeepSeek平臺,能夠為
    的頭像 發(fā)表于 02-07 18:14 ?498次閱讀
    誠邁信創(chuàng)電腦實現(xiàn)<b class='flag-5'>本地</b><b class='flag-5'>部署</b><b class='flag-5'>DeepSeek</b>,開啟智慧辦公新體驗