在人工智能技術(shù)迅猛發(fā)展的當(dāng)下,大模型的低成本與高性能成為各大科技企業(yè)競相追逐的焦點。
近期火爆的DeepSeek-R1模型憑借低成本、高性能優(yōu)勢引發(fā)市場波動,DeepSeek-R1實力驚人,擁有6710億參數(shù),推理能力表現(xiàn)卓越,采用了慢思考+思維鏈,能對復(fù)雜問題深入分析和推理,得出準(zhǔn)確且有邏輯的結(jié)論,這使其在處理數(shù)學(xué)計算、代碼編寫、自然語言處理等各種任務(wù)時都游刃有余。
但是復(fù)雜推理的多輪對話和長序列需要緩存更多的KV Cache,導(dǎo)致GPU高帶寬內(nèi)存容量成為瓶頸,而通過增加DRAM解決問題又會讓推理成本激增。為了應(yīng)對上下文KV Cache緩存的問題,DeepSeek采用創(chuàng)新性的硬盤緩存技術(shù),將GPU、DRAM中的緩存數(shù)據(jù)Offload到存儲陣列中,成功將大模型使用成本降低一個數(shù)量級。
在大模型推理過程中通過高性能分布式文件存儲以存代算,可以提升用戶體驗與推理效率,同時有效降低推理成本。這一技術(shù)趨勢在DeepSeek API服務(wù)中大范圍應(yīng)用,其上下文硬盤緩存技術(shù)不僅能降低服務(wù)延遲,還可大幅削減最終的使用成本。
DeepSeek API 模型&價格
(數(shù)據(jù)來源:https://api-docs.deepseek.com/zh-cn/quick_start/pricing)
從技術(shù)角度來看,在大模型API使用場景中,用戶輸入存在相當(dāng)比例的重復(fù)內(nèi)容,比如用戶的提問中常有重復(fù)引用部分,多輪對話中每一輪都需重復(fù)輸入前幾輪內(nèi)容。同時,在很多面向企業(yè)(ToB)的專業(yè)領(lǐng)域里,業(yè)務(wù)信息又多又復(fù)雜,常常是一長串地輸入。推理時需要從這些長上下文的內(nèi)容里找出有用的信息和關(guān)鍵主題,這就需要計算和存儲相互配合。為此,采用以存代算技術(shù),將預(yù)計未來會重復(fù)使用的內(nèi)容緩存在存儲中,當(dāng)輸入有重復(fù)時,重復(fù)部分只需從緩存讀取,無需重新計算。這一技術(shù)不僅顯著降低服務(wù)延遲,還大幅削減最終使用成本。
以多輪對話場景為例,下一輪對話會命中上一輪對話生成的上下文緩存:
華為數(shù)據(jù)存儲OceanStor A800針對大模型推理具備Unified Cache多級緩存技術(shù),與DeepSeek硬盤緩存技術(shù)采用相同的技術(shù)路線,簡單來說,就是提前把和你相關(guān)的歷史信息,比如你們之前聊過的內(nèi)容、你的喜好這些“記憶”,存到的存儲設(shè)備里。等你要用的時候,它能快速找到這些相關(guān)信息(相關(guān)KV Cache片段),不用每次都從頭開始推理計算。這樣一來,不僅能快速準(zhǔn)確地處理長對話內(nèi)容(長序列),成本也能降下來,而且還能根據(jù)你的獨特需求提供更貼心的個性化服務(wù),讓模型就像專門為你定制的一樣。
華為OceanStor A800是基于數(shù)控分離全交換架構(gòu)的原生AI存儲,Unified Cache多級緩存技術(shù)可應(yīng)用于:
具有長預(yù)設(shè)提示詞的問答助手類應(yīng)用,如智能客服、智能運維;
具有角色設(shè)定與多輪對話的角色扮演類應(yīng)用,如電商&教培、英語口語陪練;
超長文本行業(yè)總結(jié)分析以及復(fù)雜推理等場景,如金融投研分析、法律卷宗分析;
針對固定文本集合進行頻繁詢問的數(shù)據(jù)分析類應(yīng)用;
代碼倉庫級別的代碼分析與排障工具。
為推理系統(tǒng)提供TB級性能、PB級容量、大規(guī)模共享的全局內(nèi)存擴展池,實現(xiàn)高效的上下文KV Cache保存、管理與加載策略,有效提升KV Cache加載效率,可支持的序列長度從百K擴展到無限長,實現(xiàn)推理首Token時延4+倍降低,E2E推理成本2+倍降低,為大模型提供終身記憶和無限上下文能力。
大模型推理使用華為OceanStor A800高性能分布式文件存儲,能夠?qū)崿F(xiàn)PB級容量的DRAM性能,進一步降低大模型推理服務(wù)的延遲,大幅削減最終使用成本,重新定義了AI服務(wù)的性價比,為大模型在各行業(yè)的廣泛普及與應(yīng)用注入強大動力,加速大模型普惠時代的到來。
-
華為
+關(guān)注
關(guān)注
216文章
35207瀏覽量
255841 -
硬盤
+關(guān)注
關(guān)注
3文章
1338瀏覽量
58438 -
DeepSeek
+關(guān)注
關(guān)注
1文章
797瀏覽量
1729
原文標(biāo)題:華為OceanStor A800支持DeepSeek硬盤緩存技術(shù),重新定義AI性價比
文章出處:【微信號:HWS_yunfuwu,微信公眾號:華為數(shù)字中國】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
DeepSeek推動AI算力需求:800G光模塊的關(guān)鍵作用
請問ADS1255/6支持菊花鏈嗎?
P82B96支持HDCP嗎?
ADS1256支持菊花鏈連接嗎?
請問PCM9211支持HDMI音頻輸入嗎?
TMS320DM6467支持HDMI發(fā)射器/接收器

TPS272C45支持遠程I/Os的智能電源管理

TPS25831-Q1支持C型VCONN電源,不使用LDO

評論