【編者按】摩爾線程科研團(tuán)隊(duì)發(fā)布研究成果《Round Attention:以輪次塊稀疏性開(kāi)辟多輪對(duì)話優(yōu)化新范式》,該方法端到端延遲低于現(xiàn)在主流的Flash Attention推理引擎,kv-cache 顯存占用節(jié)省55%到82% 。
近年來(lái),大型語(yǔ)言模型的進(jìn)步推動(dòng)了語(yǔ)言模型服務(wù)在日常問(wèn)題解決任務(wù)中的廣泛應(yīng)用。然而,長(zhǎng)時(shí)間的交互暴露出兩大顯著挑戰(zhàn):首先,上下文長(zhǎng)度的快速擴(kuò)張因自注意力機(jī)制的平方級(jí)復(fù)雜度而導(dǎo)致巨大的計(jì)算開(kāi)銷;其次,盡管鍵值( KV )緩存技術(shù)能緩解冗余計(jì)算,但其顯著增加的 GPU 內(nèi)存需求導(dǎo)致推理批處理規(guī)模受限及 GPU 利用率低下。摩爾線程提出 Round Attention 用于解決這些問(wèn)題。
01論文主要貢獻(xiàn)
以輪次為分析單元研究 Attention 規(guī)律:Round Attention 專為多輪對(duì)話場(chǎng)景推理需求設(shè)計(jì),以輪次為自然邊界劃分 KV 緩存,研究發(fā)現(xiàn)輪次粒度的 Attention 分布存在兩個(gè)重要規(guī)律。
提出 Round Attention inference pipeline :基于發(fā)現(xiàn)的兩個(gè)規(guī)律提出 Round Attention ,將稀疏性從 Token 級(jí)提升至塊級(jí),選取最相關(guān)的塊參與 attention 計(jì)算,減少 attention 計(jì)算耗時(shí),并將不相關(guān)的塊 offload 到CPU內(nèi)存節(jié)省顯存占用。該 pipeline 在保持推理精度的情況下,減少了推理耗時(shí),降低了顯存占用。
02核心創(chuàng)新:輪次塊稀疏性的三大優(yōu)勢(shì)
自然邊界的語(yǔ)義完整性
問(wèn)題洞察:多輪對(duì)話中,用戶意圖常以輪次為單位呈現(xiàn)(如“推薦餐廳”→“詢問(wèn)人均消費(fèi)”→“確認(rèn)地址”)。
解決方案:Round Attention 將 KV 緩存按輪次(對(duì))切分為獨(dú)立塊,每個(gè)塊完整包含一輪對(duì)話的提問(wèn)與回答,確保模型在計(jì)算注意力時(shí)能直接關(guān)聯(lián)完整語(yǔ)義單元。
分水嶺層的注意力穩(wěn)定性
關(guān)鍵發(fā)現(xiàn):通過(guò)分析 SharedGPT 數(shù)據(jù)集,發(fā)現(xiàn)主流開(kāi)源模型(如 Qwen2.5B )在特定“分水嶺層”后,各層對(duì)歷史輪次的注意力分布高度相似,且同一輪內(nèi)問(wèn)題與答案的注意力模式一致。
技術(shù)價(jià)值:僅需在分水嶺層一次性篩選 Top-K 相關(guān)輪次,即可覆蓋后續(xù)所有層的計(jì)算需求,相比其他工作逐層動(dòng)態(tài)路由,有效減少 Top-K 計(jì)算開(kāi)銷。
端到端的存儲(chǔ)與傳輸優(yōu)化
存儲(chǔ)設(shè)計(jì):將每輪 KV 緩存按分水嶺層拆分為下層塊( b_m )與上層塊( u_m ),以輪次為單位整體存儲(chǔ)于 CPU 內(nèi)存,減少 GPU 內(nèi)存占用。
傳輸效率:相比其他 kv cache offload 工作以 Token 級(jí)細(xì)粒度傳輸, Round Attention 以輪次為單位批量搬運(yùn) KV 緩存,單次 H2D 操作即可完成,降低 H2D 操作帶來(lái)的延遲。
03效果
端到端延遲低于現(xiàn)在主流的 Flash Attention 推理引擎, kv-cache 顯存占用節(jié)省 55% 到 82% ,并且在主觀評(píng)測(cè)和客觀評(píng)測(cè)兩個(gè)數(shù)據(jù)集上模型推理準(zhǔn)確率基本未受影響。
04未來(lái)展望:開(kāi)源協(xié)作與技術(shù)融合
摩爾線程 Round Attention 期待與開(kāi)源社區(qū)深度協(xié)同,繼續(xù)探索稀疏注意力可能的優(yōu)化工作,共同攻克 LLM 落地中的效率與成本難題。該論文已發(fā)布在 arXiv :
關(guān)于摩爾線程
摩爾線程成立于2020年10月,以全功能GPU為核心,致力于向全球提供加速計(jì)算的基礎(chǔ)設(shè)施和一站式解決方案,為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供強(qiáng)大的AI計(jì)算支持。
我們的目標(biāo)是成為具備國(guó)際競(jìng)爭(zhēng)力的GPU領(lǐng)軍企業(yè),為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進(jìn)的加速計(jì)算平臺(tái)。我們的愿景是為美好世界加速。
-
gpu
+關(guān)注
關(guān)注
28文章
4882瀏覽量
130389 -
內(nèi)存
+關(guān)注
關(guān)注
8文章
3102瀏覽量
74883 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
557瀏覽量
10596 -
摩爾線程
+關(guān)注
關(guān)注
2文章
221瀏覽量
4999
原文標(biāo)題:技術(shù)研究 | 摩爾線程 Round Attention:以輪次塊稀疏性開(kāi)辟多輪對(duì)話優(yōu)化新范式
文章出處:【微信號(hào):moorethreads,微信公眾號(hào):摩爾線程】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦

摩爾線程統(tǒng)信軟件戰(zhàn)略合作:共建“完美體驗(yàn)系統(tǒng)”
摩爾線程正式加入openKylin開(kāi)源社區(qū)
摩爾線程與OpenMMLab戰(zhàn)略合作:推動(dòng)算法框架與GPU協(xié)同發(fā)展,共筑AI開(kāi)發(fā)者繁榮生態(tài)
摩爾線程計(jì)劃本周完成“崗位優(yōu)化”
國(guó)內(nèi)GPU龍頭!摩爾線程本周人員優(yōu)化
國(guó)產(chǎn)摩爾線程顯卡驅(qū)動(dòng)重磅升級(jí)!

摩爾線程與億景智聯(lián)戰(zhàn)略合作,共推生成式AI在高校的應(yīng)用創(chuàng)新

摩爾線程與師者AI攜手完成70億參數(shù)教育AI大模型訓(xùn)練測(cè)試
摩爾線程與智譜AI完成大模型性能測(cè)試與適配
摩爾線程攜手東華軟件完成AI大模型推理測(cè)試與適配
摩爾線程GPU與超圖軟件大模型適配:共筑國(guó)產(chǎn)地理空間AI新生態(tài)
摩爾線程完成股改,籌備上市
摩爾線程完成DeepSeek開(kāi)源庫(kù)FlashMLA和DeepGEMM適配
摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練

評(píng)論