論文標(biāo)題: OstQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting
論文鏈接:
https://arxiv.org/abs/2501.13987
論文單位:
后摩智能、南京大學(xué)、東南大學(xué)
1.序言
近年來,大規(guī)模語言模型(Large Language Models, LLMs)在自然語言處理領(lǐng)域取得了革命性進(jìn)展。以 GPT 系列、LLaMA 等為代表的模型,通過千億級參數(shù)的復(fù)雜結(jié)構(gòu)展現(xiàn)出強(qiáng)大的語義理解和生成能力。
然而,大量的內(nèi)存和計(jì)算需求使 LLMs 面臨重大的部署挑戰(zhàn),推理時(shí)的計(jì)算延遲和能耗更使其難以在資源受限的邊緣設(shè)備或?qū)崟r(shí)系統(tǒng)中應(yīng)用。在此背景下,后訓(xùn)練量化(Post-Training QuantizatPion, PTQ)技術(shù)已成為一種廣泛采用關(guān)鍵解決方案。
PTQ 通過將模型參數(shù)從 32 位浮點(diǎn)數(shù)壓縮至更低位寬,可在保持模型性能的同時(shí)顯著降低存儲需求和計(jì)算復(fù)雜度。但傳統(tǒng)量化方法面臨兩個(gè)根本性挑戰(zhàn):
1. 分布不匹配:LLM 的權(quán)重與激活值通常具有非對稱、重尾分布特征以及通道間方差差異,這些特性會(huì)擴(kuò)大量化范圍,導(dǎo)致大部分?jǐn)?shù)據(jù)的可用量化比特降低,進(jìn)而影響模型性能。
2. 校準(zhǔn)數(shù)據(jù)限制:PTQ 通常依賴少量校準(zhǔn)數(shù)據(jù)(如 1,000 個(gè)樣本)優(yōu)化量化參數(shù),傳統(tǒng)損失函數(shù)(如交叉熵)容易在小樣本下過擬合,損害模型的零樣本泛化能力。
現(xiàn)有研究主要通過線性變換方法改善數(shù)據(jù)分布,例如 SmoothQuant 通過通道間方差遷移平衡權(quán)重與激活的量化難度,Quarot 采用旋轉(zhuǎn)矩陣抑制異常值。
然而這些方法存在明顯局限:一方面,其變換策略依賴啟發(fā)式設(shè)計(jì),缺乏對量化空間利用效率的系統(tǒng)性評估;另一方面,現(xiàn)有方法多聚焦局部優(yōu)化,未能在全局量化空間維度實(shí)現(xiàn)分布對齊。
這些問題導(dǎo)致現(xiàn)有量化方法在低比特場景(如 W4A4KV4)下性能損失顯著,嚴(yán)重制約了 LLMs 低比特推理的實(shí)用化進(jìn)程。
本文提出 OSTQuant(Orthogonal and Scaling Transformation-based Quantization)框架,通過三個(gè)核心創(chuàng)新突破上述瓶頸:
1. 建立量化空間利用率(Quantization Space Utilization Rate, QSUR)作為評估可量化性的有效指標(biāo),為量化方法設(shè)計(jì)提供理論指導(dǎo);
2. 設(shè)計(jì)多個(gè)正交-縮放等效變換對,在保持模型功能等價(jià)性的同時(shí)優(yōu)化全局?jǐn)?shù)據(jù)分布來提高 QSUR 和量化性能;
3. 引入 KL-Top 損失函數(shù),從模型中捕獲更豐富的語義信息,同時(shí)減輕標(biāo)簽噪聲的影響。
實(shí)驗(yàn)表明,OSTQuant 在 weight-only、weight-activation 和 weight-activation-kvcache 量化模式中都展示了優(yōu)越的性能。在 W4A16 量化時(shí),該方法實(shí)現(xiàn)了超過 99.5% 的精度保持率,而在更激進(jìn)的 W4A4KV4 設(shè)置中,它至少保持了模型原始性能的 96%,為 LLMs 的高效部署提供了新的技術(shù)路徑。
▲用不同的方法對一批二維數(shù)據(jù) X~N (μ,Σ) 進(jìn)行變換。特征值 λ1 和 λ2 表示特征值分解后沿主軸分布的擴(kuò)展。(a)表示原始分布,(b)、(c)和(d)分別說明了基于 Smooth-base、Rotate-base 和我們基于 OST 的方法對 QSUR 的影響。橢圓內(nèi)的量化點(diǎn)數(shù)量越高,表示分布的量化空間利用率越大。
2.相關(guān)工作
2.1 LLM 后訓(xùn)練量化
后訓(xùn)練量化(PTQ)因其高效性已成為 LLMs 優(yōu)化的主流技術(shù),現(xiàn)有方法主要分為僅權(quán)重量化和權(quán)重 - 激活量化兩類。
僅權(quán)重量化:這類方法旨在降低內(nèi)存使用,通過特定策略優(yōu)化權(quán)重量化。GPTQ 運(yùn)用基于 Hessian 的誤差補(bǔ)償技術(shù),通過最小化量化誤差來實(shí)現(xiàn)高壓縮率;AWQ 和 OWQ 則著重解決激活異常值對權(quán)重量化的影響,以此提升量化性能;QuIP 和 QuIP #借助隨機(jī) Hadamard 矩陣進(jìn)行非相干處理,并對權(quán)重應(yīng)用向量量化,在低精度量化下仍能取得較好效果。
權(quán)重 - 激活量化:此方法旨在通過同時(shí)量化權(quán)重和激活(包括 KV Cache)來加速 LLM 推理。然而,激活量化面臨著異常值主導(dǎo)量化范圍的問題,導(dǎo)致大多數(shù)值的有效比特?cái)?shù)減少,進(jìn)而產(chǎn)生顯著誤差。
ZeroQuant 提出了一種對硬件友好的細(xì)粒度量化方案;SmoothQuant 通過數(shù)學(xué)變換將量化難度從激活轉(zhuǎn)移到權(quán)重;OmniQuant 進(jìn)一步通過訓(xùn)練量化參數(shù)和變換系數(shù)來提升性能;I-LLM 利用全平滑塊重建和全整數(shù)算子實(shí)現(xiàn)了僅整數(shù)的量化和推理。
最近,QuaRot 借助隨機(jī)旋轉(zhuǎn)矩陣實(shí)現(xiàn)了 4 比特的權(quán)重和激活量化,SpinQuant 則通過學(xué)習(xí)旋轉(zhuǎn)矩陣對 4 比特量化進(jìn)行優(yōu)化 。
2.2 黎曼優(yōu)化
在優(yōu)化旋轉(zhuǎn)矩陣時(shí),需遵循正交歸一性約束,這等價(jià)于在 Stiefel 流形(包含所有正交矩陣)上進(jìn)行黎曼優(yōu)化。
Cayley SGD 依賴 Cayley 變換的迭代逼近,僅通過矩陣乘法就能有效優(yōu)化任意損失函數(shù)下的旋轉(zhuǎn)矩陣;RAOM 將 ADAM、ADAGRAD 和 AMSGRAD 等優(yōu)化方法拓展到黎曼優(yōu)化領(lǐng)域;Geoopt 支持基本的黎曼隨機(jī)梯度下降(SGD)和自適應(yīng)優(yōu)化算法,便于與模型無縫集成進(jìn)行全面優(yōu)化。
這些技術(shù)為處理旋轉(zhuǎn)矩陣的特殊性質(zhì)提供了有效手段,在大語言模型量化研究中發(fā)揮著重要作用。
3.本文方法
3.1 量化空間利用率(QSUR)
盡管使用線性變換來減輕量化損失的 PTQ 取得了重大進(jìn)展,但這些方法缺乏評估量化難度或不同轉(zhuǎn)換有效性的量化指標(biāo)。 我們引入了一種新的指標(biāo),量化空間利用率(QSUR),它定量化描述了權(quán)重或激活分布對可用的量化空間的有效利用程度。QSUR 為現(xiàn)有方法的優(yōu)勢和局限性提供了關(guān)鍵見解,并為開發(fā)更有效的方法奠定了基礎(chǔ),如 OSTQuant。量化空間利用率(QSUR)的核心目標(biāo)是通過數(shù)學(xué)方法量化數(shù)據(jù)分布與量化空間的適配程度。其定義公式為: 其中:
:數(shù)據(jù)分布占據(jù)的超體積,由協(xié)方差矩陣 決定;
:量化超立方體體積,由數(shù)據(jù)各維度的最大值與最小值定義。
關(guān)鍵推導(dǎo)步驟
1. 協(xié)方差矩陣分解:對于數(shù)據(jù)分布 ,通過特征值分解 (為正交矩陣,),數(shù)據(jù)分布體積可表示為:
其中, 為卡方分布的臨界值, 為置信水平(通常取 0.99)。
2. 量化超立方體體積計(jì)算:量化范圍由數(shù)據(jù)沿主軸的極值點(diǎn)決定,即:
由此可得:
3.簡化后的 QSUR 表達(dá)式:忽略均值 的影響后,QSUR 簡化為:
這表明 QSUR 與特征值的均衡性正相關(guān)。當(dāng)所有特征值相等(即數(shù)據(jù)呈球型分布)時(shí),QSUR 達(dá)到最大值。
最優(yōu)變換矩陣的數(shù)學(xué)構(gòu)造
可進(jìn)一步證明,當(dāng)正交矩陣 滿足:(其中 為任意標(biāo)量)時(shí),QSUR 達(dá)到理論最大值:
▲QSUR 與模型量化精度呈正相關(guān)
3.2 正交-縮放等效變換
OSTQuant 的核心是通過正交變換(Orthogonal Transformation)與縮放變換(Scaling Transformation)的聯(lián)合優(yōu)化,實(shí)現(xiàn)權(quán)值和激活值分布的全局調(diào)整,以此來提高量化性能。
▲OSTQuant 的總體流程圖。頂部部分說明了全局正交變換 以及兩個(gè)縮放變換 和 如何在每個(gè)塊內(nèi)協(xié)作,以調(diào)整整個(gè)網(wǎng)絡(luò)的分布,同時(shí)保持計(jì)算不變性。底部部分突出顯示了應(yīng)用于 FFN 和自注意力層的四個(gè)等效變換對。
由正交變換和縮放變換組成的可學(xué)習(xí)等效變換對表示如下:
其中,正交矩陣 滿足 ,負(fù)責(zé)旋轉(zhuǎn)數(shù)據(jù)的主軸方向,對角縮放矩陣 動(dòng)態(tài)調(diào)整各通道尺度。這種設(shè)計(jì)從幾何視角重構(gòu)數(shù)據(jù)分布——通過旋轉(zhuǎn)消除方向上的分布偏斜,再通過縮放均衡各維度的數(shù)值范圍,最終使數(shù)據(jù)在量化空間中呈現(xiàn)均勻填充的球型分布。 等效變換對具有諸多優(yōu)勢, 和 均為可學(xué)習(xí)參數(shù),對角矩陣求逆計(jì)算簡單,能實(shí)現(xiàn)高效前向傳遞,正交矩陣可使用支持在 Stiefel 流形上優(yōu)化的基于梯度的優(yōu)化器(如 RiemannAdam)進(jìn)行優(yōu)化,從而充分利用一階梯度信息進(jìn)行端到端學(xué)習(xí)。 在忽略量化影響時(shí),前向過程在數(shù)學(xué)上與原始模型等價(jià),保證了激活和權(quán)重的一致性,同時(shí)降低過擬合風(fēng)險(xiǎn);優(yōu)化后, 和 均可直接合并到現(xiàn)有權(quán)重中,部署時(shí)不引入額外計(jì)算開銷和參數(shù),確保推理高效。
OSTQuant通過權(quán)重異常值最小化初始化(Weight Outlier Minimization Initialization, WOMI)進(jìn)一步提升初始量化效果。
該方法基于權(quán)重協(xié)方差矩陣的特征分解,結(jié)合哈達(dá)瑪矩陣的均勻分布特性,生成初始正交變換矩陣,有效減少權(quán)重通道間的方差差異。如圖所示,WOMI 相比隨機(jī)哈達(dá)瑪變換,能將權(quán)重量化的相對 L1 誤差降低近 50%。
▲Impact of WOMI transform and Hadamard transform on LLaMA-2-7B weight (weightof Query projection in Layer 0) quantization.
此外,OSTQuant 還同時(shí)進(jìn)行塊間學(xué)習(xí)和塊內(nèi)學(xué)習(xí)。在塊間學(xué)習(xí)中,正交變換通過全局矩陣 作用于嵌入層與所有殘差路徑并引入兩個(gè)對角縮放矩陣 和 來平滑通道差異,這些變換可融入相應(yīng)權(quán)重矩陣,有效學(xué)習(xí)分布變化對模型精度的影響,減輕量化誤差。
在塊內(nèi)學(xué)習(xí)中,在每個(gè) transformer 塊的多頭自注意力層引入兩個(gè)等價(jià)變換對,對 Value projection()和 Out projection()進(jìn)行跨層變換,為每個(gè)注意力頭學(xué)習(xí)旋轉(zhuǎn)變換 和縮放變換 ,針對不同注意力頭獨(dú)立優(yōu)化,適配其獨(dú)特的分布模式,以提高 Value cache 和 Out projection 的 QSUR。
在 Rotary Positional Encoding(ROPE)操作后,輸出 Query 和 Key 可自然進(jìn)行等價(jià)縮放變換(),還對 Query 和 Key 的應(yīng)用額外的 Hadamard 變換 ,進(jìn)一步提升 Key Cache 的量化效率。對于 FFN 模塊,上下投影層(Up/Down Projection)的激活函數(shù)(如 SiLU)通過尺度因子 與 調(diào)整,其數(shù)學(xué)形式為:
3.3 KL-TOP 損失函數(shù)
雖然 LLM 通常在大量數(shù)據(jù)集上進(jìn)行訓(xùn)練,但OSTQuant 優(yōu)化使用小得多的校準(zhǔn)數(shù)據(jù)集進(jìn)行。在這種有限的數(shù)據(jù)環(huán)境中,直接應(yīng)用原始交叉熵(CE)損失可能會(huì)導(dǎo)致模型過度擬合。
使用 KL 散度優(yōu)化可以在量化前后對齊預(yù)測分布,以減少過擬合風(fēng)險(xiǎn)。但大語言模型詞匯量往往數(shù)以萬計(jì),全精度模型的預(yù)測結(jié)果呈嚴(yán)重長尾分布,直接應(yīng)用 KL 散度進(jìn)行優(yōu)化,損失可能被低概率的無信息類別主導(dǎo),為訓(xùn)練過程引入噪聲。
OSTQuant 提出 KL-Top 損失函數(shù)。該損失僅計(jì)算預(yù)測概率最高的前 個(gè)類別的 KL 散度,避免低概率噪聲對梯度更新的干擾。具體而言,對于全精度模型與量化模型的輸出分布 和 ,首先通過 篩選保留主要語義信息,再計(jì)算加權(quán) KL 損失:
實(shí)驗(yàn)表明,當(dāng) 時(shí),KL-Top 損失在保留模型零樣本能力的同時(shí),顯著緩解了過擬合現(xiàn)象。
4.評估結(jié)果
4.1 量化精度對比
在 LLaMA 系列模型的廣泛測試中,OSTQuant 全面超越現(xiàn)有方法:
W4A16KV16:OSTQuant 超越了先前方法,在 zero-shot 任務(wù)中保持了至少 99.5% 的浮點(diǎn)(FP)精度。與 GPTQ 和 AWQ 等其他純權(quán)重量化方法相比,OSTQuant 進(jìn)一步縮小了與 FP 模型的差距。在最具挑戰(zhàn)性的 LLaMA-3-8B 模型中,OSTQuant 在 zero-shot 評估中僅實(shí)現(xiàn)了 0.29 點(diǎn)的性能下降。
W4A4KV4:在極具挑戰(zhàn)性的 4-4-4 設(shè)置中,我們的方法也保留了顯著的性能增益。
4.2 推理效率與內(nèi)存節(jié)省
OSTQuant 在 NVIDIA 3090 GPU 和 A6000 GPU 上的實(shí)測結(jié)果顯示:
推理加速:LLaMA-30B 的預(yù)填充(Prefill)階段速度提升 3.4 倍,解碼(Decoding)吞吐量達(dá) 30.49 tokens/sec。
內(nèi)存壓縮:LLaMA-3-70B 全 4bit 量化后顯存占用僅 38.41GB,可在單卡 A6000 上流暢運(yùn)行。
▲NVIDIA 3090 GPU 測試結(jié)果
▲ A6000 GPU 測試結(jié)果
4.3 訓(xùn)練效率優(yōu)勢
相比基于塊重建的方法(如 OmniQuant),OSTQuant 憑借少量可學(xué)習(xí)參數(shù)(僅正交與縮放矩陣),將 7B 模型的優(yōu)化時(shí)間從 1.6 小時(shí)縮短至 0.3 小時(shí),加速比達(dá) 5.3 倍。
5.結(jié)論
在本文中,我們介紹了 OSTQuant,這是一種全新的后訓(xùn)練量化方法,旨在提高大語言模型(LLMs)的效率。OSTQuant 的核心是量化空間利用率(QSUR),這是我們提出的一種新指標(biāo),通過測量數(shù)據(jù)在量化空間內(nèi)的空間利用率,有效評估變換后數(shù)據(jù)的可量化性。
QSUR 輔以數(shù)學(xué)推導(dǎo),為在整個(gè)量化空間中優(yōu)化單個(gè)數(shù)據(jù)分布提供了理論指導(dǎo)。基于這一見解,OSTQuant 采用了由正交變換和縮放變換組成的可學(xué)習(xí)等價(jià)變換對,來優(yōu)化權(quán)重和激活的分布。
此外,我們引入了 KL-Top 損失函數(shù),即使在通常用于后訓(xùn)練量化(PTQ)的有限校準(zhǔn)數(shù)據(jù)情況下,該函數(shù)也能在優(yōu)化過程中減少噪聲,同時(shí)保留更豐富的語義信息。
在各種大語言模型和基準(zhǔn)測試上進(jìn)行的大量實(shí)驗(yàn)表明,OSTQuant 優(yōu)于現(xiàn)有的量化方法。這些結(jié)果凸顯了在量化空間中優(yōu)化數(shù)據(jù)分布的有效性,也強(qiáng)調(diào)了 OSTQuant 在推進(jìn)大語言模型量化方面的潛力,使得這些模型在資源受限的環(huán)境中部署時(shí)更高效、更實(shí)用。
-
語言模型
+關(guān)注
關(guān)注
0文章
561瀏覽量
10788 -
GPT
+關(guān)注
關(guān)注
0文章
368瀏覽量
16086 -
大模型
+關(guān)注
關(guān)注
2文章
3141瀏覽量
4066
原文標(biāo)題:ICLR 2025 | SOTA性能!OSTQuant:基于正交與縮放變換的大模型量化方法
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
一種基于量化DCT域音頻水印新算法
數(shù)字量化的兩種方法
分享一款不錯(cuò)的一種基于FPGA高性能H.264變換量化結(jié)構(gòu)設(shè)計(jì)
一種優(yōu)化的鞋樣圖像矢量化方法
一種估計(jì)JPEG雙重壓縮原始量化步長的新方法
正交與均勻試驗(yàn)設(shè)計(jì)
一種改進(jìn)的小波變換圖像壓縮方法
一種新的GMSK正交調(diào)制信號產(chǎn)生方法

一種實(shí)時(shí)交互的浮雕紋理模型構(gòu)建方法

一種新的離散正交矩Charlier圖像分析
正交變換與置信域的量測方差估計(jì)
一種基于幾何分析的正交圓軌道星座設(shè)計(jì)方法

一種信息引導(dǎo)的量化后LLM微調(diào)新算法IR-QLoRA

評論