一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于正交與縮放變換的大模型量化方法

智能感知與物聯(lián)網(wǎng)技術研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術研 ? 2025-03-04 11:10 ? 次閱讀

論文標題: OstQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting

論文鏈接

https://arxiv.org/abs/2501.13987

論文單位:

后摩智能、南京大學、東南大學

1.序言

近年來,大規(guī)模語言模型(Large Language Models, LLMs)在自然語言處理領域取得了革命性進展。以 GPT 系列、LLaMA 等為代表的模型,通過千億級參數(shù)的復雜結構展現(xiàn)出強大的語義理解和生成能力。

然而,大量的內(nèi)存和計算需求使 LLMs 面臨重大的部署挑戰(zhàn),推理時的計算延遲和能耗更使其難以在資源受限的邊緣設備或實時系統(tǒng)中應用。在此背景下,后訓練量化(Post-Training QuantizatPion, PTQ)技術已成為一種廣泛采用關鍵解決方案。

PTQ 通過將模型參數(shù)從 32 位浮點數(shù)壓縮至更低位寬,可在保持模型性能的同時顯著降低存儲需求和計算復雜度。但傳統(tǒng)量化方法面臨兩個根本性挑戰(zhàn):

1. 分布不匹配:LLM 的權重與激活值通常具有非對稱、重尾分布特征以及通道間方差差異,這些特性會擴大量化范圍,導致大部分數(shù)據(jù)的可用量化比特降低,進而影響模型性能。

2. 校準數(shù)據(jù)限制:PTQ 通常依賴少量校準數(shù)據(jù)(如 1,000 個樣本)優(yōu)化量化參數(shù),傳統(tǒng)損失函數(shù)(如交叉熵)容易在小樣本下過擬合,損害模型的零樣本泛化能力。

現(xiàn)有研究主要通過線性變換方法改善數(shù)據(jù)分布,例如 SmoothQuant 通過通道間方差遷移平衡權重與激活的量化難度,Quarot 采用旋轉矩陣抑制異常值。

然而這些方法存在明顯局限:一方面,其變換策略依賴啟發(fā)式設計,缺乏對量化空間利用效率的系統(tǒng)性評估;另一方面,現(xiàn)有方法多聚焦局部優(yōu)化,未能在全局量化空間維度實現(xiàn)分布對齊。

這些問題導致現(xiàn)有量化方法在低比特場景(如 W4A4KV4)下性能損失顯著,嚴重制約了 LLMs 低比特推理的實用化進程。

本文提出 OSTQuant(Orthogonal and Scaling Transformation-based Quantization)框架,通過三個核心創(chuàng)新突破上述瓶頸:

1. 建立量化空間利用率(Quantization Space Utilization Rate, QSUR)作為評估可量化性的有效指標,為量化方法設計提供理論指導;

2. 設計多個正交-縮放等效變換對,在保持模型功能等價性的同時優(yōu)化全局數(shù)據(jù)分布來提高 QSUR 和量化性能;

3. 引入 KL-Top 損失函數(shù),從模型中捕獲更豐富的語義信息,同時減輕標簽噪聲的影響。

實驗表明,OSTQuant 在 weight-only、weight-activation 和 weight-activation-kvcache 量化模式中都展示了優(yōu)越的性能。在 W4A16 量化時,該方法實現(xiàn)了超過 99.5% 的精度保持率,而在更激進的 W4A4KV4 設置中,它至少保持了模型原始性能的 96%,為 LLMs 的高效部署提供了新的技術路徑。

2b9929ec-f732-11ef-9310-92fbcf53809c.png

▲用不同的方法對一批二維數(shù)據(jù) X~N (μ,Σ) 進行變換。特征值 λ1 和 λ2 表示特征值分解后沿主軸分布的擴展。(a)表示原始分布,(b)、(c)和(d)分別說明了基于 Smooth-base、Rotate-base 和我們基于 OST 的方法對 QSUR 的影響。橢圓內(nèi)的量化點數(shù)量越高,表示分布的量化空間利用率越大。

2.相關工作

2.1 LLM 后訓練量化

后訓練量化(PTQ)因其高效性已成為 LLMs 優(yōu)化的主流技術,現(xiàn)有方法主要分為僅權重量化和權重 - 激活量化兩類。

僅權重量化:這類方法旨在降低內(nèi)存使用,通過特定策略優(yōu)化權重量化。GPTQ 運用基于 Hessian 的誤差補償技術,通過最小化量化誤差來實現(xiàn)高壓縮率;AWQ 和 OWQ 則著重解決激活異常值對權重量化的影響,以此提升量化性能;QuIP 和 QuIP #借助隨機 Hadamard 矩陣進行非相干處理,并對權重應用向量量化,在低精度量化下仍能取得較好效果。

權重 - 激活量化:此方法旨在通過同時量化權重和激活(包括 KV Cache)來加速 LLM 推理。然而,激活量化面臨著異常值主導量化范圍的問題,導致大多數(shù)值的有效比特數(shù)減少,進而產(chǎn)生顯著誤差。

ZeroQuant 提出了一種對硬件友好的細粒度量化方案;SmoothQuant 通過數(shù)學變換將量化難度從激活轉移到權重;OmniQuant 進一步通過訓練量化參數(shù)和變換系數(shù)來提升性能;I-LLM 利用全平滑塊重建和全整數(shù)算子實現(xiàn)了僅整數(shù)的量化和推理。

最近,QuaRot 借助隨機旋轉矩陣實現(xiàn)了 4 比特的權重和激活量化,SpinQuant 則通過學習旋轉矩陣對 4 比特量化進行優(yōu)化 。

2.2 黎曼優(yōu)化

在優(yōu)化旋轉矩陣時,需遵循正交歸一性約束,這等價于在 Stiefel 流形(包含所有正交矩陣)上進行黎曼優(yōu)化。

Cayley SGD 依賴 Cayley 變換的迭代逼近,僅通過矩陣乘法就能有效優(yōu)化任意損失函數(shù)下的旋轉矩陣;RAOM 將 ADAM、ADAGRAD 和 AMSGRAD 等優(yōu)化方法拓展到黎曼優(yōu)化領域;Geoopt 支持基本的黎曼隨機梯度下降(SGD)和自適應優(yōu)化算法,便于與模型無縫集成進行全面優(yōu)化。

這些技術為處理旋轉矩陣的特殊性質提供了有效手段,在大語言模型量化研究中發(fā)揮著重要作用。

3.本文方法

3.1 量化空間利用率(QSUR)

盡管使用線性變換來減輕量化損失的 PTQ 取得了重大進展,但這些方法缺乏評估量化難度或不同轉換有效性的量化指標。 我們引入了一種新的指標,量化空間利用率(QSUR),它定量化描述了權重或激活分布對可用的量化空間的有效利用程度。QSUR 為現(xiàn)有方法的優(yōu)勢和局限性提供了關鍵見解,并為開發(fā)更有效的方法奠定了基礎,如 OSTQuant。量化空間利用率(QSUR)的核心目標是通過數(shù)學方法量化數(shù)據(jù)分布與量化空間的適配程度。其定義公式為: 其中:

:數(shù)據(jù)分布占據(jù)的超體積,由協(xié)方差矩陣 決定;

:量化超立方體體積,由數(shù)據(jù)各維度的最大值與最小值定義。

關鍵推導步驟

1. 協(xié)方差矩陣分解:對于數(shù)據(jù)分布 ,通過特征值分解 (為正交矩陣,),數(shù)據(jù)分布體積可表示為:

2bba5f4a-f732-11ef-9310-92fbcf53809c.png

其中, 為卡方分布的臨界值, 為置信水平(通常取 0.99)。

2. 量化超立方體體積計算:量化范圍由數(shù)據(jù)沿主軸的極值點決定,即:

2bc77cd4-f732-11ef-9310-92fbcf53809c.png

由此可得:

2bd56fe2-f732-11ef-9310-92fbcf53809c.png

3.簡化后的 QSUR 表達式:忽略均值 的影響后,QSUR 簡化為:

2be2971c-f732-11ef-9310-92fbcf53809c.png

這表明 QSUR 與特征值的均衡性正相關。當所有特征值相等(即數(shù)據(jù)呈球型分布)時,QSUR 達到最大值。

最優(yōu)變換矩陣的數(shù)學構造

可進一步證明,當正交矩陣 滿足:(其中 為任意標量)時,QSUR 達到理論最大值:

2bf85976-f732-11ef-9310-92fbcf53809c.png

▲QSUR 與模型量化精度呈正相關

3.2 正交-縮放等效變換

OSTQuant 的核心是通過正交變換(Orthogonal Transformation)與縮放變換(Scaling Transformation)的聯(lián)合優(yōu)化,實現(xiàn)權值和激活值分布的全局調整,以此來提高量化性能。

2c0d4480-f732-11ef-9310-92fbcf53809c.png

▲OSTQuant 的總體流程圖。頂部部分說明了全局正交變換 以及兩個縮放變換 和 如何在每個塊內(nèi)協(xié)作,以調整整個網(wǎng)絡的分布,同時保持計算不變性。底部部分突出顯示了應用于 FFN 和自注意力層的四個等效變換對。

由正交變換和縮放變換組成的可學習等效變換對表示如下:

2c205eb2-f732-11ef-9310-92fbcf53809c.png

其中,正交矩陣 滿足 ,負責旋轉數(shù)據(jù)的主軸方向,對角縮放矩陣 動態(tài)調整各通道尺度。這種設計從幾何視角重構數(shù)據(jù)分布——通過旋轉消除方向上的分布偏斜,再通過縮放均衡各維度的數(shù)值范圍,最終使數(shù)據(jù)在量化空間中呈現(xiàn)均勻填充的球型分布。 等效變換對具有諸多優(yōu)勢, 和 均為可學習參數(shù),對角矩陣求逆計算簡單,能實現(xiàn)高效前向傳遞,正交矩陣可使用支持在 Stiefel 流形上優(yōu)化的基于梯度的優(yōu)化器(如 RiemannAdam)進行優(yōu)化,從而充分利用一階梯度信息進行端到端學習。 在忽略量化影響時,前向過程在數(shù)學上與原始模型等價,保證了激活和權重的一致性,同時降低過擬合風險;優(yōu)化后, 和 均可直接合并到現(xiàn)有權重中,部署時不引入額外計算開銷和參數(shù),確保推理高效。

OSTQuant通過權重異常值最小化初始化(Weight Outlier Minimization Initialization, WOMI)進一步提升初始量化效果。

該方法基于權重協(xié)方差矩陣的特征分解,結合哈達瑪矩陣的均勻分布特性,生成初始正交變換矩陣,有效減少權重通道間的方差差異。如圖所示,WOMI 相比隨機哈達瑪變換,能將權重量化的相對 L1 誤差降低近 50%。

2c32fe50-f732-11ef-9310-92fbcf53809c.png

▲Impact of WOMI transform and Hadamard transform on LLaMA-2-7B weight (weightof Query projection in Layer 0) quantization.

此外,OSTQuant 還同時進行塊間學習和塊內(nèi)學習。在塊間學習中,正交變換通過全局矩陣 作用于嵌入層與所有殘差路徑并引入兩個對角縮放矩陣 和 來平滑通道差異,這些變換可融入相應權重矩陣,有效學習分布變化對模型精度的影響,減輕量化誤差。

在塊內(nèi)學習中,在每個 transformer 塊的多頭自注意力層引入兩個等價變換對,對 Value projection()和 Out projection()進行跨層變換,為每個注意力頭學習旋轉變換 和縮放變換 ,針對不同注意力頭獨立優(yōu)化,適配其獨特的分布模式,以提高 Value cache 和 Out projection 的 QSUR。

在 Rotary Positional Encoding(ROPE)操作后,輸出 Query 和 Key 可自然進行等價縮放變換(),還對 Query 和 Key 的應用額外的 Hadamard 變換 ,進一步提升 Key Cache 的量化效率。對于 FFN 模塊,上下投影層(Up/Down Projection)的激活函數(shù)(如 SiLU)通過尺度因子 與 調整,其數(shù)學形式為:

2c44aa9c-f732-11ef-9310-92fbcf53809c.png

3.3 KL-TOP 損失函數(shù)

雖然 LLM 通常在大量數(shù)據(jù)集上進行訓練,但OSTQuant 優(yōu)化使用小得多的校準數(shù)據(jù)集進行。在這種有限的數(shù)據(jù)環(huán)境中,直接應用原始交叉熵(CE)損失可能會導致模型過度擬合。

使用 KL 散度優(yōu)化可以在量化前后對齊預測分布,以減少過擬合風險。但大語言模型詞匯量往往數(shù)以萬計,全精度模型的預測結果呈嚴重長尾分布,直接應用 KL 散度進行優(yōu)化,損失可能被低概率的無信息類別主導,為訓練過程引入噪聲。


OSTQuant 提出 KL-Top 損失函數(shù)。該損失僅計算預測概率最高的前 個類別的 KL 散度,避免低概率噪聲對梯度更新的干擾。具體而言,對于全精度模型與量化模型的輸出分布 和 ,首先通過 篩選保留主要語義信息,再計算加權 KL 損失:

2c503d94-f732-11ef-9310-92fbcf53809c.png

實驗表明,當 時,KL-Top 損失在保留模型零樣本能力的同時,顯著緩解了過擬合現(xiàn)象。

4.評估結果

4.1 量化精度對比

在 LLaMA 系列模型的廣泛測試中,OSTQuant 全面超越現(xiàn)有方法:

W4A16KV16:OSTQuant 超越了先前方法,在 zero-shot 任務中保持了至少 99.5% 的浮點(FP)精度。與 GPTQ 和 AWQ 等其他純權重量化方法相比,OSTQuant 進一步縮小了與 FP 模型的差距。在最具挑戰(zhàn)性的 LLaMA-3-8B 模型中,OSTQuant 在 zero-shot 評估中僅實現(xiàn)了 0.29 點的性能下降。

W4A4KV4:在極具挑戰(zhàn)性的 4-4-4 設置中,我們的方法也保留了顯著的性能增益。

2c668306-f732-11ef-9310-92fbcf53809c.png

4.2 推理效率與內(nèi)存節(jié)省

OSTQuant 在 NVIDIA 3090 GPU 和 A6000 GPU 上的實測結果顯示:

推理加速:LLaMA-30B 的預填充(Prefill)階段速度提升 3.4 倍,解碼(Decoding)吞吐量達 30.49 tokens/sec。

內(nèi)存壓縮:LLaMA-3-70B 全 4bit 量化后顯存占用僅 38.41GB,可在單卡 A6000 上流暢運行。

2c7a895a-f732-11ef-9310-92fbcf53809c.png

▲NVIDIA 3090 GPU 測試結果

2c87ff22-f732-11ef-9310-92fbcf53809c.png

▲ A6000 GPU 測試結果

4.3 訓練效率優(yōu)勢

相比基于塊重建的方法(如 OmniQuant),OSTQuant 憑借少量可學習參數(shù)(僅正交與縮放矩陣),將 7B 模型的優(yōu)化時間從 1.6 小時縮短至 0.3 小時,加速比達 5.3 倍。

2c951fcc-f732-11ef-9310-92fbcf53809c.png

5.結論

在本文中,我們介紹了 OSTQuant,這是一種全新的后訓練量化方法,旨在提高大語言模型(LLMs)的效率。OSTQuant 的核心是量化空間利用率(QSUR),這是我們提出的一種新指標,通過測量數(shù)據(jù)在量化空間內(nèi)的空間利用率,有效評估變換后數(shù)據(jù)的可量化性。

QSUR 輔以數(shù)學推導,為在整個量化空間中優(yōu)化單個數(shù)據(jù)分布提供了理論指導?;谶@一見解,OSTQuant 采用了由正交變換和縮放變換組成的可學習等價變換對,來優(yōu)化權重和激活的分布。

此外,我們引入了 KL-Top 損失函數(shù),即使在通常用于后訓練量化(PTQ)的有限校準數(shù)據(jù)情況下,該函數(shù)也能在優(yōu)化過程中減少噪聲,同時保留更豐富的語義信息。

在各種大語言模型和基準測試上進行的大量實驗表明,OSTQuant 優(yōu)于現(xiàn)有的量化方法。這些結果凸顯了在量化空間中優(yōu)化數(shù)據(jù)分布的有效性,也強調了 OSTQuant 在推進大語言模型量化方面的潛力,使得這些模型在資源受限的環(huán)境中部署時更高效、更實用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    557

    瀏覽量

    10596
  • GPT
    GPT
    +關注

    關注

    0

    文章

    368

    瀏覽量

    15862
  • 大模型
    +關注

    關注

    2

    文章

    2941

    瀏覽量

    3683

原文標題:ICLR 2025 | SOTA性能!OSTQuant:基于正交與縮放變換的大模型量化方法

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一種基于量化DCT域音頻水印新算法

    本帖最后由 luna 于 2011-3-3 14:38 編輯 提出一種新的基于量化DCT域的音頻水印算法,根據(jù)DC分量和AC分量在水印的魯棒性和不可聽性中起著不同的影響來設計水印算法,使水印
    發(fā)表于 03-03 00:31

    數(shù)字量化的兩種方法

    高質量信號重構的要求。為解決這兩者之間的矛盾,一種新的數(shù)字儲頻方法——幅相量化法應運而生。與傳統(tǒng)的單幅度或相位量化儲頻方式不同,基于幅相
    發(fā)表于 06-17 06:09

    給大家介紹一種軟件修正方法

    本文介紹一種三軸正交型傳感器正交性的軟件修正方法。
    發(fā)表于 05-07 06:53

    分享款不錯的一種基于FPGA高性能H.264變換量化結構設計

    分享款不錯的一種基于FPGA高性能H.264變換量化結構設計
    發(fā)表于 05-08 07:56

    一種優(yōu)化的鞋樣圖像矢量化方法

    針對制鞋業(yè)中鞋樣的錄入問題,提出了一種實現(xiàn)從圖像格式到圖形格式轉化的圖像矢量化方法。并且形成的圖形文件可根據(jù)不同鞋業(yè)CAD 軟件的要求而存儲成相應的格式。該方法
    發(fā)表于 08-13 15:24 ?18次下載

    一種估計JPEG雙重壓縮原始量化步長的新方法

    該文提出了一種雙重壓縮后JPEG 圖像的原始量化步長的估計方法。該方法根據(jù)兩次量化步長之間的大小關系分3
    發(fā)表于 11-20 15:34 ?18次下載

    正交與均勻試驗設計

    正交與均勻試驗設計,正交與均勻試驗設計正交試驗設計是因子設計中流行最廣泛的方法,均勻設計是一種新的因子設計,和
    發(fā)表于 03-19 08:18 ?0次下載

    一種改進的小波變換圖像壓縮方法

     針對傳統(tǒng)小波變換過程復雜的缺點和S PIH T 算法編碼過程重復運算、存儲量大的問題,提出了一種改進的小波變換圖像壓縮方法。該方法首先對紋
    發(fā)表于 08-10 11:49 ?23次下載

    一種新的GMSK正交調制信號產(chǎn)生方法

    提出了一種稱為直接分解法的 GMSK 正交調制信號產(chǎn)生方法. 將單個脈沖的高斯濾波器響應的積分相位軌跡分成暫態(tài)部分和穩(wěn)態(tài)部分, 并詳細分析了這兩部分的組成規(guī)律. 暫態(tài)部分只與相鄰
    發(fā)表于 06-21 10:51 ?35次下載
    <b class='flag-5'>一種</b>新的GMSK<b class='flag-5'>正交</b>調制信號產(chǎn)生<b class='flag-5'>方法</b>

    一種實時交互的浮雕紋理模型構建方法

    為了快速生成帶浮雕紋理的三維模型,提出一種實時交互的浮雕紋理模型構建方法。方法分兩步:第步,將
    發(fā)表于 11-29 16:51 ?0次下載
    <b class='flag-5'>一種</b>實時交互的浮雕紋理<b class='flag-5'>模型</b>構建<b class='flag-5'>方法</b>

    一種新的離散正交矩Charlier圖像分析

    Mukundan在2001年提出一種基于離散Tchebichef多項式的離散正交矩。隨后,Yap 提出另一種基于Krawtchouk多項式的離散正交矩。離散
    發(fā)表于 11-30 11:21 ?4次下載

    正交變換與置信域的量測方差估計

    狀態(tài)估計實際應用中,量測方差獲取和權重設置存在定的困難。伴隨狀態(tài)估計運算量越來越繁重,現(xiàn)有量測方差估計算法的收斂性無法得到保證。為此提出了一種基于正交變換與置信域的量測方差估計和權重設置算法。利用
    發(fā)表于 03-20 10:47 ?0次下載

    一種基于幾何分析的正交圓軌道星座設計方法

    ,是一種較為粗略的覆蓋區(qū)域劃分方法,未能充分利用兩星座的幾何性質。對此,根據(jù)極軌星座衛(wèi)星的運動特性和覆蓋特性,分析其在不滿足連續(xù)覆蓋要求的域中所產(chǎn)生覆蓋空隙的特點,并結合赤道軌道星座衛(wèi)星的特點,提出
    發(fā)表于 03-19 11:45 ?15次下載
    <b class='flag-5'>一種</b>基于幾何分析的<b class='flag-5'>正交</b>圓軌道星座設計<b class='flag-5'>方法</b>

    深度學習模型量化方法

    深度學習模型量化一種重要的模型量化技術,旨在通過減少網(wǎng)絡參數(shù)的比特寬度來減小模型大小和加速推
    的頭像 發(fā)表于 07-15 11:01 ?863次閱讀
    深度學習<b class='flag-5'>模型</b><b class='flag-5'>量化</b><b class='flag-5'>方法</b>

    一種信息引導的量化后LLM微調新算法IR-QLoRA

    進行量化+LoRA的路線為例,有研究表明,現(xiàn)有方法會導致量化的LLM嚴重退化,甚至無法從LoRA微調中受益。 為了解決這問題,來自蘇黎世聯(lián)邦理工學院、北京航空航天大學和字節(jié)跳動的研究
    的頭像 發(fā)表于 11-19 17:16 ?647次閱讀
    <b class='flag-5'>一種</b>信息引導的<b class='flag-5'>量化</b>后LLM微調新算法IR-QLoRA