国产特黄1区2区3区,www.一区二区,操AV在线免费观看

作者：楊亦誠

針對大語言模型 (LLM) 在部署過程中的性能需求，低比特量化技術(shù)一直是優(yōu)化效果最佳的方案之一，本文將探討低比特量化技術(shù)如何幫助 LLM 提升性能，以及新版 OpenVINO對于低比特量化技術(shù)的支持。

大模型性能瓶頸

相比計算量的增加，大模型推理速度更容易受到內(nèi)存帶寬的影響（memory bound），也就是內(nèi)存讀寫效率問題，這是因為大模型由于參數(shù)量巨大、訪存量遠超內(nèi)存帶寬容量，意味著模型的權(quán)重的讀寫速度跟不上硬件對于算子的計算強度，導(dǎo)致算力資源無法得到充分發(fā)揮，進而影響性能。

圖：memory bound與compute bound比較

低比特量化技術(shù)

低比特量化技術(shù)是指將模型參數(shù)從 fp32/fp16 壓縮到更低的比特位寬表達，在不影響模型輸出準(zhǔn)確性和參數(shù)量的情況下，降低模型體積，從而減少緩存對于數(shù)據(jù)讀寫的壓力，提升推理性能。由于大模型中單個 layer 上的權(quán)重體積往往要遠大于該 layer 的輸入數(shù)據(jù)（ac tivation），因此針對大模型的量化技術(shù)往往只會針對關(guān)鍵的權(quán)重參數(shù)進行量化(WeightOnly)，而不對輸入數(shù)據(jù)進行量化，在到達理想的壓縮比的同時，盡可能保證輸出結(jié)果，實現(xiàn)最高的量化“性價比”。

圖：權(quán)重壓縮示意

經(jīng)驗證常規(guī)的 int8 權(quán)重量化，對大模型準(zhǔn)確性的影響極低，而為了引入像 int4，nf4 這樣的更極致的壓縮精度，目前在權(quán)重量化算法上也經(jīng)過了一些探索，其中比較典型的就是 GPTQ 算法，簡單來說，GPTQ 對某個 block 內(nèi)的所有參數(shù)逐個量化，每個參數(shù)量化后，需要適當(dāng)調(diào)整這個 block 內(nèi)其他未量化的參數(shù)，以彌補量化造成的精度損失。GPTQ 量化需要準(zhǔn)備校準(zhǔn)數(shù)據(jù)集，因此他也是一種 PTQ（Post Training Quantization）量化技術(shù)。

OpenVINO 2023.2

對于 int4 模型的支持

OpenVINO 2023.2 相較 2023.1 版本，全面引入對 int4 模型以及量化技術(shù)的支持。主要有以下 2 個方面：

01CPU 及 iGPU 支持原生 int4 模型推理

OpenVINO工具目前已經(jīng)可以直接讀取經(jīng) NNCF 量化以后的 int4 模型，或者是將 HuggingFace 中使用 AutoGPTQ 庫量化的模型轉(zhuǎn)換后，進行讀取及編譯。由于目前的 OpenVINO 后端硬件無法直接支持 int4 數(shù)據(jù)格式的運算，所以在模型執(zhí)行過程中，OpenVINO runtime 會把 int4 的權(quán)重反量化的到 FP16 或是 BF16 的精度進行運算。簡而言之：模型以 int4 精度存儲，以 fp16 精度計算，用計算成本換取空間及 IO 成本，提升運行效率。這也是因為大模型的性能瓶頸主要來源于 memory bound，用更高的數(shù)據(jù)讀寫效率，降低對于內(nèi)存帶寬與內(nèi)存容量的開銷。

圖：經(jīng) NNCF 權(quán)重壓縮后的模型結(jié)構(gòu)

02NNCF 工具支持 int4 的混合精度量化策略（Weights Compression）

剛提到的 GPTQ 是一種 data-based 的量化方案，需要提前準(zhǔn)備校驗數(shù)據(jù)集，借助 HuggingFace 的 Transformers 和 AutoGPTQ 庫可以完成這一操作。而為了幫助開發(fā)者縮短 LLM 模型的壓縮時間，降低量化門檻，NNCF 工具在 2.7.0 版本中引入了針對 int4 以及 nf4 精度的權(quán)重壓縮模式，這是一種 data-free 的混合精度量化算法，無需準(zhǔn)備校驗數(shù)據(jù)集，僅對 LLM 中的 Linear 和 Embedding layers 展開權(quán)重壓縮。整個過程僅用一行代碼就可以完成：

compressed_model = compress_weights(model, mode=CompressWeightsMode.NF4, group_size=64, ratio=0.9)

左滑查看更多

其中model為 PyTorch 或 OpenVINO 的模型對象；mode代表量化模式，這里可以選擇CompressWeightsMode.NF4，或是CompressWeightsMode.INT4_ASYM/INT4_SYM等不同模式；為了提升量化效率，Weights Compression 使用的是分組量化的策略（grouped quantization），因此需要通過group_size配置組大小，例如 group_size=64 意味 64 個 channel 的參數(shù)將共享同一組量化參數(shù)（zero point, scale value）；此外鑒于 data-free 的 int4 量化策略是比帶來一定的準(zhǔn)確度損失，為了平衡模型體積和準(zhǔn)確度，Weights Compression 還支持混合精度的策略，通過定義ratio值，我們可以將一部分對準(zhǔn)確度敏感的權(quán)重用 int8 表示，例如在 ratio=0.9 的情況下，90% 的權(quán)重用 int4 表示，10% 用 int8 表示，開發(fā)者可以根據(jù)量化后模型的輸出結(jié)果調(diào)整這個參數(shù)。

在量化過程中，NNCF 會通過搜索的方式，逐層比較偽量化后的權(quán)重和原始浮點權(quán)重的差異，衡量量化操作對每個 layer 可能帶來的誤差損失，并根據(jù)排序結(jié)果以及用戶定義的 ratio 值，將損失相對較低的權(quán)重壓縮到 int4 位寬。

中文大語言模型實踐

隨著 OpenVINO2023.2 的發(fā)布，大語言模型的 int4 壓縮示例也被添加到了openvino_notebooks 倉庫中，這次特別新增了針對中文 LLM 的示例，包括目前熱門模型ChatGLM2和Qwen。在這個 notebook 中，開發(fā)者可以體驗如何從 HuggingFace 的倉庫中導(dǎo)出一個 OpenVINO IR 格式的模型，并通過 NNCF 工具進行低比特量化，最終完成一個聊天機器人的構(gòu)建。

圖：fp16 與 int4 模型空間占用比較

通過以上這個截圖可以看到，qwen-7b-chat 經(jīng)過 NNCF 的 int4 量化后，可以將體積壓縮到原本 fp16 模型的 1/3，這樣使得一臺 16GB 內(nèi)存的筆記本，就可以流暢運行壓縮以后的 ChatGLM2 模型。此外我們還可以通過將 LLM 模型部署在酷睿 CPU 中的集成顯卡上，在提升性能的同時，減輕 CPU 側(cè)的任務(wù)負載。

圖：Notebook 運行效果

總結(jié)

OpenVINO 2023.2 中對 int4 權(quán)重量化的支持，可以全面提升大模型在英特爾平臺上的運行性能，同時降低對于存儲和內(nèi)存的容量需求，降低開發(fā)者在部署大模型時的門檻，讓本地化的大語言模型應(yīng)用在普通 PC 上落地成為可能。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴