作者:楊亦誠(chéng)
針對(duì)大語(yǔ)言模型 (LLM) 在部署過(guò)程中的性能需求,低比特量化技術(shù)一直是優(yōu)化效果最佳的方案之一,本文將探討低比特量化技術(shù)如何幫助 LLM 提升性能,以及新版 OpenVINO對(duì)于低比特量化技術(shù)的支持。
大模型性能瓶頸
相比計(jì)算量的增加,大模型推理速度更容易受到內(nèi)存帶寬的影響(memory bound),也就是內(nèi)存讀寫(xiě)效率問(wèn)題,這是因?yàn)榇竽P陀捎趨?shù)量巨大、訪存量遠(yuǎn)超內(nèi)存帶寬容量,意味著模型的權(quán)重的讀寫(xiě)速度跟不上硬件對(duì)于算子的計(jì)算強(qiáng)度,導(dǎo)致算力資源無(wú)法得到充分發(fā)揮,進(jìn)而影響性能。
圖:memory bound與compute bound比較
低比特量化技術(shù)
低比特量化技術(shù)是指將模型參數(shù)從 fp32/fp16 壓縮到更低的比特位寬表達(dá),在不影響模型輸出準(zhǔn)確性和參數(shù)量的情況下,降低模型體積,從而減少緩存對(duì)于數(shù)據(jù)讀寫(xiě)的壓力,提升推理性能。由于大模型中單個(gè) layer 上的權(quán)重體積往往要遠(yuǎn)大于該 layer 的輸入數(shù)據(jù)(activation),因此針對(duì)大模型的量化技術(shù)往往只會(huì)針對(duì)關(guān)鍵的權(quán)重參數(shù)進(jìn)行量化(WeightOnly),而不對(duì)輸入數(shù)據(jù)進(jìn)行量化,在到達(dá)理想的壓縮比的同時(shí),盡可能保證輸出結(jié)果,實(shí)現(xiàn)最高的量化“性價(jià)比”。
圖:權(quán)重壓縮示意
經(jīng)驗(yàn)證常規(guī)的 int8 權(quán)重量化,對(duì)大模型準(zhǔn)確性的影響極低,而為了引入像 int4,nf4 這樣的更極致的壓縮精度,目前在權(quán)重量化算法上也經(jīng)過(guò)了一些探索,其中比較典型的就是 GPTQ 算法,簡(jiǎn)單來(lái)說(shuō),GPTQ 對(duì)某個(gè) block 內(nèi)的所有參數(shù)逐個(gè)量化,每個(gè)參數(shù)量化后,需要適當(dāng)調(diào)整這個(gè) block 內(nèi)其他未量化的參數(shù),以彌補(bǔ)量化造成的精度損失。GPTQ 量化需要準(zhǔn)備校準(zhǔn)數(shù)據(jù)集,因此他也是一種 PTQ(Post Training Quantization)量化技術(shù)。
OpenVINO 2023.2
對(duì)于 int4 模型的支持
OpenVINO 2023.2 相較 2023.1 版本,全面引入對(duì) int4 模型以及量化技術(shù)的支持。主要有以下 2 個(gè)方面:
01CPU 及 iGPU 支持原生 int4 模型推理
OpenVINO工具目前已經(jīng)可以直接讀取經(jīng) NNCF 量化以后的 int4 模型,或者是將 HuggingFace 中使用 AutoGPTQ 庫(kù)量化的模型轉(zhuǎn)換后,進(jìn)行讀取及編譯。由于目前的 OpenVINO 后端硬件無(wú)法直接支持 int4 數(shù)據(jù)格式的運(yùn)算,所以在模型執(zhí)行過(guò)程中,OpenVINO runtime 會(huì)把 int4 的權(quán)重反量化的到 FP16 或是 BF16 的精度進(jìn)行運(yùn)算。簡(jiǎn)而言之:模型以 int4 精度存儲(chǔ),以 fp16 精度計(jì)算,用計(jì)算成本換取空間及 IO 成本,提升運(yùn)行效率。這也是因?yàn)榇竽P偷男阅芷款i主要來(lái)源于 memory bound,用更高的數(shù)據(jù)讀寫(xiě)效率,降低對(duì)于內(nèi)存帶寬與內(nèi)存容量的開(kāi)銷。
圖:經(jīng) NNCF 權(quán)重壓縮后的模型結(jié)構(gòu)
02NNCF 工具支持 int4 的混合精度量化策略(Weights Compression)
剛提到的 GPTQ 是一種 data-based 的量化方案,需要提前準(zhǔn)備校驗(yàn)數(shù)據(jù)集,借助 HuggingFace 的 Transformers 和 AutoGPTQ 庫(kù)可以完成這一操作。而為了幫助開(kāi)發(fā)者縮短 LLM 模型的壓縮時(shí)間,降低量化門(mén)檻,NNCF 工具在 2.7.0 版本中引入了針對(duì) int4 以及 nf4 精度的權(quán)重壓縮模式,這是一種 data-free 的混合精度量化算法,無(wú)需準(zhǔn)備校驗(yàn)數(shù)據(jù)集,僅對(duì) LLM 中的 Linear 和 Embedding layers 展開(kāi)權(quán)重壓縮。整個(gè)過(guò)程僅用一行代碼就可以完成:
compressed_model = compress_weights(model, mode=CompressWeightsMode.NF4, group_size=64, ratio=0.9)
左滑查看更多
其中model為 PyTorch 或 OpenVINO 的模型對(duì)象;mode代表量化模式,這里可以選擇CompressWeightsMode.NF4,或是CompressWeightsMode.INT4_ASYM/INT4_SYM等不同模式;為了提升量化效率,Weights Compression 使用的是分組量化的策略(grouped quantization),因此需要通過(guò)group_size配置組大小,例如 group_size=64 意味 64 個(gè) channel 的參數(shù)將共享同一組量化參數(shù)(zero point, scale value);此外鑒于 data-free 的 int4 量化策略是比帶來(lái)一定的準(zhǔn)確度損失,為了平衡模型體積和準(zhǔn)確度,Weights Compression 還支持混合精度的策略,通過(guò)定義ratio值,我們可以將一部分對(duì)準(zhǔn)確度敏感的權(quán)重用 int8 表示,例如在 ratio=0.9 的情況下,90% 的權(quán)重用 int4 表示,10% 用 int8 表示,開(kāi)發(fā)者可以根據(jù)量化后模型的輸出結(jié)果調(diào)整這個(gè)參數(shù)。
在量化過(guò)程中,NNCF 會(huì)通過(guò)搜索的方式,逐層比較偽量化后的權(quán)重和原始浮點(diǎn)權(quán)重的差異,衡量量化操作對(duì)每個(gè) layer 可能帶來(lái)的誤差損失,并根據(jù)排序結(jié)果以及用戶定義的 ratio 值,將損失相對(duì)較低的權(quán)重壓縮到 int4 位寬。
中文大語(yǔ)言模型實(shí)踐
隨著 OpenVINO2023.2 的發(fā)布,大語(yǔ)言模型的 int4 壓縮示例也被添加到了openvino_notebooks 倉(cāng)庫(kù)中,這次特別新增了針對(duì)中文 LLM 的示例,包括目前熱門(mén)模型ChatGLM2和Qwen。在這個(gè) notebook 中,開(kāi)發(fā)者可以體驗(yàn)如何從 HuggingFace 的倉(cāng)庫(kù)中導(dǎo)出一個(gè) OpenVINO IR 格式的模型,并通過(guò) NNCF 工具進(jìn)行低比特量化,最終完成一個(gè)聊天機(jī)器人的構(gòu)建。
圖:fp16 與 int4 模型空間占用比較
通過(guò)以上這個(gè)截圖可以看到,qwen-7b-chat 經(jīng)過(guò) NNCF 的 int4 量化后,可以將體積壓縮到原本 fp16 模型的 1/3,這樣使得一臺(tái) 16GB 內(nèi)存的筆記本,就可以流暢運(yùn)行壓縮以后的 ChatGLM2 模型。此外我們還可以通過(guò)將 LLM 模型部署在酷睿 CPU 中的集成顯卡上,在提升性能的同時(shí),減輕 CPU 側(cè)的任務(wù)負(fù)載。
圖:Notebook 運(yùn)行效果
總結(jié)
OpenVINO 2023.2 中對(duì) int4 權(quán)重量化的支持,可以全面提升大模型在英特爾平臺(tái)上的運(yùn)行性能,同時(shí)降低對(duì)于存儲(chǔ)和內(nèi)存的容量需求,降低開(kāi)發(fā)者在部署大模型時(shí)的門(mén)檻,讓本地化的大語(yǔ)言模型應(yīng)用在普通 PC 上落地成為可能。
審核編輯:湯梓紅
-
輕量化技術(shù)
+關(guān)注
關(guān)注
0文章
6瀏覽量
2282 -
大模型
+關(guān)注
關(guān)注
2文章
2941瀏覽量
3685 -
LLM
+關(guān)注
關(guān)注
1文章
316瀏覽量
645 -
OpenVINO
+關(guān)注
關(guān)注
0文章
112瀏覽量
382
原文標(biāo)題:如何利用低比特量化技術(shù)在 iGPU 上進(jìn)一步提升大模型推理性能|開(kāi)發(fā)者實(shí)戰(zhàn)
文章出處:【微信號(hào):英特爾物聯(lián)網(wǎng),微信公眾號(hào):英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
Arm KleidiAI助力提升PyTorch上LLM推理性能

Labview開(kāi)發(fā)技術(shù)叢書(shū)--運(yùn)行性能的提升技巧
求一種采用分段量化和比特滑動(dòng)技術(shù)的流水并行式模數(shù)轉(zhuǎn)換電路?
量化算法介紹及其特點(diǎn)分析
LLM性能的主要因素

基于MacroBenchmark的性能測(cè)試量化指標(biāo)方案
Nvidia 通過(guò)開(kāi)源庫(kù)提升 LLM 推理性能
深度學(xué)習(xí)模型量化方法

OpenVINO 2024.4持續(xù)提升GPU上LLM性能

理解LLM中的模型量化

LLM技術(shù)對(duì)人工智能發(fā)展的影響
TensorRT-LLM低精度推理優(yōu)化

一種信息引導(dǎo)的量化后LLM微調(diào)新算法IR-QLoRA

評(píng)論