一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

理解LLM中的模型量化

穎脈Imgtec ? 2024-10-25 11:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Shaoni Mukherjee

編譯:ronghuaiyang,來源:AI公園

導(dǎo)讀

在本文中,我們將探討一種廣泛采用的技術(shù),用于減小大型語言模型(LLM)的大小和計(jì)算需求,以便將這些模型部署到邊緣設(shè)備上這項(xiàng)技術(shù)稱為模型量化。它使得人工智能模型能夠在資源受限的設(shè)備上高效部署。

在當(dāng)今世界,人工智能和機(jī)器學(xué)習(xí)的應(yīng)用已成為解決實(shí)際問題不可或缺的一部分。大型語言模型或視覺模型因其卓越的表現(xiàn)和實(shí)用性而備受關(guān)注。如果這些模型運(yùn)行在云端或大型設(shè)備上,并不會(huì)造成太大問題。然而,它們的大小和計(jì)算需求在將這些模型部署到邊緣設(shè)備或用于實(shí)時(shí)應(yīng)用時(shí)構(gòu)成了重大挑戰(zhàn)。
邊緣設(shè)備,如我們所說的智能手表或Fitbits,擁有有限的資源,而量化是一個(gè)將大型模型轉(zhuǎn)換為可以輕松部署到小型設(shè)備上的過程。隨著人工智能技術(shù)的進(jìn)步,模型復(fù)雜度呈指數(shù)增長。將這些復(fù)雜的模型容納在智能手機(jī)、物聯(lián)網(wǎng)設(shè)備和邊緣服務(wù)器等小型設(shè)備上是一項(xiàng)重大挑戰(zhàn)。然而,量化是一種減少機(jī)器學(xué)習(xí)模型大小和計(jì)算需求的技術(shù),同時(shí)不會(huì)顯著犧牲其性能。量化已被證明在提高大型語言模型的內(nèi)存和計(jì)算效率方面非常有用,從而使這些強(qiáng)大的模型更加實(shí)用和易于日常使用。

db66d89a-9280-11ef-b5cd-92fbcf53809c.png

模型量化涉及將神經(jīng)網(wǎng)絡(luò)的參數(shù)(如權(quán)重和激活)從高精度(例如32位浮點(diǎn)數(shù))表示轉(zhuǎn)換為較低精度(例如8位整數(shù))格式。這種精度的降低可以帶來顯著的好處,包括減少內(nèi)存使用、加快推理時(shí)間和降低能耗。


什么是模型量化?模型量化的益處

模型量化是一種減少模型參數(shù)精度的技術(shù),從而降低了存儲(chǔ)每個(gè)參數(shù)所需的位數(shù)。例如,考慮一個(gè)32位精度的參數(shù)值7.892345678,它可以被近似為8位精度下的整數(shù)8。這一過程顯著減小了模型的大小,使得模型能夠在內(nèi)存有限的設(shè)備上更快地執(zhí)行。

除了減少內(nèi)存使用和提高計(jì)算效率外,量化還可以降低能耗,這對(duì)于電池供電的設(shè)備尤為重要。通過降低模型參數(shù)的精度,量化還能加快推理速度,因?yàn)樗鼫p少了存儲(chǔ)和訪問這些參數(shù)所需的內(nèi)存。

模型量化有多種類型,包括均勻量化和非均勻量化,以及訓(xùn)練后的量化和量化感知訓(xùn)練。每種方法都有其自身的模型大小、速度和準(zhǔn)確性之間的權(quán)衡,這使得量化成為在廣泛的硬件平臺(tái)上部署高效AI模型的一個(gè)靈活且必不可少的工具。


不同的模型量化技術(shù)

模型量化涉及各種技術(shù)來減少模型參數(shù)的大小,同時(shí)保持性能。

以下是幾種常見的技術(shù):

1. 訓(xùn)練后的量化

訓(xùn)練后的量化(PTQ)是在模型完全訓(xùn)練之后應(yīng)用的。PTQ可能會(huì)降低模型的準(zhǔn)確性,因?yàn)樵谀P捅粔嚎s時(shí),原始浮點(diǎn)值中的一些詳細(xì)信息可能會(huì)丟失。

  • 準(zhǔn)確性損失:當(dāng)PTQ壓縮模型時(shí),可能會(huì)丟失一些重要的細(xì)節(jié),這會(huì)降低模型的準(zhǔn)確性。
  • 平衡:為了在使模型更小和保持高準(zhǔn)確性之間找到合適的平衡,需要仔細(xì)調(diào)優(yōu)和評(píng)估。這對(duì)于那些準(zhǔn)確性至關(guān)重要的應(yīng)用尤其重要。

簡而言之,PTQ可以使模型變得更小,但也可能降低其準(zhǔn)確性,因此需要謹(jǐn)慎校準(zhǔn)以維持性能。

這是一種簡單且廣泛使用的方法,包括幾種子方法:

  • 靜態(tài)量化:將模型的權(quán)重和激活轉(zhuǎn)換為較低精度。使用校準(zhǔn)數(shù)據(jù)來確定激活值的范圍,這有助于適當(dāng)?shù)乜s放它們。
  • 動(dòng)態(tài)量化:僅量化權(quán)重,而在推理期間激活保持較高精度。根據(jù)推理時(shí)觀察到的范圍動(dòng)態(tài)量化激活。

2. 量化感知訓(xùn)練

量化感知訓(xùn)練(QAT)將量化集成到訓(xùn)練過程中。模型在前向傳播中模擬量化,使模型能夠?qū)W會(huì)適應(yīng)降低的精度。這通常比訓(xùn)練后的量化產(chǎn)生更高的準(zhǔn)確性,因?yàn)槟P湍軌蚋玫匮a(bǔ)償量化誤差。QAT在訓(xùn)練過程中增加了額外的步驟來模擬模型被壓縮后的表現(xiàn)。這意味著調(diào)整模型以準(zhǔn)確處理這種模擬。這些額外步驟和調(diào)整使訓(xùn)練過程更具計(jì)算要求。它需要更多的時(shí)間和計(jì)算資源。訓(xùn)練后,模型需要經(jīng)過徹底的測(cè)試和微調(diào),以確保不會(huì)失去準(zhǔn)確性。這為整個(gè)訓(xùn)練過程增加了更多的復(fù)雜性。

3. 均勻量化

在均勻量化中,值范圍被劃分為等間距的間隔。這是最簡單的量化形式,通常應(yīng)用于權(quán)重和激活。

4. 非均勻量化

非均勻量化為不同的區(qū)間分配不同的大小,通常使用諸如對(duì)數(shù)或k均值聚類等方法來確定區(qū)間。這種方法對(duì)于參數(shù)具有非均勻分布的情況更為有效,可能在關(guān)鍵范圍內(nèi)保留更多信息。

db88d63e-9280-11ef-b5cd-92fbcf53809c.png

均勻量化和非均勻量化

5. 權(quán)重共享

權(quán)重共享涉及將相似的權(quán)重聚類,并在它們之間共享相同的量化值。這種技術(shù)減少了唯一權(quán)重的數(shù)量,從而實(shí)現(xiàn)了進(jìn)一步的壓縮。權(quán)重共享量化是一種通過限制大型神經(jīng)網(wǎng)絡(luò)中唯一權(quán)重的數(shù)量來節(jié)省能量的技術(shù)。

益處:

  • 抗噪性:該方法更好地處理噪聲。
  • 可壓縮性:可以在不犧牲準(zhǔn)確性的情況下縮小網(wǎng)絡(luò)的規(guī)模。

6. 混合量化

混合量化在同一模型中結(jié)合了不同的量化技術(shù)。例如,權(quán)重可以被量化到8位精度,而激活則保持較高的精度,或者不同的層可以根據(jù)它們對(duì)量化的敏感性使用不同級(jí)別的精度。這種技術(shù)通過將量化應(yīng)用于模型的權(quán)重(模型的參數(shù))和激活(中間輸出)來減小神經(jīng)網(wǎng)絡(luò)的大小并加快速度。

  • 量化兩個(gè)部分:它同時(shí)壓縮模型的權(quán)重和計(jì)算的數(shù)據(jù)激活。這意味著兩者都使用較少的位數(shù)存儲(chǔ)和處理,從而節(jié)省了內(nèi)存并加快了計(jì)算速度。
  • 內(nèi)存和速度提升:通過減少模型需要處理的數(shù)據(jù)量,混合量化使得模型更小、更快。
  • 復(fù)雜性:因?yàn)樗瑫r(shí)影響權(quán)重和激活,所以實(shí)施起來可能比僅僅量化其中一個(gè)更復(fù)雜。它需要精心調(diào)優(yōu)以確保模型在保持高效的同時(shí)仍然保持準(zhǔn)確性。

7. 僅整數(shù)量化

在僅整數(shù)量化中,權(quán)重和激活都被轉(zhuǎn)換為整數(shù)格式,并且所有計(jì)算都使用整數(shù)算術(shù)完成。這種技術(shù)對(duì)于優(yōu)化整數(shù)操作的硬件加速器特別有用。

8. 按張量和按通道量化

按張量量化:在整個(gè)張量(例如,一層中的所有權(quán)重)上應(yīng)用相同的量化尺度。

按通道量化:在一個(gè)張量的不同通道上使用不同的尺度。這種方法可以通過允許卷積神經(jīng)網(wǎng)絡(luò)中的量化更細(xì)粒度,從而提供更好的準(zhǔn)確性。

9. 自適應(yīng)量化

自適應(yīng)量化方法根據(jù)輸入數(shù)據(jù)分布動(dòng)態(tài)調(diào)整量化參數(shù)。這些方法通過針對(duì)數(shù)據(jù)的具體特征定制量化,有可能達(dá)到更高的準(zhǔn)確性。
每種技術(shù)都有其在模型大小、速度和準(zhǔn)確性之間的權(quán)衡。選擇適當(dāng)?shù)牧炕椒ㄈQ于部署環(huán)境的具體要求和約束。


模型量化面臨的挑戰(zhàn)與考慮因素

在AI中實(shí)施模型量化涉及到應(yīng)對(duì)幾個(gè)挑戰(zhàn)和考慮因素。主要的問題之一是準(zhǔn)確性權(quán)衡,因?yàn)闇p少模型數(shù)值數(shù)據(jù)的精度可能會(huì)降低其性能,特別是對(duì)于需要高精度的任務(wù)。為了管理這一點(diǎn),采用的技術(shù)包括量化感知訓(xùn)練、混合方法(結(jié)合不同精度級(jí)別)以及量化參數(shù)的迭代優(yōu)化,以保持準(zhǔn)確性。此外,不同硬件和軟件平臺(tái)之間的兼容性可能存在問題,因?yàn)椴⒎撬衅脚_(tái)都支持量化。解決這個(gè)問題需要廣泛的跨平臺(tái)測(cè)試,使用標(biāo)準(zhǔn)化框架(如TensorFlow或PyTorch)以獲得更廣泛的兼容性,有時(shí)還需要為特定硬件開發(fā)定制解決方案以確保最佳性能。


實(shí)際應(yīng)用案例

模型量化在各種實(shí)際應(yīng)用中廣泛使用,其中效率和性能至關(guān)重要。

以下是一些示例:

  1. 移動(dòng)應(yīng)用:量化模型用于移動(dòng)應(yīng)用中的任務(wù),如圖像識(shí)別、語音識(shí)別和增強(qiáng)現(xiàn)實(shí)。例如,量化神經(jīng)網(wǎng)絡(luò)可以在智能手機(jī)上高效運(yùn)行,以識(shí)別照片中的目標(biāo)或提供實(shí)時(shí)的語言翻譯,即使在計(jì)算資源有限的情況下也是如此。
  2. 自動(dòng)駕駛汽車:在自動(dòng)駕駛汽車中,量化模型幫助實(shí)時(shí)處理傳感器數(shù)據(jù),如識(shí)別障礙物、讀取交通標(biāo)志和做出駕駛決策。量化模型的效率使得這些計(jì)算可以快速完成,并且功耗較低,這對(duì)于自動(dòng)駕駛汽車的安全性和可靠性至關(guān)重要。
  3. 邊緣設(shè)備:量化對(duì)于將AI模型部署到無人機(jī)、物聯(lián)網(wǎng)設(shè)備和智能攝像頭等邊緣設(shè)備至關(guān)重要。這些設(shè)備通常具有有限的處理能力和內(nèi)存,因此量化模型使它們能夠高效地執(zhí)行復(fù)雜的任務(wù),如監(jiān)控、異常檢測(cè)和環(huán)境監(jiān)測(cè)。
  4. 醫(yī)療保?。?/strong>在醫(yī)學(xué)影像和診斷中,量化模型用于分析醫(yī)學(xué)掃描和檢測(cè)異常,如腫瘤或骨折。這有助于在硬件計(jì)算能力有限的情況下提供更快、更準(zhǔn)確的診斷,例如便攜式醫(yī)療設(shè)備。
  5. 語音助手:數(shù)字語音助手如Siri、Alexa和Google Assistant使用量化模型處理語音命令、理解自然語言并提供響應(yīng)。量化使這些模型能夠在家庭設(shè)備上快速高效地運(yùn)行,確保順暢且響應(yīng)迅速的用戶體驗(yàn)。
  6. 推薦系統(tǒng):在線平臺(tái)如Netflix、Amazon和YouTube使用量化模型提供實(shí)時(shí)推薦。這些模型處理大量用戶數(shù)據(jù)以建議電影、產(chǎn)品或視頻,量化有助于管理計(jì)算負(fù)載,同時(shí)及時(shí)提供個(gè)性化推薦。

量化提高了AI模型的效率,使它們能夠在資源受限的環(huán)境中部署,而不顯著犧牲性能,從而改善了廣泛應(yīng)用中的用戶體驗(yàn)。


總結(jié)思考

量化是人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的一項(xiàng)關(guān)鍵技術(shù),解決了將大型模型部署到邊緣設(shè)備的挑戰(zhàn)。量化顯著減少了神經(jīng)網(wǎng)絡(luò)的內(nèi)存占用和計(jì)算需求,使它們能夠在資源受限的設(shè)備和實(shí)時(shí)應(yīng)用中部署。正如本文討論的,量化的一些好處包括減少內(nèi)存使用、加快推理時(shí)間和降低功耗。技術(shù)如均勻量化和非均勻量化,以及創(chuàng)新方法如權(quán)重共享和混合量化。盡管量化具有優(yōu)勢(shì),但也帶來了挑戰(zhàn),特別是在保持模型準(zhǔn)確性方面。然而,隨著近期的研究和量化方法的發(fā)展,研究人員繼續(xù)致力于解決這些問題,推動(dòng)低精度計(jì)算的可能性邊界。隨著深度學(xué)習(xí)社區(qū)不斷創(chuàng)新發(fā)展,量化將在部署強(qiáng)大且高效的AI模型中扮演關(guān)鍵角色,使先進(jìn)的AI功能能夠廣泛應(yīng)用于更多的應(yīng)用場景和設(shè)備。總之,量化不僅僅是技術(shù)優(yōu)化那么簡單——它在AI進(jìn)步中扮演著至關(guān)重要的角色。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249565
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10792
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    325

    瀏覽量

    844
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    瑞芯微模型量化文件構(gòu)建

    模型是一張圖片輸入時(shí),量化文件如上圖所示。但是我現(xiàn)在想量化deepprivacy人臉匿名模型,他的輸入是四個(gè)輸入。該模型訓(xùn)練時(shí)數(shù)據(jù)集只標(biāo)注
    發(fā)表于 06-13 09:07

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型LLM)的開發(fā)已經(jīng)成為一個(gè)熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?513次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) <b class='flag-5'>LLM</b>語言<b class='flag-5'>模型</b>

    詳解 LLM 推理模型的現(xiàn)狀

    領(lǐng)域的最新研究進(jìn)展,特別是自DeepSeekR1發(fā)布后興起的推理時(shí)間計(jì)算擴(kuò)展相關(guān)內(nèi)容。在LLM實(shí)施和改進(jìn)推理簡單來說,基于LLM的推理模型是一種旨在通過生成中間
    的頭像 發(fā)表于 04-03 12:09 ?507次閱讀
    詳解 <b class='flag-5'>LLM</b> 推理<b class='flag-5'>模型</b>的現(xiàn)狀

    無法在OVMS上運(yùn)行來自Meta的大型語言模型LLM),為什么?

    無法在 OVMS 上運(yùn)行來自 Meta 的大型語言模型LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲(chǔ)庫運(yùn)行 llama_chat Python* Demo 時(shí)遇到錯(cuò)誤。
    發(fā)表于 03-05 08:07

    新品| LLM630 Compute Kit,AI 大語言模型推理開發(fā)平臺(tái)

    LLM630LLM推理,視覺識(shí)別,可開發(fā),靈活擴(kuò)展···LLM630ComputeKit是一款A(yù)I大語言模型推理開發(fā)平臺(tái),專為邊緣計(jì)算和智能交互應(yīng)用而設(shè)計(jì)。該套件的主板搭載愛芯AX630CSoC
    的頭像 發(fā)表于 01-17 18:48 ?698次閱讀
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大語言<b class='flag-5'>模型</b>推理開發(fā)平臺(tái)

    小白學(xué)大模型:構(gòu)建LLM的關(guān)鍵步驟

    隨著大規(guī)模語言模型LLM)在性能、成本和應(yīng)用前景上的快速發(fā)展,越來越多的團(tuán)隊(duì)開始探索如何自主訓(xùn)練LLM模型。然而,是否從零開始訓(xùn)練一個(gè)LLM
    的頭像 發(fā)表于 01-09 12:12 ?972次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:構(gòu)建<b class='flag-5'>LLM</b>的關(guān)鍵步驟

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個(gè)專為優(yōu)化大語言模型 (LLM) 推理而設(shè)計(jì)的庫。它提供了多種先進(jìn)的優(yōu)化技術(shù),包括自定義 Attention Kernel、Inflight
    的頭像 發(fā)表于 12-17 17:47 ?874次閱讀

    一種信息引導(dǎo)的量化LLM微調(diào)新算法IR-QLoRA

    進(jìn)行量化+LoRA的路線為例,有研究表明,現(xiàn)有方法會(huì)導(dǎo)致量化LLM嚴(yán)重退化,甚至無法從LoRA微調(diào)受益。 為了解決這一問題,來自蘇黎世聯(lián)邦理工學(xué)院、北京航空航天大學(xué)和字節(jié)跳動(dòng)的研究
    的頭像 發(fā)表于 11-19 17:16 ?827次閱讀
    一種信息引導(dǎo)的<b class='flag-5'>量化</b>后<b class='flag-5'>LLM</b>微調(diào)新算法IR-QLoRA

    什么是LLM?LLM在自然語言處理的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域迎來了革命性的進(jìn)步。其中,大型語言模型LLM)的出現(xiàn),標(biāo)志著我們對(duì)語言理解能力的一次飛躍。LLM通過深度學(xué)習(xí)和海量數(shù)據(jù)訓(xùn)練,使得
    的頭像 發(fā)表于 11-19 15:32 ?3659次閱讀

    如何訓(xùn)練自己的LLM模型

    訓(xùn)練自己的大型語言模型LLM)是一個(gè)復(fù)雜且資源密集的過程,涉及到大量的數(shù)據(jù)、計(jì)算資源和專業(yè)知識(shí)。以下是訓(xùn)練LLM模型的一般步驟,以及一些關(guān)鍵考慮因素: 定義目標(biāo)和需求 : 確定你的
    的頭像 發(fā)表于 11-08 09:30 ?1525次閱讀

    LLM技術(shù)對(duì)人工智能發(fā)展的影響

    隨著人工智能技術(shù)的飛速發(fā)展,大型語言模型LLM)技術(shù)已經(jīng)成為推動(dòng)AI領(lǐng)域進(jìn)步的關(guān)鍵力量。LLM技術(shù)通過深度學(xué)習(xí)和自然語言處理技術(shù),使得機(jī)器能夠理解和生成自然語言,極大地?cái)U(kuò)展了人工智能
    的頭像 發(fā)表于 11-08 09:28 ?1856次閱讀

    使用LLM進(jìn)行自然語言處理的優(yōu)缺點(diǎn)

    自然語言處理(NLP)是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語言。大型語言模型LLM)是NLP領(lǐng)域的一項(xiàng)重要技術(shù),它們通過深度學(xué)習(xí)和大量的數(shù)據(jù)訓(xùn)練,能夠執(zhí)行各種
    的頭像 發(fā)表于 11-08 09:27 ?2458次閱讀

    新品|LLM Module,離線大語言模型模塊

    LLM,全稱大語言模型(LargeLanguageModel)。是一種基于深度學(xué)習(xí)的人工智能模型。它通過大量文本數(shù)據(jù)進(jìn)行訓(xùn)練,從而能夠進(jìn)行對(duì)話、回答問題、撰寫文本等其他任務(wù)
    的頭像 發(fā)表于 11-02 08:08 ?1043次閱讀
    新品|<b class='flag-5'>LLM</b> Module,離線大語言<b class='flag-5'>模型</b>模塊

    【飛凌嵌入式OK3576-C開發(fā)板體驗(yàn)】rkllm模型量化構(gòu)建

    .load_huggingface(model = modelpath) if ret != 0: print(\'Load model failed!\') exit(ret) 模型量化構(gòu)建 # Build model ret
    發(fā)表于 08-27 22:50

    LLM模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM
    的頭像 發(fā)表于 07-24 11:38 ?1824次閱讀