亚洲中文字幕熟女一区,亚洲综合欧美另类尤物

TPU-MLIR之量化感知訓(xùn)練

Hello大家好，在之前的視頻中我們的講解主要集中在訓(xùn)練后量化，也就是PTQ，那么這期視頻我們就再來(lái)講一下另一種主要的量化類(lèi)型，量化感知訓(xùn)練，我們暫且不會(huì)涉及到QAT在TPU-MLIR中的應(yīng)用，只是先停留在理論層面進(jìn)行一個(gè)介紹。

我們?cè)趯W(xué)習(xí)PTQ的時(shí)候知道了量化其實(shí)就是一個(gè)尋找合適的量化參數(shù)，將高位數(shù)據(jù)流映射為低位數(shù)據(jù)流的過(guò)程，實(shí)現(xiàn)模型輕量化并且提高推理效率，但在這個(gè)過(guò)程中模型的精度不可避免地會(huì)下降。

造成精度下降的原因有很多，其中主要有：

量化誤差的引入，就像右邊這張信號(hào)圖所示，我們?cè)诹炕瘯r(shí)做的取整操作其實(shí)就是用有限的離散取值去近似無(wú)限的連續(xù)取值，會(huì)不可避免的導(dǎo)致量化后的信號(hào)與量化前的信號(hào)有一定的偏差，當(dāng)這種偏差越大時(shí)量化誤差往往也就越大。

而且Weight 與ac tivation tensor用INT8來(lái)表示則不可避免地也會(huì)出現(xiàn)一定的信息損失，例如我們之前提到的截?cái)嗾`差，并且模型在進(jìn)行Multiply-Accumulate操作中會(huì)采用INT32來(lái)接收累加的結(jié)果，然后將累加的結(jié)果再轉(zhuǎn)換回INT8，這個(gè)過(guò)程可能也會(huì)導(dǎo)致一定的截?cái)嗾`差。上一期視頻中我們介紹的校準(zhǔn)方法只能在截?cái)嗾`差與量化誤差之間做一個(gè)權(quán)衡，而不能完全消除它們。

還有就是我們量化推導(dǎo)那期視頻中提到過(guò)的用Multiplier與rShift代替Scale的表示也會(huì)產(chǎn)生些許誤差

QAT就是通過(guò)end-to-end training微調(diào)訓(xùn)練后的模型參數(shù)，讓模型對(duì)量化的魯棒性更強(qiáng)，從而緩和造成的精度下降問(wèn)題，而且通過(guò)QAT，我們也能夠達(dá)成更低位，例如INT4的量化，從而進(jìn)一步輕量化模型與提高推理效率

實(shí)現(xiàn)方式就是在訓(xùn)練過(guò)程中進(jìn)行模擬量化，或者說(shuō)是插入FakeQuant偽量化算子，對(duì)weight與activation tensor進(jìn)行量化，然后再做反量化引入量化誤差進(jìn)行訓(xùn)練，所以在fine-tune的過(guò)程中模型還是以FP32精度進(jìn)行運(yùn)算的，并不是像推理過(guò)程中的低位運(yùn)算。之后我們通過(guò)反向傳播與梯度下降的方式微調(diào)模型權(quán)重。

對(duì)于量化參數(shù)的確定，weight tensor的量化參數(shù)通常采用絕對(duì)最大值除以127的方式確定，而activation tensor量化參數(shù)則根據(jù)QAT算法的不同可能也有所不同。早期的QAT算法采用滑動(dòng)平均的方式在訓(xùn)練過(guò)程中對(duì)量化取值范圍進(jìn)行統(tǒng)計(jì)更新，而近些年來(lái)主流的QAT算法直接將量化參數(shù)定位可學(xué)習(xí)參數(shù)在反向傳播過(guò)程中通過(guò)梯度下降進(jìn)行更新。

這樣的做法在實(shí)際實(shí)現(xiàn)過(guò)程中我們主要會(huì)遇到一個(gè)問(wèn)題，就是偽量化算子中的round函數(shù)梯度要怎么計(jì)算，我們既然在原模型插入了偽量化算子，又要對(duì)模型進(jìn)行重新訓(xùn)練，就不得不考慮反向傳播時(shí)怎么計(jì)算它的梯度。

首先我們之前有看過(guò)量化后的信號(hào)波形圖其實(shí)是一個(gè)離散的階梯函數(shù)，這樣的函數(shù)是不可導(dǎo)的，或者說(shuō)它們的梯度是處處為0的，這就導(dǎo)致權(quán)重?zé)o法得到更新。所以我們需要想辦法去對(duì)它做近似操作。

一種傳統(tǒng)的方式是用Straight-Through Estimator在反向傳播過(guò)程中讓偽量化算子輸入的梯度等于輸出的梯度，或者說(shuō)使他梯度為1。

由這種方法延伸出了一系列的QAT算法，例如DoReFaNet，這個(gè)算法將activation和weight都?jí)嚎s在0,1之間進(jìn)行量化，后面會(huì)繼續(xù)講解基于STE的QAT算法，敬請(qǐng)期待。
審核編輯：彭菁

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4380

瀏覽量
64850
模型

模型

+關(guān)注

關(guān)注
1

文章
3519

瀏覽量
50414
數(shù)據(jù)流

數(shù)據(jù)流

+關(guān)注

關(guān)注
0

文章
125

瀏覽量
14882

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

TPU-MLIR之量化感知訓(xùn)練

評(píng)論