今天要介紹的MobileAI2021的圖像超分競賽的最佳方案,無論是PSNR指標(biāo)還是推理速度均顯著優(yōu)于其他方案,推理速度達(dá)到了手機(jī)端實(shí)時(shí)(《40ms@1080P)。
Abstract
盡管基于深度學(xué)習(xí)的圖像超分取得前所未有的進(jìn)展,但實(shí)際應(yīng)用要求i越來越高的性能、效率,尤其是移動(dòng)端推理效率。智能手機(jī)的升級迭代、5G的盛行,用戶能感知到的圖像/視頻分辨率越來越高,從早期的480過度到720p,再到1080p,再到最近的1k、4k。高分辨率需要更高的計(jì)算量,占用更多的RAM,這就導(dǎo)致了端側(cè)設(shè)備的部署問題。
本文旨在設(shè)計(jì)一種8-bit量化版高效網(wǎng)絡(luò)并將其部署到移動(dòng)端,整個(gè)設(shè)計(jì)過程如下:
首先,我們通過將輕量型超分架構(gòu)分解并分析每個(gè)節(jié)點(diǎn)的推理延遲,進(jìn)而確定可利用的算子;
然后,我們深入分析了何種類型的架構(gòu)便于進(jìn)行8-bit量化并提出了ABPN(Anchor-BasedPlainNetwork);
最后,我們采用量化感知訓(xùn)練(Quantization-AwareTraining,QAT)策略進(jìn)一步提升模型的性能。
我們所設(shè)計(jì)的模型能以2dB指標(biāo)優(yōu)于8-bit量化版FSRCNN,同時(shí)滿足實(shí)際速度需求。
Method
接下來,我們從節(jié)點(diǎn)延遲測試開始,然后引出本文方案背后的思考,最后構(gòu)建所提ABPN。
Meta-nodeLatency
由于我們的目標(biāo)在于構(gòu)建一種實(shí)時(shí)量化模型用于真實(shí)場景(比如實(shí)時(shí)視頻超分)。我們需要做的第一件事就是構(gòu)建可移植算子集并統(tǒng)計(jì)每個(gè)算子的耗時(shí)。
我們將當(dāng)前輕量型網(wǎng)絡(luò)(如EDSR、CARN、IMDN、IDN、LatticeNet)進(jìn)行分解構(gòu)建初始算子集;
我們在SynapticsDolphin平臺(tái)(專用NPU)上測試每個(gè)算子的延遲。
上述算子可以分為四大類:張量操作、卷積算子、激活算子、resize,見上表。從上表可以得出四個(gè)發(fā)現(xiàn):
近期的SOTA輕量架構(gòu)使用的技術(shù)似乎難以在移動(dòng)端部署。
EDSR采用了大量的ResBlock,每個(gè)ResBlock會(huì)引入元素加,該操作甚至比高速優(yōu)化的卷積還要慢;
CARN采用了全局與局部特征集成,每個(gè)集成過程包含一個(gè)concat與一個(gè)卷積,僅僅帶來了0.09dB指標(biāo)提升;
由于大量的特征分離與拼接,IDN與IMDN同樣存在端側(cè)部署問題;
LatticeNet的部署問題更為嚴(yán)重,它采用了16個(gè)CA模塊,每個(gè)CA模塊包含一個(gè)元素加、一個(gè)元素乘、兩個(gè)池化層,四個(gè)卷積,導(dǎo)致了過高的計(jì)算負(fù)擔(dān)。
另一個(gè)常見問題:它們都需要保存前面層的特征并采用控制數(shù)據(jù)流動(dòng)。這種長距離依賴會(huì)導(dǎo)致RAM的低頻處理,這是因?yàn)槎藗?cè)內(nèi)存非常有限。
因此,我們將不考慮特征融合、特征蒸餾、組卷積以及注意力機(jī)制。
盡管卷積的參數(shù)量是卷積的9倍,但由于并行計(jì)算的緣故,兩者的推理速度差別并不大。因此,我們采用卷積以得到更大感受野。
在激活函數(shù)方面,我們選擇ReLU。這是因?yàn)樗萀eakyReLu速度更快,而且i兩者導(dǎo)致的性能差異非常??;
由于HR與LR之間的坐標(biāo)映射導(dǎo)致resize操作的推理速度過慢。
Anchor-basedResidualLearning
正如前一節(jié)所討論的,能用的算子非常有限。為得到一個(gè)好的解決方案,我們深入分析了架構(gòu)設(shè)計(jì)與INT8量化之間的相關(guān)性。
據(jù)我們所知,其難度主要在于I2I(Image-to-Image,I2I)映射的高動(dòng)態(tài)范圍,最直接的想法是生成低標(biāo)準(zhǔn)差權(quán)值與激活。有兩種方式可以達(dá)成該目的:
添加BN層:BN往往被集成在ResBlock中,盡管不會(huì)導(dǎo)致額外耗時(shí)與內(nèi)存占用,但會(huì)導(dǎo)致0.2dB的性能下降。
殘差學(xué)習(xí):近鄰像素往往具有相似的值,很自然的一種選擇就是學(xué)習(xí)殘差。殘差學(xué)習(xí)又可以分為以下兩種:
ISRL:圖像空間的殘差學(xué)習(xí)
FSRL:特征空間的殘差學(xué)習(xí)。
圖像空間的殘差學(xué)習(xí)在早期的工作(如VDSR,DRRN)中有得到應(yīng)用,而特征空間的殘差學(xué)習(xí)則更多在近期的SOTA方案(如SRGAN、IDN、IMDN)中得到應(yīng)用并取得了稍優(yōu)的性能。然而,我們認(rèn)為:ISRL更適合于INT8量化。
從前面Table1中可以看到:圖像空間插值存在不可接受的推理耗時(shí),甚至僅僅一次resize都無法滿足實(shí)時(shí)需求。為解決該問題,我們提出了ABRL(Anchor-BasedResidualLearning):它直接在LR空間復(fù)制每個(gè)像素9次為HR空間的每個(gè)像素生成錨點(diǎn)。受益于PixelShuffle層,所提ABRL可以通過一個(gè)concat+一個(gè)元素加操作實(shí)現(xiàn)。
上圖給出了四種類型殘差學(xué)習(xí)的區(qū)別所在,從推理耗時(shí)角度來看:
FSRL僅需要一個(gè)元素加操作,它的耗時(shí)為5.2ms;
ABRL包含一個(gè)通道拼接與一個(gè)元素加,總結(jié)耗時(shí)15.6ms,約為最近鄰插值的四分之一。
所提ABRL有這樣兩個(gè)優(yōu)點(diǎn):
相比FSRL,ABRL可以顯著提升INT8量化模型的性能,提升高達(dá)0.6dB;
多分枝架構(gòu)可以通過并行加速,因此ABRL與FSRL的實(shí)際推理耗時(shí)相當(dāng)。ABRL與FSRL的主要耗時(shí)源自RAM的訪問速度慢。
NetworkArchitecture
上圖給出了本文所提架構(gòu)示意圖,它包含四個(gè)主要模塊:
淺層特征提取:該過程由卷積+ReLU構(gòu)成,定義如下:
深層特征提?。涸撨^程采用多個(gè)Conv-ReLU組合構(gòu)成,描述如下:
為充分利用并行推理,我們設(shè)置Conv-ReLu的數(shù)量為5以匹配上分支的開銷,這意味著當(dāng)Conv-ReLU數(shù)量小于5時(shí)推理速度不變。最后,我們采用一個(gè)卷積將前述特征變換到HR圖像空間:
然后再采用本文所提ABRL得到超分特征:
重建模塊:該模塊采用PixelShuffle進(jìn)對前述所得超分超分進(jìn)行像素重排得到超分圖像。
后處理模塊:該模塊采用Clip操作約束超分輸出,即輸出最大值不超過255,最小值不小于0。移除該操作會(huì)導(dǎo)致輸出分布偏移,進(jìn)而導(dǎo)致量化誤差。
LossFunction
在損失函數(shù)方面,我們采用了簡單的L1損失,定義如下:
Experiments
在訓(xùn)練方面,圖像塊尺寸為64x64,batch=16,優(yōu)化器為Adam,初始學(xué)習(xí)率0.001,每200epoch減半,合計(jì)訓(xùn)練1000epoch。訓(xùn)練數(shù)據(jù)為DIV2K,在RGB空間評估性能。
QAT是一種流程的提升模型性能的量化技術(shù)且無額外推理耗時(shí)。我們設(shè)置初始學(xué)習(xí)率為0.0001,每50epoch減半,合計(jì)訓(xùn)練200epoch。QAT可以進(jìn)一步提升0.06的B性能,此時(shí)INT8模型僅比FP32性能低0.07dB。
ResidualLearning
上表對比了殘差學(xué)習(xí)的性能、耗時(shí)。從中可以看到:
對于FP32模型而言,F(xiàn)SRL模型取得了最佳性能,其他模型性能相當(dāng);
對于INT8模型而言,不帶殘差的模型會(huì)出現(xiàn)嚴(yán)重性能下降(-1.93dB),F(xiàn)SRL模型會(huì)下降0.78dB,而ISRL則則僅僅下降0.13dB。因此,殘差學(xué)習(xí)可以極大緩解INT8量化過程中的高動(dòng)態(tài)范圍問題,而ISRL變現(xiàn)優(yōu)于FSRL。
TestonSnapdragon820
我們在Snapdragon820的手機(jī)平臺(tái)上,采用AIBenchmark軟件測試了所提方案的CPU、GPU以及NNAPI耗時(shí),結(jié)果見下表。
MAI2021SISRChallenge
本文起初用于參加MAI2021圖像超分競賽,結(jié)果見下表。注:首次的提交的模型在模型尾部沒有添加Clip操作,導(dǎo)致量化性能非常差(小于20dB);在競賽結(jié)束后才解決了該問題并提交了校正后模型。受益于素體ABRL,所提方案取得了最佳PSNR指標(biāo),同時(shí)具有更快的推理速度。
-
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5548瀏覽量
122337 -
圖像空間
+關(guān)注
關(guān)注
0文章
2瀏覽量
878
發(fā)布評論請先 登錄
TI大學(xué)生電子設(shè)計(jì)競賽MSP430解決方案-智能電動(dòng)車
電子設(shè)計(jì)競賽系列叢書,超完整,超詳細(xì),望諸位好好學(xué)
2021年全國大學(xué)生電子設(shè)計(jì)競賽官方通知正式發(fā)布 精選資料分享
電子設(shè)計(jì)競賽相關(guān)資料分享
【年終回饋】HarmonyOS 2021「知識競賽」來襲,多重豪禮送不停!
ARM用以解決圖像超分模型過參數(shù)問題
介紹一種Any-time super-Resolution Method用以解決圖像超分模型過參數(shù)問題
英特爾升級游戲開發(fā)者競賽:最佳藝術(shù)設(shè)計(jì)和最佳音效
2021年14個(gè)最佳的超融合基礎(chǔ)架構(gòu)解決方案供應(yīng)商
MINIEYE榮獲2021最佳汽車解決方案
虹科BM131超緊湊型IPC榮獲2021年度最佳產(chǎn)品獎(jiǎng)!

評論