一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MobileAI2021的圖像超分競賽的最佳方案

科技觀察員 ? 來源:AIWalker ? 作者:HappyAIWalker ? 2022-04-15 15:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天要介紹的MobileAI2021的圖像超分競賽的最佳方案,無論是PSNR指標(biāo)還是推理速度均顯著優(yōu)于其他方案,推理速度達(dá)到了手機端實時(《40ms@1080P)。

Abstract

盡管基于深度學(xué)習(xí)的圖像超分取得前所未有的進(jìn)展,但實際應(yīng)用要求i越來越高的性能、效率,尤其是移動端推理效率。智能手機的升級迭代、5G的盛行,用戶能感知到的圖像/視頻分辨率越來越高,從早期的480過度到720p,再到1080p,再到最近的1k、4k。高分辨率需要更高的計算量,占用更多的RAM,這就導(dǎo)致了端側(cè)設(shè)備的部署問題。

本文旨在設(shè)計一種8-bit量化版高效網(wǎng)絡(luò)并將其部署到移動端,整個設(shè)計過程如下:

首先,我們通過將輕量型超分架構(gòu)分解并分析每個節(jié)點的推理延遲,進(jìn)而確定可利用的算子;

然后,我們深入分析了何種類型的架構(gòu)便于進(jìn)行8-bit量化并提出了ABPN(Anchor-BasedPlainNetwork);

最后,我們采用量化感知訓(xùn)練(Quantization-AwareTraining,QAT)策略進(jìn)一步提升模型的性能。

我們所設(shè)計的模型能以2dB指標(biāo)優(yōu)于8-bit量化版FSRCNN,同時滿足實際速度需求。

Method

接下來,我們從節(jié)點延遲測試開始,然后引出本文方案背后的思考,最后構(gòu)建所提ABPN。

Meta-nodeLatency

由于我們的目標(biāo)在于構(gòu)建一種實時量化模型用于真實場景(比如實時視頻超分)。我們需要做的第一件事就是構(gòu)建可移植算子集并統(tǒng)計每個算子的耗時。

我們將當(dāng)前輕量型網(wǎng)絡(luò)(如EDSR、CARN、IMDN、IDN、LatticeNet)進(jìn)行分解構(gòu)建初始算子集;

我們在SynapticsDolphin平臺(專用NPU)上測試每個算子的延遲。

poYBAGJZH6qAbTeIAAW4n7Z4ank948.png

上述算子可以分為四大類:張量操作、卷積算子、激活算子、resize,見上表。從上表可以得出四個發(fā)現(xiàn):

近期的SOTA輕量架構(gòu)使用的技術(shù)似乎難以在移動端部署。

EDSR采用了大量的ResBlock,每個ResBlock會引入元素加,該操作甚至比高速優(yōu)化的卷積還要慢;

CARN采用了全局與局部特征集成,每個集成過程包含一個concat與一個卷積,僅僅帶來了0.09dB指標(biāo)提升;

由于大量的特征分離與拼接,IDN與IMDN同樣存在端側(cè)部署問題;

LatticeNet的部署問題更為嚴(yán)重,它采用了16個CA模塊,每個CA模塊包含一個元素加、一個元素乘、兩個池化層,四個卷積,導(dǎo)致了過高的計算負(fù)擔(dān)。

另一個常見問題:它們都需要保存前面層的特征并采用控制數(shù)據(jù)流動。這種長距離依賴會導(dǎo)致RAM的低頻處理,這是因為端側(cè)內(nèi)存非常有限。

因此,我們將不考慮特征融合、特征蒸餾、組卷積以及注意力機制。

盡管卷積的參數(shù)量是卷積的9倍,但由于并行計算的緣故,兩者的推理速度差別并不大。因此,我們采用卷積以得到更大感受野。

在激活函數(shù)方面,我們選擇ReLU。這是因為它要比LeakyReLu速度更快,而且i兩者導(dǎo)致的性能差異非常?。?/p>

由于HR與LR之間的坐標(biāo)映射導(dǎo)致resize操作的推理速度過慢。

Anchor-basedResidualLearning

正如前一節(jié)所討論的,能用的算子非常有限。為得到一個好的解決方案,我們深入分析了架構(gòu)設(shè)計與INT8量化之間的相關(guān)性。

據(jù)我們所知,其難度主要在于I2I(Image-to-Image,I2I)映射的高動態(tài)范圍,最直接的想法是生成低標(biāo)準(zhǔn)差權(quán)值與激活。有兩種方式可以達(dá)成該目的:

添加BN層:BN往往被集成在ResBlock中,盡管不會導(dǎo)致額外耗時與內(nèi)存占用,但會導(dǎo)致0.2dB的性能下降。

殘差學(xué)習(xí):近鄰像素往往具有相似的值,很自然的一種選擇就是學(xué)習(xí)殘差。殘差學(xué)習(xí)又可以分為以下兩種:

ISRL:圖像空間的殘差學(xué)習(xí)

FSRL:特征空間的殘差學(xué)習(xí)。

圖像空間的殘差學(xué)習(xí)在早期的工作(如VDSR,DRRN)中有得到應(yīng)用,而特征空間的殘差學(xué)習(xí)則更多在近期的SOTA方案(如SRGAN、IDN、IMDN)中得到應(yīng)用并取得了稍優(yōu)的性能。然而,我們認(rèn)為:ISRL更適合于INT8量化。

從前面Table1中可以看到:圖像空間插值存在不可接受的推理耗時,甚至僅僅一次resize都無法滿足實時需求。為解決該問題,我們提出了ABRL(Anchor-BasedResidualLearning):它直接在LR空間復(fù)制每個像素9次為HR空間的每個像素生成錨點。受益于PixelShuffle層,所提ABRL可以通過一個concat+一個元素加操作實現(xiàn)。

poYBAGJZIMSAL-okAAYjMQDQkqo655.png

上圖給出了四種類型殘差學(xué)習(xí)的區(qū)別所在,從推理耗時角度來看:

FSRL僅需要一個元素加操作,它的耗時為5.2ms;

ABRL包含一個通道拼接與一個元素加,總結(jié)耗時15.6ms,約為最近鄰插值的四分之一。

所提ABRL有這樣兩個優(yōu)點:

相比FSRL,ABRL可以顯著提升INT8量化模型的性能,提升高達(dá)0.6dB;

多分枝架構(gòu)可以通過并行加速,因此ABRL與FSRL的實際推理耗時相當(dāng)。ABRL與FSRL的主要耗時源自RAM的訪問速度慢。

NetworkArchitecture

poYBAGJZH56APOV9AANM_24soFA800.png

上圖給出了本文所提架構(gòu)示意圖,它包含四個主要模塊:

淺層特征提?。涸撨^程由卷積+ReLU構(gòu)成,定義如下:

poYBAGJZH5qAa_CMAAATi1xX8fs964.png

深層特征提?。涸撨^程采用多個Conv-ReLU組合構(gòu)成,描述如下:

為充分利用并行推理,我們設(shè)置Conv-ReLu的數(shù)量為5以匹配上分支的開銷,這意味著當(dāng)Conv-ReLU數(shù)量小于5時推理速度不變。最后,我們采用一個卷積將前述特征變換到HR圖像空間:

pYYBAGJZH5aAbf3uAAAPpYmTAwU455.png

然后再采用本文所提ABRL得到超分特征:

poYBAGJZH5CABv7qAAAP4TGdjqQ769.png

重建模塊:該模塊采用PixelShuffle進(jìn)對前述所得超分超分進(jìn)行像素重排得到超分圖像。

poYBAGJZH4yAUKExAAAVKr_yvA4283.png

后處理模塊:該模塊采用Clip操作約束超分輸出,即輸出最大值不超過255,最小值不小于0。移除該操作會導(dǎo)致輸出分布偏移,進(jìn)而導(dǎo)致量化誤差。

LossFunction

在損失函數(shù)方面,我們采用了簡單的L1損失,定義如下:

Experiments

在訓(xùn)練方面,圖像塊尺寸為64x64,batch=16,優(yōu)化器為Adam,初始學(xué)習(xí)率0.001,每200epoch減半,合計訓(xùn)練1000epoch。訓(xùn)練數(shù)據(jù)為DIV2K,在RGB空間評估性能。

QAT是一種流程的提升模型性能的量化技術(shù)且無額外推理耗時。我們設(shè)置初始學(xué)習(xí)率為0.0001,每50epoch減半,合計訓(xùn)練200epoch。QAT可以進(jìn)一步提升0.06的B性能,此時INT8模型僅比FP32性能低0.07dB。

ResidualLearning

poYBAGJZH4eAVAP5AAN_FlhUkL4876.png

上表對比了殘差學(xué)習(xí)的性能、耗時。從中可以看到:

對于FP32模型而言,F(xiàn)SRL模型取得了最佳性能,其他模型性能相當(dāng);

對于INT8模型而言,不帶殘差的模型會出現(xiàn)嚴(yán)重性能下降(-1.93dB),F(xiàn)SRL模型會下降0.78dB,而ISRL則則僅僅下降0.13dB。因此,殘差學(xué)習(xí)可以極大緩解INT8量化過程中的高動態(tài)范圍問題,而ISRL變現(xiàn)優(yōu)于FSRL。

TestonSnapdragon820

我們在Snapdragon820的手機平臺上,采用AIBenchmark軟件測試了所提方案的CPU、GPU以及NNAPI耗時,結(jié)果見下表。

pYYBAGJZH4OAB8I2AAcSK0tG-EA092.png

MAI2021SISRChallenge

本文起初用于參加MAI2021圖像超分競賽,結(jié)果見下表。注:首次的提交的模型在模型尾部沒有添加Clip操作,導(dǎo)致量化性能非常差(小于20dB);在競賽結(jié)束后才解決了該問題并提交了校正后模型。受益于素體ABRL,所提方案取得了最佳PSNR指標(biāo),同時具有更快的推理速度。

poYBAGJZH3-AF-8uAAKwkou7Frg557.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122792
  • 圖像空間
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    890
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    TI大學(xué)生電子設(shè)計競賽MSP430解決方案-智能電動車

    `TI大學(xué)生電子設(shè)計競賽MSP430解決方案-智能電動車詳細(xì)的智能電動車設(shè)計報告,原理圖,PCB圖,電路圖,程序等都有詳細(xì)解釋。`
    發(fā)表于 08-17 15:46

    電子設(shè)計競賽系列叢書,完整,詳細(xì),望諸位好好學(xué)

    命題、分賽區(qū)組織的方式,競賽采用“半封閉、相對集中”的組織方式進(jìn)行。競賽期間學(xué)生可以查閱有關(guān)紙介或網(wǎng)絡(luò)技術(shù)資料,隊內(nèi)學(xué)生可以集體商討設(shè)計思想,確定設(shè)計方案,分工負(fù)責(zé)、團(tuán)結(jié)協(xié)作,以隊為基本單位獨立完成
    發(fā)表于 07-02 17:44

    2021年全國大學(xué)生電子設(shè)計競賽官方通知正式發(fā)布 精選資料分享

    轉(zhuǎn)載自公眾號:德州儀器TI校園計劃關(guān)于組織2021年全國大學(xué)生電子設(shè)計競賽的通知(電組字〔2021〕01號)各賽區(qū)組織委員會、各有關(guān)高等學(xué)校:全國大學(xué)生電子設(shè)計競賽(以下簡稱全國
    發(fā)表于 07-21 06:06

    電子設(shè)計競賽相關(guān)資料分享

    2021年1月31日,全國大學(xué)生電子設(shè)計競賽組委會向各賽區(qū)組委會、各有關(guān)高校下發(fā)《關(guān)于組織2021年全國大學(xué)生電子設(shè)計競賽的通知》,正式啟動2021
    發(fā)表于 11-30 06:59

    【年終回饋】HarmonyOS 2021「知識競賽」來襲,多重豪禮送不停!

    HarmonyOS 2021知識競賽吧,僅需10鐘即可完成,4重繽紛豪禮送不停,還有王者稱號電子版證書,秀翻你的朋友圈!話不多說,掃描下方二維碼,立即報名開始競賽考試吧~注:本次
    發(fā)表于 12-23 16:23

    ARM用以解決圖像模型過參數(shù)問題

    ARM網(wǎng)絡(luò)為,通過設(shè)置不同的網(wǎng)絡(luò)寬度參數(shù)我們可以得到不同的子網(wǎng)絡(luò)。上圖給出了該方案的訓(xùn)練過程,每次迭代過程中圖像塊的重建難易程度在變化,故用于
    發(fā)表于 06-10 17:52

    介紹一種MobileAI2021圖像競賽最佳方案

    今天要介紹的MobileAI2021圖像競賽最佳方案
    發(fā)表于 06-10 18:03

    介紹一種Any-time super-Resolution Method用以解決圖像模型過參數(shù)問題

    作為forward的輸入可能更好一些。上圖給出了該方案的訓(xùn)練過程,每次迭代過程中圖像塊的重建難易程度在變化,故用于的子網(wǎng)絡(luò)也在動態(tài)調(diào)整,進(jìn)而確保了網(wǎng)絡(luò)的全部參數(shù)都能參數(shù)到訓(xùn)練過程中
    發(fā)表于 03-21 15:25

    OmniTek 清HDTV圖像處理方案演示

    OmniTek 總裁 Mike Hodson 將向您演示他們的清 HDTV 圖像處理解決方案
    的頭像 發(fā)表于 06-01 14:53 ?5516次閱讀
    OmniTek <b class='flag-5'>超</b>清HDTV<b class='flag-5'>圖像</b>處理<b class='flag-5'>方案</b>演示

    英特爾升級游戲開發(fā)者競賽最佳藝術(shù)設(shè)計和最佳音效

    AuraLab在Karma,Incarnation 1的2015年英特爾?升級游戲開發(fā)者競賽中獲得最佳藝術(shù)和最佳音效類別。
    的頭像 發(fā)表于 11-05 06:33 ?2896次閱讀

    2021年14個最佳融合基礎(chǔ)架構(gòu)解決方案供應(yīng)商

    納入標(biāo)準(zhǔn),選擇了最佳融合基礎(chǔ)架構(gòu)解決方案。 ? 融合基礎(chǔ)架構(gòu)(HCI)解決方案通過在服務(wù)器硬件上運行的單個實例提供計算,存儲,網(wǎng)絡(luò)和云
    的頭像 發(fā)表于 01-27 16:01 ?5928次閱讀

    MINIEYE榮獲2021最佳汽車解決方案

    美國當(dāng)?shù)貢r間2021年5月25日,邊緣人工智能與視覺聯(lián)盟 (Edge AI and Vision Alliance) 公布了2021年度最佳視覺產(chǎn)品獎。MINIEYE艙內(nèi)感知方案(In
    的頭像 發(fā)表于 06-23 16:00 ?2105次閱讀

    2021年電子競賽元器件清單參考

    2021年電子競賽元器件清單參考
    發(fā)表于 07-31 17:26 ?17次下載

    圖像傳感器處理和最佳實踐

    圖像傳感器處理和最佳實踐
    發(fā)表于 11-15 20:30 ?0次下載
    <b class='flag-5'>圖像</b>傳感器處理和<b class='flag-5'>最佳</b>實踐

    虹科BM131緊湊型IPC榮獲2021年度最佳產(chǎn)品獎!

    廠商和行業(yè)用戶的共同見證下,2021中國自動化領(lǐng)域年度最佳產(chǎn)品名單正式揭曉。經(jīng)過激烈的角逐,虹科緊湊型工業(yè)IPC獲得了2021年度最佳產(chǎn)品
    的頭像 發(fā)表于 12-13 14:59 ?869次閱讀
    虹科BM131<b class='flag-5'>超</b>緊湊型IPC榮獲<b class='flag-5'>2021</b>年度<b class='flag-5'>最佳</b>產(chǎn)品獎!