一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

探究學(xué)術(shù)界AV1編碼優(yōu)化技術(shù)的進展

LiveVideoStack ? 來源:LiveVideoStack ? 作者:朱辰 ? 2021-05-24 16:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

學(xué)術(shù)界的一些優(yōu)化工作實涵蓋了編碼過程的大部分模塊。很 明顯的趨勢就是許多深度學(xué)習(xí)的網(wǎng)絡(luò)或者方法已經(jīng)開始與編碼的模塊進行結(jié)合,并取得了很多不錯的收益。本文將按照編碼過程的大致順序分享學(xué)術(shù)界AV1編碼優(yōu)化技術(shù)的進展。

各位專家以及屏幕前的各位觀眾大家好!我是朱辰,目前是上海交通大學(xué)圖像所的在讀博士生。本次分享的主題是學(xué)術(shù)界AV1編碼優(yōu)化技術(shù)的進展。

AV1編碼標(biāo)準

首先介紹一下AV1編碼標(biāo)準。AV1是由開放媒體聯(lián)盟AOM陣營提出的面向互聯(lián)網(wǎng)流媒體的開發(fā)編碼標(biāo)準開放編碼標(biāo)準。AOM是由谷歌主導(dǎo),并且吸納了很多ICT領(lǐng)域的大廠加入,例如我們國內(nèi)的騰訊還有愛奇藝都是聯(lián)盟成員。AOM建立的初衷是想解決專利問題,形成一些免費開源的編碼方案,同時性能超過HEVC。

AV1核心編碼工具

此處是對AV1新增的一些核心編碼工具進行了一些整理總結(jié)。首先,最大的編碼單元目前已經(jīng)擴展到了128×128的大??;同時劃分模式是支持2等分和4等分。幀內(nèi)預(yù)測方面,除了擴展了方向性的預(yù)測模式以外,還添加了比如交叉分量、遞歸濾波的預(yù)測模式。幀間預(yù)測方面是最多支持7個參考幀,同時支持仿射運動軌跡,混合預(yù)測模式等。

變換是支持包含DCT在內(nèi)的4種模式。熵編碼使用的是一種多符號的上下文字適應(yīng)的算術(shù)碼。環(huán)路濾波共支持區(qū)塊濾波,方向增強濾波,還有修復(fù)濾波,總共三種算子。最后特別的對于屏幕內(nèi)容編碼,還涉及了一些例如調(diào)色板,塊匹配等技術(shù)。

AV1編解碼器

AV1在生態(tài)建設(shè)方面步伐非???,現(xiàn)在可以看到已有三款開源的編碼器和一款開源的解碼器。另外我們也已經(jīng)看到已經(jīng)有三款商用的AV1編碼器。對于AV1性能,相比于HEVC標(biāo)準下的x265, AV1的前身VP9,大概有20~30%的增益。在商業(yè)應(yīng)用方面,從去年開始AV1已經(jīng)開始有規(guī)模在一些比如瀏覽器端、安卓客戶端、OTT以及智能電視設(shè)備上得到支持和使用。

AV1優(yōu)化技術(shù)工作

56ae405e-bc62-11eb-bf61-12bb97331649.png

接下來是對AV1上的一些優(yōu)化技術(shù)和優(yōu)化工作進行一些介紹。因為現(xiàn)在我們的市場上的視頻應(yīng)用種類是非常多的,例如點播、直播,互動類的場景。對于不同類的應(yīng)用,實際上對編碼的需求也有一定差異。

對于AV1定稿的編碼標(biāo)準而言,往往沒有辦法同時滿足這樣多方面的需求的。所以對標(biāo)準編碼器還會衍生出很多方面的優(yōu)化,含R-D性能、復(fù)雜度、延遲,一些硬件實現(xiàn)上的優(yōu)化。對此整理了AV1定稿以后近兩三年在學(xué)術(shù)界或者說以論文形式發(fā)表的優(yōu)化工作,發(fā)現(xiàn)目前主要就是集中在性能和復(fù)雜度優(yōu)化方面。上圖中列出了優(yōu)化方法的編碼模塊,實際上也可以看到其中的大部分編碼過程中的大部分模塊都已經(jīng)有相應(yīng)的優(yōu)化路徑。

此次分享會按照編碼過程的大致順序,對各類工作進行一些介紹。

#1. 性能優(yōu)化方面

1.1 幀內(nèi)預(yù)測的優(yōu)化

572c07f0-bc62-11eb-bf61-12bb97331649.png

首先是性能優(yōu)化方面的工作。其中首先是幀內(nèi)預(yù)測的優(yōu)化工作。AV1本身是有56個方向性模式,5個非方向的幀內(nèi)模式。這個工作的出發(fā)點是發(fā)現(xiàn)相鄰塊的選擇的幀內(nèi)模式往往是相同的或者是相近的,但目前的AV1里面還沒有應(yīng)用到相鄰塊的模式信息。

此外,AV1幀內(nèi)預(yù)測本身只用了一個相鄰的參考線中的中間塊作為參考,但當(dāng)對于一些像紋理圖案這種相鄰樣本變化比較大的區(qū)域的時,如還是使用單一的參考線,可能會導(dǎo)致殘差較大、預(yù)測誤差較大的現(xiàn)象。所以針對這兩點,工作提出了自適應(yīng)預(yù)測角度,非相鄰的參考線兩種方法。

1.1.1 自適應(yīng)預(yù)測角度

57425e88-bc62-11eb-bf61-12bb97331649.png

自適應(yīng)預(yù)測角度,首先要做的是改變候選角度的一個粒度。意思是說根據(jù)剛剛說的相鄰塊的模式,往往會被當(dāng)前塊選中。上圖中間圖中所示,對于相鄰塊方向的候選角度仍然保持一個細粒度。

其他方向的候選角度,可以用一個粗粒度去進行選擇。在此基礎(chǔ)上它提出了一個叫做“Allowed”,叫做允許的幀內(nèi)測模式集合。最大數(shù)量有40個,意思就是將AV1原有大概60多個可能的幀內(nèi)模式,按照一定的優(yōu)先級順序去填滿 AIPM集合。

它的一個選擇順序:首先是非方向性的模式,這些模式的選中概率是最高的;然后是剛剛說的相鄰塊的方向性模式;其次是優(yōu)先級,相鄰塊方向性模式加上一些細致度偏置以后的角度模式;最后當(dāng)集合數(shù)量還沒填滿的時候,加入一些默認的模式進行填充。這個工作對這提出的集合進行了一個驗證;發(fā)現(xiàn)在CTC序列上的命中率可以有93%左右,是非常有效的一個方法。

文章還相應(yīng)提出了說對相鄰塊的角度,用一個短碼進行編碼替代原來的相同碼上編碼,實現(xiàn)更優(yōu)質(zhì)的編碼。

1.1.2 自適應(yīng)的非近鄰參考線

自適應(yīng)的非近鄰參考線的概念比較易懂的。在原來只有單個參考線的基礎(chǔ)上,額外的添加了三個稍微相鄰的但是較遠的參考線,僅針對Y分量有效。但如果直接增加這樣幾條參考線,文章中也給出會增加成倍的編碼事,要進行一個復(fù)雜度和性能提升之間的權(quán)衡。它也利用了一些快速終止以及較遠參考線簡化候選模式,只保留方向性模式,去達到平衡。

1.1.3 幀內(nèi)預(yù)測的結(jié)果

這樣的兩個方法最終取得了Y分量在兩個編碼模式里面2%的一個性能提升。

1.2 幀間預(yù)測的優(yōu)化

1.2.1 針對于幀間預(yù)測的多層、多參考幀的框架

5805f0d2-bc62-11eb-bf61-12bb97331649.png

這個框架目前應(yīng)用在 AV1官方編碼器Libaom中,用到短期參考和長期參考,多參考幀的概念去適應(yīng)不同運動內(nèi)容,不同運動特性,或者不同種類內(nèi)容的視頻,去達到一個更好的幀間預(yù)測。

它以AV1前身VP9作為base line,VP9用到三種參考幀,一個是LAST就是緊鄰的前一幀,另一個是golden frame。一個起始的golden frame加上一定數(shù)量的幀,就可以形成一個golden frame group。另一幀叫做ALT幀參考幀,利用一些較遠的未來幀去通過時域濾波構(gòu)建的,這個幀本身主要用于參考,是不用于具體的顯示的。

在一個golden frame group里會共用golden frame,還有 ALT幀。在此基礎(chǔ)上工作就擴展了候選幀的數(shù)量是添加了兩再添加了兩個緊鄰的過去幀,還添加了一個叫做“BWD”可以用于后項參考的參考幀。參考幀數(shù)量達到翻倍的效果。在目前的AV1版本里面,還會生成新的一幀,中間的ALT幀作為golden frame和原來的ALT參考幀的一個過渡的形態(tài)。所以可以總共有七幀參考。

1.2.2 選候參考幀集合后編碼增益情況

58e7b2a6-bc62-11eb-bf61-12bb97331649.png

有這樣一個很豐富的選候參考幀集合后,可以發(fā)現(xiàn)確實是有非常明顯的效果,有3~10%的一個不同序列上的編碼增益。但是因為參考幀的數(shù)量較多,它的一些模式選擇性較多,復(fù)雜度增加也是較大。

#2. 率失真優(yōu)化和RDO的優(yōu)化工作

59c50336-bc62-11eb-bf61-12bb97331649.png

接下來是一個對于率失真優(yōu)化和RDO的優(yōu)化工作,是我們實驗室團隊和谷歌共同合作。它對原有的RDO進行了一個感知優(yōu)化。整體的感知編碼的概念是想把很多反映人眼主觀感受的一些視覺模型。最常見的可能就是SSIM、VMAF這種質(zhì)量指標(biāo)模型。它與特定的編碼模塊相結(jié)合,達到一種去除感知冗余的目標(biāo)。

我們這里的模塊是RDO。像AV1這種主流的編碼器中用到的拉格朗日RDO中使用的失真準則。它會用一些SSE/SAD這種很簡單的數(shù)學(xué)統(tǒng)計量去作為度量,再用于后續(xù)的一個推導(dǎo)。實際上這種統(tǒng)計量與主觀的感受的差距還是很大的,確實應(yīng)該加入一些感知的因素。對此我們就加入了叫做恰可覺察失真的這個模型。

這個模型是表示大部分觀看者恰好感受到失真時的閾值,也代表了一種失真可容忍的閾值。當(dāng)這種可容忍閾值越高的時表示人眼對于這塊區(qū)域的敏感度越低,有相反的關(guān)系。

在使用JND時,通常首先會生成一些考慮不同視覺感受的,不同視覺因素的因子。這里用到的就是亮度適應(yīng)性、對比度掩蔽、結(jié)構(gòu)性保護、時域掩蔽。它分別表示人眼對于不同的背景亮度、對比度,邊緣結(jié)構(gòu)強度,運動強度的差異化敏感度。有了這樣的很多因子以后,采用像素JND,它會利用一種非線性疊加的形式,把各類因子結(jié)合起來,形成一個最終的整體模型。

2.1 JND模型與RDO更好融合的過程

5a392f54-bc62-11eb-bf61-12bb97331649.png

為了把得到的JND模型與RDO更好融合,進行了以下過程:首先是提出了一個感知的指標(biāo),它是將MSE還有整體JND結(jié)合起來形成的一個指標(biāo)。它對于同類不同類的區(qū)域,如果存在相同的MSE失真,當(dāng)它的JND閾值越大,對于人眼的敏感度越低時,它的感知失真應(yīng)該更小,有比較定性的關(guān)系。

利用提出的感知指標(biāo)作為RDO里面新的失真準則進行后續(xù)的數(shù)學(xué)推導(dǎo),最后可以推導(dǎo)出一個包含JND,包含以原來SSE 失真為為推導(dǎo)的拉格朗日乘子的形式。生成一個感知的拉格朗日乘子,去調(diào)節(jié)每個編碼塊的編碼模式,將它往更偏向感知的方向去進行編碼。

2.2 JND模型與RDO融合增益情況

5b60f614-bc62-11eb-bf61-12bb97331649.png

這個工作是在一個質(zhì)量較高,速度又比較快的檔位進行測試的,得到了4%的 SSIM BD-rate增益。

同時它的額外復(fù)雜度因為JND計算非常簡便,額外復(fù)雜度并不高。

#3. AV1碼率控制模塊優(yōu)化

5ba3af4a-bc62-11eb-bf61-12bb97331649.png

碼控模塊的目標(biāo)是對序列各幀、各個編碼模塊去分配一定的碼率,使得實際輸出的碼率接近目標(biāo)的給定碼率。這個工作里面首先也是對當(dāng)時版本的碼率控制進行了測試,發(fā)現(xiàn)AV1當(dāng)時版本的碼率控制在RD性能以及碼控準確度方面有所不足。我們也對目前版本的碼控方案進行了簡單的測試,發(fā)現(xiàn)它在性能上其實與 CQP已經(jīng)比較接近。不過在碼控準確度方面還可以有一定的改進。

3.1 優(yōu)化工作的思路

5c283044-bc62-11eb-bf61-12bb97331649.png

把碼控的一般過程去進行一個介紹。首先是要找到碼率和具體編碼參數(shù)的一個關(guān)系,才能作用到實際的編碼。在這個工作里面就找到了碼率與量化步長 RQ的模型。其次要確定一些失真準則或特征去作為碼率分配的標(biāo)準。這也是找了一個叫做EMD的特征用于后續(xù)的碼率估計。最后在這兩點的基礎(chǔ)上就可以對碼率問題進行建模和求解。

3.2 碼率約束

一般的碼率碼控條件是在碼率約束下尋求最小的失真,在其他給定的失真或者特征情況下,限定一些額外的條件。最后的話這個工作使用了一種遺傳算法的求解方式。是找到了一組碼控的局部最優(yōu)解去優(yōu)化碼率控制。

3.3 增益情況

5c729b0c-bc62-11eb-bf61-12bb97331649.png

這個方法是在三種編碼模式下取得了平均百分之三的增益,但是還會有一定的碼控誤差。

#4. AV1的環(huán)路濾波優(yōu)化

5cd78882-bc62-11eb-bf61-12bb97331649.png

接下來的話就說一下AV1的環(huán)路濾波的優(yōu)化。AV1里面已經(jīng)有三種濾波器,還包括一種叫做電影(紋理)顆粒合成的,后處理的模塊。這幾個濾波器或者模塊在相應(yīng)的位置以一種串聯(lián)的方式對單幀進行增強的。

4.1 基于CNN的環(huán)路濾波

5d6cf0de-bc62-11eb-bf61-12bb97331649.png

近年來有很明顯的趨勢,就是深度學(xué)習(xí)網(wǎng)絡(luò)越來越多的被用在環(huán)路濾波中,可以取得非常大的增益。編碼的環(huán)路濾波更多的是基于CNN的環(huán)路濾波,濾波器也有很多優(yōu)化的方向。最主要是第一種設(shè)計一些新的網(wǎng)絡(luò)架構(gòu)。上圖右側(cè)給出的以Resblock為單位的殘差網(wǎng)絡(luò),現(xiàn)在越來越多的被作為一種基本架構(gòu)去優(yōu)化。除此之外,利用輔助的編碼信息,還有基于內(nèi)容自適應(yīng)去進行深度學(xué)習(xí)濾波,對這種深度網(wǎng)絡(luò)進行復(fù)雜度的優(yōu)化。

4.2 案例

5db75df4-bc62-11eb-bf61-12bb97331649.png

分享以去年ICIP的一個工作為例,它設(shè)計了一種非對稱的卷機殘差網(wǎng)絡(luò)-ACRN,在網(wǎng)絡(luò)里面還有這樣的幾種設(shè)計,例如寬激活,還有非對稱的卷積層,以及稠密連接。這幾種設(shè)計可以更細致的捕獲到底層的一些特征,捕獲一些方向性的特征,以及在網(wǎng)絡(luò)中不斷的去強化輸入或者說失真圖像本身的一些信息,比如說編碼的塊信息,達到上述效果。

4.3 CNN濾波器增益效果

5def223e-bc62-11eb-bf61-12bb97331649.png

通過CNN濾波器設(shè)計替代 AV1新引入的兩種濾波器,可以達到7~8%的一個編碼增益,相對于其他模塊是比較高的增益。

#5. 紋理合成性能優(yōu)化

5e9049e8-bc62-11eb-bf61-12bb97331649.png

性能優(yōu)化里面的最后一個方向,紋理合成。相比于一些簡單靜態(tài)的場景,復(fù)雜的紋理在基于殘差塊的編碼框架下是非常難編的。所以紋理合成要做的是直接利用紋理本身的特征去進行編碼和恢復(fù)。

它的一個常規(guī)的工作流主要包含首先是對紋理進行探測,那些被認為是紋理的區(qū)域,就直接去對特征進行編碼,并傳到解碼端,在解碼端也是利用紋理本身的這種特征去還原和合成紋理。例如剛剛提到的AV1電影顆粒合成也是一種紋理合成的方法。

這個方法中電影的顆粒被建模為是一種叫做自回歸AR的過程,AR的過程里面的一些系數(shù)就可以作為顆粒的參數(shù)或者表達在解碼端去合成逼真的電影顆粒。

5.1 AV1上的紋理合成工作

5ec78b6a-bc62-11eb-bf61-12bb97331649.png

這里要介紹的一個在AV1上的紋理合成工作,也采用了比較常規(guī)的框架。首先是一個CNN的紋理分析器。它將原始幀去分割成非重疊的小塊,每個小塊過分析器得到二分類的判斷是否為紋理的標(biāo)簽。最后可以在整幀上得到一個基于塊級別的紋理mask。在mask指導(dǎo)下,被認為是紋理的區(qū)域就直接通過紋理模式編碼而不再進行基于殘差塊的編碼。

5.2 AV1上的紋理合成工作過程

5f12e150-bc62-11eb-bf61-12bb97331649.png

它的一個過程是這樣的:首先是估計紋理的運動參數(shù)。這個參數(shù)也是在一種復(fù)合或說多參考幀的預(yù)測下得到的,也是為了降低紋理合成的閃爍以及塊效應(yīng)等偽像。運動參數(shù)也是被編碼和傳到解碼端的,在解碼端一些用常規(guī)編碼的參考區(qū)域,就在這種運動參數(shù)的指導(dǎo)下進行一種warp變換,扭曲成當(dāng)前區(qū)應(yīng)有的這種紋理樣式達到紋理合成的效果。

5.3 紋理合成的工作結(jié)果

5f475a02-bc62-11eb-bf61-12bb97331649.png

可以看到它工作給的一些結(jié)果,在低QP,高碼率的情況下,這種以參數(shù)替代殘差塊的編碼方法或者說合成方法是可以取得一定的碼率節(jié)省的。

#6. AV1復(fù)雜度優(yōu)化

5f88109c-bc62-11eb-bf61-12bb97331649.png

接下來是復(fù)雜度優(yōu)化方面,AV1新增的很多編碼工具實際上帶來了大量的編碼時間,所以對AV1去進行復(fù)雜度的優(yōu)化很有必要,而且會帶來很大的收益。目前看到在AV1上的復(fù)雜度優(yōu)化工作主要包含塊劃分、幀間預(yù)測、變換搜索方面的加速工作。盡管這些加速工作是針對不同模塊,它們也有一些比較共通的路徑。

主要有這樣三種:

第一點是去人為的定義一些特征,并且基于這些特征手工制定相關(guān)的快速決策準則的傳統(tǒng)方法。

第二點是人為設(shè)定的特征輸入網(wǎng)絡(luò)去學(xué)習(xí)的機器學(xué)習(xí)方法。

第三點是直接定義輸入輸出,讓網(wǎng)絡(luò)自己去學(xué)習(xí)決策過程的深度學(xué)習(xí)方法。

目前看到的AV1上的工作主要集中于前兩條路徑。

6.1 一個塊劃分的加速方法

603bfcce-bc62-11eb-bf61-12bb97331649.png

首先要介紹的是一個塊劃分的加速方法,這個方法可以算作一個傳統(tǒng)的路徑。比較特殊的點在于它是基于跨分辨率的加速方法。首先是對同一視頻在不同分辨率下的塊劃分情況進行了一個查看,發(fā)現(xiàn)精細的分割區(qū)域其實是共通的或者說相似的,主要是一些復(fù)雜的紋理以及快速運動的物體。

基于這個現(xiàn)象,這個文章中就假定了一種特征f,它是表現(xiàn)細節(jié)的精細度以及物體運動快慢程度的一個特征。有了這樣一個特征后,每個塊被劃分的概率或者趨勢E(X),與這種特征有一個正相關(guān)的關(guān)系,進一步的去假定這個特征。f有一個分辨率不變性以后,那f就可以與兩種或者多種分辨率的劃分結(jié)果。

比如說E(X1)、E(X2)有兩種映射關(guān)系,比如說g1和g2。進一步把這個f作為中間連接的一個橋梁以后,最終可以達到這樣一種目的:在得到一個低分辨率的塊劃分結(jié)果E(X2)以后,就可以通過反映射的方式轉(zhuǎn)換為高分辨率的劃分結(jié)果。通過推導(dǎo)后,實際上,f就并不用具體的去提取某一種特征,只是在推導(dǎo)里面被用到。

6.2 應(yīng)用場景

60754fce-bc62-11eb-bf61-12bb97331649.png

理論去具體去用的時候會存在應(yīng)用場景。這個場景就是多分辨率同時編碼的一個情況。這種場景在一些流媒體的服務(wù)器端是經(jīng)常存在的。在具體實現(xiàn)的時候?qū)τ诰幋a的每50幀,所有的50幀都是對于低分辨率,都是常規(guī)的進行RDO去進行完整編碼,對于50幀里的前5幀的高分辨率編碼,它也是進行完整的 RDO過程,然后會得到 E(X1)以及低分辨率的E(X2)的劃分結(jié)果。

首先要通過一個influence Model去推理出這兩種劃分結(jié)果的一個映射關(guān)系。基于前5幀的一個結(jié)果,對于之后的90%,大概是45幀,利用 influence結(jié)果以及實際編碼的低分辨率劃分結(jié)果,直接去推導(dǎo)出高分辨率的劃分結(jié)果,不再進行完整的RDO,達到一個加速的目的。

6.3 節(jié)省效果

60a5a03e-bc62-11eb-bf61-12bb97331649.png

方法最終是實現(xiàn)大約30~40%的時間節(jié)省。這里還設(shè)定了一個預(yù)估錯誤的閾值,閾值越高的話,就會導(dǎo)致比較大的碼率損失。

#7. 幀間預(yù)測加速工作

615b0672-bc62-11eb-bf61-12bb97331649.png

在AV1里面。目前提供了基于單參考幀,以及混合的基于雙參考幀的幀間預(yù)測模式。在這兩種模式下都有一些很豐富的運動向量。這篇文章的出發(fā)點,發(fā)現(xiàn)并不是所有的序列都會因為這些豐富的候選模式而產(chǎn)生很大的編碼增益的,可以進行一些簡化。

618629ec-bc62-11eb-bf61-12bb97331649.png

文章首先對各個序列的編碼結(jié)果進行了評估,發(fā)現(xiàn)了大部分的幀間預(yù)測塊都是以單參考幀的模式被編碼的,所以一個很直接很簡單的嘗試就是去除混合預(yù)測模式。結(jié)果發(fā)現(xiàn)會有很大的編碼復(fù)雜度的降低,但同時對于一些序列會產(chǎn)生很嚴重的性能損失。還是要找一種能保住性能的穩(wěn)妥做法。

61cfada6-bc62-11eb-bf61-12bb97331649.png

文章中也是使用了基于機器學(xué)習(xí)的決策樹的網(wǎng)絡(luò)。在網(wǎng)絡(luò)里面首先設(shè)定了4種特征輸入網(wǎng)絡(luò)。特征分別是當(dāng)前塊相鄰的左塊與上塊的預(yù)測模式,左塊、上塊在第二參考幀中的相應(yīng)內(nèi)容。特征輸入以后,一個二分類的分類器就對每一塊進行決策,決定當(dāng)前塊是進行單參考幀的預(yù)測模式,還是遍歷兩種幀間預(yù)測模式。這樣一個分類器可以最終達到80%的預(yù)測精度。

63cc7b5c-bc62-11eb-bf61-12bb97331649.png

通過這樣一種做法相比于原有的AV1編碼器可以達到43%的編碼時間降低,以及0.77%的比較小的性能損失。

#8. 變換搜索加速方法

64857616-bc62-11eb-bf61-12bb97331649.png

最后是一個變換搜索的加速方法。AV1提供了很豐富的變化和帶來了很大的復(fù)雜度。這一個工作是對變換尺寸以及變換核搜索進行一個裁剪。

首先是尺寸的裁剪,它對于每一個預(yù)測殘差塊去提取均值以及標(biāo)準差這兩個特征,輸入到一個相應(yīng)的神經(jīng)網(wǎng)絡(luò)里面去學(xué)習(xí),并最后輸出一個當(dāng)前塊是否應(yīng)該被分割的數(shù)值。這一個數(shù)值會與已經(jīng)設(shè)定好的兩端的閾值進行比較,當(dāng)超過閾值的時候可能就不再選取比較大或者比較小的變化尺寸。

第二點就是變化核的裁剪。

64c7559a-bc62-11eb-bf61-12bb97331649.png

這里的做法就是對每一個殘差塊的縱向和橫向兩個方向分別設(shè)置兩個網(wǎng)絡(luò)。網(wǎng)絡(luò)會輸入一些自相關(guān)以及能量分的特征。兩個子網(wǎng)絡(luò)的一些輸出進行融合以后,會最終對每一個可能的變換核被選中的概率進行一個評估。在具體的編碼中,如果說被評估的是被選中概率很低的一些變化核,可能直接被舍棄,去達到一個簡化的目的。

8.1 節(jié)省效果

6519c30c-bc62-11eb-bf61-12bb97331649.png

最終這樣一個簡化方法可以在不同分辨率下達到大概10%到30%不等的時間的節(jié)省。對于變換的簡化,性能損失比較小,在0.1%左右的程度。

#9. 總結(jié)

65ac26e8-bc62-11eb-bf61-12bb97331649.png

學(xué)術(shù)界的一些優(yōu)化工作實際上也涵蓋了編碼過程的大部分模塊。很明顯的趨勢就是許多深度學(xué)習(xí)的網(wǎng)絡(luò)或者方法已經(jīng)開始與編碼的模塊進行結(jié)合,并取得了很多不錯的收益。但是在標(biāo)準編碼器中,這種AI與Codec到底應(yīng)該結(jié)合到怎樣的一個程度還是需要被探究和摸索的。所以也讓我們期待AOM聯(lián)盟的下一代編碼器AV2吧。

以上就是我所有的分享,謝謝大家!

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3808

    瀏覽量

    138073
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3690

    瀏覽量

    43837
  • DCT
    DCT
    +關(guān)注

    關(guān)注

    1

    文章

    56

    瀏覽量

    20234

原文標(biāo)題:學(xué)術(shù)界AV1編碼優(yōu)化技術(shù)的進展

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    知存科技邀您相約第二十一屆全國容錯計算學(xué)術(shù)會議

    7月18日至20日,由中國計算機學(xué)會主辦的第二十一屆全國容錯計算學(xué)術(shù)會議(CCF CFTC 2025)將在杭州舉行。作為國內(nèi)容錯計算領(lǐng)域一年一度的盛會,此次會議匯聚了來自學(xué)術(shù)界和產(chǎn)業(yè)界的眾多精英,知存科技將作為存算一體領(lǐng)域的代表企業(yè)參會,共同探討前沿
    的頭像 發(fā)表于 07-16 15:20 ?292次閱讀

    Arm與學(xué)術(shù)界密切合作培養(yǎng)AI人才

    人工智能 (AI) 的廣泛采用正在重塑全球各行各業(yè),它在帶來空前機遇的同時,也引發(fā)了前所未有的挑戰(zhàn)。其中最緊迫的問題之一就是技能缺口,這意味著人才在有效整合和運用 AI 技術(shù)所需的專業(yè)知識方面尚存不足。
    的頭像 發(fā)表于 05-28 14:23 ?314次閱讀

    SOLIDWORKS科研版?面向學(xué)術(shù)界的解決方案

    學(xué)術(shù)界提供了一套全方面、有效、靈活的計算機輔助設(shè)計(CAD)解決方案,助力科研人員突破設(shè)計瓶頸,加速科研成果的轉(zhuǎn)化。 SOLIDWORKS科研版?面向學(xué)術(shù)界的解決方案 一、SOLIDWORKS科研版的核心優(yōu)勢 1.強大的三維設(shè)計
    的頭像 發(fā)表于 04-16 16:12 ?272次閱讀
    SOLIDWORKS科研版?面向<b class='flag-5'>學(xué)術(shù)界</b>的解決方案

    最全最詳盡的半導(dǎo)體制造技術(shù)資料,涵蓋晶圓工藝到后端封測

    刻蝕 第17章 離子注入 第18章 化學(xué)機械平坦化 第19章 硅片測試 第20章 裝配與封裝 本書詳細追述了半導(dǎo)體發(fā)展的歷史并吸收了當(dāng)今最新技術(shù)資料,學(xué)術(shù)界和工業(yè)界對《半導(dǎo)體制造技術(shù)》的評價都很高。
    發(fā)表于 04-15 13:52

    學(xué)術(shù)力量促進開源技術(shù)新未來

    開源社區(qū)、平臺和實踐正逐步融入學(xué)術(shù)評價體系,特別是以高等院校為代表的學(xué)術(shù)界,正積極參與開源項目,促進產(chǎn)學(xué)研深度融合,將更多科研成果轉(zhuǎn)化為實際生產(chǎn)力。
    的頭像 發(fā)表于 12-27 13:50 ?522次閱讀

    SAE 2024汽車動力總成多元化技術(shù)論壇成功舉行

    近日,SAE 2024汽車動力總成多元化技術(shù)論壇在西安西咸國際會議中心成功舉行,來自汽車產(chǎn)業(yè)、行業(yè)組織、學(xué)術(shù)界及科研機構(gòu)的專家學(xué)者齊聚一堂,深入探討汽車動力總成技術(shù)的最新進展與多元化發(fā)
    的頭像 發(fā)表于 12-10 16:53 ?1122次閱讀

    夸克學(xué)術(shù)搜索受熱捧,成年輕人PC端AI應(yīng)用首選

    近日,夸克發(fā)布了一款全新的“學(xué)術(shù)搜索”AI產(chǎn)品,旨在通過先進的AI技術(shù)和億級學(xué)術(shù)文獻資源,為學(xué)術(shù)工作者提供更為高效的信息獲取、創(chuàng)作和處理服務(wù)。這一創(chuàng)新產(chǎn)品的推出,無疑為
    的頭像 發(fā)表于 11-19 11:23 ?950次閱讀

    TCAN1046AV-Q1評估模塊

    電子發(fā)燒友網(wǎng)站提供《TCAN1046AV-Q1評估模塊.pdf》資料免費下載
    發(fā)表于 11-18 14:33 ?0次下載
    TCAN1046<b class='flag-5'>AV-Q1</b>評估模塊

    如何優(yōu)化base64編碼的性能

    產(chǎn)生影響,特別是在處理大量數(shù)據(jù)時。以下是一些優(yōu)化Base64編碼性能的方法: 1. 選擇合適的庫和算法 使用高效的庫 :不同的編程語言和庫在Base64編碼和解碼方面有不同的性能表現(xiàn)。
    的頭像 發(fā)表于 11-10 14:17 ?2158次閱讀

    中科曙光聯(lián)合舉辦異構(gòu)智能算力技術(shù)高端沙龍科學(xué)大模型專場

    當(dāng)前,大模型技術(shù)應(yīng)用不僅加速了各行業(yè)的智能化轉(zhuǎn)型,也大大改變了科研工作的方式方法?;谏疃葘W(xué)習(xí)、大模型技術(shù)的AI for Science(科學(xué)智能),正在物理、化學(xué)、材料、生物、氣象等領(lǐng)域推動科研的智能化進程,越來越受到國家和學(xué)術(shù)界
    的頭像 發(fā)表于 11-07 15:59 ?1010次閱讀

    存算一體技術(shù)的分類

    近年間,云計算與人工智能技術(shù)的蓬勃興起,計算中心面臨著數(shù)據(jù)效率低、能耗大等核心挑戰(zhàn),這促使學(xué)術(shù)界和工業(yè)界重新聚焦。
    的頭像 發(fā)表于 11-05 09:56 ?1308次閱讀
    存算一體<b class='flag-5'>技術(shù)</b>的分類

    第三屆OpenHarmony技術(shù)大會在上海成功舉辦

    了來自全球的開源操作系統(tǒng)技術(shù)精英、前沿實踐專家、廣大開發(fā)者以及學(xué)術(shù)界大咖,面向全球展示了OpenHarmony的最新技術(shù)、生態(tài)、人才進展與行業(yè)實踐,同時探討了開源生態(tài)的未來發(fā)展方向以及
    發(fā)表于 10-13 11:14

    【AG32開發(fā)板體驗連載】AG32VF407啟動與探究

    AG32VF407啟動與探究 0. 申請理由 學(xué)術(shù)背景:山東大學(xué)集成電路學(xué)院碩士一年級在讀,具有扎實的理論基礎(chǔ)。 相關(guān)經(jīng)驗:參與過RISC-V V擴展優(yōu)化軟件性能的研究等。 研究目的:為山東大學(xué)軟件
    發(fā)表于 10-05 17:08

    RISC-V指令集的特點總結(jié)

    :RISC-V 的發(fā)展由一個活躍的全球社區(qū)支撐,包括學(xué)術(shù)界、工業(yè)界以及個人貢獻者。 優(yōu)勢:社區(qū)化確保了 RISC-V 的設(shè)計和發(fā)展方向能夠響應(yīng)廣泛用戶的需求,同時增強了技術(shù)的透明度和多樣性。 設(shè)計簡潔 定義
    發(fā)表于 08-30 22:05

    MT6835磁編碼IC——工業(yè)無人機中的關(guān)鍵技術(shù)

    在當(dāng)今科技飛速發(fā)展的時代,工業(yè)無人機已成為眾多領(lǐng)域的得力助手,而其中的關(guān)鍵技術(shù)之一——MT6835 磁編碼 IC,正發(fā)揮著不可或缺的作用。接下來,讓我們一同深入探究 MT6835 磁編碼
    的頭像 發(fā)表于 08-25 09:57 ?1024次閱讀