實時視頻通信質(zhì)量評價的方法思路并不復(fù)雜,其難點一是在于實時通訊通常并沒有參考,其準(zhǔn)確度與精度難以達(dá)到一個客觀最佳值;二是在于我們并不希望實時通信的計算量過大,應(yīng)當(dāng)盡量避免傳統(tǒng)編碼與那些會明顯提升算法復(fù)雜度的方法。在介紹完實時視頻通信質(zhì)量評價的方法研究之后,我將為大家分享如何根據(jù)質(zhì)量模型設(shè)計質(zhì)量甜點算法。
PART1 評價實時視頻通信質(zhì)量
1.動機
我們能否找到一種可靠的評價視頻通話質(zhì)量的自動化方法?能否實現(xiàn)對視頻通話端到端質(zhì)量的實時監(jiān)控?想必這兩項都是產(chǎn)品上線測試與運營中亟需的衡量標(biāo)尺。
但我們并不能將現(xiàn)有的簡單方法直接用于評價實時視頻通信質(zhì)量,首先是因為傳統(tǒng)方法中比較常用的 PSNR、SSIM需要參考圖像用以比較并且每一幀都要計算,這對實時視頻通信來說計算量較大;其次,傳統(tǒng)方法僅考慮空間維度的質(zhì)量而未考慮時間維度的質(zhì)量,實時視頻通信還需重點考慮到時間間緯度的質(zhì)量,即低延遲和流暢度。
當(dāng)然,從2008年到2017年陸陸續(xù)續(xù)有改進(jìn)方法被提出,如PEVQ、VQuad-HD、VMAF等,雖然相對于之前的方法有所進(jìn)步,但由于這些方法需要全參考,其背后龐大的計算量并不適用于實時視頻通訊。
視頻質(zhì)量評價模型有以下三種:全參考、半?yún)⒖肌o參考。考慮到運營系統(tǒng)中可以獲取部分參考信息,我們主要選用了半?yún)⒖寄P汀0雲(yún)⒖寄P碗m然不需要獲取原始視頻作為對比,但也可獲取原始視頻中的一些編碼和網(wǎng)絡(luò)信息特征作為對比如QP、PSNR、RTT等。
至于ITU在2017年提出的基于碼流的傳輸評價模型,可以說與我們的需求較為貼近。此類模型原理可總結(jié)為輸入所需特征值并通過訓(xùn)練模型輸出結(jié)果,但此方法輸入的特征值并不包括實時視頻通訊中容易出現(xiàn)的網(wǎng)絡(luò)丟包、延時、帶寬限制等影響因素,并不適用于實時視頻通訊。
綜上所述,為了實現(xiàn)符合要求的評價實時視頻通信質(zhì)量方法,我們根據(jù)自身需求提出了一種涵蓋時間質(zhì)量與空間質(zhì)量兩個維度的全新質(zhì)量模型CEV。實時視頻通訊的質(zhì)量由時間質(zhì)量與空間質(zhì)量共同決定二者缺一不可,時間質(zhì)量包括流暢度、延時等確保視頻流暢播放的指標(biāo),空間質(zhì)量包括清晰度等確保畫面觀感的指標(biāo)。
2.基于CEV質(zhì)量評價模型的實踐
我們基于CEV質(zhì)量評價模型的實踐主要分為以下四步驟:
生成系統(tǒng)
主要用于生成參與人工主觀打分的視頻源。
打分系統(tǒng)
由于主觀MOS分質(zhì)量評價是一個黃金標(biāo)準(zhǔn),此項標(biāo)準(zhǔn)需要人工主觀打分進(jìn)行統(tǒng)計,我們需要大量的人工評估數(shù)據(jù)才能讓質(zhì)量評價算法標(biāo)準(zhǔn)具有良好匹配度。通過建立的打分系統(tǒng),我們收集參與者的打分結(jié)果并導(dǎo)出主觀分?jǐn)?shù)據(jù)用于接下來的分析。
視頻質(zhì)量分
基于打分系統(tǒng)得到的人工主觀分?jǐn)?shù)據(jù)我們分析影響視頻質(zhì)量的多項因子。
建模預(yù)測
根據(jù)主觀評分建立預(yù)測模型并預(yù)測不同參數(shù)下視頻的質(zhì)量得分。
2.1 生成系統(tǒng)
我們的研究主要針對于實時視頻通信,著重于研究編碼失真與傳輸失真。雖然在標(biāo)準(zhǔn)庫中有很多失真類型如高頻噪聲、高斯模糊、壓縮失真等等,但對不適用于實時視頻的質(zhì)量評價。在編碼失真方面我們的研究主要圍繞量化失真、頻域變換失真(DCT)、下采樣失真、良性超分辨率失真與良性濾波失真展開;在傳輸失真方面則主要圍繞降低幀率(抽幀)、卡幀丟幀與延遲展開。
雖然失真類型復(fù)雜多樣,但我們的研究主要針對傳輸失真與編碼失真,并未著重考慮如高斯模糊或偏移失真等其他失真類型。基于此前提我們積累了900個視頻失真試?yán)?,其?00個為傳輸失真;并讓35人參與實驗,得到生成系統(tǒng)的實驗數(shù)據(jù)。
如果將我們的實驗數(shù)據(jù)與公共數(shù)據(jù)集進(jìn)行對比,可以看到我們的數(shù)據(jù)量處在第三名左右的位置。
在生成系統(tǒng)中,系統(tǒng)會首先分析視頻源并依據(jù)其在時間與空間復(fù)雜度上的不同將視頻進(jìn)行分類,按照分辨率等指標(biāo)整理得到無損視頻序列;隨后系統(tǒng)會對其中部分視頻進(jìn)行模擬丟包、編碼器失真等操作從而生成一定數(shù)量的低質(zhì)量視頻;最后再將這些低質(zhì)量視頻與原始視頻混合推送至實驗端進(jìn)行打分操作。
2.2 眾包打分系統(tǒng)
實驗端是簡易的Web頁面,參與者通過Web端觀看視頻并打分,以便接下來的影響因子分析。
影響因子分析主要會從時間質(zhì)量與空間質(zhì)量兩大方面全面衡量影響視頻通信質(zhì)量的因素。在時間質(zhì)量方面,除了時間戳,系統(tǒng)會著重分析視頻延時RTT與流暢性(幀速率、卡頓時間)。一般的直播系統(tǒng),流暢性較易達(dá)成而低延時無法完全保證,而實時性則是實時視頻通訊之根本。所以,一般的實時系統(tǒng)為了保證嚴(yán)苛的實時性體驗會犧牲一部分畫面質(zhì)量與流暢性。在空間質(zhì)量方面,系統(tǒng)會重點考量顯示分辨率、編碼分辨率、編碼量化參數(shù)等。帶寬資源是否充足會對空間質(zhì)量產(chǎn)生顯著影響,而量化損失分析主要通過記錄QP編碼的量化參數(shù)實現(xiàn),SSIM/PSNR則是在計算資源允許的條件下得到空間質(zhì)量。
于是我們實現(xiàn)了前文提到的半?yún)⒖寄P驮谟绊懸蜃臃治錾系倪\用。位于上圖右側(cè)的TMOS分是對時間質(zhì)量的量化,其所需要的RTT、Timestamp、FPS、CSPM等參數(shù)主要來源于解碼端;左側(cè)的SMOS分是對空間質(zhì)量的量化,其所需要的SSIM/PSNR、分辨率、QP等參數(shù)主要來源于編碼端。此模型主要的功能便是將來自解碼端與編碼端的數(shù)據(jù)整合分析最終生成一個整體模型,這些數(shù)據(jù)都會經(jīng)過SVM/NN(神經(jīng)網(wǎng)絡(luò))/Fitting的處理得到相應(yīng)的時間質(zhì)量/空間質(zhì)量評價值,用以實現(xiàn)對視頻通信質(zhì)量的估計。
分析時間質(zhì)量TMOS
在分析時間質(zhì)量TMOS時,我們會優(yōu)先采取擬合模型處理RTT、Play Timestamp、Frame rate、CSPM,原因是我們希望用最小的代價快速得到最有價值的數(shù)據(jù)。
1)回歸預(yù)測
最佳策略便是僅將所有變量代入一個公式就可直接得到TMOS,我們使用圖中的公式對Fmos、RTTmos、Cmos等進(jìn)行擬合,公式中的m9、m10、m13等等代表的就是這些擬合參數(shù),此公式利用梯度下降法訓(xùn)練,將這些實際評測出的數(shù)據(jù)進(jìn)行均方差最?。〒p失函數(shù))的擬合,即可得到這個公式的一系列參數(shù)。
我們會選取其中70%的數(shù)據(jù)用于訓(xùn)練,30%的數(shù)據(jù)用于測試并得出相關(guān)系數(shù),上圖展示的是便是我們的一個測試集得出的相關(guān)系數(shù)為0.86。
2)SVM建模
除了上述實踐,我們還使用了SVM方法訓(xùn)練系統(tǒng)。SVM的意義在于可將原本難以量化的時間戳引入公式作為參數(shù)的一部分影響最終的評估結(jié)果,使用SVM后相同測試集得到的相關(guān)系數(shù)由原來的0.86變?yōu)?.93,精度進(jìn)一步提升。
3)NN神經(jīng)網(wǎng)絡(luò)
除了回歸預(yù)測與SVM建模,神經(jīng)網(wǎng)絡(luò)也能為提升MOS分的精度帶來幫助,前提是需要足夠的訓(xùn)練數(shù)據(jù)規(guī)模。在實踐中我們使用了七至八層的深度網(wǎng)絡(luò),也嘗試了兩至三層的淺度網(wǎng)絡(luò),測試得到的最高相關(guān)系數(shù)為0.88,比不上SVM建模優(yōu)化后的0.93,其原因可能是訓(xùn)練的數(shù)據(jù)量不夠,具體原因還需要進(jìn)一步分析。因此,最終我們選擇了可用于現(xiàn)網(wǎng)質(zhì)量跟蹤的回歸預(yù)測與可用于實驗室測試評估的SVM建模優(yōu)化TMOS時間質(zhì)量分析模型。
分析空間質(zhì)量SMOS
1)回歸預(yù)測
分析空間質(zhì)量首先需要評估PSNR/SSIM指標(biāo)。
上面兩張圖的左側(cè)分別表示我們經(jīng)過測試得到的PSNR/SSIM數(shù)據(jù)集分布規(guī)律,右側(cè)表示互聯(lián)網(wǎng)上公開的PSNR/SSIM數(shù)據(jù)集分布規(guī)律,可以看到二者大致相同。
如果討論具體的量化指標(biāo),上圖展示的是SMOS的幾個實用數(shù)據(jù)。我們可以看到當(dāng)PSNR為30時SMOS分為3.00。
根據(jù)上圖數(shù)據(jù)進(jìn)一步分析PSNR與SSIM,我們發(fā)現(xiàn)即使在有些場景下SSIM并不準(zhǔn)確,但處理同一個視頻源不同碼率編碼的相對質(zhì)量評價SSIM還是較為準(zhǔn)確的,而面對有不同視頻源的全局評價時PSNR與SSIM勢均力敵,準(zhǔn)確度相似;因此,我們可以對同一個視頻按照不同分辨率比較來分類擬合提高評價準(zhǔn)確度,比如對于不同分辨率的視頻基于PSNR/SSIM估計質(zhì)量值的相關(guān)度只有0.89,而對于相同尺寸同類型的視頻基于PSNR/SSIM估計質(zhì)量值其相關(guān)度可達(dá)到0.93~0.96。對于不同分辨率的視頻,集合越大其準(zhǔn)確度越低;而對于同一類視頻其預(yù)測準(zhǔn)確度較高。
同樣,空間質(zhì)量分析也存在一個擬合模型,主要分為編碼質(zhì)量損失與下采樣質(zhì)量損失。上圖公式中 代表編碼質(zhì)量損失, 代表下采樣質(zhì)量損失,我們建議以下三種預(yù)測方法:方法一是直接通過QP預(yù)測,這是幾乎沒有任何代價的方法;方法二是通過PSNR預(yù)測,此方法計算量較大,一般會采取10幀取1幀或一秒一幀的方式預(yù)測;方法三是通過SSIM預(yù)測,但這種方法的處理速度最為緩慢但精度最高。我們需要根據(jù)PSNR/SSIM MOS分曲線的走向選用不同的擬合公式,需要強調(diào)的是,方法一可直接在編碼或解碼端實現(xiàn),而方法二、三必須在編碼端完成計算后才能將得到的數(shù)據(jù)發(fā)送給解碼端,單純解碼端無法實現(xiàn)。
上圖較為清晰地展示了H.264下QP與PSNR的關(guān)系,可以看到QP與視頻空間質(zhì)量呈現(xiàn)明顯的線性負(fù)相關(guān)關(guān)系,QP越大視頻空間質(zhì)量越低。
2)SVM建模
與時間質(zhì)量分析的思路類似,我們也可以借助SVM建模優(yōu)化空間質(zhì)量分析。
在分別得到空間模式與時間模式對應(yīng)的MOS分后,我們就可計算總的MOS分。這里的a、b兩個參數(shù)可以根據(jù)應(yīng)用場景需求做出一些變化:如果此應(yīng)用場景對流暢度要求較高那么我們就可以適當(dāng)增大a的值(權(quán)重),如果此應(yīng)用場景對清晰度要求更高則適當(dāng)增大b的值(權(quán)重)。
2.3 現(xiàn)網(wǎng)與實驗室應(yīng)用
將此分析工具運用于現(xiàn)網(wǎng)的實時通話質(zhì)量統(tǒng)計,我們可以看到隨著版本的升級,計算得到的MOS分也在增加,反應(yīng)出版本迭代帶來的實時視頻通話質(zhì)量的提升或下降。
將此分析工具運用于實驗室等理想環(huán)境,根據(jù)上圖左側(cè)表格展示的自動化測試統(tǒng)計結(jié)果我們可以看到,設(shè)置網(wǎng)絡(luò)條件千變?nèi)f化(延時30毫秒,抖動10毫秒等等),系統(tǒng)能較為準(zhǔn)確且自動計算出相應(yīng)MOS分。右側(cè)展示的就是與此實驗相關(guān)的拓?fù)浣Y(jié)構(gòu),其中NetEM代表網(wǎng)絡(luò)模擬器。
2.4 CEV缺點
當(dāng)然,CEV也存在一定局限性。首先就是非端對端的,CEV現(xiàn)在僅能作為我們內(nèi)部的測試方案而未實現(xiàn)端對端,這就導(dǎo)致我們無法用此方法評估對比微信、FaceTime等第三方應(yīng)用場景的實時視頻質(zhì)量。其次就是由于CEV依賴編碼器,面對不同編碼器(如VP8、VP9在QP取值范圍上存在不一致)需要重新訓(xùn)練并調(diào)整參數(shù),由此造成的工作量無疑是巨大的。
2.5 端到端MOS評分
那么我們?nèi)绾螌崿F(xiàn)實時視頻的端到端MOS評分,達(dá)成對第三方平臺的評估與對比?下一步的計劃就是使用“增強版“的VMAF。所謂增強版就是,VMAF存在原始參考視頻與目標(biāo)視頻對齊的要求,那么我們可通過在輸入VMAF之前進(jìn)行對齊操作,從而實現(xiàn)實時視頻的端到端MOS評分。
PART2 根據(jù)質(zhì)量模型設(shè)計質(zhì)量甜點算法
1.動機
在構(gòu)建CEV質(zhì)量評估模型后我們繼續(xù)探索,能否將此模型用于尋找基于感知編碼的視頻質(zhì)量甜點?之前的試驗并不涉及編碼過程,那么我們能否更進(jìn)一步,將其用于優(yōu)化對編碼的使用?
從概念上來說編碼也存在時間質(zhì)量與空間質(zhì)量。首先就空間質(zhì)量而言,在我們常見的質(zhì)量與碼率曲線上二者呈正相關(guān)關(guān)系且并非直線,其曲線上存在三個值得我們關(guān)注的點:第一個點是圖中的Lowest也就是質(zhì)量明顯下降的點,表明在碼率超過此點瞬間視頻質(zhì)量會出現(xiàn)一陣快速衰減,我們將此點定義為保底碼率;第二個點位于圖中指示的Highest,表示在此點后視頻質(zhì)量幾乎不會隨碼率出現(xiàn)明顯提升;而中間的Enough點所示就是我們的建議碼率??紤]到不同分辨率與幀率的情況,(那我們把它再規(guī)劃到BPP,就是Bit Per Pixel,即每個像素壓縮以后,需要的占用的位數(shù)。)
在空間質(zhì)量指標(biāo)中影響編碼的主要有影響幀間參考的幀率與影響幀內(nèi)參考的分辨率。針對這種情況我們對幀率與分辨率進(jìn)行了調(diào)整:幀率的調(diào)整在于隨著幀率增高,維持同樣質(zhì)量需要增加的碼率就相應(yīng)降低且基本遵循測試得到的線性關(guān)系;分辨率的調(diào)整在于隨著分辨率的增高,維持同樣質(zhì)量所需碼率的也相應(yīng)降低。這兩點很容易理解:隨著分辨率的提升,幀內(nèi)參考信息越多壓縮率則增高;而在相同質(zhì)量下幀率越高,前后幀的相關(guān)性越強,每幀的變化越小那么壓縮率也隨之增高,碼率的的提升與質(zhì)量的提升呈現(xiàn)log函數(shù)的關(guān)系特點。
2. 思路:規(guī)模法則
我們使用杰弗里·韋斯特法則明確規(guī)定規(guī)律,有些情景是線性,也有部分情景是超線性或亞線性的。
根據(jù)數(shù)據(jù)我們可得到分辨率與質(zhì)量的關(guān)系描述,但一般多為亞性關(guān)系。為了更好地研究相關(guān)參數(shù),我們提供了這樣一個公式:
應(yīng)用規(guī)模法則我們可以得到,公式中x的取值為1.5~3,x越大則編碼器越適合高分辨率。
3. Openh264編碼舉例
我們以O(shè)penh264編碼作為示例,由圖表我們可以看到隨著分辨率的提高維持相同質(zhì)量所需要的BPP不斷下降,這符合我們之前對這個法則規(guī)律的期待。
除了編碼空間質(zhì)量SMOS,我們還需要衡量編碼時間質(zhì)量TMOS。之前提到的無論是SMOS還是TMOS其本質(zhì)都是通過一些數(shù)據(jù)的訓(xùn)練擬合得到的數(shù)值,這里提到的編碼時間質(zhì)量也不例外,從曲線當(dāng)中我們可以看到當(dāng)幀率在7FPS以下時時間質(zhì)量已經(jīng)不符合我們的要求了。需要強調(diào)的是,無論是時間質(zhì)量還是空間質(zhì)量都是基于主觀感受確定的。一旦超過25FPS也就是人眼視覺暫留原理的閾值那么繼續(xù)提升幀率對質(zhì)量的影響微乎其微了。由于在這里我們不考慮丟包、延時等額外變量,時間質(zhì)量的問題比較容易解決。
在得到了SMOS與TMOS之后,我們就可結(jié)合二者數(shù)值得到一個類似于“立方體”的模型,其公式如圖所示,CEV由時間質(zhì)量與空間質(zhì)量共同決定。需要強調(diào)的是為保證質(zhì)量符合實際需求,這里存在一項約束條件:BPP須大于0.02且小于0.296。
仔細(xì)觀察不難看出CEV是一個凸函數(shù),如果可用帶寬確定,對方訂閱的視頻大小確定,那么我們需要得到最佳幀率是多少?我們對幀率求導(dǎo),得到上圖所示公式。若求導(dǎo)結(jié)果為0相當(dāng)于“立方體”體積最大化,此時就是最佳幀率。
對公式進(jìn)行簡化與求導(dǎo)即可計算碼率值,再使用約束公式即可求解最終結(jié)果。
最終我們得到了由分辨率與幀率兩項變量組成的關(guān)系式,根據(jù)此公式可算出給定碼率下分辨率與幀率之間的關(guān)系,將其圖像畫出我們可以看到最頂端代表最佳值。這里需要解釋的是,在實際應(yīng)用中相同復(fù)雜度的視頻得出值可能較為近似,我們得到的是時間與空間復(fù)雜度的平均狀況。但是,若視頻復(fù)雜度較低則幀率可提高,反之幀率應(yīng)當(dāng)下降,這里需要根據(jù)復(fù)雜度做動態(tài)調(diào)整,視頻復(fù)雜度可以以特定碼率下的量化參數(shù)來估計,相同碼率下QP越大復(fù)雜度就越高。
繼續(xù)反向驗證此模型,讓五位參與者對不同分辨率進(jìn)行測試,最終我們得到的相關(guān)系數(shù)為0.87,結(jié)果符合我們的預(yù)期,可以說我們成功將視頻通話質(zhì)量模型應(yīng)用到編碼參數(shù)的自動化優(yōu)化。
通過CEV模型,我們可在實現(xiàn)評估實時視頻通訊質(zhì)量的同時確定視頻通訊的質(zhì)量甜點,希望算法背后的思路能為大家?guī)韼椭?,謝謝。
-
Web
+關(guān)注
關(guān)注
2文章
1276瀏覽量
70593 -
模型
+關(guān)注
關(guān)注
1文章
3464瀏覽量
49832
原文標(biāo)題:CEV模型與質(zhì)量甜點算法設(shè)計
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
調(diào)制解調(diào)器和積分器算法程序的詳細(xì)資料概述

TMS320VC5509A PGE IBIS Model DSP IBIS行為模型的詳細(xì)資料概述

TMS320VC5510 GGW IBIS Model DSP IBIS行為模型的詳細(xì)資料概述

C5515ZCH圖像信息系統(tǒng)IBIS模型的詳細(xì)資料概述

C5535 ZHH邊界掃描模型詳細(xì)資料概述

TMS320C5501 GZZ IBIS ModelDSP行為模型的詳細(xì)資料概述

TMS320C5504 ZCH IBIS Model DSP行為模型的詳細(xì)資料概述

TMS320VC5507 GHH BSDL Model DSP邊界掃描模型的詳細(xì)資料概述

TMS320C5515 ZCH BSDL Model DSP邊界掃描模型的詳細(xì)資料概述

TMS320VC5504 ZCH 邊界掃描模型的詳細(xì)資料概述

TMS320VC5505 ZCH 邊界掃描模型的詳細(xì)資料概述

TI的基于DSP兼容的第三方算法協(xié)議的詳細(xì)資料概述

評論