一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

智能化編碼面臨的算力瓶頸 如何利用CPU解決全鏈路智能編碼?

LiveVideoStack ? 來源:LiveVideoStack ? 2023-08-09 09:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

智能化編碼面臨的算力瓶頸

圖中是一個視頻轉(zhuǎn)碼推流的一般性流程圖。主播將視頻上傳到上行CDN,然后再由視頻處理中心進行各種前處理,包括內(nèi)容理解,審核,編輯,增強和超分,然后進行編碼,再推送到下行CDN,供觀眾觀看。

ae71458e-364a-11ee-9e74-dac502259ad0.png

紅色框部分都是和AI相關(guān)的部分。智能化編碼中,AI所需算力已經(jīng)超過編碼本身。1080p的數(shù)據(jù)超成4K,編碼只需要20幾個物理核,但是如果要超分,就需要一張GPU卡。一張GPU卡5000塊一個月,對比下來成本優(yōu)勢一目了然。

根據(jù)相關(guān)視頻企業(yè)公開的財報,視頻轉(zhuǎn)碼和帶寬的成本占到公司全年收入的10%左右。隨著AIGC的發(fā)展,未來肯定不局限于10%,因此成本問題是我們的痛點之一。

aeb51f70-364a-11ee-9e74-dac502259ad0.png

CPU全鏈路智能化編碼的優(yōu)勢就在于成本節(jié)約,運維簡單。下面舉一個更具體的例子:

我們都知道轉(zhuǎn)碼方式有很多種,但CPU有兩個不可替代的優(yōu)勢:1.高靈活性;2.高復(fù)用性。CPU的升級幾乎沒有成本,只需升級一下軟件部分即可,以云為基礎(chǔ),申請一個虛擬主機,無論是docker還是container都可以隨用隨放,十分自由靈活,成本很低。

由于超分部分對算力的要求非常高,需要通過GPU來輔助,但同時也會引發(fā)一些問題:客戶將高要求的AI負載遷移到GPU上,將編碼和前處理完全分離。這就像在一間屋子里解碼——發(fā)送到另一間屋子進行前處理——再轉(zhuǎn)回來編碼。這不僅讓流程變得冗長,也對運維造成了極大負擔(dān),數(shù)據(jù)的反復(fù)調(diào)度也造成了一定時延的增加。

CPU全鏈路智能化編碼正是解決了這一痛點。

英特爾第四代至強可擴展處理器及AMX賦能智能化編碼

接下來會介紹英特爾第四代至強可擴展處理器及其內(nèi)置的AI加速器AMX,以及如何利用AMX和英特爾成熟的軟件棧和工具鏈幫助視頻編解碼工作者,打造全鏈路智能化編碼。

據(jù)最新的統(tǒng)計數(shù)據(jù),英特爾至強服務(wù)器在中國市場的數(shù)據(jù)中心的占有率保持在80%以上,可以說至強服務(wù)器是數(shù)據(jù)中心的基石。第四代至強一個重要的革新就是內(nèi)置了數(shù)個硬件加速器,用于不同應(yīng)用場景的性能加速,例如之前需要外置的PCIE插卡就已經(jīng)內(nèi)置在CPU內(nèi)部。

aed170a8-364a-11ee-9e74-dac502259ad0.png

從左往右第一個AMX適用于AI;QAT負責(zé)壓縮、解壓和加解密;DLB負責(zé)Load Balance,CDN負責(zé)負載均衡,自動dispatch到閑散的資源上;DSA負責(zé)內(nèi)存拷貝,不需要CPU參與,異步拷貝不僅速度快,而且不占用CPU內(nèi)存;IAA負責(zé)存內(nèi)分析,更多和數(shù)據(jù)庫相關(guān),IAA可以在不解壓數(shù)據(jù)的情況下分析數(shù)據(jù)。

AMX的全稱是Advanced Matrix eXensions,高級矩陣擴展指令集。它在AVX512的基礎(chǔ)之上做了進一步的擴展。AMX有兩個核心思想,一個是Tiles,一個是Timo。Tiles是物理上兩地寄存器的疊加,16個AVX512疊加在一塊。Timo是針對兩地Tiles的矩陣運算。最新的至強每一顆物力核上都有一個內(nèi)置的AMX,充當(dāng)AI 的加速卡。

aff5c86c-364a-11ee-9e74-dac502259ad0.png

和大多數(shù)加速卡一樣,AMX加速的是量化精度。目前第四代至強支持的是BF16和INT8,未來也會很快支持FP8和FP16。BF16的表達范圍和FP32一模一樣,只是精度比FP32小一點。目前絕大多數(shù)的場景,BF16已經(jīng)足夠。對于訓(xùn)練來說FP16足矣,而推理則只需要INT8。

b0668dae-364a-11ee-9e74-dac502259ad0.png

AMX是如何加速矩陣乘的呢?我們在做大的矩陣時可以把矩陣拆成16*64,然后一次性計算。如果算力不夠,可以用oneDNN和MLKDNN處理,而AMX加速矩陣乘計算,算力是前一代產(chǎn)品的8倍。

b0ad32d6-364a-11ee-9e74-dac502259ad0.png

這張圖是至強服務(wù)器峰值計算能力的演進過程。從2019年開始的第二代至強可擴展處理器支持VNNI,最新發(fā)布的第四代至強可擴展處理器支持AMX,可以看到每個指令周期的計算能力得到8倍的提升。

b0f880c4-364a-11ee-9e74-dac502259ad0.png

硬件性能只是一方面,軟件生態(tài)某種意義上說對開發(fā)者來說更為關(guān)鍵。這是一張英特爾 AMX的軟件生態(tài)圖,從下往上,從最底層的操作系統(tǒng)到虛擬化KVM、HyperV,再到核心AI計算庫都是英特爾開發(fā)的。在框架層面,主流的TF和PyTorch也都包含在內(nèi),除此之外英特爾還提供了豐富的推理工具。這些成熟的軟件生態(tài)使得我們的開發(fā)者可以專注于算法創(chuàng)新,而不用考慮如何部署等細節(jié),開箱即用。

b1770fca-364a-11ee-9e74-dac502259ad0.png

BF16和INT8的高算力對將AI從GPU遷到CPU之上確實有很大的幫助,但如何保證精度呢?英特爾有一個工具叫做INC,內(nèi)置了很多專門用于精度的校正算法。作為開發(fā)者,只需要做三件事:輸入模型、輸入數(shù)據(jù)集和輸入精度要求即可。INC會根據(jù)客戶的輸入進行tuning,直到有一個用戶滿意的算法。如果最終達不到設(shè)定的精度要求,還可以對某些層進行回滾,從而保證設(shè)定的精度可以達到要求。

b1e11672-364a-11ee-9e74-dac502259ad0.png

回到視頻編解碼領(lǐng)域,我們知道視頻前處理是在FFmpeg解碼之后,對YUV或者RGB數(shù)據(jù)進行處理,處理結(jié)束后再送到編碼器x264或者x265編碼。由于整個pipeline中,數(shù)據(jù)的處理速度并不一致,因此為了讓整個過程的數(shù)據(jù)順滑地流動起來,就需要做一部分的改造,比如解碼后的raw data放入一個buffer隊列中,AI推理異步從這個隊列中取數(shù)據(jù)做推理,并把推理后的結(jié)果送到編碼器中,這需要一定量針對FFmpeg的開發(fā)工作。

幸運的是,英特爾已經(jīng)幫用戶做好了。FFmpeg中有一個英特爾的OpenVINO后端,用戶直接使用就行。FFmpeg的DNN AI推理后端,目前只支持2個后端,一個是Tensorflow,另外一個就是英特爾的OpenVINO。

總結(jié):FFmpeg已經(jīng)集成了OpenVINO作為AI 的后端推理引擎且英特爾有專門的團隊去維護,大家可以放心使用。

b2365eac-364a-11ee-9e74-dac502259ad0.png

這是一個和合作伙伴的實際案例。在視頻增強和目標檢測這兩個場景下,使用了英特爾第四代至強可擴展處理器AMX優(yōu)化的AI推理性能相對上一代平臺分別提升了1.86倍和1.95倍。與此同時,精度損失被控制在可接受的范圍,這也使得英特爾的客戶在CPU上實現(xiàn)了全鏈路智能化編碼,大幅降低了部署成本和運維成本。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19896

    瀏覽量

    235313
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3808

    瀏覽量

    138086
  • DSA
    DSA
    +關(guān)注

    關(guān)注

    0

    文章

    52

    瀏覽量

    15555
  • 硬件加速器
    +關(guān)注

    關(guān)注

    0

    文章

    43

    瀏覽量

    13069
  • GPU芯片
    +關(guān)注

    關(guān)注

    1

    文章

    305

    瀏覽量

    6206

原文標題:面對算力瓶頸,如何利用CPU解決全鏈路智能編碼?

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    騰視科技TS-NV-P100系列AI邊緣盒子綜合算高達157TOPS:重新定義AI邊緣,賦能千行百業(yè)智能化升級

    視科技正通過持續(xù)的技術(shù)創(chuàng)新,為千行百業(yè)的智能化轉(zhuǎn)型提供堅實的邊緣底座,讓AI真正成為驅(qū)動產(chǎn)業(yè)升級的核心動能。
    的頭像 發(fā)表于 07-02 10:24 ?727次閱讀
    騰視科技TS-NV-P100系列AI邊緣<b class='flag-5'>算</b><b class='flag-5'>力</b>盒子綜合算<b class='flag-5'>力</b>高達157TOPS:重新定義AI邊緣<b class='flag-5'>算</b><b class='flag-5'>力</b>,賦能千行百業(yè)<b class='flag-5'>智能化</b>升級

    騰視科技TS-NV-P100系列AI邊緣盒子綜合算高達157TOPS:重新定義AI邊緣,賦能千行百業(yè)智能化升級

    視科技正通過持續(xù)的技術(shù)創(chuàng)新,為千行百業(yè)的智能化轉(zhuǎn)型提供堅實的邊緣底座,讓AI真正成為驅(qū)動產(chǎn)業(yè)升級的核心動能。
    的頭像 發(fā)表于 07-02 10:16 ?247次閱讀

    精準定位 高效驅(qū)動丨基于極海APM32E030的磁電式絕對值編碼器參考方案,加速工業(yè)智能化轉(zhuǎn)型

    編碼器作為工業(yè)自動智能制造的核心組件,憑借高精度、實時反饋和智能化控制等特性,廣泛應(yīng)用于機器人、自動控制、數(shù)控機床、電梯、新能源等領(lǐng)域
    發(fā)表于 05-13 13:46 ?793次閱讀
    精準定位 高效驅(qū)動丨基于極海APM32E030的磁電式絕對值<b class='flag-5'>編碼</b>器參考方案,加速工業(yè)<b class='flag-5'>智能化</b>轉(zhuǎn)型

    智能基建:RAKsmart如何賦能下一代AI開發(fā)工具

    當(dāng)今,AI模型的復(fù)雜與規(guī)模提出了前所未有的要求。然而,傳統(tǒng)的基礎(chǔ)設(shè)施在靈活性、成本
    的頭像 發(fā)表于 05-07 09:40 ?182次閱讀

    點動科技戰(zhàn)略聚焦AI智,領(lǐng)航服務(wù)新征程

    Al智業(yè)務(wù)收入占比已突破40%,標志著點動從傳統(tǒng)業(yè)務(wù)向智能化轉(zhuǎn)型的戰(zhàn)略跨越取得階段性勝利! 技術(shù)賦能構(gòu)建核心壁壘,棧能力驅(qū)動行業(yè)智能化升級 在技術(shù)布局上,點動科技聚焦行業(yè)模型和Al
    的頭像 發(fā)表于 05-07 09:29 ?239次閱讀

    智能家居Mesh組網(wǎng)方案:實現(xiàn)智能化生活的無縫連接NRF52832

    互聯(lián)成為了一個迫切的問題。 為了解決這一問題,迅通科技研發(fā)了智能家居 Mesh 組網(wǎng)方案,為傳統(tǒng)智能家居產(chǎn)品商提供了智能化解決方案,以實現(xiàn)智能
    發(fā)表于 04-15 14:07

    智能最具潛力的行業(yè)領(lǐng)域

    智能最具潛力的行業(yè)領(lǐng)域 一、金融行業(yè) 智能風(fēng)控與精準服務(wù)?:大型銀行通過集群(6.27萬
    的頭像 發(fā)表于 04-11 08:20 ?385次閱讀
    <b class='flag-5'>智能</b><b class='flag-5'>算</b><b class='flag-5'>力</b>最具潛力的行業(yè)領(lǐng)域

    工業(yè)4.0革命利器!明遠智睿SSD2351核心板:低成本+高,破解產(chǎn)線智能化難題

    行業(yè)痛點:傳統(tǒng)工業(yè)設(shè)備智能化改造面臨三大瓶頸——不足導(dǎo)致實時性差、接口資源有限難以擴展多設(shè)備、進口方案成本高昂且供貨不穩(wěn)定。 核心板方案
    發(fā)表于 03-21 14:22

    國產(chǎn)新標桿!卓怡恒通EPC-S4450邊緣AI工控機開啟工業(yè)智能新紀元

    在工業(yè)4.0與數(shù)字轉(zhuǎn)型浪潮的推動下,邊緣計算正加速重構(gòu)工業(yè)智能化版圖。國內(nèi)信創(chuàng)工業(yè)計算領(lǐng)域領(lǐng)軍企業(yè)卓怡恒通今日正式發(fā)布EPC-S4450邊緣AI工控機,以"棧國產(chǎn)+AI
    的頭像 發(fā)表于 03-06 17:30 ?605次閱讀
    國產(chǎn)<b class='flag-5'>化</b><b class='flag-5'>算</b><b class='flag-5'>力</b>新標桿!卓怡恒通EPC-S4450邊緣AI工控機開啟工業(yè)<b class='flag-5'>智能</b>新紀元

    云 GPU 加速計算:突破傳統(tǒng)瓶頸的利刃

    ,猶如一把利刃,成功突破了傳統(tǒng)瓶頸。 傳統(tǒng)的 CPU 計算在面對大規(guī)模并行計算任務(wù)時,往往顯得力不從心。CPU 核心數(shù)量有限,且設(shè)計側(cè)
    的頭像 發(fā)表于 02-17 10:36 ?294次閱讀

    中心的如何衡量?

    作為當(dāng)下科技發(fā)展的重要基礎(chǔ)設(shè)施,其的衡量關(guān)乎其能否高效支撐人工智能、大數(shù)據(jù)分析等智能應(yīng)用的運行。以下是對智中心算
    的頭像 發(fā)表于 01-16 14:03 ?2518次閱讀
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    單軸測徑儀也可以智能化

    關(guān)鍵字:藍鵬牌測徑儀,智能測徑儀,單軸智能測徑儀,測徑儀智能化,測徑儀智能測控,外徑智能測量,單
    發(fā)表于 12-31 13:55

    MT6501 磁編碼 IC:推動智能倉儲系統(tǒng)與自動穿梭車的應(yīng)用

    一、引言 在當(dāng)今數(shù)字智能化的時代,倉儲物流行業(yè)正經(jīng)歷著深刻的變革。智能倉儲系統(tǒng)憑借其高效、精準和自動的特點,成為了提升企業(yè)競爭的關(guān)鍵
    的頭像 發(fā)表于 08-15 16:32 ?764次閱讀
    MT6501 磁<b class='flag-5'>編碼</b> IC:推動<b class='flag-5'>智能</b>倉儲系統(tǒng)與自動穿梭車的應(yīng)用

    智能化浪潮中的聯(lián)想轉(zhuǎn)型與獲取的革新

    成果的縮影。 六年前,聯(lián)想開始布局智能化轉(zhuǎn)型,構(gòu)建起3S棧優(yōu)勢,不僅在智能設(shè)備、智能基礎(chǔ)設(shè)施和方案服務(wù)上取得突破,更在推進行業(yè)智能化轉(zhuǎn)型中
    的頭像 發(fā)表于 08-08 11:15 ?539次閱讀