一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種支持AI視頻處理的高容量流媒體加速卡方案

LiveVideoStack ? 來源:LiveVideoStack ? 2023-08-28 09:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本次要和大家分享的是AMD近期推出的新一代多媒體視頻加速卡,它主要應(yīng)用于視頻處理場景,我們內(nèi)部將它稱為異構(gòu)加速卡,行業(yè)同仁更認可將其稱作視頻處理單元(VPU)。AMD或賽靈思此前的主要業(yè)務(wù)方向是研發(fā)數(shù)據(jù)中心級加速器卡,因而大家可能對此次媒體加速卡的發(fā)布感到驚訝,實際上這背后伴隨著深厚的研發(fā)背景。

賽靈思時期,我們的目標是實現(xiàn)FPGA在數(shù)據(jù)中心的算力落地,通過將FPGA包裝為PCIE擴展卡并部署在服務(wù)器上,使客戶可以按照自身需求調(diào)用加速卡的算力,最終推出了Alveo系列加速卡U200、U250和U280。

隨著FaaS(FPGA as a service)的落地,我們的工作進一步轉(zhuǎn)向應(yīng)用化并發(fā)現(xiàn)了媒體加速方面的前景,因而開始進行編解碼器和IP核的自研設(shè)計。賽靈思還專門收購了編解碼器公司以推動VPU的開發(fā),從而促成了上一代視頻流加速器卡U30和U50的誕生。

我們認為,雖然傳統(tǒng)的流媒體服務(wù)以及相關(guān)的視頻處理、壓縮是在服務(wù)器級CPU上的軟件中完成的。但隨著分辨率的增加,幀數(shù)要求提高,流媒體體量的增加,直播和互動流應(yīng)用對低延遲的要求變得更加嚴格,傳統(tǒng)的CPU不能高效地處理這種場景。因而我們開始尋求異構(gòu)加速的方法,用專業(yè)的芯片/IP來處理視頻流。

基于以上背景,我們認為下一代視頻加速卡要支持高質(zhì)量、高密度、低時延的視頻處理,并要具備更好的拓展性,才能滿足當(dāng)前低延時、高交互、大流量多媒體應(yīng)用環(huán)境的需要。

我們將此次推出的新一代加速卡命名為Alveo MA35D Media Accelerator,它是業(yè)界首款基于ASIC的5nm視頻加速卡,在我們內(nèi)部的芯片代號為supernova。

與我們上一代產(chǎn)品(Alveo U30)和傳統(tǒng)Xilinx芯片的聯(lián)系不同,它完全脫離了 FPGA,是一個專門應(yīng)用于交互式流媒體大規(guī)模應(yīng)用場景的針對性解決方案。它內(nèi)部包含很多專用視頻單元和最先進的IP核,通過PCIE Gen 5.0和LPDDR5保證帶寬,充分助力視頻加速服務(wù)。

66a638d6-4536-11ee-a2ef-92fbcf53809c.png

Bluewave Consulting發(fā)布的調(diào)研成果促使我們下定決心推出新一代流媒體加速卡,該項研究指出了兩點,一是全球視頻流媒體市場正在快速增長。據(jù)預(yù)測,流媒體的市場價值將從 2022 年的略高于 600 億美元增至 2028 年的超過 2130 億美元,復(fù)合年增長率約為 20%。在美國這很大程度上要歸功于 Netflix、Amazon Prime、Hulu、Disney+、HBO 等服務(wù)商,國內(nèi)現(xiàn)階段也存在諸如優(yōu)酷、騰訊、愛奇藝、抖音、快手、Bilibili等大量視頻平臺,甚至微博、微信和知乎等應(yīng)用也在逐步推出流媒體服務(wù),幾乎所有公司都在進行流媒體方向的嘗試。二是流媒體服務(wù)正在迎來轉(zhuǎn)型。隨著流媒體市場的增長,直播業(yè)務(wù)所占份額越來越大(例如國內(nèi)的抖音等直播平臺),至2021年已占到總量的70%。

66c9249a-4536-11ee-a2ef-92fbcf53809c.png

傳統(tǒng)流媒體服務(wù)架構(gòu)的形式為廣播流媒體,是“一對百萬”的模式,該架構(gòu)下視頻的輸入源一般較少。以體育賽事的轉(zhuǎn)播場景為例,場外的轉(zhuǎn)播車組織現(xiàn)場的數(shù)十臺攝像機拍攝賽事畫面,經(jīng)過剪輯上傳至云端數(shù)據(jù)中心/核心網(wǎng),過程中傳輸?shù)牧飨鄬Σ⒉欢唷kS后視頻流被分發(fā)至CDN,廣大用戶通過ISP訪問CDN獲取視頻畫面。

雖然整個傳輸路徑較長,延遲相對較大,但該場景對實時性的要求不大,并且時延相對可控。同時由于輸入流較少,因而對轉(zhuǎn)碼的要求也不高。

迅猛增長的直播市場與傳統(tǒng)點播場景不同,每個人都能生成自己的流媒體,個人產(chǎn)生的視頻流可能與其他流混同,被不同人群在不同地點使用各異的終端設(shè)備觀看,過程中還伴隨著低時延和高交互等等要求。 這種場景的實際應(yīng)用也越來越多,如online party、遠程醫(yī)療、云游戲場景和Zoom、Microsoft Teams等在線會議軟件。

不同用戶使用的設(shè)備可能不同,導(dǎo)致輸入源的格式、清晰度等等屬性五花八門。而以上場景都具備高交互性,對時延的要求相當(dāng)高(如云游戲的時延要在10毫秒內(nèi)),因而我們希望研發(fā)新一代芯片,能夠?qū)崿F(xiàn)低時延、高容量、多路輸入(不同格式,不同速率,不同size)、多路輸出、多流交互的視頻處理。

671ac76e-4536-11ee-a2ef-92fbcf53809c.png

新一代直播場景是“百萬對百萬”的多對多模式。由于每個人都會產(chǎn)生視頻流,流的數(shù)量將進一步增加,并且突發(fā)式的增長會越來越多。直播的高交互性使視頻流傳輸可能將更多采用邊到邊傳輸,避免發(fā)送至云端數(shù)據(jù)中心。用戶們使用的終端設(shè)備不盡相同,對視頻流分辨率和碼率的要求也不一樣。

67445eb2-4536-11ee-a2ef-92fbcf53809c.png

為了應(yīng)對直播場景帶來的技術(shù)挑戰(zhàn),Alveo MA35D支持32路流的1080P60 ABR轉(zhuǎn)碼;每通道功耗僅有1W,峰值功耗約35W;4K編碼的最低延時達到8毫秒,1080P可以做到單幀2ms;支持做成單個U.2/M.2 的子卡或是多卡集成部署,支持筆記本、平板、園區(qū)、數(shù)據(jù)中心等多種不同部署環(huán)境,適配用戶的不同需求。與此同時,它還具備22 TOPS AI算力(INT8),可以通過AI技術(shù)來賦能智能視頻處理。

上一代U30的“U”代表通用,而MA35D的“MA”代表媒體加速器(Media Accelerator),表示該卡專為媒體加速場景設(shè)計。和上一代相比,MA35D實現(xiàn)了全面提升,它的通道密度提高了 4 倍,每通道功耗降低2倍,壓縮效率效果提高2倍,時延降低4倍。在實現(xiàn)以上提升的基礎(chǔ)上,功耗僅為上一代的一半。

67c4f680-4536-11ee-a2ef-92fbcf53809c.png

接下來介紹該卡的技術(shù)細節(jié)。首先四個位于該卡芯片四角的獨立編碼器和兩個解碼器支持當(dāng)前主流編碼標準和下一代AV1標準;自適應(yīng)比特率(ABR)縮放器支持變碼率、恒定QP、CBR、VBR等多樣化變換;合成器(Compositor)引擎支持多流分塊拼接、分層疊加等視頻合成處理,它是可編程的,可按照客戶自身需求改變輸出;VQ 前瞻(Look-Ahead)引擎用于在編碼前分析視頻流的動態(tài)特征,配合編碼器實時優(yōu)化參數(shù);視頻質(zhì)量(VQ)和體驗質(zhì)量(QoE)引擎作為在線質(zhì)量分析引擎可以將編碼后視頻的質(zhì)量分析結(jié)果實時反饋至編碼器和AI模塊,動態(tài)調(diào)整編碼器設(shè)置以達到更好的視頻輸出質(zhì)量;AI處理器可以對視頻進行一些簡單的分類和檢測處理,依據(jù)結(jié)果實時調(diào)整編碼器參數(shù),改善視頻質(zhì)量。

67f99bba-4536-11ee-a2ef-92fbcf53809c.png

我們也致力于改善編解碼器的壓縮效率。據(jù)AMD內(nèi)部測試結(jié)果顯示,在達到同等視覺質(zhì)量的前提下,以X264 VeryFast為基準對比,AMD H.264編碼器可實現(xiàn)24%的碼率節(jié)省,H.265編碼器可節(jié)省47%,AV1編碼器可節(jié)省高達52%。如果加入AI處理環(huán)節(jié),壓縮效率還將進一步提升。

6811a962-4536-11ee-a2ef-92fbcf53809c.png

上圖展示了X265和AMD AV1編碼相同視頻的實測VMAF測試結(jié)果??梢钥吹皆谕葪l件下,AMD AV1編碼視頻的質(zhì)量接近于X265 Slow,尤其在碼率較低時表現(xiàn)相當(dāng)好。

6838c01a-4536-11ee-a2ef-92fbcf53809c.png

AMD深度耦合前述的各類硬件單元形成了上圖所示的視頻處理管道,視頻解碼、縮放與合成、ABR縮放、AI處理、編碼、質(zhì)量分析等步驟全部由硬件單元完成,通過將所有視頻處理功能硬化來最大限度減少CPU和加速卡之間的數(shù)據(jù)遷移。

6856f95e-4536-11ee-a2ef-92fbcf53809c.png

在云游戲和直播場景,大家可能遇到過畫面內(nèi)字符顯示不清晰的問題,運用前述的AI技術(shù)則可對字符所在區(qū)域進行顯示質(zhì)量的針對性優(yōu)化。

68790aee-4536-11ee-a2ef-92fbcf53809c.png

用戶可通過我們隨卡附帶的AMD媒體加速軟件開發(fā)套件(SDK)訪問加速卡,它帶有FFmpeg、GStreamer接口,便于快速上手。高階用戶還可以通過AMD 媒體加速器接口客制化調(diào)用加速卡的各種視頻處理模塊。

68949f70-4536-11ee-a2ef-92fbcf53809c.png

接下來介紹MA35D的一次視頻處理性能演示,我們使用單卡雙芯片同時處理兩個4k60 8Mps H264流。其中一路解碼后分為四個流以不同碼率和編碼標準輸出,四個流中的三個在同服務(wù)器上使用加速卡自帶解碼器進行轉(zhuǎn)碼、編碼,傳輸至顯示器。另一路分為三個流按不同分辨率、碼率和編碼標準輸出,同第一路中的第四個流一并無線傳輸至不同設(shè)備解碼顯示。

68bea1f8-4536-11ee-a2ef-92fbcf53809c.png

如上所示,演示過程中第一路流在同服務(wù)器下的轉(zhuǎn)碼和解碼都達到了60fps水平,并且轉(zhuǎn)碼占用的CPU核1負載不大,核2到核8負責(zé)將解碼后YUV數(shù)據(jù)轉(zhuǎn)移至顯卡,因而出現(xiàn)了高負載情況。處理過程中的加速卡資源占用情況支持隨時調(diào)取查看。

68ffe35c-4536-11ee-a2ef-92fbcf53809c.png

上圖展示了演示的實時多流多終端傳輸顯示效果。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1645

    文章

    22025

    瀏覽量

    617501
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    826

    瀏覽量

    39058
  • 編解碼器
    +關(guān)注

    關(guān)注

    0

    文章

    273

    瀏覽量

    24730
  • 視頻處理器
    +關(guān)注

    關(guān)注

    3

    文章

    109

    瀏覽量

    16076
  • LPDDR5
    +關(guān)注

    關(guān)注

    2

    文章

    90

    瀏覽量

    12554

原文標題:支持AI視頻處理的高容量流媒體加速卡方案

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    智算加速卡是什么東西?它真能在AI戰(zhàn)場上干掉GPU和TPU!

    隨著AI技術(shù)火得塌糊涂,大家都在談"大模型"、"AI加速"、"智能計算",可真到了落地環(huán)節(jié),算力才是硬通貨。你有沒有發(fā)現(xiàn),現(xiàn)在越來越多的AI
    的頭像 發(fā)表于 06-05 13:39 ?504次閱讀
    智算<b class='flag-5'>加速卡</b>是什么東西?它真能在<b class='flag-5'>AI</b>戰(zhàn)場上干掉GPU和TPU!

    410?基于?XCVU9P+?C6678?的?100G?光纖的加速卡

    基于 XCVU9P+ C6678 的 100G 光纖的加速卡
    的頭像 發(fā)表于 05-08 08:32 ?227次閱讀
    410?基于?XCVU9P+?C6678?的?100G?光纖的<b class='flag-5'>加速卡</b>

    邊緣AI運算革新 DeepX DX-M1 AI加速卡結(jié)合Rockchip RK3588多路物體檢測解決方案

    DeepX 推出了款革命性的產(chǎn)品 DeepX DX-M1 AI 推理加速卡 采用 PCIe Gen3 M.2 M-Key 接口,具備高達 25 TOPS 的卓越運算性能,以及高準確度、低功耗、低溫
    的頭像 發(fā)表于 05-06 14:15 ?527次閱讀
    邊緣<b class='flag-5'>AI</b>運算革新 DeepX DX-M1 <b class='flag-5'>AI</b><b class='flag-5'>加速卡</b>結(jié)合Rockchip RK3588多路物體檢測解決<b class='flag-5'>方案</b>

    AI加速卡到底是個啥?文讓小白也能看懂AI時代的“超級計算器”!

    你有沒有發(fā)現(xiàn),現(xiàn)在人工智能(AI)越來越火了?聊天機器人能陪你談天說地,自動駕駛汽車能自己避障,手機拍照能自動美顏……這些背后都離不開一種神秘的技術(shù)——AI加速卡。
    的頭像 發(fā)表于 04-28 14:46 ?903次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>加速卡</b>到底是個啥?<b class='flag-5'>一</b>文讓小白也能看懂<b class='flag-5'>AI</b>時代的“超級計算器”!

    寒武紀基于思元370芯片的MLU370-X8 智能加速卡產(chǎn)品手冊詳解

    MLU370-X8智能加速卡是全面升級的數(shù)據(jù)中心訓(xùn)推AI加速卡,基于寒武紀全新代思元370芯片,接口為PCIe 4.0 X16,是全高
    的頭像 發(fā)表于 04-24 17:57 ?1307次閱讀
    寒武紀基于思元370芯片的MLU370-X8 智能<b class='flag-5'>加速卡</b>產(chǎn)品手冊詳解

    RK3588核心板在邊緣AI計算中的顛覆性優(yōu)勢與場景落地

    推理任務(wù),需額外部署GPU加速卡,導(dǎo)致成本與功耗飆升。 擴展性受限:老舊接口(如USB 2.0、百兆網(wǎng)口)無法支持5G模組、高速存儲等現(xiàn)代外設(shè),升級困難。 開發(fā)周期長:BSP適配不完善,跨平臺AI
    發(fā)表于 04-15 10:48

    邊緣AI新突破:MemryX AI加速卡與RK3588打造高效多路物體檢測方案

    方案特別結(jié)合了 Orange Pi 5 Plus (Rockchip RK3588) 與 MemryX AI 加速卡,構(gòu)建出套高性價比的智能解決
    的頭像 發(fā)表于 03-06 10:45 ?606次閱讀
    邊緣<b class='flag-5'>AI</b>新突破:MemryX <b class='flag-5'>AI</b><b class='flag-5'>加速卡</b>與RK3588打造高效多路物體檢測<b class='flag-5'>方案</b>

    基于Xilinx XCKU115的半高PCIe x8 硬件加速卡

    基于Xilinx XCKU115的半高PCIe x8 硬件加速卡支持2x72bit(數(shù)據(jù)位寬64bit+ECC)DDR4存儲,數(shù)據(jù)傳輸速率 2400Mb/s。DDR4單簇容量4GB,兩組總
    的頭像 發(fā)表于 11-14 11:30 ?765次閱讀
    基于Xilinx XCKU115的半高PCIe x8 硬件<b class='flag-5'>加速卡</b>

    S7t-VG6 VectorPath加速卡的特性和功能

    S7t-VG6 VectorPath加速卡是Achronix公司聯(lián)合BittWare公司(Molex旗下的領(lǐng)先企業(yè)級FPGA加速器產(chǎn)品供應(yīng)商)推出的類全新的、面向高性能計算和數(shù)據(jù)加速
    的頭像 發(fā)表于 11-14 11:19 ?800次閱讀

    PCIe加速卡在數(shù)據(jù)中心的應(yīng)用

    數(shù)據(jù)中心中扮演著越來越重要的角色。 1. 什么是PCIe加速卡? PCIe加速卡一種通過PCI Express(PCIe)接口連接到服務(wù)器的硬件設(shè)備,用于提供額外的計算能力。這些加速卡
    的頭像 發(fā)表于 11-06 09:32 ?1740次閱讀

    AMD推出新款纖薄尺寸電子交易加速卡

    UL3422 為交易商、做市商和金融機構(gòu)提供了款針對機架空間和成本進行優(yōu)化的纖薄型加速卡,旨在快速部署到各種服務(wù)器中。
    的頭像 發(fā)表于 10-16 09:14 ?784次閱讀

    大模型向邊端側(cè)部署,AI加速卡朝高算力、小體積發(fā)展

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)AI加速卡是專門用于處理人工智能應(yīng)用中的大量計算任務(wù)的模塊。它集成了高性能的計算核心和大量的內(nèi)存,旨在加速機器學(xué)習(xí)、深度學(xué)習(xí)等算法的計算過程。當(dāng)前,
    的頭像 發(fā)表于 09-17 00:18 ?5109次閱讀

    EPSON差分晶振SG3225VEN頻點312.5mhz應(yīng)用于AI加速卡

    AI加速卡,通常也被稱為AI算力,是一種專為加速人工智能(
    發(fā)表于 09-10 14:56 ?0次下載

    YXC高頻差分晶振,頻點312.5mhz,高精度.高穩(wěn)定性,應(yīng)用于AI加速卡

    AI加速卡中,揚興推薦的YXC差分晶振YSO210PR系列,該系列頻率范圍為10MHz ~1500MHz,可滿足高精度、高穩(wěn)定度的需求,支持差分信號(LVDS/LVPECL)輸出
    的頭像 發(fā)表于 08-21 14:03 ?691次閱讀
    YXC高頻差分晶振,頻點312.5mhz,高精度.高穩(wěn)定性,應(yīng)用于<b class='flag-5'>AI</b><b class='flag-5'>加速卡</b>

    貿(mào)澤開售AMD / Xilinx Alveo MA35D媒體加速器 為流媒體、游戲、遠程醫(yī)療和在線學(xué)習(xí)應(yīng)用提供支持

    媒體加速器。Alveo MA35D媒體加速器是款基于 ASIC 的AI
    發(fā)表于 07-12 10:44 ?723次閱讀