***偷偷偷网站色偷一区,深爱激情婷婷五月天,欧美大片在线观看va

6月18日至22日，IEEE/CVF國際計算機視覺與模式識別會議（CVPR）在溫哥華舉行，該會議不僅是計算機視覺，也是AI領(lǐng)域最重要的年度活動之一。會議期間，高通展示了已被業(yè)界認可的研究論文和技術(shù)演示。本文將介紹CVPR 2023上高通的展示亮點。

技術(shù)演示

高通在AI、計算機視覺、XR和自動駕駛汽車等領(lǐng)域的研究，已從核心理論創(chuàng)新擴展到下游實際應(yīng)用，例如：

·運行在手機上的全球最快的

ControlNet演示

幾個月前，高通展示了全球首個運行在Android手機上的Stable Diffusion終端側(cè)演示，該演示在CVPR上再次呈現(xiàn)。此外，高通AI研究演示了ControlNet圖像生成圖像模型，該模型擁有15億參數(shù)，可以完全在手機上運行。ControlNet是一項生成式AI解決方案，被稱為語言-視覺模型（LVM）。它能夠通過調(diào)整輸入圖像和輸入文本描述，更精準地控制生成圖像。在這項演示中，只用不到12秒即可在移動終端上生成AI圖像，無需訪問任何云端，便能提供高效、有趣、可靠且私密的交互式用戶體驗。這項驚艷的技術(shù)演示通過一套跨模型架構(gòu)、AI軟件和神經(jīng)網(wǎng)絡(luò)硬件加速器的全棧式AI優(yōu)化而實現(xiàn)。在此過程中使用的高通先進AI工具和硬件包括：高通AI模型增效工具包（AIMET）、高通AI軟件棧和高通AI引擎。

·支持基于實時視覺大語言模型的 健身教練 高通AI研究利用生成式AI打造出在準確度和真實感方面超越現(xiàn)有解決方案的數(shù)字健身教練。健身教練能夠提供實時互動，鼓勵、糾正并幫助用戶實現(xiàn)其健身目標。我們的演示展示了基于視覺的大語言模型如何支持情境式、多模態(tài)的實時交互。用戶的運動視頻流先經(jīng)過動作識別模型進行處理。根據(jù)識別的動作，狀態(tài)編排器（stateful orchestrator）提供提示并輸入給大語言模型。健身教練通過一個語音合成（文本生成語音）的虛擬化身，將大語言模型的答復(fù)送回給用戶。這項演示的實現(xiàn)主要歸功于三項關(guān)鍵創(chuàng)新：為檢測精細化健身動作而訓(xùn)練的視覺模型、為生成基于視覺概念的語言而訓(xùn)練的語言模型，以及能夠協(xié)調(diào)兩個模態(tài)之間流動交互的編排器，便于實時對話式的輔導(dǎo)反饋。憑借上述創(chuàng)新，就能夠支持健身教練為用戶提供實時的沉浸式動態(tài)交互體驗。

·全球首個在手機上進行的1080p

神經(jīng)網(wǎng)絡(luò)視頻編碼

終端側(cè)AI的另一項全球首創(chuàng)即在移動終端上的1080p視頻編碼和解碼過程。神經(jīng)網(wǎng)絡(luò)編解碼器用途十分廣泛：可針對特定視頻需求進行定制，通過生成式AI的優(yōu)勢對感知質(zhì)量進行優(yōu)化，擴展至全新模態(tài)，在通用AI硬件上運行。但同時也將帶來難以在計算能力有限的終端上應(yīng)對的諸多挑戰(zhàn)。高通設(shè)計了全新高效的神經(jīng)網(wǎng)絡(luò)視頻幀間壓縮架構(gòu)，支持在終端上進行1080p視頻編碼。在演示中，神經(jīng)網(wǎng)絡(luò)視頻編解碼器能夠準確地保留高清視頻的豐富視覺結(jié)構(gòu)和復(fù)雜動作。

·面向XR的3D重建

高通成功開發(fā)了先進的實時3D重建系統(tǒng)，該系統(tǒng)在準確度和高效方面表現(xiàn)出色，能夠在任何環(huán)境下賦能創(chuàng)建高精度的3D模型。該解決方案在移動終端上運行，從單個圖像生成深度圖，并將其組合成3D場景。有了準確的實時3D地圖，開發(fā)者可以解鎖大量AR和VR應(yīng)用。全新設(shè)計的互動演示展示了高通的創(chuàng)新實力，用戶可向場景中的真實物體（比如墻壁和家具）射擊虛擬球，見證基于精確物理計算的逼真反彈效果。該感知技術(shù)提升了沉浸式體驗，并有望加速元宇宙的廣泛普及。

·面向智能攝像頭的計算機視覺

基于AI的計算機視覺的進步，推動照片和視頻拍攝能力持續(xù)演進。高通演示了語義分割、單目深度估測和基于實例分割的虛化效果、背景替換、電影模式，以及銳度、平滑度、清晰度與對比度方面相關(guān)的圖像質(zhì)量提升。這些神經(jīng)網(wǎng)絡(luò)在搭載驍龍平臺的終端上實時運行視頻增強特性。

·為增強安全性的駕駛員監(jiān)測技術(shù)

駕駛員監(jiān)測系統(tǒng)（DMS）演示中展示了如何利用計算機視覺判斷危險駕駛狀況以提高安全性。駕駛員監(jiān)測系統(tǒng)通過座艙內(nèi)主動紅外攝像機實時監(jiān)測駕駛員的特征，如眼睛睜開程度、凝視方向、頭部姿勢、面部表情和肢體動作等，從而判斷駕駛員的駕駛狀態(tài)。該系統(tǒng)在檢測到類似注意力分散和瞌睡等危險駕駛情況時會向司機發(fā)出警告，最終幫助挽救生命。駕駛員監(jiān)測系統(tǒng)和先進駕駛輔助系統(tǒng)（ADAS）能夠同時在Snapdragon Ride Flex系統(tǒng)級芯片上同步運行。

·XR虛擬頭像

無論逼真或卡通風(fēng)格，虛擬化身是賦能元宇宙中沉浸式XR體驗的基本要素。借助一張或多張2D照片，利用終端側(cè)AI生成個性化網(wǎng)格和相應(yīng)的紋理。使用頭戴式攝像機來觀察用戶眼睛和嘴巴的移動，實時渲染虛擬頭像。由此，可生成更接近于標準現(xiàn)實重建和動畫后的虛擬化身，并根據(jù)環(huán)境進行光照處理。高通的目標是在元宇宙和人機界面中使用的驍龍XR平臺上提供數(shù)字人。

除了以上技術(shù)演示，高通還展示了公司已被業(yè)界認可的研究論文。CVPR 2023期間，高通共有八篇論文被主會議收錄，主要從充分利用數(shù)據(jù)和打造更佳架構(gòu)兩大類別出發(fā)，對推動計算機視覺前沿發(fā)展具有深遠影響。

欲了解更多信息，請點擊【閱讀原文】。

*本文內(nèi)容來自高通技術(shù)公司工程技術(shù)副總裁Ning Bi、高通技術(shù)公司高級技術(shù)總監(jiān)Fatih Porikli的署名博客。

原文標題：高通在2023年國際計算機視覺與模式識別會議上，展示先進研究成果并將生成式AI引入邊緣側(cè)

文章出處：【微信公眾號：高通中國】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴