視頻分析 AI 智能體的時(shí)代已經(jīng)到來。
視頻是現(xiàn)代數(shù)字行業(yè)的標(biāo)志性特征之一,占全球數(shù)據(jù)流量的 50% 以上。它不僅在媒體行業(yè)占據(jù)主導(dǎo)地位,對(duì)各行業(yè)的企業(yè)也日趨重要,是全球規(guī)模最大、最普遍的數(shù)據(jù)源之一。然而,其中只有不到 1% 的視頻數(shù)據(jù)會(huì)被用于深入分析。
全球近一半的 GDP 產(chǎn)生自實(shí)體行業(yè),包括能源、汽車和電子產(chǎn)品。由于勞動(dòng)力短缺、制造業(yè)回流以及自動(dòng)化需求的增長,視頻分析 AI 智能體將發(fā)揮更重要的作用,在物理世界和數(shù)字世界之間搭建橋梁。
為了加速這些智能體的開發(fā),NVIDIA 打造了用于視頻搜索與總結(jié) (VSS) 的 AI Blueprint,該藍(lán)圖由NVIDIA Metropolis平臺(tái)驅(qū)動(dòng),現(xiàn)已全面推出,可為開發(fā)者提供構(gòu)建和部署高性能 AI 智能體的工具,用于分析大量實(shí)時(shí)和存檔視頻。
由視覺語言模型 (VLM) 驅(qū)動(dòng)的一系列視覺 AI 智能體和生產(chǎn)力助手即將上線。結(jié)合強(qiáng)大的計(jì)算機(jī)視覺模型與超智能大語言模型 (LLM),這些視頻分析 AI 智能體可助力企業(yè)輕松查看、搜索并總結(jié)海量視頻。通過實(shí)時(shí)分析視頻或處理 TB (terabytes) 級(jí)錄制視頻,視頻分析 AI 智能體正在眾多行業(yè)釋放前所未有的價(jià)值和機(jī)遇。
制造業(yè)和倉儲(chǔ)企業(yè)正在通過 AI 智能體提高人員安全性和生產(chǎn)效率。例如,智能體可以幫助分配叉車資源和調(diào)配人員崗位,實(shí)現(xiàn)效率最大化。在智慧城市領(lǐng)域,視頻分析 AI 智能體被用于緩解交通擁堵并提升安全性,其應(yīng)用場景還在持續(xù)擴(kuò)展。
用于創(chuàng)建多樣化視頻分析
AI 智能體群的 Blueprint
VSS 藍(lán)圖基于 NVIDIA Metropolis 平臺(tái)構(gòu)建,由NVIDIA VILA和NVIDIA Llama Nemotron等 VLM 和 LLM、NVIDIA NeMo Retriever微服務(wù)以及檢索增強(qiáng)生成 (RAG) 驅(qū)動(dòng),RAG 可將 LLM 與公司的企業(yè)數(shù)據(jù)結(jié)合起來。
VSS 藍(lán)圖集成了NVIDIA AI Enterprise軟件平臺(tái),包括用于 VLM、LLM 的NVIDIA NIM微服務(wù),以及用于 RAG 的先進(jìn) AI 框架。通過 VSS 藍(lán)圖,用戶總結(jié)視頻的速度比實(shí)時(shí)觀看快 100 倍。例如,60 分鐘的視頻可在不到 1 分鐘的時(shí)間內(nèi)用文字總結(jié)出來。
VSS 藍(lán)圖具有一系列強(qiáng)大的功能,旨在提供強(qiáng)大的視頻理解能力、性能和可擴(kuò)展能力。
它可以同時(shí)處理數(shù)百個(gè)實(shí)時(shí)視頻流或多組視頻片段。除了視覺理解,它還支持音頻轉(zhuǎn)錄。在音頻至關(guān)重要的場景中,將語音轉(zhuǎn)換為文本可增強(qiáng)理解,例如訓(xùn)練視頻、主題演講或團(tuán)隊(duì)會(huì)議等。
行業(yè)領(lǐng)導(dǎo)者部署視頻分析 AI 智能體,
推動(dòng)實(shí)現(xiàn)商業(yè)價(jià)值
從全球領(lǐng)先制造商到智慧城市和體育賽事聯(lián)盟,所有組織都在使用 VSS 藍(lán)圖開發(fā) AI 智能體以優(yōu)化運(yùn)營。
領(lǐng)先的電子制造公司 Pegatron 使用 VSS 藍(lán)圖來研究運(yùn)營程序并對(duì)員工進(jìn)行最佳實(shí)踐培訓(xùn)。公司還將該藍(lán)圖集成到 PEGAAi 平臺(tái)中,以便組織構(gòu)建 AI 智能體,從而優(yōu)化制造流程。
這些智能體可以提取并分析大量視頻,實(shí)現(xiàn)自動(dòng)監(jiān)控、異常檢測、視頻搜索和事件報(bào)告等高級(jí)功能。Pegatron 的 Visual Analytics Agent 可用于理解印刷電路板組裝的操作程序,并識(shí)別正確或錯(cuò)誤的操作。迄今為止,這些智能體將 Pegatron 的人力成本降低了 7%,并將不良率降低了 67%。
其他領(lǐng)先的半導(dǎo)體和電子制造商正在構(gòu)建 AI 智能體和數(shù)字孿生,從而優(yōu)化其規(guī)劃和運(yùn)營應(yīng)用。
高雄市正在使用由其合作伙伴 Linker Vision 開發(fā)的統(tǒng)一智慧城市視覺 AI 應(yīng)用,以縮短事件響應(yīng)時(shí)間。此前,廢物管理、交通運(yùn)輸和應(yīng)急響應(yīng)等城市部門因孤島式基礎(chǔ)設(shè)施相互隔離,關(guān)鍵信息無法互通導(dǎo)致響應(yīng)速度延遲。
Linker Vision 的 AI 應(yīng)用由 VSS 藍(lán)圖驅(qū)動(dòng),其智能體能夠結(jié)合實(shí)時(shí)視頻分析與生成式 AI 技術(shù),不僅可以檢測視覺元素,還能夠解析并生成對(duì)洪水、交通事故等復(fù)雜城市事件的態(tài)勢描述。
目前,Linker Vision 為 12 個(gè)城市部門提供及時(shí)洞察,并計(jì)劃在 2026 年前將城市攝像頭從 3 萬臺(tái)增加至超 5 萬臺(tái)。這些洞察正在提升城市服務(wù)的態(tài)勢感知能力和數(shù)據(jù)驅(qū)動(dòng)決策水平,并將事件響應(yīng)時(shí)間縮短高達(dá) 80%。
北美職業(yè)冰球聯(lián)盟 (NHL) 將 VAST InsightEngine 與 VSS 藍(lán)圖相結(jié)合,可簡化并加速視覺 AI 工作流,管理大量比賽視頻。
通過 VAST InsightEngine,NHL 能夠?qū)崿F(xiàn)在亞秒級(jí)時(shí)間內(nèi)對(duì) PB (petabytes) 級(jí)視頻的檢索,支持對(duì)比賽精彩瞬間和高光時(shí)刻的近實(shí)時(shí)提取。AI 驅(qū)動(dòng)的代理式工作流通過自動(dòng)剪輯、標(biāo)記和組合視頻內(nèi)容,進(jìn)一步提高了內(nèi)容創(chuàng)作效率,確保素材的便捷訪問與高效利用。
NHL 未來或?qū)⒂脤?shí)時(shí) AI 邏輯推理功能,在比賽時(shí)動(dòng)態(tài)生成定制化洞察,例如選手運(yùn)動(dòng)數(shù)據(jù)、比賽戰(zhàn)術(shù)分析或預(yù)想建議。這種全流程自動(dòng)化體系或?qū)氐赘淖冑愂聝?nèi)容的生成、編排以及分發(fā)方式,為 AI 體育內(nèi)容制作樹立新標(biāo)桿。
西門子正在使用其 Industrial Copilot for Operations 幫助工廠車間人員執(zhí)行設(shè)備維護(hù)任務(wù)、故障處理和能效調(diào)優(yōu)。這一生成式 AI 助手可根據(jù)運(yùn)營和技術(shù)文檔數(shù)據(jù),對(duì)設(shè)備錯(cuò)誤進(jìn)行實(shí)時(shí)解析。
該 copilot 融合了 VSS 組件,如 VLM、LLM 和 NVIDIA NeMo 微服務(wù)。Industrial Copilot 實(shí)現(xiàn)了快速?zèng)Q策,減少了宕機(jī)時(shí)間。西門子報(bào)告中顯示其生產(chǎn)率提高了 30%,并有望達(dá)到 50%。
由不斷擴(kuò)展的合作伙伴生態(tài)系統(tǒng)
提供支持,創(chuàng)建復(fù)雜的 AI 智能體
NVIDIA 的合作伙伴正在使用 VSS 藍(lán)圖為其工作流加速構(gòu)建代理式 AI 視頻分析功能,將開發(fā)時(shí)間從數(shù)月縮短到數(shù)周。
智能視頻分析領(lǐng)域的領(lǐng)導(dǎo)者 Superb AI 在仁川機(jī)場部署了一個(gè)智能化機(jī)場運(yùn)營方案,以實(shí)現(xiàn)在幾周內(nèi)縮短乘客等候時(shí)間。在馬來西亞,解決方案提供商 ITMAX 正在借助 VSS 藍(lán)圖為吉隆坡構(gòu)建先進(jìn)的視覺 AI 智能體,以改善城市整體管理水平并縮短事件響應(yīng)時(shí)間。
在廣告領(lǐng)域,PYLER 僅在幾周內(nèi)就將 VSS 藍(lán)圖集成到其品牌安全 (AiD) 和廣告定向投放 (AiM) 解決方案中。三星電子通過 AiD 和 AiM 解決方案,實(shí)現(xiàn)了與品牌調(diào)性和產(chǎn)品定位精準(zhǔn)匹配的高價(jià)值廣告投放,顯著提升了廣告效益。比亞迪通過定向投放情境關(guān)聯(lián)且內(nèi)容積極的廣告,將廣告點(diǎn)擊率提高了 4 倍,而韓亞金融集團(tuán) (Hana Financial Group) 則超額達(dá)成了多個(gè)品牌活動(dòng)目標(biāo)。
Fingermark 是 Eyecue 的應(yīng)用提供商,后者是快餐店使用的實(shí)時(shí)計(jì)算機(jī)視覺平臺(tái)。Fingermark 正在將 VSS 藍(lán)圖添加到 Eyecue 中,通過規(guī)?;曨l片段分析生成清晰且可操作的洞察,從而洞悉得來速 (Drive-Thru) 等待時(shí)間、服務(wù)瓶頸或員工相關(guān)事件。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5309瀏覽量
106433 -
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
280045 -
智能體
+關(guān)注
關(guān)注
1文章
307瀏覽量
11080 -
視頻分析
+關(guān)注
關(guān)注
0文章
37瀏覽量
11019
原文標(biāo)題:COMPUTEX 2025 | 用于視頻搜索和總結(jié)的 AI Blueprint 現(xiàn)已推出,可在各行各業(yè)部署視頻分析 AI 智能體
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論