谷歌推出能一次生成完整視頻的擴散模型

谷歌研究院近日發(fā)布了一款名為Lumiere的文生視頻擴散模型，基于自家研發(fā)的Space-Time U-Net基礎架構(gòu)，獨立生成具有高效、完整且動作連貫性的視頻效果。

該公司指出，當前眾多文生視頻模型普遍存在無法生成長時、高品質(zhì)及動作連貫的問題。這些模型往往采用“分段生成視頻”策略，即先生成少量關(guān)鍵幀，再借助時間超級分辨率（TSM）技術(shù)生成其間的視頻文件。盡管此策略可減緩RAM負擔，但難以生成理想的連續(xù)視頻效果。

針對此問題，谷歌的Lumiere模型創(chuàng)新地引入了新型Space-Time U-Net基礎架構(gòu)，這種架構(gòu)能在空間和時間兩個維度同時降低信號采樣率，使其具備更高的計算效率，進而實現(xiàn)生成更具持續(xù)性、動作連貫的視頻效果。

此外，開發(fā)者們特別說明，Lumiere每次可生成80幀視頻（在16FPS模式下相當于5秒視頻，或在24FPS模式下為約3.34秒視頻）。盡管這一時光貌似短暫，然而他們強調(diào)，事實上，這段5秒視頻所包含的鏡頭時長已超出大多數(shù)媒體作品中單一鏡頭的平均時長。

除運用架構(gòu)創(chuàng)新以外，作為AI構(gòu)建基礎的預訓練文生圖像模型也得到了谷歌團隊的特別關(guān)注。該模型首次生成簡單像素草稿作為視頻分幀，然后借助空間超分辨率（SRM）模型，逐步提高分幀分辨率，同時引入通用生成框架Multi-Diffusion以增強模型穩(wěn)定性，從而確保最終輸出的視頻效果一致且連續(xù)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6231

瀏覽量
108153
RAM

RAM

+關(guān)注

關(guān)注
8

文章
1392

瀏覽量
117554
AI

AI

+關(guān)注

關(guān)注
88

文章
35164

瀏覽量
280018
模型

模型

+關(guān)注

關(guān)注
1

文章
3521

瀏覽量
50433

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

谷歌推出能一次生成完整視頻的擴散模型

評論