本文來自“技術復盤與分析:Sora是如何成功的?”,報告深入分析了Sora的各項能力、采用的技術路線和創(chuàng)新性的工作。我們認為Sora是將之前的研究工作上進行了很好的綜合,并在強大的算力、工程能力以及GPT和DALL·E模型技術積累下誕生的。
隨著OpenAI將這種具有開創(chuàng)性的技術路徑走通,國內模型和應用廠商有望快速迭代出類Sora的視頻生成模型和應用產品。
Sora的突破可以概括為以下幾點:
? 從生成效果看,突破此前視頻生成模型的時長限制,能夠生成60s時長、分辨率1080p的視頻,可用性極高。
? 從技術路線看,依舊遵從LLM范式“大力出奇跡”,通過patches向量化與transformer架構結合,使得訓練數據能夠使用大小、尺寸、分辨率不同的視頻,能夠讓模型學習到視頻的規(guī)律乃至世界的規(guī)律;使用GPT生成prompt,在訓練和推理過程中解決了模態(tài)之間的對齊問題,大大提升了生成效果。
? 從產業(yè)發(fā)展看,Sora通用性極強,有望統(tǒng)一視頻生成生態(tài);能夠進一步賦能與促進下游應用發(fā)展,未來有望成為真正的“世界模擬器” 。
Sora的誕生無異是產業(yè)的里程碑,以其為代表的“多模型協(xié)同”方式是接近AGI的可行道路。與Gemini這樣的多模態(tài)模型不同,Sora的核心能力依舊在視頻生成領域,且在推理時需要調用GPT的能力重述prompt。這種方式可能不如Gemini符合直覺,但效果非常顯著,大大加速了產業(yè)走向AGI的過程。
Sora代表LLM的通用和涌現(xiàn)范式在視頻領域的成功復現(xiàn),因此算力依舊是模型與應用廠商布局的關鍵。通過巧妙的patches嵌入方法,Sora能夠運用高效的Transformer架構在海量的視頻上進行訓練,因此也涌現(xiàn)了模擬現(xiàn)實世界的能力。在其他技術路徑的模型獲得更好的效果之前,這種“大力出奇跡”的訓練方式將依舊是產業(yè)的主流,算力需求將持續(xù)迎來更大的爆發(fā)。
Sora可能成為視頻生成領域的Base Model,模型層的競爭格局可能走向收斂。相比其他輕應用,Sora的生成時長更長、質量更高,能夠完全替代這些輕應用。因此在多數場景下,Sora都能取代其他的生成模型和應用,最終使視頻模型格局走向收斂。
-
模型
+關注
關注
1文章
3464瀏覽量
49817 -
GPT
+關注
關注
0文章
368瀏覽量
15864 -
Sora
+關注
關注
0文章
83瀏覽量
396
原文標題:復盤與分析:Sora是如何成功的?
文章出處:【微信號:架構師技術聯(lián)盟,微信公眾號:架構師技術聯(lián)盟】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
連續(xù)時間LTI系統(tǒng)的復頻域分析.ppt
連續(xù)系統(tǒng)的復頻域分析
《百年傳媒復盤&智慧家庭的未來》的演講
每個人都要會的復盤知識
德賽電池5個復盤案例獲得集團榮譽
openai sora如何使用?Sora 使用指南:快速上手
Sora到底懂不懂物理世界? Sora開啟更多可能
sora最新消息 sora是什么意思
sora系列是哪個公司的 sora視頻怎么用
sora模型怎么使用 sora模型對現(xiàn)實的影響
《合宙的第一個10年》故事連載04:高質量的復盤是成功之父

評論