隨著CLIP、DALL·E、Diffusion Model、Magic3D、Stable Diffusion等技術的快速發(fā)展,AIGC在全球各大科技巨頭間可謂是高頻詞匯,連帶著AI這個老生常談的話題也一并火熱起來。
去年三月,OpenAI發(fā)布了人工智能繪畫產(chǎn)品DALL·E,后來升級到DALL·E 2。谷歌和Meta緊隨其后,并且進一步發(fā)展出文字轉視頻功能。今年8月,Stable Diffusion正式開源。而在日前,英偉達也宣布加入AIGC的賽道,發(fā)布了Magic3D。
那么AIGC是怎么突然火起來的?又是否是更通用的AI的起點?會不會和原創(chuàng)工作者“搶飯碗”?
注:由于篇幅有限需要更多 AIGC 詳細資料,請在公眾號末尾留下您的郵箱,小編會將PDF文件發(fā)您郵箱,共同進步學習。
AIGC高性能計算一體機
深度學習與AIGC
AIGC使用人工智能技術來生成內容。2021年之前,AIGC主要生成文字,新一代模型可以處理的格式內容包括:文字、語音、代碼、圖像、視頻、機器人動作等。AIGC被認為是繼專業(yè)生產(chǎn)內容PGC、用戶生成內容UGC之后的一種新的內容創(chuàng)作方式,可以充分發(fā)揮其在創(chuàng)意、表現(xiàn)力、迭代、傳播、個性化等方面的技術優(yōu)勢。2022年,AIGC以驚人的速度發(fā)展。年初還處于技藝生疏階段,幾個月后達到專業(yè)水平,足以以假亂真。與此同時,AIGC的迭代速度呈指數(shù)級爆發(fā),其中深度學習模型的不斷完善、開源模型的推廣以及大模型商業(yè)化的可能,成為AIGC發(fā)展的“加速度”。
一、深度學習模型是AIGC加速普及的基礎
視覺信息在網(wǎng)絡中一直具有很強的傳播力且易被大眾感知,具有跨平臺、跨領域、跨人群的優(yōu)勢,自然容易被記住和理解。同時視覺信息應用場景廣泛,因此生成高質量的圖像成為當前AI領域的一個現(xiàn)象級功能。
2021年,OpenAI團隊將開源跨模態(tài)深度學習模型CLIP(對比語言-圖像預訓練,以下簡稱“CLIP”)。CLIP模型可以將文字和圖像關聯(lián)起來,比如文字“狗”和狗的圖像進行關聯(lián),并且關聯(lián)特征非常豐富。所以CLIP模型有兩個優(yōu)點:
1、可以同時理解自然語言和分析計算機視覺,實現(xiàn)圖文匹配。
2、為有足夠多的有標記的“文本-圖像”進行訓練,CLIP模型大量使用互聯(lián)網(wǎng)上的圖片,這些圖片一般攜帶各種文本描述,成為CLIP的天然訓練樣本。
據(jù)統(tǒng)計,CLIP模型在網(wǎng)絡上收集了超過40億的“文本-圖像”訓練數(shù)據(jù),為AIGC的后續(xù)應用,尤其是輸入文本生成圖像/視頻落定奠定了基礎。
GAN(Generative Adver Serial Network)雖然是很多AIGC的基礎框架,但它有三個缺點:
1、對輸出結果的控制能力弱,容易產(chǎn)生隨機圖像;
2、生成的圖像分辨率低;
3、由于需要使用鑒別器來判斷生成的圖像是否與其他圖像屬于同一類別,因此生成的圖像是對已有作品的模仿,而非創(chuàng)新。所以依靠GAN模型很難生成新的圖像,也無法通過文本提示生成新的圖像。
AIGC相關深度學習模型匯總表
隨后出現(xiàn)的Diffusion擴散化模型,真正讓文本生成圖像的AIGC應用為大眾所熟知,也是2022年下半年Stable Diffusion應用的重要推手。Diffusion有兩個特點:
1、在圖像中加入高斯噪聲,通過破壞訓練數(shù)據(jù)進行學習,然后找出如何逆轉這個噪聲過程來恢復原始圖像。訓練后,模型可以從隨機輸入中合成新數(shù)據(jù)。
2、Stable Diffusion通過數(shù)學變換將模型的計算空間從像素空間降低到一個勢空間的低維空間,大大減少了計算量和時間,大大提高了模型訓練的效率。這種算法模式的創(chuàng)新直接推動了AIGC技術的突破性進展。
總的來說,AIGC在2022年實現(xiàn)了突破,主要是在深度學習模型上取得了很大的進步:首先基于海量互聯(lián)網(wǎng)圖片訓練了CLIP模型,推動AI繪畫模型結合創(chuàng)新;其次,Diffusion擴散化模型實現(xiàn)算法創(chuàng)新;最后,利用潛在空間的降維方法降低Diffusion模型內存和時間消耗大的問題。所以,AIGC繪畫之所以能幫助大眾畫出各種充滿想象力的畫,有賴于大量深度學習模型的不斷完善。
二、“開源模式”成為AIGC發(fā)展催化劑
在算法模型方面,AIGC的發(fā)展離不開開源模型的推動。以深度學習模型CLIP為例,開源模型加速了CLIP模型的廣泛應用,使其成為目前最先進的圖像分類人工智能,讓更多的機器學習從業(yè)者將CLIP模型嫁接到其他AI應用中。與此同時,AIGC繪畫最受歡迎的應用穩(wěn)定擴散(Stable Diffusion)已經(jīng)正式開源(包括模型權重和代碼),這意味著任何用戶都可以使用它來建立特定文本到圖像的創(chuàng)作任務。穩(wěn)定擴散的開源直接引發(fā)了2022年下半年AIGC的廣泛關注。短短幾個月,大量二次開發(fā)出現(xiàn),從模型優(yōu)化到應用擴展,大大降低了用戶使用AIGC進行創(chuàng)作的門檻,提高了創(chuàng)作效率,長期占據(jù)GitHub熱榜第一。
AIGC繪畫應用系統(tǒng)匯總表
在訓練數(shù)據(jù)集方面,機器學習離不開大量的數(shù)據(jù)學習。作為全球非營利性機器學習研究機構,LAION于2022年3月開放了最大的開源跨模態(tài)數(shù)據(jù)庫LAION-5B,使近60億個“文本-圖像”對可供訓練,從而進一步加速了AI圖像生成模型的成熟,幫助研究人員加速從文字到圖像的模型生成。正是CLIP和LAION的開源模型構建了當前AI圖像生成應用的核心。未來,隨著模型的穩(wěn)定,開源將成為AIGC走向成熟的催化劑。源模型有望使相關模型成為海量應用、網(wǎng)絡和服務的基礎,應用層面的創(chuàng)造力有望迎來拐點。
AIGC發(fā)展歷程與概念
1950年,艾倫·圖靈在論文《計算機器與智能》中提出了著名的“圖靈測試”,給出了一種確定機器是否具有“智能”的測試方法,即機器能否模仿人類的思維方式“生成”內容,然后與人進行交互。某種程度上,從那時起,人工智能就被期待用于內容創(chuàng)作。經(jīng)過半個多世紀的發(fā)展,隨著數(shù)據(jù)的快速積累、算力性能提升和算法效力增強,今天的人工智能不僅可以與人類進行交互,還可以進行寫作、編曲、繪畫、視頻制作等創(chuàng)意工作。2018年,人工智能生成的畫作在佳士得拍賣行以43.25萬美元成交,成為全球首個售出的人工智能藝術品,受到各界關注。隨著人工智能在內容創(chuàng)作中的應用越來越多,人工智能生成內容(AIGC)的概念悄然興起。
一、AIGC 發(fā)展歷程
結合人工智能的演進,AIGC的發(fā)展大致可以分為三個階段,即早期萌芽階段(20世紀50年代至90年代中期)、沉淀積累階段(20世紀90年代中期至21世紀10年代中期)、快速發(fā)展階段(21 世紀 10 年代中期至今)。
1、早期萌芽階段(1950s-1990s)
受當時科技水平限制,AIGC僅限于小規(guī)模實驗。1957年,Lejaren Hiller和LeonardIsaacson通過將計算機程序中的控制變量改為音符,完成了歷史上第一部由計算機創(chuàng)作的音樂作品——弦樂四重奏《依利亞克組曲》。1966年,約瑟夫·韋岑鮑姆(Joseph Weizenbaum)和肯尼斯·科爾比(Kenneth Colbv)共同開發(fā)了世界上第一個機器人“伊莉莎(Eliza)”,可以通過關鍵字掃描和重組來完成交互式任務。20世紀80年代中期,IBM基于隱馬爾可夫模型創(chuàng)造了聲控打字機“Tangora”大概能處理兩萬字。從80年代末至 90年代中,由于高昂的系統(tǒng)成本無法帶來可觀的商業(yè)變現(xiàn),各國政府減少了在人工智能領域的投入,AIGC也沒有取得重大突破。
2、沉淀積累階段(1990s-2010s)
AIGC從實驗性向實用性逐漸轉變。2006年,深度學習算法取得重大突破。與此同時,圖形處理單元(GPU)和張量處理器(TPU)等計算設備的性能持續(xù)提升?;ヂ?lián)網(wǎng)使得數(shù)據(jù)規(guī)模迅速擴大,為各類人工智能算法提供了海量的訓練數(shù)據(jù),使人工智能的發(fā)展取得了重大進展。然而,AIGC仍然受到算法瓶頸的限制,無法很好地完成創(chuàng)作任務應用仍然有限,效果有待提升。2007 年,紐約大學人工智能研究員羅斯·古德溫裝配的人工智能系統(tǒng)通過對公路旅行中的一切所見所聞進行記錄和感知,撰寫出小說《1The Road》。作為世界上第一部完全由人工智能創(chuàng)作的小說,其象征意義遠大于實際意義,整體可讀性不強,拼寫錯誤、修辭空洞、邏輯缺失明顯。2012年,微軟公開展示了全自動同聲傳譯系統(tǒng)?;谏疃?a href="http://www.www27dydycom.cn/tags/神經(jīng)網(wǎng)絡/" target="_blank">神經(jīng)網(wǎng)絡通過語音識別、語言翻譯、語音合成等技術等技術生成中文語音。
3、快速發(fā)展階段(2010s-至今)
2014年以來,隨著以生成式對抗網(wǎng)絡(GAN)為代表的深度學習算法的提出和迭代更新,AIGC迎來了一個新的時代。生成內容百花齊放,效果逐漸逼真至人類難以分辨。2017年,微軟人工智能少女“小冰”推出全球首個由人工智能創(chuàng)作的100%詩集《陽光失去了玻璃窗》。2018年,Nvidia發(fā)布的StyleGAN機型可以自動生成圖片,現(xiàn)在已經(jīng)升級到第四代機型StyleGAN-XL,其生成的高分辨率圖片,人眼很難分辨真假。2019年,DeepMind發(fā)布了生成連續(xù)視頻的DVD-GAN模型,在草原、廣場等清晰場景中表現(xiàn)突出。2021年,OpenAI推出了DALL-E和一年后的升級版DALL-E-2,主要用于生成文本和圖像之間的交互內容。用戶只需輸入簡短的描述性文字,DALL-E-2就能創(chuàng)作出相應的高質量的卡通、寫實、抽象畫。
AIGC發(fā)展歷程
二、AIGC的概念和內涵
目前,AIGC的概念還沒有統(tǒng)一規(guī)范的定義。AIGC對國內產(chǎn)學研的理解是“繼專業(yè)生成內容(PGC)和用戶生成內容(UGC)之后,利用人工智能技術自動生成內容的新型生產(chǎn)方式”。國際上對應的術語是“人工智能合成媒體(AI-generated Media 或Synthetic Media)”,其定義是“通過人工智能算法對數(shù)據(jù)或媒體進行生產(chǎn)、操縱和修改的統(tǒng)稱”。綜上所述,我們認為AIGC既是從內容生產(chǎn)者視角進行分類的一類內容,又是一種內容生產(chǎn)方式,還是用于內容自動化生成的一類技術集合。
為了幫助不同領域的受眾群體更好地了解AIGC,現(xiàn)在從發(fā)展背景、技術能力、應用價值三個方面深入剖析了它的概念。
1、發(fā)展背景
AIGC的興起源于深度學習技術的快速突破和數(shù)字內容供給需求的不斷增加。
1)技術進步推動了AIGC可用性的提高
在人工智能發(fā)展的初期,雖然在AIGC上進行了一些初步的嘗試,但由于各種因素,相關算法大多基于預定義的規(guī)則或模板,遠沒有達到智能創(chuàng)造的水平。近年來,基于深度學習算法的AIGC技術快速迭代,徹底打破了模板化、公式化、小范圍的限制,可以快速靈活地生成不同模式的數(shù)據(jù)內容。
2)海量需求牽引 AIGC 應用落地
隨著數(shù)字經(jīng)濟與實體經(jīng)濟融合的不斷深入,以及Meta、微軟、字節(jié)跳動等平臺巨頭的數(shù)字場景向元宇宙的轉型,人類對數(shù)字內容總量和豐富度的整體需求不斷增加。數(shù)字內容的生產(chǎn)取決于想象力、制造能力和知識水平;傳統(tǒng)的內容生產(chǎn)方式受限于人力資源有限的制造能力,逐漸無法滿足消費者對數(shù)字內容的需求,供給側產(chǎn)能瓶頸日益凸顯?;谝陨显颍珹IGC已被廣泛應用于各個行業(yè),其市場潛力也逐漸顯現(xiàn)。
2、技術能力
根據(jù)面向對象和實現(xiàn)功能的不同,AIGC可以分為三個層次。
1)智能數(shù)字內容孿生
其主要目標是建立從現(xiàn)實世界到數(shù)字世界的映射,并將物理屬性(如大小、紋理、顏色等)和社會屬性(如主體行為、主體關系等)在現(xiàn)實世界中高效且可感知進行數(shù)字化。
2)智能數(shù)字內容編輯
其主要目的是建立數(shù)字世界與現(xiàn)實世界的雙向交互?;跀?shù)字內容孿生的基礎上,從現(xiàn)實世界控制和修改虛擬數(shù)字世界中的內容。同時利用數(shù)字世界高效率仿真和低成本試錯的優(yōu)勢,為現(xiàn)實世界的應用提供快速迭代能力。
3)智能數(shù)字內容創(chuàng)作
其主要目標是讓人工智能算法具備內容創(chuàng)作和自我演化的能力,由此形成的AIGC產(chǎn)品具備類似甚至超越人類的創(chuàng)作能力。以上三個層面的能力共同構成了AIGC的能力閉環(huán)。
3、應用價值
AIGC將有望成為數(shù)字內容創(chuàng)新發(fā)展的新引擎,為數(shù)字經(jīng)濟發(fā)展注入新動能。
1)AIGC 能夠以優(yōu)于人類的制造能力和知識水平承擔信息挖掘、素材調用、復刻編輯等基礎性機械勞動,從技術層面實現(xiàn)以低邊際成本、高效率的方式滿足海量個性化需求;同時能夠創(chuàng)新內容生產(chǎn)的流程和范式,為更具想象力的內容、更加多樣化的傳播方式提供可能性,推動內容生產(chǎn)向更有創(chuàng)造力的方向發(fā)展。
2)AIGC可以支撐數(shù)字內容與其他產(chǎn)業(yè)的多維度互動、融合滲透,從而孕育新的商業(yè)模式,打造經(jīng)濟發(fā)展的新增長點,為千行百業(yè)的發(fā)展提供新動能。此外,從2021年開始,元宇宙呈現(xiàn)出超乎想象的爆發(fā)式發(fā)展;作為數(shù)字與現(xiàn)實融合的“終極”數(shù)字載體,元宇宙將具有持久性、實時性、創(chuàng)造性等特征。它還將加速物理世界的再生產(chǎn),并通過AIGC創(chuàng)造無限的內容,從而實現(xiàn)自發(fā)的有機增長。
三、AIGC關鍵技術落地實施
目前AIGC生成正在完成從簡單的降本增效(以生成金融/體育新聞為代表)向創(chuàng)造額外價值(以提供繪畫創(chuàng)作素材為代表)轉移,跨模態(tài)/多模態(tài)內容成為關鍵的發(fā)展節(jié)點。
技術視角下,以下場景將成為未來發(fā)展的重點:文本-圖像 視頻的跨模態(tài)生成、2D到3D生成、多模態(tài)理解結合生成。后文將對以上技術場景的技術原理、現(xiàn)有進展、關鍵瓶頸等進行展開。
商業(yè)視角下、未來3年內,虛擬人生成和游戲AI這兩種綜合性的AIGC場景將趨于商業(yè)化成熟。
1、文本生成
以結構性新聞撰寫、內容續(xù)寫、詩詞創(chuàng)作等細分功能為代表?;贜LP技術的文木生成可以算作是AIGC中發(fā)展最早的一部分技術,也已經(jīng)在新聞報道、對話機器人等應用場景中大范圍商業(yè)落地。
一方面,2020年,1750億參數(shù)的GPT-3在問答、摘要、翻譯、續(xù)寫等語言類任務上均展現(xiàn)出了優(yōu)秀的通用能力。證明了“大力出奇跡”在語言類模型上的可行性。自此之后,海量數(shù)據(jù)、更多參數(shù)、多元的數(shù)據(jù)采集渠道等成為國內清華大學、智源研究院、達摩院、華為、北京大學、百度等參與者的關注點。
目前,大型文本預訓練模型作為底層工具,商業(yè)變現(xiàn)能力逐漸清晰。以GPT-3為例,其文木生成能力已被直接應用于Writesonic、Conversion.ai、SnazzyAl、Copysmith、Copy.ai、Headlime等文本寫作/編輯工具中。同時也被作為部分文本內容的提供方,服務于Al dungeon等文本具有重要意義的延展應用領域。
另一方面,以Transformer架構為重要代表,相關的底層架構仍在不斷精進。研究者們正通過增加K-adapter、優(yōu)化Transformer架構,合理引入知識圖譜及知識庫、增加特定任務對應Embeddina等方式,增加文本對于上下文的理解與承接能力、對常識性知識的嵌入能力、中長篇幅生成能力、生成內容的內在邏輯性等。
1)應用型文本生成
應用型文本大多為結構化寫作,以客服類的聊天問答、新聞撰寫等為核心場景。2015年發(fā)展至今,商業(yè)化應用已較為廣泛,最為典型的是基于結構化數(shù)據(jù)或規(guī)范格式,在特定情景類型下的文本生成,如體育新聞、金融新聞、公司財報、重大災害等簡訊寫作。據(jù)分析師評價,由AI完成的新聞初稿已經(jīng)接近人類記者在30分鐘內完成的報道水準。Narrative Science 創(chuàng)始人甚至曾預測,到 2030 年, 90%以上的新聞將由機器人完成。
在結構化寫作場景下,代表性垂直公司包括Automated Insights(美聯(lián)社Wordsmith)、NarrativeScience、textengine.io、AX Semantics、Yseop、Arria、Retresco、Viable、瀾舟科技等。同時也是小冰公司、騰訊、百度等綜合性覆蓋AIGC領域公司的重點布局領域。
2)創(chuàng)作型文本生成
創(chuàng)作型文本主要適用于劇情續(xù)寫、營銷文本等細分場景等,具有更高的文本開放度和自由度,需要一定的創(chuàng)意和個性化,對生成能力的技術要求更高。
我們使用了市面上的小說續(xù)寫,文章生成等AIGC工具。發(fā)現(xiàn)長篇幅文字的內部邏輯仍然存在較明顯的問題、且生成穩(wěn)定性不足,尚不適合直接進行實際使用。據(jù)聆心智能創(chuàng)始人黃民烈教授介紹,目前文字生成主要捕捉的是淺層次,詞匯上統(tǒng)計貢獻的問題。但長文本生成還需要滿足語義層次準確、在篇章上連貫通順的要求,長文本寫作對于議論文寫作、公文寫作等等具有重要意義。未來四到五年,可能會出現(xiàn)比較好的千字內容。
除去本身的技術能力之外,由于人類對文字內容的消費并不是單純理性和基于事實的,創(chuàng)作型文本還需要特別關注情感和語言表達藝術。我們認為,短期內創(chuàng)作型文本更適合在特定的賽道下,基于集中的訓練數(shù)據(jù)及具體的專家規(guī)則進行場景落地。
在創(chuàng)作型文本領域,代表性的國內外公司包括Anyword、Phrasee、Persado、Pencil、Copy.ai、Friday.ai、Retresco、Writesonic、Conversion.ai、Snazzy Al、Rasa.io、LongShot.AI、彩云小夢等。
3)文本輔助生成
除去端到端進行文本創(chuàng)作外,輔助文本寫作其實是目前國內供給及落地最為廣泛的場景。主要為基于素材爬取的協(xié)助作用,例如定向采集信息素材、文本素材預處理、自動聚類去重,并根據(jù)創(chuàng)作者的需求提供相關素材。盡管目前能夠提升生產(chǎn)力,但我們認為相對于實現(xiàn)技術意義上的AI生成,能否結合知識圖譜等提供素材聯(lián)想和語句參考等更具有實用意義。
這部分的國內代表產(chǎn)品包括寫作貓、Gilso寫作機器人、Get寫作、寫作狐、沃沃AI人工智能寫作。
4) 重點關注場景
長期來看,我們認為閑聊型文本交互將會成為重要潛在場景,例如虛擬伴侶、游戲中的NPC個性化交互等。2022年夏季上線的社交AlGC敘事平臺Hidden Door以及基干GPT.3開發(fā)的文木探索類游戲Aldunaeon均已獲得了不錯的消費者反饋。隨著線上社交逐漸成為了一種常態(tài),社交重點向轉移AI具有其合理性,我們預估未來1-2年內就會出現(xiàn)明顯增長。目前較為典型的包括小冰公司推出的小冰島,集中在精神心理領域的聆心智能、開發(fā)了AIdungeon的Latitude.io等。
2、音頻及文字一音頻生成
整體而言,此類技術可應用于流行歌曲、樂曲、有聲書的內容創(chuàng)作,以及視頻、游戲、影視等領域的配樂創(chuàng)作,大大降低音樂版權的采購成本。我們目前最為看好的場景是自動生成實時配樂、語音克隆以及心理安撫等功能性音樂的自動生成。
1)TTS(Text-to-speech)場景
TTS在AIGC領域下已相當成熟,廣泛應用于客服及硬件機器人、有聲讀物制作、語音播報等任務。例如倒映有聲與音頻客戶端“云聽”APP合作打造AI新聞主播,提供音頻內容服務的一站式解決方案,以及喜馬拉雅運用TTS技術重現(xiàn)單田芳聲音版本的《毛氏三兄弟》和歷史類作品。這種場景為文字內容的有聲化提供了規(guī)?;芰Α?/p>
目前技術上的的關鍵,在于如何通過富文本信息(如文本的深層情感、深層語義了解等)更好的表現(xiàn)其中的抑揚頓挫以及基于用戶較少的個性化數(shù)據(jù)得到整體的復制能力(如小樣本遷移學習)?;谏疃葘W習的端到端語音合成模式也正在逐步替代傳統(tǒng)的拼接及參數(shù)法,代表模型包括WaveNet、Deep Voice及Tacotron等。
目前的垂直代表公司包括倒映有聲、科大訊飛、思必馳(DUl)、Readspeaker、DeepZen和Sonantic。
隨著內容媒體的變遷,短視頻內容配音已成為重要場景。部分軟件能夠基于文檔自動生成解說配音,上線有150+款包括不同方言和音色的AI智能配音主播。代表公司有九錘配音、加音、XAudioPro、剪映等。
該技術目前被應用于虛擬歌手演唱、自動配音等,在聲音IP化的基礎上,對于動畫、電影、以及虛擬人行業(yè)有重要意義。代表公司包括標貝科技、Modulate、overdub、replika、Replica Studios、Lovo、Voice mod. Resemble Ai、Respeecher、DeepZen、Sonantic、VoicelD、Descript。
2)樂曲/歌曲生成
AIGC在詞曲創(chuàng)作中的功能可被逐步拆解為作詞(NLP中的文本創(chuàng)作/續(xù)寫)、作曲、編曲、人聲錄制和整體混音。目前而言,AIGC已經(jīng)支持基于開頭旋律、圖片、文字描述、音樂類型、情緒類型等生成特定樂曲。
其中,Al作曲可以簡單理解為“以語言模型(目前以Transformer為代表,如谷歌Megenta、OpenAIJukebox、AIVA等)為中介,對音樂數(shù)據(jù)進行雙向轉化(通過MIDI等轉化路徑)”。此方面代表性的模型包括MelodvRNN、Music Transformer。據(jù)Deepmusic介紹,為提升整體效率,在這一過程中,由于相關數(shù)據(jù)巨大往往需要對段落、調性等高維度的樂理知識進行專業(yè)提取,而節(jié)奉、音高、音長等低維度樂理信息由AI自動完成提取。
通過這一功能,創(chuàng)作者即可得到AI創(chuàng)作的純音樂或樂曲中的主旋律。2021年末,貝多芬管弦樂團在波恩首演人工智能譜寫完成的貝多芬未完成之作《第十交響曲》,即為AI基于對貝多芬過往作品的大量學習,進行自動續(xù)寫。
Al編曲則指對AI基于主旋律和創(chuàng)作者個人的偏好,生成不同樂器的對應和弦(如鼓點、貝斯、鋼琴等),完成整體編配。在這部分中,各樂器模型將通過無監(jiān)督模型,在特定樂曲/情緒風格內學習主旋律和特定要素間的映射關系,從而基于主旋律生成自身所需和弦。對于人工而言,要達到樂曲編配的職業(yè)標準,需要7-10年的學習實踐。
人聲錄制則廣泛見于虛擬偶像的表演現(xiàn)場(前面所說的語音克隆),通過端到端的聲學模型和神經(jīng)聲碼器完成可以簡單理解為將輸入文本替換為輸入MIDI數(shù)據(jù)的聲音克隆技術?;煲糁笇⒅餍伞⑷寺暫透鳂菲骱拖业囊糗夁M行渲染及混合,最終得到完整樂曲。該環(huán)節(jié)涉及的AI生成能力較少。
該場景下的代表企業(yè)包括Deepmusic、網(wǎng)易-有靈智能創(chuàng)作平臺、Amper Music、AIVA、Landr、IBMWatsonMusic、Magenta、Loudly、Brain.FM、Splash、Flow machines。其中,自動編曲功能已在國內主流音樂平臺上線,并成為相關大廠的重點關注領域。以QQ音樂為例,就已成為Amper music的API合作伙伴。
對這一部分工作而言,最大的挑戰(zhàn)在于音樂數(shù)據(jù)的標注。在標注階段,不僅需要需要按時期、流派、作曲家等特征,對訓練集中樂曲的旋律、曲式結構、和聲等特征進行描述,還要將其有效編碼為程序語言。此外,還需要專業(yè)人員基于樂理進行相關調整潤色。以Deepmusic為例,音樂標注團隊一直專注在存量歌曲的音樂信息標注工作上,目前已經(jīng)形成了全球最精確的華語歌曲音樂信息庫,為音樂信息檢索(MIR)技術研究提供數(shù)據(jù)支持。
3)場景推薦
以樂曲二創(chuàng),輔助創(chuàng)作等場量為代表,Al編曲將在短期內成為A音頻生成中的快速成長賽道。特別是由于可以指定曲目風格、情緒、樂器等,AIGC音樂生成對于影視劇、游戲等多樣化、乃至實時的背景音樂生成有重要意義。
3、視頻生成
視頻生成將成為近期跨模態(tài)生成領域的中高潛力場景。其背后邏輯是不同技術帶來的主流內容形式的變化。本部分主要包括視頻屬性編輯、視頻自動剪輯、視頻部分編輯。
1)視頻屬性編輯
例如視頻畫質修復、刪除畫面中特定主體、自動跟蹤主題剪輯、生成視頻特效、自動添加特定內容、視頻自動美顏等。代表公司包括RunwayML、Wisecut、Adobe Sensei、Kaleido、帝視科技、CCTV AIGC、影譜科技、 Versa(不咕剪輯)、美圖影像研究院等。
2)視頻自動剪輯
基于視頻中的畫面、聲音等多模態(tài)信息的特征融合進行學習,按照氛圍、情緒等高級語義限定,對滿足條件片段進行檢測并合成。目前還主要在技術嘗試階段。典型案例包括Adobe與斯坦福共同研發(fā)的AI視頻剪輯系統(tǒng)、IBMWatson自動剪輯電影預告片、以及Flow Machine。我國的影譜科技推出了相關產(chǎn)品,能夠基于視頻中的畫面、聲音等多模態(tài)信息的特征融合進行學習,按照氛圍、情緒等高級語義限定,對滿足條件片段進行檢測并合成。
3)視頻部分生成(以Deepfake為典型代表)技術原理
視頻到視頻生成技術的本質是基于目標參像或視頻對源視頻進行編輯及調試,通過基于語音等要素逐幀復刻,能夠完成人臉替換,人臉再現(xiàn)(人物表情或面部特征的改變)、人臉合成(構建全新人物)甚至全身合成、虛擬環(huán)境合成等功能。
其原理本質與圖像生成類似,強調將視頻切割成幀,再對每一幀的圖像進行處理。視頻生成的流程通常可以分為三個步驟,即數(shù)據(jù)提取,數(shù)據(jù)訓練及轉換。以人臉合成為例,首先需要對源人物及目標人物的多角度特征數(shù)據(jù)提取,然后基于數(shù)據(jù)對模型進行訓練并進行圖像的合成,最后基于合成的圖像將原始視頻進行轉換,即插入生成的內容并進行調試,確保每一幀之間的流程度及真實度。目前的技術正在提升修改精準度與修改實時性兩方面。
4、圖像、視頻、文本間的跨模態(tài)生成
模態(tài)是指不同的信息來源或者方式。目前的模態(tài),大多是按照信息媒介所分類的音頻、文字、視覺等。而事實上在能夠尋找到合適的整體之后,很多信息,諸如人的觸覺、聽覺、情緒、生理指標,甚至于不同傳感器所對應的點云、紅外線、電磁波等都能夠變?yōu)橛嬎銠C可理解可處理的模態(tài)。
對人工智能而言,要更為精準和綜合的觀察并認知現(xiàn)實世界,就需要盡可能向人類的多模態(tài)能力靠攏,我們將這種能力稱為多模態(tài)學習MM(Multi-modall earnina),其中的技術分類及應用均十分多樣,我們可以簡單將其分為跨模態(tài)理解(例如通過結合街景和汽車的聲音判斷交通潛在危險、結合說話人的唇形和語音判定其說話內容)和跨模態(tài)生成(例如在參考其他圖畫的基礎上命題作畫:觸景生情并創(chuàng)作詩歌等)。
1)Transformer架構的跨界應用成為跨模態(tài)學習的重要開端之一
Transformer架構的核心是Self-Attention機制,該機制使得Transformer能夠有效提取長序列特征,相較于CNN能夠更好的還原全局。而多模態(tài)訓練普遍需要將圖片提取為區(qū)域序列特征,也即將視覺的區(qū)域特征和文本特征序列相匹配,形成Transformer架構擅長處理的一維長序列,對Transformer的內部技術架構相符合。與此同時. Transformer架構還具有更高的計算效率和可擴展性,為訓練大型跨模態(tài)模型奠定了基礎。
Vision Transformer將Transformer架構首次應用于圖像領域。該模型在特定大規(guī)模數(shù)據(jù)集上的訓練成果超出了ResNet。隨后,谷歌的VideoBERT嘗試了將Transformer拓展到“視頻-文木”領域。該模型能夠完成看圖猜詞和為視頻生成字幕兩項功能,首次驗證了Transformer+預訓練在多模態(tài)融合上的技術可行性?;赥ransformer的多模態(tài)模型開始受到關注,VILBERT、LXMERT、UNITER、Oscar等紛紛出現(xiàn)。
2)CLIP模型的出現(xiàn),成為跨模態(tài)生成應用的一個重要節(jié)點
CLIP,ContrastiveLanguage-Image Pre-training,由OpenAl在2021年提出,圖像編碼器和文本編碼器以對比方式進行聯(lián)合訓練,能夠鏈接文本和圖片??梢院唵螌⑵淅斫鉃椋肅LIP測定圖片和文本描述的貼切程度。
自CLIP出現(xiàn)后,“CLIP+其他模型”在跨模態(tài)生成領域成為一種較為通用的做法。以Disco Diffusion為例,該模型將CLIP模型和用于生成圖像的Diffusion模型進行了關聯(lián)。CLIP模型將持續(xù)計算Diffusion模型隨機生成噪聲與文本表征的相似度,持續(xù)迭代修改,直至生成可達到要求的圖像。
AIGC發(fā)展面臨的挑戰(zhàn)
Gartner預測,到2025年,生成式人工智能將占所有生成數(shù)據(jù)的10%。根據(jù)《Generative AI :A Creative New World》的分析,AIGC有潛力產(chǎn)生數(shù)萬億美元的經(jīng)濟價值。AIGC吸引了全世界的關注同屬,知識產(chǎn)權、技術倫理將面臨許多挑戰(zhàn)和風險。同時,AIGC距離一般人工智能還有很大差距。
一、AIGC引發(fā)“創(chuàng)造性”歸屬爭論
在傳統(tǒng)印象中,人工智能在創(chuàng)造性工作領域無法與人類抗衡,主要擅長計算、挖掘,聚焦在海量數(shù)據(jù)分析領域。人類更擅長創(chuàng)新,比如詩歌、設計、編程等需要創(chuàng)造性的事物上。相比AI下棋,AI進行繪畫創(chuàng)作對大眾的影響更明顯:棋類游戲具有明確的規(guī)則和定義,不需要AI具備創(chuàng)造性。但AIGC尤其是通過文字輸入可以進行繪畫、視頻,讓沒有相關專業(yè)能力的人也能做出以假亂真的專業(yè)級作品,這就讓人對其“創(chuàng)造力”產(chǎn)生了擔憂。AI不會取代創(chuàng)作者,但可能會取代不懂AI工具的創(chuàng)作者。
二、知識產(chǎn)權引起創(chuàng)作者的擔憂
由于算法模型的進一步完善和成本的快速下降,AIGC大規(guī)模商業(yè)化成為現(xiàn)實。過去遙不可及的專業(yè)能力已經(jīng)具備從實驗室飛入尋常百姓家的可能。同時,AIGC的快速發(fā)展和商業(yè)應用不僅對創(chuàng)作者產(chǎn)生影響,也對大量以版權為主要收入的企業(yè)產(chǎn)生影響。具體來說:
1、AIGC很難被稱為“作者”
根據(jù)我國《著作權法》的規(guī)定,作者只能是自然人、法人或非法人組織。顯然AIGC不是法律認可的權利主體,所以不能成為著作權的主體。然而,AIGC應用程序對生成圖像的版權持有不同的觀點。圖片到底屬于平臺,完全開源還是生成者,目前還沒有形成統(tǒng)一意見。
2、AIGC的“作品”仍有爭議
根據(jù)我國《著作權法》和《著作權法實施條例》的規(guī)定,作品是指文學、藝術、科學領域中具有獨創(chuàng)性并能以某種有形形式復制的智力成果。AIGC作品具有很強的隨機性和算法主導型,能夠準確證明AIGC作品侵權的可能性較低。同時,AIGC是否具有原創(chuàng)性也很難一概而論,個案之間差異較大。由于創(chuàng)作者每次新的創(chuàng)作都在無形中對AIGC進行免費培訓,這讓眾多版權機構產(chǎn)生巨大擔憂。目前已經(jīng)有大量的藝術家和創(chuàng)作者宣布禁止AI學習自己的作品,從而保護自己的知識產(chǎn)權。Getty Images、Newgrounds等網(wǎng)站也宣布禁止上傳和出售AIGC的作品。
三、距離通用人工智能還有很大差距
雖然現(xiàn)在流行的AIGC系統(tǒng)可以快速生成圖像,但這些系統(tǒng)是否能真正理解繪畫的意義,從而根據(jù)這些含義進行推送和決策,還是一個未知數(shù)。
一方面,AIGC系統(tǒng)不能完全將輸入文本與生成的圖像相關聯(lián)。例如,當用戶測試AIGC系統(tǒng)并輸入“騎著馬的宇航員”和“騎著宇航員的馬”內容時,相關的AIGC系統(tǒng)很難準確生成相應的圖像。因此,當前的AIGC系統(tǒng)還沒有深刻理解輸入文本和輸出圖像之間的關系。另一方面,AIGC系統(tǒng)很難理解生成圖像背后的世界。理解圖像背后的世界是判斷AIGC是否擁有通用人工智能的關鍵。目前,AIGC系統(tǒng)仍難以滿足相關要求。比如在Stable Diffusion中,輸入“畫一個人,并把拿東西的部分變成紫色”,在接下來的九次測試,只有一次成功完成,準確率不高。顯然,Stable Diffusion不理解人的手是什么。
知名人工智能專家的調查也證實了同樣的觀點,86.1%的人認為當前的AIGC系統(tǒng)不太了解世界。
四、創(chuàng)作倫理問題尚未有效解決
部分開源AIGC項目對生成圖像的監(jiān)管程度較低。一方面,部分數(shù)據(jù)集系統(tǒng)使用私人用戶的照片進行AI訓練,侵權人像圖片進行訓練的現(xiàn)象屢禁不止。這些數(shù)據(jù)集是AIGC等圖像生成模型的正式訓練集之一。比如一些數(shù)據(jù)集在網(wǎng)上抓取大量患者的醫(yī)學照片進行訓練,不做任何打碼模糊處理,對用戶的隱私保護堪憂。另一方面,用戶使用AIGC生成非法圖片,如偽造的名人照片等違禁圖片,甚至制作暴力和性相關的繪畫,LAION-5B數(shù)據(jù)庫包含色情、種族、惡意等內容,目前海外已經(jīng)出現(xiàn)了基于Stable Diffusion模型的色情圖片生成網(wǎng)站。
由于AI本身還不具備價值判斷能力,一些平臺已經(jīng)開始從倫理上進行限制和干預。比如DALL·E2已經(jīng)開始加強干預,減少性別偏見的產(chǎn)生,防止訓練模型產(chǎn)生逼真的個人面孔。然而,相關法律法規(guī)的空白和AIGC應用開發(fā)者本身的重視程度不足,會引起對AI創(chuàng)造倫理的擔憂。
AIGC應用領域
在全球新冠肺炎疫情延宕反復的背景下,各行業(yè)對數(shù)字內容的需求呈井噴態(tài)勢,數(shù)字世界內容的消耗與供給之間的缺口亟待彌合。憑借其真實性、多樣性、可控性和組合性,AIGC有望幫助企業(yè)提高內容生產(chǎn)效率,為其提供更豐富多元、動態(tài)且可交互的內容或將在傳媒、電商、影視、娛樂等數(shù)字化程度高、內容需求豐富的行業(yè)率先做出重大創(chuàng)新發(fā)展。
一、AIGC+傳媒:人機協(xié)同生產(chǎn),推動媒體融合
近年來,隨著全球信息化水平的加快,人工智能與傳媒產(chǎn)業(yè)的融合發(fā)展不斷升級。AIGC作為一種新的內容生產(chǎn)方式,充分賦能媒體的內容生產(chǎn)。寫作機器人、采訪助手、視頻字幕生成、語音播報、視頻集錦、人工智能合成主播等相關應用不斷涌現(xiàn),并滲透到采集、編輯、傳播等的各個環(huán)節(jié),深刻改變著媒體的內容生產(chǎn)方式,成為推動媒體融合發(fā)展的重要力量。
1、采編環(huán)節(jié)
1)實現(xiàn)采訪錄音語音轉寫,提升傳媒工作者的工作體驗
借助語音識別技術,將錄制的語音轉換成文字,有效壓縮了稿件制作過程中錄音整理的重復工作,進一步保證了新聞的時效性。在2022年冬奧會期間,科大訊飛的智能錄音筆通過跨語種的語音轉寫助力記者2分鐘快速出稿。
2)實現(xiàn)智能新聞寫作,提升新聞資訊的時效
基于算法自動編譯新聞,將部分勞動性的采編工作自動化,幫助媒體更快、更準、更智能地生產(chǎn)內容。例如,2014年3月,洛杉磯時報網(wǎng)站的機器人記者Ouakebot在洛杉磯地震發(fā)生后僅3分鐘就撰寫并發(fā)布了相關新聞。美聯(lián)社使用的智能寫作平臺Wordsmith每秒可寫2000篇報道;中國地震臺網(wǎng)寫作機器人九寨溝地震后7秒內完成相關新聞的采編;第一財經(jīng)“DT稿王”一分鐘可寫出 1680 字。
3)實現(xiàn)智能視頻剪輯,提升視頻內容的價值
通過使用智能視頻編輯工具,如視頻字幕生成、視頻集錦、視頻拆條和視頻超分等,可以有效地節(jié)省人力和時間成本,并最大限度地發(fā)揮版權內容的價值。2020年全國兩會期間,人民日報利用“智能云剪輯師”快速生成視頻,實現(xiàn)自動匹配字幕、人物實時跟蹤、圖像抖動修復、快速橫屏轉豎屏等技術操作,滿足多平臺分發(fā)需求。2022年冬奧會期間,央視視頻利用AI智能內容制作編輯系統(tǒng),高效制作發(fā)布冬奧會冰雪項目視頻集錦,為體育媒體版權內容價值的深度開發(fā)創(chuàng)造了更多可能。
2、傳播環(huán)節(jié)
AIGC的應用主要集中在以AI合成主播為核心的新聞播報等領域。AI合成主播開創(chuàng)了新聞領域實時語音和人物動畫合成的先河。只需輸入需要播報的文字內容,計算機就會生成相應的AI合成主播播報的新聞視頻,并保證視頻中人物的音頻、表情、嘴唇動作自然一致,呈現(xiàn)出與真人主播一樣的信息傳遞效果。縱觀AI合成主播在媒體領域的應用,呈現(xiàn)三方面的特點。
1)應用范圍不斷拓展
目前,新華社、中央廣播電視總臺、人民日報等國家級媒體及湖南衛(wèi)視等省市媒體,已經(jīng)開始積極部署應用AI合成主播,陸續(xù)推出“新小微”、“小C”等虛擬新聞主播,推動其在新聞聯(lián)播、記者報道、天氣預報等更廣泛的場景中應用,從而深度賦能全國人大、冬奧會、冬殘奧會等重大活動傳播。
2)應用場景不斷升級
除了常規(guī)的新聞播報,AI合成主播開始陸續(xù)支持多語種播報和手語播報。2020年全國兩會期間,多語種虛擬主播使用中、韓、日、英等多種語言報道新聞,實現(xiàn)一音多語播報,將中國新聞傳遞到世界,順應了信息化時代信息共享的發(fā)展潮流。2022年冬奧會期間,百度、騰訊等企業(yè)推出手語播報數(shù)字人,為數(shù)百萬聽障用戶提供手語解說,進一步推動了觀賽無障礙進程。
3)應用形態(tài)日趨完善
在形象方面,從2D逐漸拓展到3D;在驅動范圍上,開始從口型延伸到面部表情、肢體、手指、背景內容素材;在內容構建上,從支持SaaS平臺工具建設到智能化生產(chǎn)進行探索。如騰訊3D手語數(shù)智人“聆語”,實現(xiàn)了唇動、面部表情、肢體動作、手指動作等內容的生成,并配備了可視化動作編輯平臺,支持手語動作進行精修。
AIGC對傳媒機構、傳媒從業(yè)者和傳媒受眾都產(chǎn)生深刻影響。對傳媒機構來說,AIGC通過參與新聞產(chǎn)品的生產(chǎn)過程,大大提高了生產(chǎn)效率,帶來了全新的視覺和交互體驗;豐富新聞報道形式,加快媒體數(shù)字化轉型,推動傳媒向智媒轉變。對傳媒從業(yè)者來說,AIGC可助力生產(chǎn)更具人文關懷、社會意義和經(jīng)濟價值的新聞作品:將部分勞動性的采編播工作自動化,使其更加專注于需要深度思考和創(chuàng)造力的工作內容,如新聞特寫、深度報道和專題報道等,這些都是需要發(fā)揮人類在準確分析事物和妥善處理情感元素方面優(yōu)勢的細分領域。對傳媒受眾來說,AIGC的應用可以使其在更短的時間內以更豐富多樣的形式獲取新聞內容,提高其獲取新聞信息的時效性和便捷性;降低傳媒行業(yè)的技術門檻,促進媒體受眾有更多參與內容生產(chǎn)的機會,大大增強他們的參與感。
二、AIGC+電商:推進虛實交融,營造沉浸體驗
隨著數(shù)字技術的發(fā)展和應用,消費的升級和加速,沉浸式購物體驗成為電商領域的發(fā)展方向。AIGC正加速商品 3D 模型、虛擬主播乃至虛擬貨場的構建。通過結合AR、VR等新技術,AIGC可以實現(xiàn)音頻、視頻等多感官交互的沉浸式購物體驗。
1、生成商品 3D 模型用于商品展示和虛擬試用,提升線上購物體驗
基于不同角度的商品圖片,通過視覺生成算法自動生成商品的3D幾何模型和紋理,輔以“看、試、穿、穿”的在線模擬,提供貼近實物的差異化網(wǎng)購體驗,幫助高效提升用戶轉化。百度、華為等公司推出了商品自動化的3D建模服務,支持分鐘級進行商品的3D拍攝和生成,精度可達毫米級。與傳統(tǒng)的2D展示相比,3D模型可以720°展示商品主體的外觀,可以大大減少用戶選擇和溝通的時間,提升用戶體驗,快速促進商品成交。
同時,生成的3D產(chǎn)品模型還可以用于線上試衣,高度還原了產(chǎn)品或服務的試衣體驗,讓消費者有更多機會接觸到產(chǎn)品或服務的絕對價值。比如阿里在2021年4月推出天貓家裝城3D版。通過為商家提供3D設計工具和產(chǎn)品3D模型AI生成服務,幫助商家快速搭建3D購物空間,支持消費者自助做家裝,為消費者提供沉浸式的“云購物”體驗。數(shù)據(jù)顯示,3D購物平均轉化率為70%,高于行業(yè)平均水平9倍。與去年同期相比,正常引導客戶單價增長超過200%,商品退貨率明顯下降。
此外,不少品牌企業(yè)也開始在虛擬試衣方向進行探索和嘗試,如優(yōu)衣庫虛擬試衣、阿迪達斯虛擬試衣鞋、周大福虛擬試衣珠寶、Gucci 虛擬試戴手表和眼、宜家虛擬家具搭配、保時捷虛擬試駕等雖然目前仍然采用傳統(tǒng)的手工建模方式,但隨著AIGC技術的不斷進步,預計未來將會出現(xiàn)更多的消費工具,從而逐步降低3D建模的門檻和成本,幫助虛擬試穿應用大規(guī)模商業(yè)化。
2、打造虛擬主播,賦能直播帶貨
基于視覺、語音、文字生成技術,打造虛擬主播為觀眾提供24小時不間斷的商品推薦和在線服務能力,降低了商家直播的門檻。與直播相比,虛擬主播有三大優(yōu)勢:
1)虛擬主播可以填補真人主播直播間隙,讓直播間不斷輪播,不僅為用戶提供了更靈活的觀看時間和更便捷的購物體驗,也為合作商家創(chuàng)造了更大的商業(yè)增量。如歐萊雅、飛利浦、完美日記等品牌的虛擬主播一般會在凌晨0點上線,直播近9個小時與真人主播形成24小時無縫直播服務。
2)虛擬化的品牌主播更能加速店鋪或品牌年輕化進程,拉近與新消費者的距離,塑造元宇宙時代的店鋪形象,未來可以應用到元宇宙中更多的虛擬場景,實現(xiàn)多卷層傳播。比如彩妝品牌“卡姿蘭”推出自己的品牌虛擬形象,并作為其天貓旗艦店的日常虛擬主播導購引入直播間。同時,擁有虛擬品牌IP形象的傳統(tǒng)企業(yè),可直接利用現(xiàn)有形象快速轉型為虛擬品牌主播。比如2020年5月海爾直播大促期間,知名的海爾兄弟虛擬IP來到直播間,與主持人和粉絲互動,播放量達到數(shù)千萬。
3)虛擬主播人設更穩(wěn)定可控。在頭部主播有限并且可能“人設崩塌”的情況下,虛擬主播人設、言行等由品牌方掌握,比真人明星的可控性、安全性更強。品牌不必擔心虛擬形象人設崩塌,為品牌帶來負面新聞、差評及資金損失。
3、賦能線上商城和線下秀場加速演變,為消費者提供全新的購物場景
從2D影像重建場景的3D幾何結構,實現(xiàn)虛擬貨場的快速、低成本、規(guī)?;ㄔO,將有效降低商家搭建3D購物空間的門檻和成本,為一些原本高度倚重線下門店的行業(yè)打開線上線下融合的想象空間,為消費者提供線上線下融合的全新消費體驗。目前,一些品牌已經(jīng)開始嘗試建立虛擬空間。例如,奢侈品公司Gucci在百年品牌慶典中將線下的Gucci Garden Archetypes展覽搬到了游戲Roblox上,并推出了為期兩周的虛擬展覽,5個主題展廳的內容與現(xiàn)實展覽相互對應。2021年7月,阿里巴巴首次展示了其虛擬現(xiàn)實計劃“Buy+”,并在購物現(xiàn)場提供360°虛擬開放購物體驗。2021年11月,Nike 和Roblox 合作推出虛擬世界Nikeland,面向所有Roblox用戶開放。隨著基于圖像的三維重建技術在Google Maps的沉浸式視圖功能中的成功應用,虛擬貨場的自動構建將在未來得到更好的應用和發(fā)展。
三、AIGC+影視:拓展創(chuàng)作空間,提升作品質量
隨著影視行業(yè)的快速發(fā)展,從前期創(chuàng)作、中期拍攝到后期制作的流程問題也隨之顯露。有一些開發(fā)痛點,比如高質量劇本相對缺乏,制作成本高,部分作品質量有待提高,急需升級。AIGC技術的應用可以激發(fā)影視劇本創(chuàng)作的思路,拓展影視角色和場景創(chuàng)作的空間,大幅提升影視產(chǎn)品的后期制作質量,有助于影視作品文化價值和經(jīng)濟價值的最大化。
1、AIGC為劇本創(chuàng)作提供新思路
通過對海量劇本數(shù)據(jù)的分析總結,按照預設的風格快速制作劇本,創(chuàng)作者進行二次篩選加工,以此激發(fā)創(chuàng)作者靈感,拓寬創(chuàng)作思路,縮短創(chuàng)作周期。早在2016年6月,由紐約大學利用人工智能編寫的電影劇本《Sunspring》拍攝制作入圍48小時(Sci-FiLondon)48小時挑戰(zhàn)賽前十名。2020年,美國查普曼大學的學生使用OpenAl的大模型GPT-3創(chuàng)作了一個劇本并制作短片《律師》。國內部分垂直科技公司開始提供智能劇本制作相關服務,如海馬輕帆推出的“小說轉劇本”智能寫作功能,服務了包括《你好,李煥英》《流浪地球》等爆款作品在內的3萬多集戲劇劇本,8000多部電影/網(wǎng)絡電影劇本,500多萬部網(wǎng)絡小說。
2、AIGC 擴展角色和場景創(chuàng)作空間
1)通過人臉、語音等相關內容的人工智能合成,實現(xiàn)“數(shù)字復活”已故演員、替換“劣跡藝人”、多語言譯制片音畫同步、演員角色年齡的跨越、高難度動作合成等,減少由于演員自身局限對影視作品的影響。比如在央視紀錄片《創(chuàng)新中國》中,央視和科大訊飛利用人工智能算法,學習已故配音演員李易過往紀錄片的聲音數(shù)據(jù),根據(jù)紀錄片手稿合成配音,最后通過后期剪輯優(yōu)化,讓李易的聲音重現(xiàn)。2020年播出的《了不起的兒科醫(yī)生》中,主要人物的教育事件影響了影視作品的宣傳和發(fā)行。作品采用智能影視變臉技術替換主要角色,減少影視作品創(chuàng)作過程中的損失。2021年,英國公司Flawless推出可視化工具TrueSync,解決多語言翻譯影片中人物唇型不同步的問題。它可以通過AI深度視頻合成技術精準調整演員的五官,讓演員的口型與不同語言的配音或字幕相匹配。
2)通過人工智能合成虛擬物理場景,可以生成實際拍攝不到或成本過高的場景,大大拓寬了影視作品的想象邊界,給觀眾帶來更好的視覺效果和聽覺體驗。比如2017年的《熱血長安》,劇中大量場景都是人工智能技術虛擬生成的。前期工作人員收集了大量的場景數(shù)據(jù),通過特效人員的數(shù)字建模,制作出模擬的拍攝場景,演員在綠屏工作室進行表演。結合實時摳像技術,將演員的動作與虛擬場景融合,最終生成視頻。
3、AIGC 賦能影視剪輯,升級后期制作
1)實現(xiàn)影視圖像的修復和還原,提高圖像數(shù)據(jù)的清晰度,保證影視作品的畫質。如中影數(shù)字制作基地和中國科技技術大學聯(lián)合開發(fā)的基于AI的圖像處理系統(tǒng)“中影·神思”,成功修原《厲害了,我的國》《馬路天使》等多部電視劇。使用AI神思系統(tǒng),修復一部電影的時間可以縮短四分之三,成本可以降低一半。同時,愛奇藝、優(yōu)酷、西瓜視頻等流媒體平臺已經(jīng)開始探索AI修復經(jīng)典影視作品作為新的增長領域。
2)實現(xiàn)電影預告片的生成。IBM旗下的人工智能系統(tǒng) Watson 在學習了數(shù)百部驚悚片預告片的視聽技術后,從90分鐘的《Morgan》電影中挑選出符合驚悚預告片特點的電影鏡頭,并制作出一段6分鐘的預告片。雖然這部預告片還需要制作方修改才能最終完成,但卻將預告片的制作周期從一個月左右縮短到了24小時。
3)實現(xiàn)視頻內容從2D到3D的自動轉換。聚力推出的人工智能3D內容自動制作平臺“鄭融”支持影視作品的維度轉換,將影院級3D轉換效率1000倍以上。
四、AIGC+娛樂:擴展輻射邊界,獲得發(fā)展動能
在數(shù)字經(jīng)濟時代,娛樂不僅拉近了產(chǎn)品服務與消費者之間的距離,也間接滿足了現(xiàn)代人對歸屬感的渴望,其重要性與日俱增。借助AIGC技術,娛樂產(chǎn)業(yè)可以通過創(chuàng)造有趣的圖像或音視頻、打造虛擬偶像、開發(fā)C端用戶的數(shù)字頭像等方式,迅速擴大輻射邊界,以更容易被消費者接受的方式獲得新的發(fā)展動力。
1、實現(xiàn)有趣的冬季圖像或音視頻的生成,激發(fā)用戶參與熱情
在圖像和視頻生成方面,以AI換臉為代表的AIGC應用極大地滿足了用戶獵奇的需求,成為打破圈子的利器。比如FaceAPp、ZAO、Avatarifv等圖片視頻合成應用一經(jīng)推出,立刻在網(wǎng)上引發(fā)熱潮,登上了App Store免費下載榜的榜首;國慶70周年,人民日報新媒體中心推出互動生成56張國家照片和人像的應用屏幕朋友圈,合成照片總數(shù)超過7.38億張;2020年3 月,騰訊推出化身游戲中的“和平精英”與火箭少女 101 同框合影的活動,這些互動的內容極大地激發(fā)出了用戶的情感,帶來了社交傳播的迅速破圈。在語音合成方面,變聲增加互動娛樂性。比如QQ等社交軟件,和平精英等游戲都集成了變聲功能,支持用戶體驗大叔、蘿莉等不同聲音,讓交流成為一種好玩的游戲。
2、打造虛擬偶像,釋放IP價值
1)實現(xiàn)與用戶共創(chuàng)合成歌曲,不斷加深粉絲黏性。以初音未來和洛天依為代表的“虛擬歌姬”,都是基于 VOCALOID 語音合成引擎軟件為基礎創(chuàng)造出來的虛擬人物,由真人提供聲源,再由軟件合成人聲,都是能夠讓粉絲深度參與共創(chuàng)的虛擬歌手。以洛天依為例,任何人通過聲庫創(chuàng)作詞曲,都能達到“洛天依演唱一首歌”的效果。從 2012年 7月 12 日洛天依出道至今十年的時間內,音樂人以及粉絲已為洛天依創(chuàng)作了超過一萬首作品,通過為用戶提供更多想象和創(chuàng)作空間的同時,與粉絲建立了更深刻聯(lián)系。
2)通過AI合成音視頻動畫,支持虛擬偶像在更多樣化的場景中實現(xiàn)內容。隨著音視頻合成、全息投影、AR、VR等技術的成熟,虛擬偶像實現(xiàn)場景逐漸多元化。目前可以通過演唱會、音樂專輯、廣告代言、直播、周邊衍生產(chǎn)品來實現(xiàn)。同時隨著虛擬偶像的商業(yè)價值被不斷發(fā)掘,品牌與虛擬 IP 的聯(lián)動意愿也會增加。如由魔琺科技與次世文化共同打造的網(wǎng)紅翎 Ling于2020年5月出道至現(xiàn)在已先后與VOGUE、特斯拉、GUCCI等品牌展開合作。
3、開發(fā) C端用戶數(shù)字化身,布局消費元宇宙
自2017年蘋果手機發(fā)布Animoii以來,“數(shù)字化身”技術的迭代經(jīng)歷了從單一的卡通動物頭像到AI的發(fā)展,用戶擁有了更多的創(chuàng)作自主權和更生動的圖像庫。各大科技巨頭都在積極探索“數(shù)字化身”的相關應用,加速布局“虛擬數(shù)字世界”與現(xiàn)實世界大融合的“未來”。例如,百度在2020年世界互聯(lián)網(wǎng)大會上展示了基于3D虛擬圖像生成和虛擬圖像驅動等AI技術設計動態(tài)虛擬角色的能力。只要在現(xiàn)場拍一張照片,就能在幾秒鐘內迅速生成一個能模仿“我”的表情和動作的虛擬形象。2021年云起大會開發(fā)者展區(qū),阿里云展示了最新技術——卡通智能繪畫項目,吸引了近2000名體驗者,成為大會爆款。阿里云智能繪畫采用隱變量映射的技術方案,通過探索輸入人臉圖片的顯著特征,如眼睛大小、鼻型等,自動生成具有個人特征的虛擬圖像。同時,還可以跟蹤用戶的面部表情,生成實時動畫,讓普通人也能有機會創(chuàng)造自己的卡通形象。在可預見的未來,“數(shù)字虛擬人”作為虛擬世界中用戶個人身份和互動的載體,將進一步與人們的生產(chǎn)生活相結合,并將帶動虛擬商品經(jīng)濟的發(fā)展。
五、AIGC+其他:推進數(shù)實融合,加快產(chǎn)業(yè)升級
除以上行業(yè)之外,教育、金融、醫(yī)療、工業(yè)等各行各業(yè)的 AIGC應用也都在快速發(fā)展。
1、教育領域,AIGC 賦予教育材料新活力
相比閱讀和講座等傳統(tǒng)方式,AIGC為教育工作者提供了新的工具,讓原本抽象、扁平的教科書具體化、立體化,以更生動、更有說服力的方式向學生傳遞知識。例如,制作歷史人物直接與學生對話的視頻,可以為一個沒有吸引力的演講注入新的活力:合成逼真的虛擬教師,使數(shù)字化教學更具互動性和趣味性等。
2、金融領域,AIGC 助力實現(xiàn)降本增效
一方面AIGC可以實現(xiàn)金融資訊和產(chǎn)品介紹視頻內容的自動化制作,提高金融機構的內容運營效率;另一方面,AIGC可以用來創(chuàng)建一個具有音頻和視頻兩個通道的虛擬數(shù)字客戶服務,這可以使金融服務更加有溫度。醫(yī)療領域,AIGC賦能診療全流程。在輔助診斷方面,AIGC可用于提高醫(yī)學影像質量,錄入電子病歷等,解放醫(yī)生的智力和精力,讓醫(yī)生的資源集中在核心業(yè)務上,從而提高醫(yī)生的專業(yè)能力。在康復方面,AIGC可以為失聲者合成語音音頻,為殘疾人提供肢體投影,為精神病患者提供醫(yī)療陪伴等,通過人性化的方式安撫患者,可以緩解其情緒,加快其康復。
3、工業(yè)領域,AIGC提升產(chǎn)業(yè)效率和價值
一是融入到CAD(計算機輔助設計)中,大大縮短了工程設計周期。AIGC可以通過自動化工程設計中重復、耗時和低級的任務自動化,將過去需要數(shù)千小時的工程設計縮短到幾分鐘。同時支持衍生設計的生成,為工程師或設計師提供靈感。此外,它還支持在設計中引入變化,以實現(xiàn)動態(tài)模擬。例如,寶馬通過AIGC在其BMW VISION NEXT 100概念車中開發(fā)了動態(tài)功能性外觀和內飾。二是加快數(shù)字孿生系統(tǒng)建設。通過將基于物理環(huán)境形成的數(shù)字幾何圖形快速轉換成實時參數(shù)化的3D建模數(shù)據(jù),可以高效地創(chuàng)建現(xiàn)實世界中的工廠、工業(yè)設備和生產(chǎn)線的數(shù)字孿生系統(tǒng)。總的來說,AIGC正在向與其他產(chǎn)業(yè)的深度融合發(fā)展,其相關應用正在加速滲透到經(jīng)濟社會的方方面面。
AIGC發(fā)展展望
一、核心技術持續(xù)演進
1、從真實可控向多樣組合發(fā)展
從技術上看,目前AIGC的相關算法已經(jīng)具備了真實再現(xiàn)和創(chuàng)作某一類給定內容的能力,相關模型在簡單場景的內容生成上也取得了不錯的成績。然而,面對多樣性變化和復雜場景內容生成的挑戰(zhàn),現(xiàn)有的AIGC算法仍需進一步改進。例如,目前AIGC在圖像生成和編輯方面取得了驚人的成就,如生成高清人臉圖像或數(shù)字人頭像,相關算法已經(jīng)能夠以假亂真。相比較而言,動畫視頻的動態(tài)復雜性和可能復雜程度以幾何倍數(shù)增長,高質量的視頻創(chuàng)作還有巨大的提升空間。同時,僅僅依靠單個生成器的內容生成,是遠遠不足以構建一個理想的數(shù)字世界甚至元宇宙的。AIGC科技的下一個發(fā)展方向將是通過不同制作者之間的互動進行內容創(chuàng)作。通過整體的、多模態(tài)的復雜場景創(chuàng)作,AIGC將有望實現(xiàn)更多的知性內容,進而反哺核心及相關領域,促進共同發(fā)展。
2、從本地化集中式向大規(guī)模分布式發(fā)展
1)AIGC離不開大規(guī)模分布式深度學習技術和多智能體強化學習技術
大規(guī)模分布式AIGC的開發(fā)將有助于高效利用GPU算力,將計算流程拆解到一系列計算平臺和邊緣計算設備上,通過多設備分布式計算加快內容生產(chǎn)進程,提高生成效率和質量。目前,以Google、微軟為代表的人工智能公司已經(jīng)開始布局下一代超大規(guī)模人工智能模型的分布式計算平臺,如Pathways、DeepSpeed等。,以解決大規(guī)模模型訓練中計算能力不足、資源利用率低、無法高效制作模型等問題。
2)在分布式計算的框架下,大規(guī)模的多智能體網(wǎng)絡可以通過合作和競爭來完成個體無法完成的任務
AIGC作為構建數(shù)字世界乃至元宇宙的重要生產(chǎn)工具,需要模擬現(xiàn)實世界中復雜的大規(guī)模多智能體網(wǎng)絡系統(tǒng),如動物群體、社會網(wǎng)絡、城市綜合體等。通過對大規(guī)模分布式多智能體算法的研究,探索多智能體的擴展性、安全性、穩(wěn)定性和遷移性將是未來的重點方向之一。
二、關鍵能力顯著增強
隨著AIGC核心技術的不斷發(fā)展,其內容孿生、內容編輯和內容創(chuàng)作三大基礎能力將顯著增強。
1、隨著渲染技術、仿真加速、XR suite和開發(fā)組件等技術的提升,基于內容孿生的數(shù)字孿生能力可以更真實地將現(xiàn)實世界復制到虛擬世界,再現(xiàn)人物更豐滿、物體更逼真、細節(jié)更豐富的虛擬圖像,并依托新一代傳感器和云邊緣進行協(xié)作進行實時動態(tài)更新。
2、依托內容編輯的數(shù)字陪伴能力,將進一步打通現(xiàn)實世界與虛擬世界的雙向通道。通過現(xiàn)實世界和虛擬世界的雙向交流,將現(xiàn)實世界中的物理問題進行抽象和數(shù)字化,然后轉化為虛擬世界中的計算問題,將計算的最優(yōu)解以物理形式輸出到現(xiàn)實世界。未來,依托虛擬優(yōu)化、智能控制、可信認證等關鍵技術的提升,數(shù)字伴侶將進一步拓展在現(xiàn)實世界中發(fā)現(xiàn)和解決問題的能力,同時降低成本,提高產(chǎn)量。
3、基于內容創(chuàng)作的數(shù)字原生能力潛力將得到真正釋放。隨著未來AIGC數(shù)字原生能力的大幅提升,基于更先進算法的人工智能技術將使AIGC擺脫對專業(yè)生成內容(PGC)和用戶生成內容(UGC)的依賴,完全自主創(chuàng)作內容,充分釋放其創(chuàng)作潛力。內容將以高質量、多樣性、高自由度持續(xù)輸出,填補目前專業(yè)生成內容(PGC)和用戶生成內容(UGC)的容量和監(jiān)管空白。尤其是隨著人工智能技術的不斷發(fā)展和代選,AIGC將實現(xiàn)從輔助內容生成到獨立內容生成的跨越,這將極大滿足未來消費者對內容數(shù)量和質量的雙重剛性需求。
三、產(chǎn)品類型逐漸豐富
近年來,隨著元宇宙概念的興起和科學技術的快速發(fā)展,數(shù)字人是未來AIGC應用的一個重要細分領域。數(shù)字人作為現(xiàn)實與虛擬世界的交互媒介,可以通過其獨特的人格、性格、思維、職業(yè)等輔以專屬的創(chuàng)意內容,打破傳統(tǒng)的物理和時空界限,通過VR、AR等技術和新一代智能終端設備,為用戶帶來豐富的沉浸式體驗。能夠自主生成內容的數(shù)字人將是構建人機融合、數(shù)實融合的未來世界的最佳載體,也將是未來人類構建“自生成、自更新”的新元宇宙世界的必由之路。
隨著AI相關技術的不斷發(fā)展,數(shù)字人發(fā)展的自由度將大大提高,不同個人和企業(yè)的數(shù)字人將更具可識別性和獨立性,開發(fā)成本將大大降低以促進數(shù)字人的普遍發(fā)展。同時,具有獨立內容生成能力的“智能化”乃至“智慧化”的數(shù)字人,意味著無限的內容創(chuàng)作。元宇宙將為人類提供一個自由探索的廣闊空間,人類將不再受真實時空的束縛?;贏IGC的超宇宙將不再依賴于現(xiàn)實世界的投射和剪輯,而是脫離現(xiàn)實世界進行自我生成、自我發(fā)展和自我更新。
隨著人工智能的不斷發(fā)展和進步,AIGC模式將不再局限于文本、音頻和視覺。多重信息感知和認知能力,如嗅覺、觸覺、味覺、感覺咸味等將以數(shù)字形式傳輸,并將指導人工智能進行內容創(chuàng)作。在未來的某一天,人工智能能否創(chuàng)造出除了苦樂參半之外的另一種味道,還是個未知數(shù)。
四、場景應用趨于多元
目前,AIGC已經(jīng)廣泛應用于金融、媒體、娛樂、電子商務等多個領域,未來其應用場景將進一步多樣化。比如在“AIGC+數(shù)據(jù)科學”領域,可以自動生成具有安全性、標簽化、預處理的標準數(shù)據(jù)以滿足日益饑渴的人工智能模型。
目前人工智能產(chǎn)生的數(shù)據(jù)在所有數(shù)據(jù)中占比不到1%。根據(jù)Gartner的預測,到2025年,人工智能產(chǎn)生的數(shù)據(jù)將占10%;在“AIGC+游戲”領域,通過訓練,AI可以生成針對不同玩家階層的游戲指南和教學手冊,并且無重復自動打造不同難度、高互動性、高可玩性的劇情和關卡,無需重復;在“AIGC+醫(yī)學”領域,相關模型可以克服醫(yī)學數(shù)據(jù)的稀缺性,自動搜索具有特定性質的分子結構,從而大大降低新藥研發(fā)和臨床試驗的研究成本。
根據(jù)Gartner的預測,到2025年,超過30%的藥物和材料將通過生成式人工智能(AIGC的工具之一)被發(fā)現(xiàn);在“AIGC+安防”領域,在公共場所或活動中,人工智能會自動生成用戶頭像,保護用戶的數(shù)據(jù)安全和個人隱私;在“AIGC+藝術”領域,除目前流行的NFT(非同質化代幣),AIGC還可以涉及繪畫、作曲、演唱、編劇、設計等,不同于這些子領域輔助內容生成的現(xiàn)狀。未來,這些領域的自生成內容經(jīng)過人工智能創(chuàng)作后將達到人類水平,無需人工優(yōu)化即可投放市場。
除了應用場景的橫向擴展,場景之間的融合和交互也是未來的發(fā)展趨勢之一。比如,通過“文旅+游戲”,以高度沉浸式的體驗深度挖掘傳統(tǒng)文化旅游產(chǎn)業(yè)的新特征,用新穎、不重復、極具吸引力的互動游戲吸引年輕消費者深度挖掘傳統(tǒng)文化旅游的深刻內涵,激發(fā)傳統(tǒng)文化旅游產(chǎn)業(yè)的新活力;通過“教育+政務”,AIGC可以根據(jù)政策導向,為不同年齡、不同學歷、不同職業(yè)、不同地域的人群生成不同類型的教育和科普內容,極大地均衡教育資源,更好地普及全民教育,營造全民科學氛圍,提高全民科學素養(yǎng);通過“商業(yè)+藝術”,AIGC可以創(chuàng)造更具人文關懷和當代意義的數(shù)字館藏。數(shù)字收藏將從缺乏實質性內涵的虛擬物品轉化為具有特定紀念意義的虛擬化身,從而深度挖掘藝術的商業(yè)潛力,進而反哺和推動未來藝術的高質量發(fā)展。
五、生態(tài)建設日益完善
隨著 AIGC 的不斷成熟,以標準規(guī)范、技術研發(fā)、內容創(chuàng)作、行業(yè)應用、資產(chǎn)服務為核心的生態(tài)體系架構將日趨完善,無論是以 AIGC賦能產(chǎn)業(yè)升級還是以 AIGC 自主釋放價值都將在此框架下健康有序發(fā)展。標準規(guī)范為 AIGC 生態(tài)構建了從技術、內容、應用、服務、監(jiān)管的全過程一體化標準體系,促進 AIGC 在合理合規(guī)合法的框架下良
性發(fā)展。
同時,在核心技術持續(xù)演進和關鍵能力顯著增強的背景下,性能更強大、邏輯更智能的人工智能算法將被應用于 AIGC,技術研發(fā)的不斷創(chuàng)新將強有力地推動內容創(chuàng)作,提高生成內容質量,使內容更接近人類智力水平和宙美標準,同時應用于各類行業(yè)各種場景。AIGC 的繁榮發(fā)展將促進資產(chǎn)服務快速跟進,通過對生成內容的合規(guī)評估、資產(chǎn)管理、產(chǎn)權保護、交易服務等構成 AIGC 的完整生態(tài)鏈,并進行價值重塑,充分釋放其商業(yè)潛力。隨著 5G、云計算、VR、AR 等前沿技術的快速發(fā)展和新一代智能終端設備的研發(fā)創(chuàng)新,完整的 AIGC生態(tài)鏈是未來釋放數(shù)據(jù)要素紅利、推動傳統(tǒng)產(chǎn)業(yè)升級、促進數(shù)字經(jīng)濟發(fā)展、構建數(shù)實融合一體、創(chuàng)造元宇宙世界最重要的推動力之一。
藍海大腦AIGC高性能計算一體機采用 Intel 、AMD處理器,突破傳統(tǒng)風冷散熱模式,采用風冷和液冷混合散熱模式——服務器內主要熱源 CPU 利用液冷冷板進行冷卻,其余熱源仍采用風冷方式進行冷卻。通過這種混合制冷方式,可大幅提升服務器散熱效率,同時,降低主要熱源 CPU 散熱所耗電能,并增強服務器可靠性;支持VR、AI加速計算;深受廣大深度學習AICG領域工作者的喜愛。
審核編輯黃昊宇
-
計算機
+關注
關注
19文章
7658瀏覽量
90728 -
人工智能
+關注
關注
1806文章
48989瀏覽量
249157 -
深度學習
+關注
關注
73文章
5560瀏覽量
122769 -
AIGC
+關注
關注
1文章
387瀏覽量
2441
發(fā)布評論請先 登錄
中科慧眼兩項成果入選2025年企業(yè)科技工作者評價案例庫
匠人手記:一個單片機工作者的實踐與思考
AIGC軟件免費嗎
在OpenVINO?工具套件的深度學習工作臺中無法導出INT8模型怎么解決?
#新年新氣象,大家新年快樂!#AIGC入門及鴻蒙入門
AIGC入門及鴻蒙入門
AIGC系統(tǒng)中多個模型的切換調用方案探索

評論