五月天国产日逼视频,99久久夜色精品国产亚洲,日日草夜夜草高潮刘水

小編說：“自然語言”正在越來越經(jīng)常地出現(xiàn)在我們的日常生活中。你有沒有想象過，我們有一天可以使用自然語言對視覺內(nèi)容進(jìn)行編輯?微軟亞洲研究院最新推出的多模態(tài)模型 NüWA，不僅讓視覺內(nèi)容創(chuàng)造多了一條路，甚至還讓 Windows 經(jīng)典桌面有了更多的打開方式。人類對于信息的感知有五種途徑，包括視覺、聽覺、嗅覺、觸覺和味覺，其中視覺是接受信息的最主要渠道，也是創(chuàng)造力的源泉。在推動人工智能發(fā)展的道路上，計(jì)算機(jī)視覺已經(jīng)成為一個(gè)重要的研究領(lǐng)域，尤其是近幾年視覺創(chuàng)作類應(yīng)用的頻繁涌現(xiàn)，讓創(chuàng)作變得越來越便捷，越來越多的用戶可以用這些工具制作和分享身邊的美好生活。與此同時(shí)，視覺類應(yīng)用的廣泛使用也促進(jìn)了計(jì)算機(jī)視覺領(lǐng)域的研究。

然而，盡管這些工具功能強(qiáng)大，但仍有不足之處：其一，它們需要創(chuàng)作者手動收集和處理視覺素材，導(dǎo)致現(xiàn)有的大規(guī)模視覺數(shù)據(jù)中所包含的視覺知識無法自動地有效利用。其二，這些工具往往是通過圖形界面與創(chuàng)作者交互，并非自然語言指令，因此對于一些用戶來說，具有一定的技術(shù)門檻，他們需要擁有豐富的使用經(jīng)驗(yàn)。在微軟亞洲研究院看來，下一代可視化內(nèi)容創(chuàng)建工具應(yīng)該能夠利用大數(shù)據(jù)、AI 模型幫助用戶更便捷地進(jìn)行內(nèi)容創(chuàng)作，并使用自然語言作為更加友好的交互界面。

在這樣的理念下，微軟亞洲研究院在視頻生成預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行再創(chuàng)新，開發(fā)了多模態(tài)的 NüWA(Neural visUal World creAtion)模型。通過自然語言指令，NüWA 可以實(shí)現(xiàn)文本、圖像、視頻之間的生成、轉(zhuǎn)換和編輯，幫助視覺內(nèi)容創(chuàng)作者降低技術(shù)門檻，提高創(chuàng)造力。同時(shí)，開發(fā)者也可以利用 NüWA 構(gòu)建基于 AI 的視覺內(nèi)容創(chuàng)造平臺。

支持八大視覺生成與編輯任務(wù)

NüWA 目前支持八大視覺生成和編輯任務(wù)。其中，支持圖像的四類任務(wù)包括：文本到圖像，草圖到圖像，圖像補(bǔ)全，圖像編輯;支持視頻的四類任務(wù)包括：文本到視頻，視頻草圖到視頻，視頻預(yù)測，視頻編輯。下面，讓我們以 Windows 經(jīng)典桌面為例，試一下 NüWA 的幾個(gè)功能。

給定一張?jiān)紙D片;

讓 NüWA 將圖片補(bǔ)全為256x256(圖像補(bǔ)全);

讓 NüWA 在圖片的紅框位置處添加“一匹在草地上行走的馬”(圖像編輯);

讓 NüWA 將這張圖片生成為一個(gè)能“動”起來的視頻(視頻預(yù)測)。

NüWA-LIP：讓視覺編輯更精細(xì)

NüWA 模型已基本包含了視覺創(chuàng)作的核心流程，可在一定程度上輔助創(chuàng)作者提升效率，但在實(shí)際創(chuàng)作中，創(chuàng)作者還有很多多樣且高質(zhì)量的需求。為此，微軟亞洲研究院的研究員們在 NüWA 的基礎(chǔ)之上更新迭代，于近日提出了 NüWA-LIP 模型，并且在視覺領(lǐng)域的典型任務(wù)——缺陷圖像修復(fù)中取得了新突破。盡管此前也有方法完成了類似的圖像修復(fù)，但是模型的創(chuàng)作卻比較隨意，無法符合創(chuàng)作者的意愿，而 NüWA LIP 幾乎可以按照給定的自然語言指令修復(fù)、補(bǔ)全成人們?nèi)庋劭山邮艿膱D像。下面，讓我們直觀感受一下 NüWA-LIP 神奇的圖像修復(fù)效果。圖2給出了兩個(gè)例子。第一個(gè)例子是希望模型可以按照“Racers riding four wheelers while a crowd watches”(一群人在看摩托車手騎四輪車)來補(bǔ)全黑色區(qū)域。已有工作 GLIDE 雖然可以補(bǔ)全，但是可以看到邊界處有明顯的白線，并且補(bǔ)全的區(qū)域比較模糊。NüWA 模型使用自回歸的方式從左到右依次掃描生成，邊界處相比于 GLIDE 更加自然。但是由于在補(bǔ)全黑色區(qū)域時(shí)看不到右側(cè)的車輪，因此標(biāo)準(zhǔn)的 NüWA 模型存在補(bǔ)全邊界銜接不對的問題。NüWA-LIP 修復(fù)了 NüWA 這一不足，它會提前預(yù)看整個(gè)圖像，并創(chuàng)新地使用無損編碼技術(shù)，然后再自回歸地生成，因此可以做到黑色區(qū)域邊界處銜接自然，并且補(bǔ)全區(qū)域也很清晰。

NüWA-Infinity：讓視覺創(chuàng)作趨于 “無限流”

除了圖像修復(fù)之外，微軟亞洲研究院在高分辨率、大圖像的橫向延展方面也進(jìn)行了持續(xù)研究，提出了 NüWA Infinity 模型。顧名思義，NüWA Infinity 可以根據(jù)給定的圖像生成無限連續(xù)的高清“大片”?！耙婚_始 NüWA 能夠生成、編輯的圖像和視頻的分辨率相對較低，一般是256×256分辨率的小圖。我們希望通過模型可以生成更高清的大圖，形成更大的視覺沖擊，滿足不同創(chuàng)作者的實(shí)際需求。簡單來說，NüWA Infinity 會根據(jù)圖像的不同層次內(nèi)容掃描每一幀窗口，不斷渲染形成高像素、連續(xù)的大圖，”微軟亞洲研究院研究員吳晨飛介紹說。想知道 Windows 經(jīng)典桌面的右側(cè)是什么樣么?點(diǎn)擊下圖，NüWA-Infinity 為你“揭開”神秘面紗。

段楠補(bǔ)充說，“表面看 NüWA Infinity 解決了之前 NüWA 生成圖片不高清，以及視頻幀數(shù)有限的問題。但其實(shí) NüWA Infinity 從底層形成了一套生成機(jī)制，不僅可以對圖片進(jìn)行延展式的生成，也可以應(yīng)用于視頻預(yù)測創(chuàng)作，而這也是我們接下來要攻克的研究課題?！?/p>

自此，NüWA-LIP 讓機(jī)器接受語言指令自動修圖成為了可能，而 NüWA-Infinity 則使得圖像生成質(zhì)量向高清、無限的真實(shí)世界邁進(jìn)了一大步。按照這樣的迭代創(chuàng)新步伐，未來創(chuàng)作者擁有一套趨于“無限流”的視覺創(chuàng)作輔助工具，指日可待。

NüWA 在八大任務(wù)中的效果

NüWA 多模態(tài)模型連鎖反應(yīng)：或?qū)砀唷皻⑹旨墶睉?yīng)用

微軟亞洲研究院高級研究員段楠表示，“NüWA 是第一個(gè)多模態(tài)預(yù)訓(xùn)練模型。我們希望 NüWA 可以實(shí)現(xiàn)真實(shí)世界的視頻生成，但在訓(xùn)練過程中模型會產(chǎn)生大量的‘中間變量’，消耗巨大的顯存、計(jì)算等資源。因此，NüWA 團(tuán)隊(duì)與系統(tǒng)組的同事們聯(lián)手協(xié)作，為 NüWA 在系統(tǒng)架構(gòu)上設(shè)置了多種并行機(jī)制，如張量并行、管道并行和數(shù)據(jù)并行，使得我們的跨模態(tài)訓(xùn)練成為可能?！?/p>

未來，隨著人工智能技術(shù)的發(fā)展，增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)等沉浸式的人機(jī)交互界面將會得到更廣泛的應(yīng)用，數(shù)字世界和物理世界的結(jié)合也將越來越緊密。而不同類型的多模態(tài)內(nèi)容則是拉近虛擬空間與現(xiàn)實(shí)世界的強(qiáng)力膠，因此，虛擬內(nèi)容的創(chuàng)建、編輯和交互將至關(guān)重要。NüWA 提供的視覺內(nèi)容生成和編輯技術(shù)，為這些應(yīng)用提供了無限的想象空間。當(dāng)多模態(tài)技術(shù)成為未來人工智能應(yīng)用發(fā)展的方向時(shí)，多模態(tài)模型將會為學(xué)習(xí)、廣告、新聞、會議、娛樂、社交網(wǎng)絡(luò)、數(shù)字人、腦機(jī)交互等領(lǐng)域帶來更多的下一代“殺手級”應(yīng)用。

原文標(biāo)題：用一句話，讓AI畫一匹馬是什么體驗(yàn)?

文章出處：【微信公眾號：微軟科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴