一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

麻省大學(xué)研發(fā)MakeItTalk:如何讓圖片開口“說話”

如意 ? 來源:新智元 ? 作者:佚名 ? 2020-10-20 16:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近,麻省大學(xué)Amherst分校的Yang Zhou博士和他的團(tuán)隊(duì)提出了一種具有深度結(jié)構(gòu)的新方法「MakeItTalk」。給定一個音頻語音信號和一個人像圖像作為輸入,模型便會生成說話人感知的有聲動畫圖。

富有表現(xiàn)力的動畫誰都想要!

面部動畫在很多領(lǐng)域都是一項(xiàng)關(guān)鍵技術(shù),比如制作電影、視頻流、電腦游戲、虛擬化身等等。

盡管在技術(shù)上取得了無數(shù)的成就,但是創(chuàng)造逼真的面部動畫仍然是計(jì)算機(jī)圖形學(xué)的挑戰(zhàn)。

一是整個面部表情包含了完整面部各部分之間的相互關(guān)系,面部運(yùn)動和語音之間的協(xié)同是一項(xiàng)艱巨的任務(wù),因?yàn)槊娌縿討B(tài)在高維多重影像中占主導(dǎo)地位,其中頭部姿勢最為關(guān)鍵。

二是多個說話人會有不同的說話方式,控制嘴唇一致,不足以了解說話的人的性格,還要表達(dá)不同的個性。

針對上述問題,Yang Zhou博士和他的團(tuán)隊(duì)提出了一種具有深度結(jié)構(gòu)的新方法「 MakeItTalk」。

這是一種具有深度架構(gòu)的新方法,只需要一個音頻和一個面部圖像作為輸入,程序就會輸出一個逼真的「說話的頭部動畫」。

下面,我們就來看看,MakeItTalk的是如何讓圖片「說話」的。

都給我開口說話!神奇的 MakeItTalk 是什么?

MakeItTalk是一個新的深度學(xué)習(xí)為基礎(chǔ)的架構(gòu),能夠識別面部標(biāo)志、下巴、頭部姿勢、眉毛、鼻子,并切能夠通過聲音的刺激使嘴唇發(fā)生變化。

模型以LSTM 和 CNN 為基礎(chǔ),可以根據(jù)說話人的音調(diào)和內(nèi)容,讓面部表情和頭部產(chǎn)生隨動。

本質(zhì)上, MakeItTalk將輸入音頻信號中的內(nèi)容和說話人分離出來,從產(chǎn)生的抽象表示中提取出對應(yīng)的動畫。

而嘴唇和相鄰面部的協(xié)同也尤為重要。說話者的信息被用來獲取其他面部表情和頭部動作,而這些對于生成富有表現(xiàn)力的頭部動畫是必需的。

MakeItTalk模型既可以生成逼真的人臉說話圖像,也可以生成非逼真的卡通說話圖像。

聲音+圖像=「開口說話」?MakeItTalk是如何做到的?

下面的圖表顯示了生成逼真的說話頭像的完整方法和途徑:

(1)一個音頻剪輯和一個單一的面部圖像可以制作一個與音頻協(xié)調(diào)的,能感知說話者的頭部動畫。

(2)在訓(xùn)練階段,使用現(xiàn)成的人臉檢測器對輸入的視頻進(jìn)行預(yù)處理,提取標(biāo)記,從輸入的音頻中訓(xùn)練基礎(chǔ)模型,實(shí)現(xiàn)語音內(nèi)容轉(zhuǎn)動畫和標(biāo)記的精確提取。

(3)為了獲得高精度的運(yùn)動,通過對輸入音頻信號的分離內(nèi)容和說話人嵌入來檢測標(biāo)記點(diǎn)的估計(jì)。為此,采用語音轉(zhuǎn)換神經(jīng)網(wǎng)絡(luò)對語音內(nèi)容進(jìn)行提取,發(fā)現(xiàn)語音內(nèi)容。

(4)內(nèi)容與說話者無關(guān),并且捕獲了嘴唇和相鄰部位的常見運(yùn)動,其中說話內(nèi)容調(diào)節(jié)了動作的特征和說話者頭部動作的剩余部分。

(5)嘴唇的大小和形狀隨著眼睛、鼻子和頭部的運(yùn)動而擴(kuò)大,這取決于誰說了這個詞,也就是說話人身份。

(6)最后,為了生成轉(zhuǎn)換后的圖像,MakeItTalk采用了兩種算法進(jìn)行標(biāo)記到圖像的合成:

對于非真實(shí)感的圖像,如畫布藝術(shù)或矢量藝術(shù),一個特定的畸變方法是在 Delaunay triangulation 的基礎(chǔ)上部署;

對于真實(shí)感圖像,構(gòu)建一個圖像到圖像的轉(zhuǎn)換網(wǎng)絡(luò)(與 pix2pix 相同) ,直接轉(zhuǎn)換自然人臉。

最后,混合所有的圖像幀和音頻共同生成頭部動畫。

作者簡介

該項(xiàng)目的作者本科畢業(yè)于上海交通大學(xué)電子工程系,然后在喬治亞理工學(xué)院獲得了碩士學(xué)位,現(xiàn)在是馬薩諸塞大學(xué)阿默斯特分校計(jì)算機(jī)圖形學(xué)科學(xué)研究小組的一名計(jì)算機(jī)科學(xué)博士生。

Yang Zhou在計(jì)算機(jī)圖形學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域工作。主要致力于用深度學(xué)習(xí)技術(shù)來幫助藝術(shù)家、造型師和動畫師做出更好的設(shè)計(jì)。

如果也想給你的設(shè)計(jì)加點(diǎn)AI的基因,Yang Zhou的論文列表絕對是個不錯的選擇,有很多關(guān)于動畫生成和多模態(tài)深度學(xué)習(xí)的研究。
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 音頻
    +關(guān)注

    關(guān)注

    30

    文章

    3042

    瀏覽量

    83443
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50421
  • 圖片
    +關(guān)注

    關(guān)注

    0

    文章

    203

    瀏覽量

    16249
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    ##DevEco Studio##如何模擬器里有圖片?【圖片下載法】

    ? API9和API12在模擬器上,有一個巨大的區(qū)別,那就是API9(開發(fā)工具3的版本),他的模擬器里有一個拍照功能(再往前的版本里甚至還有瀏覽器,可以通過瀏覽器下載圖片),可以通過拍照功能讓相冊里
    發(fā)表于 06-29 22:51

    南京工業(yè)大學(xué):仿生觸覺傳感系統(tǒng)機(jī)器人擁有“人類指尖”般的細(xì)膩感知

    宏博士,聯(lián)合南開大學(xué)、復(fù)旦大學(xué)、金陵科技學(xué)院等單位眾多合作者,在《Advanced Materials》發(fā)表重磅研究成果,研發(fā)出一種仿生紡織觸覺傳感器及系統(tǒng),首次在單一器件中實(shí)現(xiàn)靜態(tài)力與動態(tài)振動的高精度同步感知,
    的頭像 發(fā)表于 06-14 17:32 ?230次閱讀
    南京工業(yè)<b class='flag-5'>大學(xué)</b>:仿生觸覺傳感系統(tǒng)<b class='flag-5'>讓</b>機(jī)器人擁有“人類指尖”般的細(xì)膩感知

    會“說話”的空氣管家:NRK3301加濕器音箱秒變智能生活中樞

    告別繁瑣操作,一句‘打開加濕器’就能享受舒適濕度,NRK3301語音模塊加濕器音箱秒懂你的需求,智能生活從此開口即來。
    的頭像 發(fā)表于 06-12 15:11 ?167次閱讀
    會“<b class='flag-5'>說話</b>”的空氣管家:NRK3301<b class='flag-5'>讓</b>加濕器音箱秒變智能生活中樞

    大模型“開口說話”,啟英泰倫重塑AI玩具交互新體驗(yàn)!

    2025年,AI玩具已成為全球消費(fèi)科技領(lǐng)域最炙手可熱的賽道之一。DeepSeek的崛起,顯著降低了大模型的部署成本和門檻,成功點(diǎn)燃了整個行業(yè)以及資本市場對端側(cè)AI落地的熱情,進(jìn)一步推動了AI玩具的熱潮。接入大模型的AI玩具從市場需求來看,AI玩具正在重新定義兒童陪伴與教育的方式,不僅滿足“玩”的基本需求,而且,通過智能“擬人化”交互可為兒童提供豐富的情緒價值
    的頭像 發(fā)表于 04-11 18:31 ?459次閱讀
    <b class='flag-5'>讓</b>大模型“<b class='flag-5'>開口說話</b>”,啟英泰倫重塑AI玩具交互新體驗(yàn)!

    數(shù)傳終端:數(shù)據(jù)飛起來的 “空中快遞員”

    就像一位隱形的 “空中快遞員”,在看不見的電波中穿梭,把海量數(shù)據(jù)安全、快速地送到目的地。 它的核心使命 :將傳感器、設(shè)備、系統(tǒng)產(chǎn)生的數(shù)據(jù),通過無線或有線網(wǎng)絡(luò)傳輸?shù)皆贫嘶蚩刂浦行摹:唵蝸碚f,就是 “啞巴” 設(shè)備開口說話,
    的頭像 發(fā)表于 04-02 23:59 ?368次閱讀
    數(shù)傳終端:<b class='flag-5'>讓</b>數(shù)據(jù)飛起來的 “空中快遞員”

    光伏智慧運(yùn)維系統(tǒng)電站自己說話和思考

    ?????? 光伏智慧運(yùn)維系統(tǒng)電站自己說話和思考 ?????? 太陽能電站就像一個大家族,由成千上萬塊太陽能板、逆變器、線路等組成。過去,要管理這么大的家族,只能靠人工每天去現(xiàn)場檢查,效率低還容易
    的頭像 發(fā)表于 03-27 17:01 ?330次閱讀
    光伏智慧運(yùn)維系統(tǒng)<b class='flag-5'>讓</b>電站自己<b class='flag-5'>說話</b>和思考

    如何DLP4500顯示電腦上的圖片?

    手頭有一塊DLP4500,然后有一根USB和mini-HDMI。我想在電腦上選取一些圖片,DLP進(jìn)行顯示。請問需要怎么連線?還有圖片怎么傳給DLP?電腦上有下載DLPLCR4500GUI這個軟件,是通過它來實(shí)現(xiàn)的嗎?我是新手
    發(fā)表于 02-28 07:49

    中國移動與南京大學(xué)合作研發(fā)高保真2D數(shù)字人說話系統(tǒng)

    近日,中國移動宣布了一項(xiàng)重要合作成果——聯(lián)合南京大學(xué)團(tuán)隊(duì)成功研發(fā)出高保真2D數(shù)字人說話驅(qū)動系統(tǒng)。 作為全球用戶規(guī)模最大的通信運(yùn)營商,中國移動每年的客戶服務(wù)運(yùn)營成本居高不下。盡管智能語音客服已得到
    的頭像 發(fā)表于 12-13 11:32 ?1090次閱讀

    開口式電流互感器功能及使用場景

    開口式互感器是一種特殊類型的電流互感器,其主要特點(diǎn)是可以在不切斷電纜或母線的情況下進(jìn)行安裝,這對于正在運(yùn)行的電力系統(tǒng)改造項(xiàng)目尤為重要。開口式互感器的設(shè)計(jì)允許它直接穿過電力系統(tǒng)的導(dǎo)線,無需斷電操作
    的頭像 發(fā)表于 12-05 10:28 ?1395次閱讀
    <b class='flag-5'>開口</b>式電流互感器功能及使用場景

    兆元光電與廈門大學(xué)攜手,Mini/Micro LED技術(shù)將迎新突破

    進(jìn)行深入合作,推動Mini/Micro LED技術(shù)的研發(fā)和應(yīng)用。 圖片來源:兆元光電 此次合作將充分利用廈門大學(xué)在電子技術(shù)領(lǐng)域的科研優(yōu)勢和兆元光電在技術(shù)應(yīng)用方面的行業(yè)經(jīng)驗(yàn),計(jì)劃通過聯(lián)合研發(fā)
    的頭像 發(fā)表于 11-29 09:40 ?613次閱讀
    兆元光電與廈門<b class='flag-5'>大學(xué)</b>攜手,Mini/Micro LED技術(shù)將迎新突破

    現(xiàn)代起亞聯(lián)合大學(xué)設(shè)立機(jī)器人研發(fā)實(shí)驗(yàn)室

    據(jù)外媒報道,現(xiàn)代汽車集團(tuán)旗下的現(xiàn)代汽車和起亞汽車于當(dāng)?shù)貢r間周三共同宣布,他們已經(jīng)攜手首爾大學(xué)、浦項(xiàng)科技大學(xué)以及韓國科學(xué)技術(shù)研究院,共同創(chuàng)立了一個專注于機(jī)器人技術(shù)研發(fā)的實(shí)驗(yàn)室。
    的頭像 發(fā)表于 10-25 16:00 ?730次閱讀

    開口式互感器好不好 開口電流互感器有什么缺點(diǎn)

    安科瑞徐赟杰18706165067 開口式互感器是一種常用于測量電流的傳感器。它通過將導(dǎo)線穿過一個開口,利用線圈中的磁場感應(yīng)原理來測量電流的強(qiáng)度。本文將以“開口式互感器好不好”和“開口
    的頭像 發(fā)表于 09-27 09:22 ?1131次閱讀
    <b class='flag-5'>開口</b>式互感器好不好 <b class='flag-5'>開口</b>電流互感器有什么缺點(diǎn)

    安科瑞AKH-0.66系列開口式電流互感器

    概述:?[AKH開口式電流互感器]?是一種專門設(shè)計(jì)用于低壓電力測量的設(shè)備,它屬于[開口式電流互感器]的一種,具有高安全性和方便的安裝特性。這種互感器由一個閉合的璧式鐵芯組成,中間開有一個口,用于容納
    發(fā)表于 09-26 10:37

    2024年芯片行業(yè)有多難?用數(shù)據(jù)說話

    2024年芯片行業(yè)有多難?用數(shù)據(jù)說話
    的頭像 發(fā)表于 08-10 18:20 ?5870次閱讀

    日本大學(xué)研發(fā)出新極紫外(EUV)光刻技術(shù)

    近日,日本沖繩科學(xué)技術(shù)大學(xué)大學(xué)(OIST)發(fā)布了一項(xiàng)重大研究報告,宣布該校成功研發(fā)出一種突破性的極紫外(EUV)光刻技術(shù)。這一創(chuàng)新技術(shù)超越了當(dāng)前半導(dǎo)體制造業(yè)的標(biāo)準(zhǔn)界限,其設(shè)計(jì)的光刻設(shè)備能夠采用更小巧的EUV光源,并且功耗僅為傳
    的頭像 發(fā)表于 08-03 12:45 ?1628次閱讀