一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于語音驅(qū)動(dòng)3D虛擬人性能介紹

lhl545545 ? 來源:與非網(wǎng) ? 作者:與非網(wǎng) ? 2020-11-25 16:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Speech2Video 是一種從語音音頻輸入合成人體全身運(yùn)動(dòng)(包括頭、口、臂等)視頻的任務(wù),其產(chǎn)生的視頻應(yīng)該在視覺上是自然的,并且與給定的語音一致。傳統(tǒng)的 Speech2Video 方法一般會(huì)使用專用設(shè)備和專業(yè)操作員進(jìn)行性能捕獲,且大多數(shù)語音和渲染任務(wù)是由動(dòng)畫師完成的,定制使用的成本通常比較昂貴。

近年來,隨著深度神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用,數(shù)據(jù)驅(qū)動(dòng)的方法已經(jīng)成為現(xiàn)實(shí)。例如,SythesisObama 或 MouthEditing 通過使用 RNN 通過語音驅(qū)動(dòng)嘴部運(yùn)動(dòng)來合成說話的嘴部。泰勒 提出使用音頻來驅(qū)動(dòng)高保真圖形模型,該模型不僅可以將嘴部動(dòng)畫化,而且還可以對(duì)面部的其他部分進(jìn)行動(dòng)畫處理以獲得更豐富的語音表達(dá)。

然而,嘴部運(yùn)動(dòng)的合成大部分是確定性的:給定發(fā)音,在不同的人和環(huán)境中嘴部的運(yùn)動(dòng)或形狀是相似的。但現(xiàn)實(shí)生活中,相同情況下的全身手勢(shì)運(yùn)動(dòng)具有更高的生成力和更多的變異性,這些手勢(shì)高度依賴于當(dāng)前的上下文和正在執(zhí)行語音的人類。傳遞重要信息時(shí),個(gè)性化的手勢(shì)會(huì)在特定時(shí)刻出現(xiàn)。因此,有用的信息僅稀疏地存在于視頻中,這為簡(jiǎn)單的端到端學(xué)習(xí)算法 有限的錄制視頻中捕獲這種多樣性帶來了困難。

近日,百度提出了一種新的方法,將給定文字或音頻轉(zhuǎn)換為具有同步、逼真、富表現(xiàn)力的肢體語言的實(shí)感視頻。該方法首先使用遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)從音頻序列生成 3D 骨骼運(yùn)動(dòng),然后通過條件生成對(duì)抗網(wǎng)絡(luò)(GAN)合成輸出視頻。

為了使骨骼運(yùn)動(dòng)逼真并富有表現(xiàn)力,研究者將關(guān)節(jié) 3D 人體骨骼的知識(shí)和學(xué)習(xí)過的個(gè)性化語音手勢(shì)字典嵌入到學(xué)習(xí)和測(cè)試過程中。前者可以防止產(chǎn)生不合理的身體變形,而后者通過一些有意義的身體運(yùn)動(dòng)視頻幫助模型快速學(xué)習(xí)。為了制作富有運(yùn)動(dòng)細(xì)節(jié)的逼真高分辨率視頻,研究者提出一種有條件的 GAN,其中每個(gè)細(xì)節(jié)部分,例如頭和手,是自動(dòng)放大過的以擁有自己的判別器。該方法與以前處理類似任務(wù)的 SOTA 方法相比效果更好。

方法

圖 1:Speech2Video 系統(tǒng) pipeline

如圖 1 所示,根據(jù)用于訓(xùn)練 LSTM 網(wǎng)絡(luò)的內(nèi)容,系統(tǒng)的輸入是音頻或文本??紤]到文本到語音(TTS)和語音到文本(STT)技術(shù)都已經(jīng)成熟并且可商用,此處假定音頻和 text 是可互換的。即使從最先進(jìn)的 STT 引擎中得到一些錯(cuò)誤識(shí)別的單詞 / 字符,系統(tǒng)也可以容忍這些錯(cuò)誤,LSTM 網(wǎng)絡(luò)的主要目的是將文本 / 音頻映射到身體形狀。錯(cuò)誤的 STT 輸出通常是與真實(shí)發(fā)音相似的單詞,這意味著它們的拼寫也很可能是相似的。因此,它們最終將映射的身體形狀或多或少相似。

LSTM 的輸出是由 SMPL-X 參數(shù)化的一系列人體姿勢(shì)。SMPL-X 是一個(gè)人體、面部和手部的 3D 聯(lián)合模型,這一動(dòng)態(tài)關(guān)節(jié) 3D 模型是由一個(gè) 2D 彩色骨架圖像序列可視化的。這些 2D 圖像被進(jìn)一步輸入到 vid2vid 生成網(wǎng)絡(luò)中,以生成最終的現(xiàn)實(shí)人物圖像。

在成功同步語音和動(dòng)作的同時(shí),LSTM 大部分時(shí)間只能學(xué)習(xí)重復(fù)的人類動(dòng)作,這會(huì)使視頻看起來很無聊。為了使人體動(dòng)作更具表現(xiàn)力和變化性,研究者在一些關(guān)鍵詞出現(xiàn)時(shí)將特定姿勢(shì)加入 LSTM 的輸出動(dòng)作中,例如,巨大、微小、高、低等。研究者建立了一個(gè)字典,將這些關(guān)鍵詞映射到它們相應(yīng)的姿勢(shì)。

模特站在相機(jī)和屏幕的前面,當(dāng)他 / 她在屏幕上閱讀腳本時(shí),研究者會(huì)捕獲這些視頻。最后再要求模特?cái)[一些關(guān)鍵詞的動(dòng)作,例如巨大、微小、向上、向下、我、你等等。

人體模型擬合

研究者首先將這些 2D 關(guān)鍵點(diǎn)作為人體模型的表示,并訓(xùn)練了 LSTM 網(wǎng)絡(luò),但結(jié)果不能令人滿意。

最后采用了 SMPL-X,這是一種關(guān)節(jié)式 3D 人體模型。SMPL-X 使用運(yùn)動(dòng)學(xué)骨架模型對(duì)人體動(dòng)力學(xué)進(jìn)行建模,具有 54 個(gè)關(guān)節(jié),包括脖子、手指、手臂、腿和腳。

詞典構(gòu)建和關(guān)鍵姿勢(shì)插入

研究者從錄制的視頻中手動(dòng)選擇關(guān)鍵姿勢(shì),并建立一個(gè)單詞 - 姿勢(shì)查詢字典。同樣,該姿勢(shì)表示為 106 個(gè) SMPL-X 參數(shù)。關(guān)鍵姿勢(shì)可以是靜止的單幀姿勢(shì)或多幀運(yùn)動(dòng),可以通過相同的方法將兩者插入到現(xiàn)有的人體骨骼視頻中。

訓(xùn)練視頻生成網(wǎng)絡(luò)

研究者采用 vid2vid 提出的生成網(wǎng)絡(luò),將骨架圖像轉(zhuǎn)換為真實(shí)的人像。

用于訓(xùn)練 vid2vid 的示例圖像對(duì)。雙手均帶有特殊的色環(huán)標(biāo)記。

運(yùn)行時(shí)間和硬件方面,系統(tǒng)中最耗時(shí)和最耗內(nèi)存的階段是訓(xùn)練 vid2vid 網(wǎng)絡(luò)。在 8 個(gè) NVIDIA Tesla M40 24G GPU 集群上完成 20 個(gè)時(shí)期的訓(xùn)練大約需要一周;測(cè)試階段要快得多,在單個(gè) GPU 上生成一幀僅需約 0.5 秒。

結(jié)果

評(píng)估與分析

研究者將使用用戶研究的結(jié)果與 4 種 SOTA 方法進(jìn)行比較,結(jié)果顯示,本文方法獲得了最佳的總體質(zhì)量得分。

此外,研究者使用 Inception 分?jǐn)?shù)評(píng)估圖像生成結(jié)果,包括兩個(gè)方面:圖像質(zhì)量和圖像多樣性。

為了評(píng)估最終輸出的視頻,研究者在 Amazon Mechanical Turk(AMT)上進(jìn)行了人類主觀測(cè)試,共有 112 名參與者。研究者向參與者展示了總共五個(gè)視頻,其中四個(gè)是合成視頻,兩個(gè)由真實(shí)人的音頻生成,兩個(gè)由 TTS 音頻生成;剩下的是一個(gè)真實(shí)人物的短片。參與者以李克特量表(從 1(強(qiáng)烈不同意)到 5(強(qiáng)烈同意))對(duì)這些視頻的質(zhì)量進(jìn)行評(píng)分。其中包括:1)人體的完整性(沒有遺漏的身體部位或手指);2)視頻中人臉清晰;3)視頻中的人體動(dòng)作(手臂,手,身體手勢(shì))看起來自然流暢。4)身體的動(dòng)作和手勢(shì)與聲音同步;5)視頻的整體視覺質(zhì)量。

總結(jié)

Speech2Video 是一種新穎的框架,可以使用 3D 驅(qū)動(dòng)的方法生成逼真的語音視頻,同時(shí)避免構(gòu)建 3D 網(wǎng)格模型。作者在框架內(nèi)建立了個(gè)性化關(guān)鍵手勢(shì)表,以處理數(shù)據(jù)稀疏性和多樣性的問題。更重要的是,作者利用 3D 骨骼約束來生成身體動(dòng)力學(xué),從而保證其姿勢(shì)在物理上是合理的。
責(zé)任編輯:pj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    3D AD庫文件

    3D庫文件
    發(fā)表于 05-28 13:57 ?5次下載

    3D閃存的制造工藝與挑戰(zhàn)

    3D閃存有著更大容量、更低成本和更高性能的優(yōu)勢(shì),本文介紹3D閃存的制造工藝與挑戰(zhàn)。
    的頭像 發(fā)表于 04-08 14:38 ?1029次閱讀
    <b class='flag-5'>3D</b>閃存的制造工藝與挑戰(zhàn)

    3D IC背后的驅(qū)動(dòng)因素有哪些?

    3D多芯片設(shè)計(jì)背后的驅(qū)動(dòng)因素以及3D封裝的關(guān)鍵芯片到芯片和接口IP要求。3D多芯片設(shè)計(jì)的市場(chǎng)預(yù)測(cè)顯示,硅片的設(shè)計(jì)和交付方式將發(fā)生前所未有的變化。IDTechEx預(yù)測(cè)到2028年Chip
    的頭像 發(fā)表于 03-04 14:34 ?482次閱讀
    <b class='flag-5'>3D</b> IC背后的<b class='flag-5'>驅(qū)動(dòng)</b>因素有哪些?

    DAD1000驅(qū)動(dòng)芯片有3D功能嗎?

    DAD1000驅(qū)動(dòng)芯片有3D功能嗎
    發(fā)表于 02-21 13:59

    SciChart 3D for WPF圖表庫

    SciChart 3D for WPF 是一個(gè)實(shí)時(shí)、高性能的 WPF 3D 圖表庫,專為金融、醫(yī)療和科學(xué)應(yīng)用程序而設(shè)計(jì)。非常適合需要極致性能和豐富的交互式
    的頭像 發(fā)表于 01-23 13:49 ?613次閱讀
    SciChart <b class='flag-5'>3D</b> for WPF圖表庫

    2.5D3D封裝技術(shù)介紹

    整合更多功能和提高性能是推動(dòng)先進(jìn)封裝技術(shù)的驅(qū)動(dòng),如2.5D3D封裝。 2.5D/3D封裝允許I
    的頭像 發(fā)表于 01-14 10:41 ?1577次閱讀
    2.5<b class='flag-5'>D</b>和<b class='flag-5'>3D</b>封裝技術(shù)<b class='flag-5'>介紹</b>

    科大訊飛AI虛擬人交互平臺(tái)榮獲行業(yè)最高評(píng)級(jí)

    近日,科大訊飛的AI虛擬人交互平臺(tái)順利完成中國信通院人工智能研究所組織的大模型數(shù)字人基礎(chǔ)能力分級(jí)測(cè)試,并獲得最高等級(jí)L5認(rèn)證,系國內(nèi)首批。
    的頭像 發(fā)表于 12-13 11:39 ?872次閱讀

    技術(shù)資訊 | 2.5D3D 封裝

    本文要點(diǎn)在提升電子設(shè)備性能方面,2.5D3D半導(dǎo)體封裝技術(shù)至關(guān)重要。這兩種解決方案都在不同程度提高了性能、減小了尺寸并提高了能效。2.5D
    的頭像 發(fā)表于 12-07 01:05 ?1305次閱讀
    技術(shù)資訊 | 2.5<b class='flag-5'>D</b> 與 <b class='flag-5'>3D</b> 封裝

    數(shù)字王國與AWS達(dá)成合作,推動(dòng)自主虛擬人技術(shù)云端發(fā)展

    近日,數(shù)字王國與Amazon Web Services(AWS)達(dá)成了一項(xiàng)重要合作,雙方將攜手推動(dòng)自主虛擬人及其技術(shù)向云端遷移。
    的頭像 發(fā)表于 10-09 16:38 ?674次閱讀

    發(fā)掘3D文件格式的無限潛力:打造沉浸式虛擬世界

    在當(dāng)今數(shù)字化時(shí)代,3D技術(shù)的應(yīng)用范圍日益廣泛,涵蓋電影后期制作、產(chǎn)品原型設(shè)計(jì)、虛擬現(xiàn)實(shí)(VR)、增強(qiáng)現(xiàn)實(shí)(AR)、游戲等眾多領(lǐng)域。而3D文件格式作為3D技術(shù)的核心組成部分,對(duì)于實(shí)現(xiàn)
    的頭像 發(fā)表于 09-26 18:14 ?1870次閱讀
    發(fā)掘<b class='flag-5'>3D</b>文件格式的無限潛力:打造沉浸式<b class='flag-5'>虛擬</b>世界

    物聯(lián)網(wǎng)行業(yè)中的模具定制方案_3D打印材料選型分享

    3D打印材料介紹 3D打印技術(shù)是一種快速制造技術(shù),它可以將數(shù)字模型轉(zhuǎn)化為實(shí)體物體。3D打印材料是3D打印技術(shù)中不可或缺的一部分,它們直接影響
    的頭像 發(fā)表于 09-25 10:59 ?738次閱讀
    物聯(lián)網(wǎng)行業(yè)中的模具定制方案_<b class='flag-5'>3D</b>打印材料選型分享

    維愛普3D打印設(shè)備工字電感磁芯:驅(qū)動(dòng)創(chuàng)新與高效的科技核心

    在快速發(fā)展的3D打印領(lǐng)域,高精度、高效率的電源管理系統(tǒng)是確保設(shè)備穩(wěn)定運(yùn)行、提升打印質(zhì)量的關(guān)鍵。深圳市維愛普電子有限公司,作為電磁兼容領(lǐng)域的佼佼者,其專為3D打印設(shè)備設(shè)計(jì)的工字電感磁芯,以其卓越的性能和穩(wěn)定的品質(zhì),成為推動(dòng)
    的頭像 發(fā)表于 09-03 10:54 ?578次閱讀

    微軟Azure AI語音服務(wù)革新:引入虛擬人形象,文本一鍵轉(zhuǎn)生動(dòng)視頻

    微軟于8月23日宣布,在其領(lǐng)先的Azure AI語音服務(wù)中融入了一項(xiàng)革命性創(chuàng)新——虛擬人形象功能,此功能徹底顛覆了傳統(tǒng)交互方式,讓文本轉(zhuǎn)視頻的過程變得前所未有的直觀與生動(dòng)。
    的頭像 發(fā)表于 08-23 16:25 ?1076次閱讀

    使用NVIDIA Edify助力的服務(wù)創(chuàng)建3D資產(chǎn)和虛擬環(huán)境照明

    使用 NVIDIA Edify 助力的服務(wù)創(chuàng)建 3D 資產(chǎn)和虛擬環(huán)境照明,或是減半生成圖像時(shí)間。
    的頭像 發(fā)表于 08-02 15:22 ?1027次閱讀

    裸眼3D筆記本電腦——先進(jìn)的光場(chǎng)裸眼3D技術(shù)

    隨著科技的不斷進(jìn)步,裸眼3D技術(shù)已經(jīng)不再是科幻電影中的幻想。如今,英倫科技裸眼3D筆記本電腦將這一前沿科技帶到了我們的日常生活中。無論你是專業(yè)的3D模型設(shè)計(jì)師,還是希望在視頻播放和模型展示中體驗(yàn)逼真
    的頭像 發(fā)表于 07-16 10:04 ?1042次閱讀