一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

僅憑聲音,AI 就能“腦補(bǔ)”你的臉!測試結(jié)果精度可以達(dá)到 90.25%

5RJg_mcuworld ? 來源:YXQ ? 2019-04-08 10:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)語】之前我們?yōu)榇蠹医榻B過一項(xiàng)非常酸爽的研究“Talking Face Generation”:給定音頻視頻后(輸入),可以讓任意一個人的面部特征與輸入的音視頻信息保持一致,也就是說出輸入的這段話。當(dāng)時就想到了“楊超越的聲音+高曉松的臉”這樣的神仙搭配。不過,近期一項(xiàng)新研究再度抓到了筆者的眼睛!在最新的研究中,研究者僅需要音頻信息就生成了人臉... ...如此鬼畜的操作,此乃頭一次見?。〗酉聛砭蜑榇蠹医榻B一下這項(xiàng)工作!

音頻和圖像是人類最常用的兩種信號傳輸模式,圖像傳達(dá)的信息非常直觀,而語音包含的信息其實(shí)比我們想象的要更豐富,包括說話人的身份,性別和情緒狀態(tài)等等。從這兩個信號中提取的特征通常是高度相關(guān)的,可以讓人僅聆聽聲音就可以想象他的視覺外觀。WAV2PIX 的工作就是僅利用語音輸入,來生成說話者的人臉圖像。其實(shí)這就是一個跨模態(tài)的視覺生成任務(wù)。

談到這項(xiàng)研究的貢獻(xiàn),主要有三點(diǎn):

提出了一個能夠直接從原始的語音信號生成人臉的條件GAN:WAV2PIX;

提供了一個在語音和人臉兩方面綜合質(zhì)量很高的一個數(shù)據(jù)集:Youtubers

實(shí)驗(yàn)證明論文的方法可以生成真實(shí)多樣的人臉。

論文收集了大V用戶(Youtubers)上傳到 Youtube 的演講視頻,這些視頻通常具有高質(zhì)量的說話環(huán)境、表達(dá)方式、人臉特征等。Youtubers 數(shù)據(jù)集主要由兩部分組成:一個是自動生成的數(shù)據(jù)集和一個手動處理后的高質(zhì)量的子集。

主要的預(yù)處理工作:

音頻最初下載的是高級音頻編碼(AAC)格式,44100 Hz,立體聲。因此轉(zhuǎn)換為 WAV 格式,并重新采樣到 16 kHz,每個樣例占 16 位并轉(zhuǎn)換為單聲道。

采用基于 Haar 特征的人臉檢測器來檢測正臉。僅采納置信度高的幀

保存檢測出來的那幀圖像及前后兩秒的語音幀,以及一個標(biāo)簽(identity)。

方法介紹

研究主要由三個模塊構(gòu)成:一個是語音編碼器,一個是圖片生成網(wǎng)絡(luò),一個是圖片判別網(wǎng)絡(luò)。

語音編碼器(Speech Encoder):已有的方法大多數(shù)是手工提取音頻特征,并不是針對生成網(wǎng)絡(luò)的任務(wù)進(jìn)行優(yōu)化的,而 SEGAN 提出了一種在波形上用于語音處理的方法。因此作者在已有的工作 SEGAN 上進(jìn)行修改。修改為具有 6 層一維網(wǎng)絡(luò),并且每層的 kernel 大小是 15x15,步長為 4,然后每層卷積網(wǎng)絡(luò)后面使用 LeakyReLU 激活函數(shù),網(wǎng)絡(luò)的輸入通道是 1。輸入 16kHZ 下1 秒的語音片段,上述的卷積網(wǎng)絡(luò)可以得到一個 4x1024 的張量,然后采用三個全連接網(wǎng)絡(luò)將特征數(shù)量從 4x1024 降到 128。作為生成器網(wǎng)絡(luò)的輸入。

圖片生成器(Image Generator Network):輸入是語音編碼器的 128 向量。采用二維轉(zhuǎn)置卷積、插值、dropout 等方式將輸入轉(zhuǎn)為 64x64x3 或者 128x128x3 的張量。在 G 的損失函數(shù)中添加了一個輔助損失用于保持說話人的標(biāo)簽(Identity)。

圖片判別器(Image Discriminator Network):判別器由幾層步長為 2,kernel 大小是 4x4 的卷積網(wǎng)絡(luò)組成,并使用譜歸一化和 LeakyReLU 激活函數(shù)。當(dāng)張量為 4x4 時,作者拼接了語音的輸入,并采用最后一層網(wǎng)絡(luò)來計(jì)算 D 網(wǎng)絡(luò)的分?jǐn)?shù)。

實(shí)驗(yàn)過程

訓(xùn)練:將手動處理后的數(shù)據(jù)集作為訓(xùn)練集,采用數(shù)據(jù)增強(qiáng)等手動。值得注意的是,在處理時將每張圖像復(fù)制了 5 次,并將其與 4 秒音頻里面隨機(jī)采樣的 5 個不同的1秒音頻塊進(jìn)行匹配。因此總共有 24K 左右的圖像-音頻對用于模型訓(xùn)練。其它超參數(shù)采用參考的文獻(xiàn)設(shè)置。

評估:下圖給出了可視化的結(jié)果,雖然生成的圖像都比較模糊,但基本可以觀察到人的面部特征,并且有不同的面部表情。

作者進(jìn)一步微調(diào)了一個預(yù)訓(xùn)練的 VGG-FACE Descriptor 網(wǎng)絡(luò),用于量化測試結(jié)果,在作者提供的數(shù)據(jù)集上,可以達(dá)到 76.81% 的語音識別準(zhǔn)確率和 50.08% 的生成圖像準(zhǔn)確率。

為了評估模型生成圖像的真實(shí)程度,作者定義了一個 68 個人臉關(guān)鍵點(diǎn)的精度檢測分?jǐn)?shù)。如下圖所示,測試結(jié)果精度可以達(dá)到 90.25%。表明在大多數(shù)情況下生成的圖像保留了基本的面部特征。

感興趣的小伙伴們可以下載閱讀研究一下~

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音
    +關(guān)注

    關(guān)注

    3

    文章

    399

    瀏覽量

    38708
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280011

原文標(biāo)題:僅用語音,AI 就能“腦補(bǔ)”你的臉! | 技術(shù)頭條

文章出處:【微信號:mcuworld,微信公眾號:嵌入式資訊精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    請問STM32C0的adc精度可以達(dá)到多少?

    STM32C0的adc精度可以達(dá)到多少?
    發(fā)表于 06-09 06:46

    請問STM32C0的adc精度可以達(dá)到多少?

    STM32C0的adc精度可以達(dá)到多少?
    發(fā)表于 06-05 07:53

    直線度測量儀的精度如何評估?

    關(guān)鍵字:直線度測量儀,直線度評估,直線度檢測,直線度校準(zhǔn) 直線度測量儀的精度的評估是一個綜合性的過程,主要可以從以下幾個方面進(jìn)行: 一、直接測量與對比驗(yàn)證 1.標(biāo)準(zhǔn)件測試:使用已知直線度誤差的標(biāo)準(zhǔn)件
    發(fā)表于 04-21 16:26

    鋰電池外殼氣密性檢測儀的檢測精度可以達(dá)到多少

    鋰電池外殼氣密性檢測儀的檢測精度因品牌和型號的不同而有所差異。一些先進(jìn)的檢測儀能夠達(dá)到非常高的檢測精度。例如,某些品牌的鋰電池殼體氣密性檢測儀,其傳感器精度
    的頭像 發(fā)表于 04-17 11:55 ?337次閱讀
    鋰電池外殼氣密性檢測儀的檢測<b class='flag-5'>精度</b><b class='flag-5'>可以</b><b class='flag-5'>達(dá)到</b>多少

    《DNESP32S3使用指南-IDF版_V1.6》第六十章 貓檢測實(shí)驗(yàn)

    第六十章 貓檢測實(shí)驗(yàn) 貓檢測與人臉檢測一樣,也是基于數(shù)字圖像中查找和識別貓。本章,我們使用樂鑫AI庫來實(shí)現(xiàn)貓檢測功能。本章分為如下幾
    發(fā)表于 04-01 09:28

    兼容SiTime,國產(chǎn)溫補(bǔ)晶振應(yīng)用于高精度電子定位器

    兼容SiTime,國產(chǎn)溫補(bǔ)晶振應(yīng)用于高精度電子定位器
    的頭像 發(fā)表于 03-10 09:56 ?387次閱讀
    兼容SiTime,國產(chǎn)溫<b class='flag-5'>補(bǔ)</b>晶振應(yīng)用于高<b class='flag-5'>精度</b>電子定位器

    電偽跡系列之電偽跡處理與技術(shù)剖析

    在上一篇系列文章中了解到,電信號反映大腦神經(jīng)元活動,在神經(jīng)科學(xué)研究、臨床診斷、機(jī)接口等領(lǐng)域應(yīng)用廣泛。但電信號幅值微弱極易受偽跡干擾。這些偽跡降低信號信噪比,增加數(shù)據(jù)變異性,導(dǎo)致實(shí)驗(yàn)結(jié)果
    的頭像 發(fā)表于 03-04 20:24 ?942次閱讀
    <b class='flag-5'>腦</b>電偽跡系列之<b class='flag-5'>腦</b>電偽跡處理與技術(shù)剖析

    影響OTDR測試結(jié)果的因素

    測試參數(shù)設(shè)置 1.1 脈沖寬度 OTDR的脈沖寬度決定了測試的動態(tài)范圍和分辨率。較短的脈沖寬度可以提供更高的分辨率,但會降低動態(tài)范圍;而較長的脈沖寬度則相反。因此,選擇合適的脈沖寬度對于獲得準(zhǔn)確的
    的頭像 發(fā)表于 12-31 09:22 ?956次閱讀

    直線電機(jī)的精度達(dá)到多少?和重復(fù)定位精度一樣嗎

    直線電機(jī)是目前精度非常高的一種電機(jī),精度越高,停止的實(shí)際位置與要求位置之間的誤差值越小,那么直線電機(jī)的精度達(dá)到多少?一般來說,直線電機(jī)可以
    的頭像 發(fā)表于 12-05 16:01 ?1757次閱讀

    ESD HBM測試差異較大的結(jié)果分析

    ESD HBM測試結(jié)果差異較大的原因,通常包括設(shè)備/儀器差異、?校準(zhǔn)和維護(hù)水平不同、?環(huán)境條件差異、?測試樣本差異、?測試操作員技能和經(jīng)驗(yàn)差異以及
    的頭像 發(fā)表于 11-18 15:17 ?1240次閱讀
    ESD HBM<b class='flag-5'>測試</b>差異較大的<b class='flag-5'>結(jié)果</b>分析

    使用ADS1299進(jìn)行電信號采集時采集不到電信號,怎么解決?

    您好!我這邊在使用ADS1299進(jìn)行電信號采集時采集不到電信號,用信號發(fā)生器進(jìn)行測試,能采集到0.5uV左右的正弦波,文檔中是該芯片的原理圖和電極連接方式說明,請問是否有問題?還麻煩指教,謝謝!
    發(fā)表于 11-13 06:52

    “元企智”EPAI:企業(yè)AI應(yīng)用從“手工作坊”到“工廠高精產(chǎn)線”

    消滅“節(jié)后綜合癥”,“元企智”EPAI為職場人送出AI助攻
    的頭像 發(fā)表于 10-09 15:33 ?2482次閱讀
    “元<b class='flag-5'>腦</b>企智”EPAI:企業(yè)<b class='flag-5'>AI</b>應(yīng)用從“手工作坊”到“工廠高精產(chǎn)線”

    使用LMH7322測量脈沖占空比,誤差精度達(dá)到0.1怎么改進(jìn)?

    上圖是我用 LMH7322 高速比較器 測試占空比時輸出的波形 ,測試頻率為:100HZ---5MHZ,誤差精度達(dá)到 0.1 ,未能達(dá)到
    發(fā)表于 08-30 07:44

    視覺檢測精度達(dá)到 0.01 嗎

    在現(xiàn)代工業(yè)生產(chǎn)和質(zhì)量控制領(lǐng)域,視覺檢測技術(shù)因其高效、非接觸式測量等優(yōu)勢而備受青睞。然而,對于許多對精度要求極高的應(yīng)用場景,一個關(guān)鍵的問題是:視覺檢測精度能否達(dá)到 0.01級別?研訊科技旗下分公司蘇州
    的頭像 發(fā)表于 08-22 11:20 ?611次閱讀
    視覺檢測<b class='flag-5'>精度</b>能<b class='flag-5'>達(dá)到</b> 0.01 嗎

    低功耗高精度壓控溫補(bǔ)晶振應(yīng)用方案

    隨著移動衛(wèi)星通信、無線基站、雷達(dá)、儀器儀表和工業(yè)化/自動化等領(lǐng)域的迅速發(fā)展,市場對于低功耗、高精度和高穩(wěn)定性的壓控溫補(bǔ)晶振(VC-TCXO)的需求也越來越高。為滿足這一市場需求,YXC公司推出
    發(fā)表于 08-16 15:45 ?2次下載