一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用語(yǔ)音直接畫(huà)出人臉,AI再添新能力

hl5C_deeptechch ? 來(lái)源:YXQ ? 2019-07-17 09:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

聽(tīng)聲辨人,利用聲紋進(jìn)行解鎖,這種技術(shù)已廣泛應(yīng)用,人類的聲音含有該個(gè)體的一定特征,從而可以進(jìn)行區(qū)分。那么僅通過(guò)聲音,能否畫(huà)出人像,并且盡可能地與講話者相似呢?

近日,卡內(nèi)基梅隆大學(xué)的Yandong Wen 等人,利用生成對(duì)抗網(wǎng)絡(luò)模型(generative adversarial networks, GANs)首次對(duì)這一問(wèn)題作出研究,利用講話者的語(yǔ)音生成一些匹配原說(shuō)話者面部特征的人臉,并用交叉模態(tài)匹配(cross-modal matching task)評(píng)估了模型表現(xiàn),可謂是語(yǔ)音畫(huà)像領(lǐng)域的一大突破

模型框架

一個(gè)人的聲音和骨骼結(jié)構(gòu)、發(fā)聲部位的形狀等特征的確有關(guān),但利用語(yǔ)音直接畫(huà)出人臉,如何做到?

該由聲音重建人臉的模型框架主要由四個(gè)卷積網(wǎng)絡(luò):語(yǔ)音嵌入模型(voice embedding network)、生成器(Generator)、判別器(Discriminator)、分類器(classifier)組成。

語(yǔ)音嵌入模型(voice embedding network)將輸入的語(yǔ)音數(shù)據(jù),梅爾倒頻譜(log mel-spectrograms)轉(zhuǎn)換為含有該聲音特征的向量 e。該模型含有 5 層一維卷積神經(jīng)網(wǎng)絡(luò),每一層均是經(jīng)由卷積核為 3、步長(zhǎng)為 2、padding 為 1 得到,并且都經(jīng)過(guò)歸一化層處理和 ReLU 單元激活,最后經(jīng)過(guò)平均池化得到一個(gè) 64 維的向量。此模型是通過(guò)一個(gè)語(yǔ)音識(shí)別任務(wù)預(yù)先訓(xùn)練得到參數(shù),并且參數(shù)在生成人臉的訓(xùn)練過(guò)程中保持不變。生成器(Generator)輸入為語(yǔ)音嵌入模型產(chǎn)生的向量 e,輸出是人臉 RGB 圖像 f',由 6 層二維反卷積網(wǎng)絡(luò)構(gòu)成,激活函數(shù)采用 ReLU。

判別器(Discriminator)判斷輸入的圖像 f(或 f')是生成器偽造的圖像還是真實(shí)的人臉,如果判斷為偽造圖會(huì)加大損失 Ld。由 6 層激活單元為 Leaky ReLU 的二維卷積網(wǎng)絡(luò)構(gòu)成,最后經(jīng)過(guò)全連接層得到人臉圖像數(shù)據(jù)。

分類器(classifier)用來(lái)將人臉圖像與說(shuō)話者匹配,如果匹配錯(cuò)誤會(huì)加大損失 Lc。該模型由 6 層二維卷積網(wǎng)絡(luò)和一個(gè)全連接層組成。具體的結(jié)構(gòu)如圖表,其中 Conv 3/2,1代表卷積核尺寸為 3,步長(zhǎng)為 2,padding 填充為 1。

圖 | 從聲音重建人臉模型的具體結(jié)構(gòu)。(來(lái)源:Yandong Wen, et al./CMU)模型通過(guò)最小化判別器與分類器的交叉熵?fù)p失 Ld 和 Lc 來(lái)訓(xùn)練,以期得到圖像逼真且符合說(shuō)話者特征的人臉。值得一提的是,此模型的測(cè)試集和訓(xùn)練集以及驗(yàn)證集相互獨(dú)立,即測(cè)試時(shí)的聲音是未聽(tīng)過(guò)的,人臉也未知。

模型表現(xiàn)

不特意挑選那些人臉和真實(shí)講話者完美一致的結(jié)果,一般來(lái)講,該模型的確能輸出具有講話者特征的人臉,即使不完全一模一樣,從種族以及一些其他典型的面部特征來(lái)看,這個(gè)模型的確學(xué)習(xí)到了一些信息,輸出結(jié)果和原講話者非常像,并且語(yǔ)音時(shí)間越長(zhǎng),匹配的特征越多,兩者越類似。

圖 | 從不同時(shí)長(zhǎng)的正常錄音生成人臉的結(jié)果圖,右側(cè)Ref為真實(shí)講話者的不同臉部照片,從上到下的 4 位 Speaker 分別是 Danica McKellar, Cindy Williams, Damian Lewis, and Eva Green. (來(lái)源:Yandong Wen, et al./CMU)當(dāng)然,性別及年齡特征也可以很好地被學(xué)習(xí)到,左側(cè)輸出結(jié)果的年齡和性別與右側(cè)真實(shí)人臉的年齡性別保持一致。在整個(gè)測(cè)試集上,生成圖和真實(shí)講話者性別相同的概率可以達(dá)到 96.5%

圖 | 從性別年齡的人臉重建,(a)是從老年聲音生成的人臉;(b)是男性聲音生成的人臉;(c)是女性聲音生成的人臉。其中左側(cè)為生成圖,右側(cè)為真實(shí)講話者。(來(lái)源:Yandong Wen, et al./CMU)如果用同一個(gè)人的不同語(yǔ)音片段,推測(cè)產(chǎn)生的人臉會(huì)保持相同特征嗎?模型結(jié)果告訴我們,是這樣。選用同一個(gè)講話者的 7 個(gè)不同語(yǔ)音片段,不特意挑選完美結(jié)果,模型所推測(cè)出的大概特征是十分一致的,這也側(cè)面說(shuō)明,模型的確可以從一個(gè)人的語(yǔ)音抽取出一些特征,映射成其臉部的某些特征。

圖 | 利用一個(gè)人的 7 段不同語(yǔ)音重建人臉,左圖(a)是重建的 7 張人臉圖,右圖(b)是對(duì)應(yīng)的真實(shí)人臉在不同情況的照片(來(lái)源:Yandong Wen, et al./CMU)進(jìn)一步來(lái)講,如果從語(yǔ)音中學(xué)到的特征真的可以映射成面部的特征,那么生成人臉圖必定和真實(shí)講話者的臉部是對(duì)應(yīng)匹配的。換句話說(shuō),聲音中的特征可以被生成人臉中蘊(yùn)含的特征替代,那么由聲音重組人臉就變成了人臉識(shí)別問(wèn)題,兩張臉(生成的和真實(shí)的)匹配,那么計(jì)劃可行,這個(gè)匹配率也就成了衡量模型表現(xiàn)的指標(biāo)。在整個(gè)訓(xùn)練集和測(cè)試集上,該模型的匹配率分別是 96.83% 和 76.07%;將訓(xùn)練集和測(cè)試集按照性別分層,排除性別這一特征的助力,也就是直接比較同一性別上,生成的人臉和講話者是否相像,匹配率在訓(xùn)練集和測(cè)試集上分別是 93.98%和 59.69%,這也證明了模型所學(xué)到的信息不僅僅是性別,還有其他更詳細(xì)的面部特征。該模型表現(xiàn)不僅優(yōu)于 DIMNets-G,同時(shí),測(cè)試集表現(xiàn)不如訓(xùn)練集,說(shuō)明模型還有很大提升空間。

圖 | 不同模型在性別分層以及不分層的數(shù)據(jù)集上的表現(xiàn)。(來(lái)源:Yandong Wen, et al./CMU)

展望

該模型雖然表現(xiàn)尚佳,但仍有可提升的地方,比如頭發(fā)和圖像背景等與聲音無(wú)關(guān)的特征,可以進(jìn)行數(shù)據(jù)清洗將其去除,而有一些明顯與發(fā)聲有關(guān)的面部特征也可以加以利用,從而模型會(huì)更加精確。

總的來(lái)說(shuō),由音生貌,語(yǔ)音畫(huà)像問(wèn)題的一塊空白得到了填補(bǔ)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280015
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    2209

    瀏覽量

    76824

原文標(biāo)題:僅聽(tīng)聲音就畫(huà)出人臉,GAN再添新能力

文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【嘉楠堪智K230開(kāi)發(fā)板試用體驗(yàn)】K230 AI 功能體驗(yàn)

    。K230 的KPU支持INT8和INT16, 典型網(wǎng)絡(luò)下實(shí)測(cè)推理能力可達(dá)K210的13.7倍,MAC利用率超70%。 同時(shí)K230提供了大量的AI視覺(jué)例程、包含:人體識(shí)別、物體檢測(cè)、目標(biāo)跟蹤等多種場(chǎng)合
    發(fā)表于 07-15 15:24

    小智AI正式授權(quán)!安信可小安派語(yǔ)音AI開(kāi)發(fā)板更新啦

    安信可正式推出 語(yǔ)音AI開(kāi)發(fā)板—— AiPi-PalChatV1 為毛絨玩具、桌搭機(jī)器人、 陪伴手辦注入更有溫度的AI對(duì)話體驗(yàn)! ? AiPi-PalChatV1 是一款接入了小智AI
    的頭像 發(fā)表于 07-15 15:06 ?109次閱讀
    小智<b class='flag-5'>AI</b>正式授權(quán)!安信可小安派<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>AI</b>開(kāi)發(fā)板更新啦

    最新人工智能硬件培訓(xùn)AI基礎(chǔ)入門學(xué)習(xí)課程參考2025版(離線AI語(yǔ)音視覺(jué)識(shí)別篇)

    端側(cè)離線 AI 智能硬件作為 AI 技術(shù)的重要載體之一,憑借其無(wú)需依賴網(wǎng)絡(luò)即可實(shí)現(xiàn)智能功能的特性,在一些網(wǎng)絡(luò)條件受限或?qū)?shù)據(jù)隱私有較高要求的場(chǎng)景中,發(fā)揮著不可或缺的作用。本章基于CSK6大模型語(yǔ)音
    發(fā)表于 07-04 11:14

    OBOO鷗柏丨AI數(shù)字人觸摸屏查詢觸控人臉識(shí)別語(yǔ)音交互一體機(jī)上市

    OBOO鷗柏丨AI數(shù)字人觸摸屏查詢觸控人臉識(shí)別語(yǔ)音交互一體機(jī)上市分析OBOO鷗柏品牌推出的AI數(shù)字人觸摸屏查詢觸控人臉識(shí)別
    的頭像 發(fā)表于 05-21 20:22 ?299次閱讀
    OBOO鷗柏丨<b class='flag-5'>AI</b>數(shù)字人觸摸屏查詢觸控<b class='flag-5'>人臉</b>識(shí)別<b class='flag-5'>語(yǔ)音</b>交互一體機(jī)上市

    NRK3301 AI語(yǔ)音芯片:玩具語(yǔ)音交互革新方案

    玩具AI語(yǔ)音芯片開(kāi)發(fā)在玩具智能化浪潮中,九芯電子的NRK3301AI語(yǔ)音芯片憑借卓越性能與獨(dú)特藍(lán)牙連接功能,為玩具行業(yè)帶來(lái)創(chuàng)新應(yīng)用方案,重塑玩具與用戶的互動(dòng)模式。一、NRK3301芯片
    的頭像 發(fā)表于 05-09 13:49 ?252次閱讀
    NRK3301 <b class='flag-5'>AI</b><b class='flag-5'>語(yǔ)音</b>芯片:玩具<b class='flag-5'>語(yǔ)音</b>交互革新方案

    90元打造小智AI腕表,語(yǔ)音交互超有趣!

    的右下方。所以,方便左手?jǐn)y帶。設(shè)計(jì)這個(gè)助手的初衷,就是下班途中,可以和AI聊聊未盡事宜,問(wèn)問(wèn)技術(shù)、問(wèn)問(wèn)天氣,如果AI回答不盡滿意,直接觸摸屏幕,打斷他。 背面視圖 TYPE-C 口,可以充電、固件
    發(fā)表于 04-16 14:26

    上線!國(guó)產(chǎn)AI語(yǔ)音開(kāi)發(fā)板,定制你的聊天伙伴助手,可直接調(diào)用DeepSeek/豆包/通義千問(wèn)

    AiPi-PalChatV1 ,可直接調(diào)用三大國(guó)產(chǎn)AI模型(DeepSeek/豆包/通義千問(wèn)),輕松實(shí)現(xiàn)自然語(yǔ)言交互。 01概述 AiPi-PalChatV1 是一款接入了 小智 AI 智能體 的微型
    的頭像 發(fā)表于 04-15 17:11 ?431次閱讀
    上線!國(guó)產(chǎn)<b class='flag-5'>AI</b><b class='flag-5'>語(yǔ)音</b>開(kāi)發(fā)板,定制你的聊天伙伴助手,可<b class='flag-5'>直接</b>調(diào)用DeepSeek/豆包/通義千問(wèn)

    安信可AI人臉識(shí)別方案

    作為神仙世界的高科技,"無(wú)接觸式開(kāi)鎖",人臉識(shí)別技術(shù)也被廣泛應(yīng)用在現(xiàn)代生活中,安信可也有AI人臉識(shí)別方案!
    的頭像 發(fā)表于 02-25 14:39 ?432次閱讀
    安信可<b class='flag-5'>AI</b><b class='flag-5'>人臉</b>識(shí)別方案

    芯波微電子突發(fā)模式跨阻放大器產(chǎn)品家族新成員

    近日,芯波微電子的50G線性突發(fā)模式跨阻放大器XB1251在客戶測(cè)試中得到業(yè)界一流性能。芯波微電子的突發(fā)模式跨阻放大器家族(XB12產(chǎn)品族)重要新成員!???
    的頭像 發(fā)表于 02-24 17:21 ?624次閱讀

    大聯(lián)大推出基于MediaTek Genio 130與ChatGPT的AI語(yǔ)音助理方案

    ,為市場(chǎng)帶來(lái)了全新的智能交互體驗(yàn)。 該AI語(yǔ)音助理方案充分利用了MediaTek Genio 130芯片的強(qiáng)大性能與ChatGPT的先進(jìn)人工智能技術(shù)。MediaTek Genio 130芯片作為聯(lián)發(fā)
    的頭像 發(fā)表于 12-11 11:07 ?837次閱讀

    九芯電子NRK330X系列:智能AI用語(yǔ)音識(shí)別芯片

    、調(diào)節(jié)還是關(guān)機(jī),用戶只需簡(jiǎn)單口述,便能輕松完成操作。NRK330X系列:AI人機(jī)交互的高性能語(yǔ)音芯片2022年,九芯電子推出了高性能、低成本語(yǔ)音識(shí)別芯片NRK330X
    的頭像 發(fā)表于 11-19 01:00 ?725次閱讀
    九芯電子NRK330X系列:智能<b class='flag-5'>AI</b>專<b class='flag-5'>用語(yǔ)音</b>識(shí)別芯片

    《DNK210使用指南 -CanMV版 V1.0》第四十五章 人臉識(shí)別實(shí)驗(yàn)

    第四十五章 人臉識(shí)別實(shí)驗(yàn) 在上一章節(jié)中,介紹了利用maix.KPU模塊實(shí)現(xiàn)了人臉68關(guān)鍵點(diǎn)檢測(cè),本章將繼續(xù)介紹利用maix.KPU模塊實(shí)現(xiàn)的人臉
    發(fā)表于 11-18 14:30

    《DNK210使用指南 -CanMV版 V1.0》第四十四章 人臉68關(guān)鍵點(diǎn)檢測(cè)實(shí)驗(yàn)

    第四十四章 人臉68關(guān)鍵點(diǎn)檢測(cè)實(shí)驗(yàn) 在上一章節(jié)中,介紹了利用maix.KPU模塊實(shí)現(xiàn)了人臉屬性分析,本章將繼續(xù)介紹利用maix.KPU模塊實(shí)現(xiàn)的人臉
    發(fā)表于 11-18 14:28

    深度識(shí)別人臉識(shí)別在任務(wù)中為什么有很強(qiáng)大的建模能力

    深度學(xué)習(xí)人臉識(shí)別技術(shù)是人工智能領(lǐng)域中的一個(gè)重要分支,它利用深度學(xué)習(xí)算法來(lái)識(shí)別和驗(yàn)證人臉。這項(xiàng)技術(shù)在近年來(lái)取得了顯著的進(jìn)展,其強(qiáng)大的建模能力主要得益于以下幾個(gè)方面: 數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)方式
    的頭像 發(fā)表于 09-10 14:53 ?842次閱讀

    如何利用AI進(jìn)行提升自我呢?

    利用AI進(jìn)行學(xué)習(xí)是一個(gè)高效且富有創(chuàng)新性的過(guò)程。以下是一些建議,幫助你充分利用AI進(jìn)行學(xué)習(xí): 選擇適合的AI學(xué)習(xí)工具 : 深度學(xué)習(xí)框架 :如飛
    的頭像 發(fā)表于 07-19 10:46 ?1149次閱讀