一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

借助深度學習算法實現(xiàn)5秒內(nèi)克隆你的聲音

Android編程精選 ? 來源:開源前線整理 ? 作者:開源前線整理 ? 2021-09-29 11:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大家應(yīng)該都知道聲音克隆技術(shù),通俗的來說就是借助深度學習算法,可以完全模擬某個人的聲音,而且由機器合成的語音連情緒都能夠完美表達出來,基本可以以假亂真,只要不見面,你根本就察覺不出來向你發(fā)出聲音的知識一個機器。

語音克隆最大的創(chuàng)新之一是減少創(chuàng)建語音所需的原始數(shù)據(jù)量。過去,該系統(tǒng)需要數(shù)十甚至數(shù)百小時的音頻。但是,今天猿妹要和大家分享的這個工具5秒鐘就可以克隆成功,這個工具名叫——MockingBird。

MockingBird已經(jīng)登上Github熱榜,收獲3.5K的Star,累計分支 303(Github地址:https://github.com/babysor/MockingBird)

MockingBird具有如下特性:

支持普通話并使用多種中文數(shù)據(jù)集進行測試

適用于 pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中測試,GPU Tesla T4 和 GTX 2060

支持 Windows + Linux

僅使用新訓練的合成器(synthesizer)就有良好效果,復用預訓練的編碼器/聲碼器

MockingBird如何使用

MockingBird的安裝要求如下:

首先,MockingBird需要Python 3.7 或更高版本

安裝 PyTorch

安裝 ffmpeg。

運行pip install -r requirements.txt 來安裝剩余的必要包。

安裝 webrtcvad 用 pip install webrtcvad-wheels。

接著,你需要使用數(shù)據(jù)集訓練合成器:

下載 數(shù)據(jù)集并解壓:確保您可以訪問 train 文件夾中的所有音頻文件(如.wav)

使用音頻和梅爾頻譜圖進行預處理:python synthesizer_preprocess_audio.py 《datasets_root》 可以傳入?yún)?shù) --dataset {dataset} 支持 adatatang_200zh, magicdata, aishell3

預處理嵌入:python synthesizer_preprocess_embeds.py 《datasets_root》/SV2TTS/synthesizer

訓練合成器:python synthesizer_train.py mandarin 《datasets_root》/SV2TTS/synthesizer

當你在訓練文件夾 synthesizer/saved_models/ 中看到注意線顯示和損失滿足您的需要時,請轉(zhuǎn)到下一步。

使用預先訓練好的合成器,如果沒有設(shè)備或者不想慢慢調(diào)試,可以使用網(wǎng)友貢獻的模型。

訓練聲碼器

預處理數(shù)據(jù): python vocoder_preprocess.py 《datasets_root》

訓練聲碼器: python vocoder_train.py mandarin 《datasets_root》

啟動工具箱

然后你可以嘗試使用工具箱:python demo_toolbox.py -d 《datasets_root》

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3688

    瀏覽量

    43828
  • 克隆
    +關(guān)注

    關(guān)注

    0

    文章

    22

    瀏覽量

    7927
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122794

原文標題:5秒內(nèi)克隆你的聲音,并生成任何內(nèi)容,這個工具細思極恐...還特么的開源~

文章出處:【微信號:AndroidPush,微信公眾號:Android編程精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    正點原子 AI BOX0 智能伴侶,1.54寸高清屏+長效續(xù)航,語音暢聊,情景對話,知識科普,多色可選,隨身攜帶!

    ! ③ 聲音克隆黑科技:錄制聲音,定制專屬家人的聲音,異地也能溫暖相伴! 全場景覆蓋的神器 ① 學習加速器:孩子作業(yè)輔導、英語對話練習、百科
    發(fā)表于 04-24 16:11

    SDK如何控制DLP4500在一秒內(nèi)投影60張圖片?

    如何利用SDK進行二次開發(fā),實現(xiàn)的功能為,控制DLP4500在一秒內(nèi)投影60張圖片,相機(灰點)同步拍攝。請問可以提供一下參考程序代碼嗎?
    發(fā)表于 02-25 07:58

    軍事應(yīng)用中深度學習的挑戰(zhàn)與機遇

    人工智能尤其是深度學習技術(shù)的最新進展,加速了不同應(yīng)用領(lǐng)域的創(chuàng)新與發(fā)展。深度學習技術(shù)的發(fā)展深刻影響了軍事發(fā)展趨勢,導致戰(zhàn)爭形式和模式發(fā)生重大變化。本文將概述
    的頭像 發(fā)表于 02-14 11:15 ?538次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與深度學習的關(guān)系

    ),是一種多層前饋神經(jīng)網(wǎng)絡(luò),它通過反向傳播算法進行訓練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、一個或多個隱藏層和輸出層組成,通過逐層遞減的方式調(diào)整網(wǎng)絡(luò)權(quán)重,目的是最小化網(wǎng)絡(luò)的輸出誤差。 二、深度學習的定義與發(fā)展
    的頭像 發(fā)表于 02-12 15:15 ?855次閱讀

    NPU與機器學習算法的關(guān)系

    在人工智能領(lǐng)域,機器學習算法實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度
    的頭像 發(fā)表于 11-15 09:19 ?1216次閱讀

    NPU在深度學習中的應(yīng)用

    設(shè)計的硬件加速器,它在深度學習中的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學習算法優(yōu)化的處理器,它與傳統(tǒng)的CPU和G
    的頭像 發(fā)表于 11-14 15:17 ?1911次閱讀

    一種基于深度學習的二維拉曼光譜算法

    近日,天津大學精密儀器與光電子工程學院的光子芯片實驗室提出了一種基于深度學習的二維拉曼光譜算法,成果以“Rapid and accurate bacteria identification
    的頭像 發(fā)表于 11-07 09:08 ?737次閱讀
    一種基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的二維拉曼光譜<b class='flag-5'>算法</b>

    Pytorch深度學習訓練的方法

    掌握這 17 種方法,用最省力的方式,加速的 Pytorch 深度學習訓練。
    的頭像 發(fā)表于 10-28 14:05 ?655次閱讀
    Pytorch<b class='flag-5'>深度</b><b class='flag-5'>學習</b>訓練的方法

    GPU深度學習應(yīng)用案例

    GPU在深度學習中的應(yīng)用廣泛且重要,以下是一些GPU深度學習應(yīng)用案例: 一、圖像識別 圖像識別是深度學習
    的頭像 發(fā)表于 10-27 11:13 ?1363次閱讀

    FPGA加速深度學習模型的案例

    :DE5Net_Conv_Accelerator 應(yīng)用場景 :面向深度學習的開源項目,實現(xiàn)了AlexNet的第一層卷積運算加速。 技術(shù)特點 : 采用了Verilog語言進行編程,與P
    的頭像 發(fā)表于 10-25 09:22 ?1229次閱讀

    AI大模型與深度學習的關(guān)系

    人類的學習過程,實現(xiàn)對復雜數(shù)據(jù)的學習和識別。AI大模型則是指模型的參數(shù)數(shù)量巨大,需要龐大的計算資源來進行訓練和推理。深度學習
    的頭像 發(fā)表于 10-23 15:25 ?2887次閱讀

    用TPA3112設(shè)計的一個音頻功放電路,上電1-3后就沒有聲音輸出了,怎么解決?

    用TPA3112設(shè)計的一個音頻功放電路 輸入采用差分的,后來把1個輸入接地,變成了單端的了 問題很奇怪 接信號發(fā)生器,上電后,1-3秒內(nèi)有音頻輸出,能夠聽到聲音 然后就沒有聲音了 FAULT輸出低 折騰了很久,望高手指點一二
    發(fā)表于 10-12 07:17

    FPGA做深度學習能走多遠?

    。FPGA的優(yōu)勢就是可編程可配置,邏輯資源多,功耗低,而且賽靈思等都在極力推廣。不知道用FPGA做深度學習未來會怎樣發(fā)展,能走多遠,怎么看。 A:FPGA 在深度
    發(fā)表于 09-27 20:53

    深度識別算法包括哪些內(nèi)容

    :CNN是深度學習中處理圖像和視頻等具有網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的主要算法。它通過卷積層、池化層和全連接層等組件,實現(xiàn)對圖像特征的自動提取和識別。 應(yīng)用領(lǐng)域 :CNN在圖像識別、目標檢測、視頻分
    的頭像 發(fā)表于 09-10 15:28 ?841次閱讀

    基于大數(shù)據(jù)與深度學習的穿戴式運動心率算法

    性能的關(guān)鍵手段。然而,在復雜多變的運動環(huán)境中,準確測量心率數(shù)據(jù)對于傳統(tǒng)算法而言具有較大的技術(shù)瓶頂。本文將探討如何運用大數(shù)據(jù)和深度學習技術(shù)來開發(fā)創(chuàng)新的穿戴式運動心率算
    的頭像 發(fā)表于 09-10 08:03 ?643次閱讀
    基于大數(shù)據(jù)與<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的穿戴式運動心率<b class='flag-5'>算法</b>