一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

RealTalk系統(tǒng)利用文本輸入生成逼近真人聲音 社會影響巨大

電子工程師 ? 來源:yxw ? 2019-05-20 11:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

加拿大創(chuàng)業(yè)公司 Dessa 開發(fā)出一個(gè)語音合成系統(tǒng) RealTalk,與以往基于語音輸入學(xué)習(xí)人聲的系統(tǒng)不同,它可以僅基于文本輸入生成完美逼近真人的聲音。不過,出于倫理、社會影響等方面的考慮,Dessa 并未公布該項(xiàng)目的研究細(xì)節(jié)、模型和數(shù)據(jù)集。

加拿大創(chuàng)業(yè)公司 Dessa 近日發(fā)布了一項(xiàng)新研究:利用其最新開發(fā)的 RealTalk 系統(tǒng),僅利用文本輸入即可生成完美逼近真人的聲音。其 demo 中展示了美國著名脫口秀喜劇演員、主持人 Joe Rogan 的聲音(Joe Rogan 就是那個(gè)讓馬斯克在節(jié)目中嗨了的主持人)。

所有音頻均為機(jī)器學(xué)習(xí)模型使用文本輸入生成的。音頻中包括換氣聲、「um」「ah」等詞語和噪聲。

視頻中,「Joe Rogan」用他一貫的語調(diào)和風(fēng)格,談?wù)摵谛尚汕髑蜿?duì)、快速說繞口令,甚至模擬了一段「Joe Rogan 被人工智能研究者困在機(jī)器中」的情境……

Joe Rogan 本人在聽了模擬音頻后表示:「it's terrifyingly accurate」。有 twitter 網(wǎng)友評論道「你應(yīng)該和 AI Joe Rogan 來一次訪談,lol」……

Joe Rogan 發(fā) ins 表示:「我的立場就是驚訝地聳肩搖頭,然后接受它。未來越來越奇怪了,朋友們?!?/p>

復(fù)制 Rogan 聲音這一項(xiàng)目是由 Dessa 公司機(jī)器學(xué)習(xí)工程師 Hashiam Kadhim、Joe Palermo 和 Rayhane Mama 組成的團(tuán)隊(duì)創(chuàng)造的,他們使用了一個(gè)文本轉(zhuǎn)語音的深度學(xué)習(xí)系統(tǒng) RealTalk,可以僅基于文本輸入生成逼真的語音。

是不是很瘋狂?Dessa 首席機(jī)器學(xué)習(xí)架構(gòu)師 Alex Krizhevsky (是的沒錯(cuò),他就是 AlexNet 的發(fā)明者)認(rèn)為這是「我所看到的人工智能領(lǐng)域最酷也最恐怖的事件之一。與理論上 40100 年后才會出現(xiàn)的奇點(diǎn)不同,語音合成已經(jīng)成為現(xiàn)實(shí)?!挂苍S大家和他的想法是一樣的。

這意味著什么?會產(chǎn)生什么社會影響?

想想看,Dessa 的工程師用 AI 合法地創(chuàng)建了 Joe Rogan 聲音的逼真復(fù)制品,多么不可思議。而且,該模型能夠復(fù)制任何人的聲音,只要能夠獲得足夠的訓(xùn)練數(shù)據(jù)。

而作為構(gòu)建現(xiàn)實(shí)世界應(yīng)用的 AI 從業(yè)者,Dessa 也考慮到了這一點(diǎn):這項(xiàng)技術(shù)會帶來什么影響?

很明顯,語音合成等技術(shù)的社會影響是巨大的。它會影響到每一個(gè)人:不管有錢沒錢,不管是企業(yè)還是政府。

目前,要?jiǎng)?chuàng)建像 RealTalk 這樣性能良好的模型需要技術(shù)知識、獨(dú)創(chuàng)性、計(jì)算能力和數(shù)據(jù)。所以,不是任何人都可以實(shí)現(xiàn)它。但是在接下來的幾年里(甚至更短的時(shí)間內(nèi)),技術(shù)可能會發(fā)展到只需要幾秒鐘的音頻就能復(fù)制出世界上任何人的聲音。

這樣就很恐怖了。

如果這種技術(shù)落入壞人之手,可能會發(fā)生下面的情況:

垃圾郵件發(fā)送者假冒你母親或者愛人來獲取你的個(gè)人信息;

以霸凌或騷擾為目的冒充別人;

冒充政府官員進(jìn)入絕密區(qū)域;

利用政客的「audio deepfake」來操縱選舉或引發(fā)社會暴動;

……

除了消極影響之外,Dessa 也考慮了這項(xiàng)技術(shù)的積極一面。

如果這項(xiàng)技術(shù)被正確利用的話,則:

和語音助手說話的時(shí)候感覺很自然,就像與朋友聊天一樣。

可以定制語音應(yīng)用程序,比如,健身 app 里鼓勵(lì)大家鍛煉的個(gè)性化話語來自阿諾·施瓦辛格。

為只能通過文本-語音設(shè)備進(jìn)行交流的人提供了一種交流選項(xiàng),比如患有盧·格里克病(漸凍人癥,ALS)的人。

用任何語言為任意媒體文件自動配音。

正如牛津大學(xué)人類未來研究所在最近發(fā)布的一份報(bào)告《The Malicious Use of Artificial Intelligence》中所提到的那樣:人工智能領(lǐng)域的進(jìn)步不僅擴(kuò)大了現(xiàn)有威脅,還帶來了新的威脅。

如何從倫理方面考慮來構(gòu)建這個(gè)技術(shù),Dessa 還沒有完全得出答案。但未來幾年里,這項(xiàng)技術(shù)將不可避免地建立起來并應(yīng)用到現(xiàn)實(shí)世界中。因此,除了提高意識和承認(rèn)問題以外,Dessa 表示希望這項(xiàng)研究能夠開啟關(guān)于語音合成技術(shù)的對話和討論。

每個(gè)人都應(yīng)該知道,隨著語音合成技術(shù)的發(fā)展,可能會發(fā)生什么樣的情況。正如 Deepfake 技術(shù)出現(xiàn)時(shí)我們看到的那樣,公眾意識和對話促使政府、政策制定者、立法者迅速采取行動并制定對策。

Dessa 在相關(guān)博客中表示:作為應(yīng)用人工智能公司,Dessa 的一個(gè)重要責(zé)任是,了解在研究領(lǐng)域探索 AI 和在現(xiàn)實(shí)中應(yīng)用 AI 有著巨大的差別。為了負(fù)責(zé)任地對待這種技術(shù),他們認(rèn)為在開源該項(xiàng)目之前,應(yīng)該讓公眾首先意識到語音合成模型的影響。

也因此,Dessa 目前沒有公開研究細(xì)節(jié)、模型或數(shù)據(jù)集。

Dessa 表示后續(xù)將發(fā)布博客,介紹 RealTalk 的工作原理和構(gòu)建過程。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280059
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134637
  • 語音合成技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    2624

原文標(biāo)題:語音版deepfake出現(xiàn):從文本到逼真人聲,被模仿者高呼真得可怕

文章出處:【微信號:smartman163,微信公眾號:網(wǎng)易智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    AN-1436: 利用ADG5412F解決模擬輸入的IEC系統(tǒng)保護(hù)

    電子發(fā)燒友網(wǎng)站提供《AN-1436: 利用ADG5412F解決模擬輸入的IEC系統(tǒng)保護(hù).pdf》資料免費(fèi)下載
    發(fā)表于 01-15 16:27 ?0次下載
    AN-1436: <b class='flag-5'>利用</b>ADG5412F解決模擬<b class='flag-5'>輸入</b>的IEC<b class='flag-5'>系統(tǒng)</b>保護(hù)

    檢索增強(qiáng)型生成(RAG)系統(tǒng)詳解

    流暢且類似人類的文本方面表現(xiàn)出色,但它們有時(shí)在事實(shí)準(zhǔn)確性上存在困難。當(dāng)準(zhǔn)確性非常重要時(shí),這可能是一個(gè)巨大的問題。 那么,這個(gè)問題的解決方案是什么呢?答案是檢索增強(qiáng)型生成(RAG)系統(tǒng)。
    的頭像 發(fā)表于 12-24 10:44 ?1045次閱讀
    檢索增強(qiáng)型<b class='flag-5'>生成</b>(RAG)<b class='flag-5'>系統(tǒng)</b>詳解

    逐次逼近型AD前端運(yùn)放電路如何設(shè)計(jì),運(yùn)放的SNR是否必須比AD的SNR要大才行?

    問題1:逐次逼近型AD芯片內(nèi)部的輸入電阻阻值是不是不太高,一般也就是K歐級別的,并且AD內(nèi)部的輸入電阻阻值會隨采樣率的增加而降低? 問題2:逐次逼近型AD前端運(yùn)放電路如何設(shè)計(jì),運(yùn)放的
    發(fā)表于 12-19 07:34

    OpenAI開放Sora視頻生成模型

    升級,準(zhǔn)備迎接廣大用戶的深入探索與廣泛應(yīng)用。 據(jù)官方公告介紹,Sora Turbo作為Sora的升級版本,具備強(qiáng)大的視頻生成能力。它能夠根據(jù)用戶的文本提示,快速創(chuàng)建出最長達(dá)20秒的高清視頻片段。更令人驚喜的是,Sora Turbo還能針對同一
    的頭像 發(fā)表于 12-10 11:16 ?745次閱讀

    NVIDIA推出全新生成式AI模型Fugatto

    NVIDIA 開發(fā)了一個(gè)全新的生成式 AI 模型。利用輸入文本和音頻,該模型可以創(chuàng)作出包含任意的音樂、人聲
    的頭像 發(fā)表于 11-27 11:29 ?822次閱讀

    圖紙模板中的文本變量

    “ ?文本變量和系統(tǒng)自帶的內(nèi)置變量,可以幫助工程師靈活、高效地配置標(biāo)題欄中的信息,而不用擔(dān)心模板中的文字對象被意外修改。 ? ” 文本變量的語法 文本變量以?${VARIABLENAM
    的頭像 發(fā)表于 11-13 18:21 ?661次閱讀
    圖紙模板中的<b class='flag-5'>文本</b>變量

    生成式AI工具作用

    生成式AI工具是指那些能夠自動生成文本、圖像、音頻、視頻等多種類型數(shù)據(jù)的人工智能技術(shù)。在此,petacloud.ai小編為您整理生成式AI工具作用。
    的頭像 發(fā)表于 10-28 11:19 ?754次閱讀

    如何使用 Llama 3 進(jìn)行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進(jìn)行文本生成,可以通過以下幾種方式實(shí)現(xiàn),取決于你是否愿意在本地運(yùn)行模型或者使用現(xiàn)成的API
    的頭像 發(fā)表于 10-27 14:21 ?1089次閱讀

    AIGC生成內(nèi)容的優(yōu)勢與挑戰(zhàn)

    人工智能生成內(nèi)容(AIGC,Artificial Intelligence Generated Content)是指利用人工智能技術(shù)自動生成文本、圖像、音頻和視頻等內(nèi)容的過程。隨著深度學(xué)習(xí)、自然語言
    的頭像 發(fā)表于 10-25 15:36 ?1798次閱讀

    AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別

    AIGC : 主要面向非結(jié)構(gòu)化數(shù)據(jù)的生成,如自然語言文本、圖像、音頻、視頻等。 這類數(shù)據(jù)規(guī)模更大,內(nèi)在結(jié)構(gòu)更復(fù)雜,對處理技術(shù)提出了更高要求。 傳統(tǒng)內(nèi)容生成 : 主要處理結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫中的
    的頭像 發(fā)表于 10-25 15:13 ?1264次閱讀

    AI大模型的倫理與社會影響

    AI大模型的倫理與社會影響是一個(gè)復(fù)雜且多維度的話題,以下是對其倫理與社會影響的分析: 一、倫理挑戰(zhàn) 數(shù)據(jù)隱私與安全性 AI大模型學(xué)習(xí)通常依賴于大量的個(gè)人數(shù)據(jù)。在收集、處理和使用這些數(shù)據(jù)時(shí),必須確保
    的頭像 發(fā)表于 10-23 15:13 ?1919次閱讀

    tlv320aic3104在測試播放功能時(shí),輸入通道1的聲音輸入通道2的聲音小很多,為什么?如何解決?

    如題。。在測試播放功能時(shí),輸入通道1的聲音輸入通道2的聲音小很多,這是為什么,有什么解決方法嗎?
    發(fā)表于 10-16 08:32

    使用TLV320AIC3204做ADC輸入,如何才能知道實(shí)時(shí)左聲道的聲音輸入

    各位好,我使用TLV320AIC3204做ADC輸入,I2S立體聲輸出,希望做到,當(dāng)左聲道有聲音輸入時(shí),關(guān)閉右聲道的聲音輸入或者將右聲道增
    發(fā)表于 10-15 06:01

    如何讓智能客服像真人一樣對話?容聯(lián)七陌揭秘:多Agent大模型

    人工客服。 智能客服似乎遇到了一道坎,在理解用戶、和用戶對話方面,始終無法實(shí)現(xiàn)真正的“智能”。然而大模型技術(shù)的出現(xiàn),讓智能客服看到了前所未有的曙光——基于大模型特有的生成式技術(shù)和智能的涌現(xiàn),讓智能客服越來越逼近
    的頭像 發(fā)表于 09-26 18:41 ?799次閱讀
    如何讓智能客服像<b class='flag-5'>真人</b>一樣對話?容聯(lián)七陌揭秘:多Agent大模型

    逼近型模數(shù)轉(zhuǎn)換器特點(diǎn)和應(yīng)用

    通過逐步逼近輸入信號的數(shù)值來獲得逼近的數(shù)字輸出。這種轉(zhuǎn)換器以其低功耗、高精度和準(zhǔn)確度高等優(yōu)點(diǎn),在傳感器測量、音頻信號采樣、通信系統(tǒng)等多種應(yīng)用中得到了廣泛應(yīng)用。以下是對逐次
    的頭像 發(fā)表于 07-22 17:00 ?1216次閱讀