欧洲一区二区在线,国产精品一区二区AV白丝,国产一区二区在线高清

NVIDIA 開發(fā)了一個全新的生成式 AI 模型。利用輸入的文本和音頻，該模型可以創(chuàng)作出包含任意的音樂、人聲和聲音組合的作品。

一個生成式 AI 研究團隊創(chuàng)造了一把如同瑞士軍刀般多功能的聲音工具，支持用戶只需使用文本就能控制輸出的音頻。

雖然一些 AI 模型可以譜曲或修音，但沒有一個能在靈活性上媲美這個新模型。

根據(jù)由任意的文本和音頻文件組合所構(gòu)成的提示詞，這個名為 Fugatto（Foundational Generative Audio Transformer Opus 1 的縮寫）的模型，可以生成或轉(zhuǎn)換由任意的音樂、人聲和聲音所構(gòu)成的作品。

例如，它可以根據(jù)文本提示創(chuàng)作音樂片段、在現(xiàn)有歌曲中刪除或添加樂器、改變?nèi)寺暤目谝艋蚯榫w，甚至讓人們發(fā)出從未聽過的聲音。

One Take Audio 公司是 NVIDIA 初創(chuàng)加速計劃的成員。該公司的聯(lián)合創(chuàng)始人、曾推出過多張白金唱片的制作人兼詞曲創(chuàng)作人 Ido Zmishlany 表示：“這太瘋狂了！聲音是我的靈感源泉，是我創(chuàng)作音樂的原動力。我可以在錄音室里隨心所欲地創(chuàng)造出全新的聲音，這完全突破了人們的想象?！?/p>

準(zhǔn)確掌控音頻

NVIDIA 應(yīng)用音頻研究經(jīng)理 Rafael Valle 表示：“我們希望創(chuàng)建一個能夠像人類一樣理解和創(chuàng)作聲音的模型。”Rafael Valle 是 Fugatto 背后的十幾個開發(fā)者之一，同時也是一位管弦樂指揮家和作曲家。

Fugatto 可支持眾多音頻生成和轉(zhuǎn)換任務(wù)，是首個展現(xiàn)了新能力（即各種經(jīng)過訓(xùn)練的能力相互作用所產(chǎn)生的新能力）并能夠整合自由格式指令的基礎(chǔ)性生成式 AI 模型。

Valle 說：“Fugatto 是我們邁向未來的第一步。未來，音頻合成與轉(zhuǎn)換中的無監(jiān)督多任務(wù)學(xué)習(xí)將從數(shù)據(jù)和模型規(guī)模中產(chǎn)生。”

使用場景示例

例如，音樂制作人可以使用 Fugatto 來快速地制作歌曲原型或編輯歌曲創(chuàng)意，嘗試不同的風(fēng)格、人聲和樂器。他們還可以添加音效，提高現(xiàn)有曲目的整體音質(zhì)。

Zmishlany 說：“音樂發(fā)展史也是一部技術(shù)發(fā)展史。電吉他為我們帶來了搖滾樂。采樣器的出現(xiàn)催生了嘻哈音樂。AI 正在開啟音樂的新篇章。這個新的音樂創(chuàng)作工具令人超級興奮?！?/p>

廣告公司可以使用 Fugatto，針對多個地區(qū)或多種情形快速地修改現(xiàn)有的營銷活動素材，在配音中采用不同的口音和情感。

通過使用說話者所選擇的任何人聲，語言學(xué)習(xí)工具可以實現(xiàn)個性化。試想一下，在線課程以某個家庭成員或朋友的特定聲音進行。

電子游戲開發(fā)人員可以使用該模型來修改游戲中預(yù)先錄制的音頻資料，以適應(yīng)用戶玩游戲時不斷變化的行為?；蛘?，他們可以根據(jù)文字說明和可選的音頻輸入來即時地創(chuàng)建新的音頻資料。

制造令人喜悅的聲音

Valle 說道：“在該模型中，特別讓我們引以為豪的是一個稱之為‘鱷梨椅’的功能?！摈{梨椅是一個由針對成像的生成式 AI 模型所創(chuàng)建的新穎的視覺效果。

例如，F(xiàn)ugatto 可以讓小號發(fā)出“汪汪”的狗叫聲，或者讓薩克斯管發(fā)出“喵喵”的貓叫聲。只要用戶能描述出來，該模型就能創(chuàng)造出來。

研究人員發(fā)現(xiàn)，只需微調(diào)和少量歌唱數(shù)據(jù)，它就可以處理未經(jīng)預(yù)訓(xùn)練的任務(wù)，比如根據(jù)文本提示來生成高質(zhì)量的歌聲。

用戶獲得藝術(shù)控制權(quán)

除了這些新穎之處，F(xiàn)ugatto 還添加了多項功能。

在推理過程中，該模型使用一種名為 ComposableART 的技術(shù)，將訓(xùn)練過程中只能單獨看到的指令組合在一起。例如，一組提示詞可以要求它用法語口音說出帶有悲傷情緒的文字。

該模型能夠在指令之間插入內(nèi)容，這讓用戶能夠精細地控制文本指令。在這種情況下，用戶可以控制口音的輕重或悲傷的程度。

為該模型設(shè)計了相關(guān)功能的 AI 研究員 Rohan Badlani 表示：“我想讓用戶可以以主觀或藝術(shù)化的方式整合各種屬性，并能夠選擇他們對每個屬性的側(cè)重點?！?/p>

Badlani 說：“在我進行的測試中，結(jié)果常常出人意料，讓我覺得自己有點像藝術(shù)家，盡管我是一名計算機專家。”Badlani 擁有斯坦福大學(xué)計算機科學(xué)碩士學(xué)位，主攻人工智能。

這個模型還能生成隨著時間的推移而不斷變化的聲音，他把這種功能稱為時間插值。例如，它可以產(chǎn)生暴雨經(jīng)過某個區(qū)域的聲音，雷聲逐漸增大，然后慢慢地消失在遠方。它還能讓用戶精細地控制聲景的演變。

此外，大多數(shù)模型只能重現(xiàn)它們所接觸過的訓(xùn)練數(shù)據(jù)，而 Fugatto 則不同，它讓用戶能夠創(chuàng)建從未見過的聲景，例如雷雨隨著黎明的來臨逐漸停歇并伴隨著鳥鳴聲。

內(nèi)在機理

Fugatto 是一個基礎(chǔ)性生成式 Transformer 模型，其源自該團隊之前在諸多領(lǐng)域的研究成果，例如語音建模、音頻聲音編碼和音頻理解等。

模型的完整版使用了 25 億個參數(shù)，并在一系列配備 32 塊 NVIDIA Hopper Tensor Core GPU 的 NVIDIA DGX 系統(tǒng)上進行了訓(xùn)練。

Fugatto 是由一群來自印度、巴西、中國、約旦和韓國等世界各地的人員共同開發(fā)的。他們的通力合作使 Fugatto 的多口音和多語言功能更加強大。

在開發(fā)該模型的過程中，其中一項最困難的工作是生成一個混合數(shù)據(jù)集，該數(shù)據(jù)集包含了數(shù)百萬個用于訓(xùn)練的音頻樣本。在生成數(shù)據(jù)和指令時，該團隊采用了多方面的策略，這大大地擴展了模型可執(zhí)行的任務(wù)范圍，同時實現(xiàn)了更精準(zhǔn)的性能，并且無需額外數(shù)據(jù)即可完成新任務(wù)。

這些開發(fā)人員還仔細地研究了現(xiàn)有數(shù)據(jù)集，以揭示數(shù)據(jù)之間的新關(guān)系。整個工作持續(xù)了一年多。

Valle 提到了兩個重要時刻，它們讓團隊意識到自己走在正確的路上。他說：“它第一次根據(jù)提示詞成功地生成音樂時，我們都驚呆了。”

后來，團隊演示了 Fugatto 根據(jù)提示詞而創(chuàng)作出電子音樂，其中的狗叫聲實現(xiàn)了與節(jié)拍同步。

“當(dāng)大家捧腹大笑時，我的心里真的感到很溫暖。”

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5309

瀏覽量
106355
模型

模型

+關(guān)注

關(guān)注
1

文章
3519

瀏覽量
50411
生成式AI

生成式AI

+關(guān)注

關(guān)注
0

文章
531

瀏覽量
812

原文標(biāo)題：世界上最靈活的聲音機器面市

文章出處：【微信號：NVIDIA_China，微信公眾號：NVIDIA英偉達】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

NVIDIA推出全新生成式AI模型Fugatto

評論