一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

一款AI模型Foley Music,它可以根據(jù)演奏手勢完美還原樂曲原聲!

傳感器技術 ? 來源:雷鋒網(wǎng) ? 2020-08-14 14:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

不會樂器也可以玩的很嗨 ”

會玩樂器的人在生活中簡直自帶光環(huán)!

不過,學會一門樂器也真的很難,多少人陷入過從入門到放棄的死循環(huán)。

但是,不會玩樂器,就真的不能演奏出好聽的音樂了嗎?

最近,麻省理工(MIT)聯(lián)合沃森人工智能實驗室(MIT-IBM Watson AI Lab)共同開發(fā)出了一款AI模型Foley Music,它可以根據(jù)演奏手勢完美還原樂曲原聲!

而且還是不分樂器的那種,小提琴、鋼琴、尤克里里、吉他,統(tǒng)統(tǒng)都可以。

只要拿起樂器,就是一場專業(yè)演奏會!如果喜歡不同音調(diào),還可以對音樂風格進行編輯,A調(diào)、F調(diào)、G調(diào)均可。

這項名為《Foley Music:Learning to Generate Music from Videos》的技術論文已被ECCV 2020收錄。

接下來,我們看看AI模型是如何還原音樂的?

1

會玩多種樂器的Foley Music

如同為一段舞蹈配樂需要了解肢體動作、舞蹈風格一樣,為樂器演奏者配樂,同樣需要知道其手勢、動作以及所用樂器。

如果給定一段演奏視頻,AI會自動鎖定目標對象的身體關鍵點(Body Keypoints),以及演奏的樂器和聲音。

身體關鍵點:由AI系統(tǒng)中的視覺感知模塊(Visual Perception Model)來完成。它會通過身體姿勢和手勢的兩項指標來反饋。一般身體會提取25個關2D點,手指提起21個2D點。

樂器聲音提?。翰捎?a target="_blank">音頻表征模塊(Audio Representation Model),該模塊研究人員提出了一種樂器數(shù)字化接口(Musical Instrument Digital Interface,簡稱MIDI)的音頻表征形式。它是Foley Music區(qū)別于其他模型的關鍵。

研究人員介紹,對于一個6秒中的演奏視頻,通常會生成大約500個MIDI事件,這些MIDI事件可以輕松導入到標準音樂合成器以生成音樂波形。

在完成信息提取和處理后,接下來,視-聽模塊(Visual-Audio Model)將整合所有信息并轉(zhuǎn)化,生成最終相匹配的音樂。

我們先來看一下它完整架構(gòu)圖:主要由視覺編碼,MIDI解碼和MIDI波形圖輸出三個部分構(gòu)成。

視覺編碼:將視覺信息進行編碼化處理,并傳遞給轉(zhuǎn)換器MIDI解碼器。從視頻幀中提取關鍵坐標點,使用GCN(Graph-CNN)捕獲人體動態(tài)隨時間變化產(chǎn)生的潛在表示。

MIDI解碼器:通過Graph-Transfomers完成人體姿態(tài)特征和MIDI事件之間的相關性進行建模。Transfomers是基于編解碼器的自回歸生成模型,主要用于機器翻譯。在這里,它可以根據(jù)人體特征準確的預測MIDI事件的序列。

MIDI輸出:使用標準音頻合成器將MIDI事件轉(zhuǎn)換為最終的波形。

2

實驗結(jié)果

研究人員證實Foley Music遠優(yōu)于現(xiàn)有其他模型。在對比試驗中,他們采用了三種數(shù)據(jù)集對Foley Music進行了訓練,并選擇了9中樂器,與其它GAN-based、SampleRNN和WaveNet三種模型進行了對比評估。

其中,數(shù)據(jù)集分別為AtinPiano、MUSIC及URMP,涵蓋了超過11個類別的大約1000個高質(zhì)量的音樂演奏視頻。樂器則為風琴,貝斯,巴松管,大提琴,吉他,鋼琴,大號,夏威夷四弦琴和小提琴,其視頻長度均為6秒。以下為定量評估結(jié)果:

可見,F(xiàn)oley Music模型在貝斯(Bass)樂器演奏的預測性能最高達到了72%,而其他模型最高僅為8%。

另外,從以下四個指標來看,結(jié)果更為突出:

正確性:生成的歌曲與視頻內(nèi)容之間的相關性。

噪音:音樂噪音最小。

同步性:歌曲在時間上與視頻內(nèi)容最一致。

黃色為Foley Music模型,它在各項指標上的性能表現(xiàn)遠遠超過了其他模型,在正確性、噪音和同步性三項指標上最高均超過了0.6,其他最高不足0.4,且9種樂器均是如此。

另外,研究人員還發(fā)現(xiàn),與其他基準系統(tǒng)相比,MIDI事件有助于改善聲音質(zhì)量,語義對齊和時間同步。

說明

GAN模型:它以人體特征為輸入,通過鑒別其判定其姿態(tài)特征所產(chǎn)生的頻譜圖是真或是假,經(jīng)過反復訓練后,通過傅立葉逆變換將頻譜圖轉(zhuǎn)換為音頻波形。

SampleRNN:是無條件的端到端的神經(jīng)音頻生成模型,它相較于WaveNet結(jié)構(gòu)更簡單,在樣本級層面生成語音要更快。

WaveNet:是谷歌Deepmind推出一款語音生成模型,在text-to-speech和語音生成方面表現(xiàn)很好。

另外,該模型的優(yōu)勢還在于它的可擴展性。MIDI表示是完全可解釋和透明的,因此可以對預測的MIDI序列進行編輯,以生成AGF調(diào)不同風格音樂。如果使用波形或者頻譜圖作為音頻表示形式的模型,這個功能是不可實現(xiàn)的。

最后研究人員在論文中表明,此項研究通過人體關鍵點和MIDI表示很好地建立視覺和音樂信號之間的相關性,實現(xiàn)了音樂風格的可拓展性。為當前研究視頻和音樂聯(lián)系拓展出了一種更好的研究路徑。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    88

    文章

    35164

    瀏覽量

    279938
  • 人工智能
    +關注

    關注

    1806

    文章

    49028

    瀏覽量

    249516
  • 模型
    +關注

    關注

    1

    文章

    3521

    瀏覽量

    50425

原文標題:只看手勢動作,就能完美復現(xiàn)音樂,MIT聯(lián)合沃森實驗室團隊推出最新AI,多種高難度樂器信手拈來!

文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AlphaEvolve:一款基于Gemini的編程Agent,用于設計高級算法

    構(gòu)思創(chuàng)新理念。如今,Google 進步擴展這些能力,將其應用于解決數(shù)學基礎領域和現(xiàn)代計算中高度復雜的難題。 AlphaEvolve 是一款由大語言模型驅(qū)動的進化式編程代理,致力于通用算法的發(fā)現(xiàn)與優(yōu)化。該平臺將 Gemini
    的頭像 發(fā)表于 05-19 11:19 ?981次閱讀
    AlphaEvolve:<b class='flag-5'>一款</b>基于Gemini的編程Agent,用于設計高級算法

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應手

    模型、通義千問、混元等多種先進端側(cè)大模型,還包含視覺、語言、多模態(tài)等多種多樣的大模型,開發(fā)者可以通過Gen-AI Model Hub
    發(fā)表于 04-13 19:52

    AI眼鏡大模型激戰(zhàn):多大模型協(xié)同、交互時延低至1.3S

    AI模型的深度融合,場技術演進與場景革命正在悄然進行。 ? ? 一款眼鏡搭載多個大模型AI
    的頭像 發(fā)表于 03-20 08:59 ?1292次閱讀
    <b class='flag-5'>AI</b>眼鏡大<b class='flag-5'>模型</b>激戰(zhàn):多大<b class='flag-5'>模型</b>協(xié)同、交互時延低至1.3S

    AI Agent 應用與項目實戰(zhàn)》----- 學習如何開發(fā)視頻應用

    AI助手”功能。 根據(jù)需求選擇助手類型,例如應用助手、知識助手或?qū)υ捴?。對于視頻生成應用,可能需要結(jié)合應用助手和對話助手的功能。 完成助手的基礎配置,包括動作意圖、知識庫和對話模型等。這里
    發(fā)表于 03-05 19:52

    行業(yè)集結(jié):共同定制 RK3566 集成 AI 眼鏡的前沿 AR 方案

    的 WiFi5 音視頻 SoC 模組。RK3566 芯片框圖 功能特點 這款 AI 眼鏡,絕非僅僅是一款冰冷的科技設備,它擁有以下功能:· AI模型語音對話· 圖像拍照(上
    發(fā)表于 02-20 18:44

    AI開發(fā)板】正點原子K230D BOX開發(fā)板來了!一款性能強悍且小巧便攜的AI開發(fā)板!

    AI開發(fā)板】正點原子K230D BOX開發(fā)板來了!一款性能強悍且小巧便攜的AI開發(fā)板! 正點原子K230D BOX是一款性能強悍且小巧便攜的A
    發(fā)表于 02-18 16:56

    添越智創(chuàng)基于 RK3588 開發(fā)板部署測試 DeepSeek 模型全攻略

    AI 技術日新月異的當下,新的模型與突破不斷涌現(xiàn)。近期,DeepSeek(深度求索)模型以其卓越性能和親民成本,迅速在全球開發(fā)者圈子里引發(fā)熱議。作為一款強大的語言
    發(fā)表于 02-14 17:42

    DeepSeek最新AI模型現(xiàn)已登陸IBM watsonx.ai平臺

    DeepSeek-R1 是一款先進的 AI 模型,以卓越的推理能力著稱,可廣泛應用于編程、規(guī)劃和數(shù)學問題求解等領域,從而驅(qū)動智能代理應用、代碼生成,調(diào)試支持及優(yōu)化建議、解決復雜數(shù)學問題并對學術研究
    的頭像 發(fā)表于 02-08 09:21 ?769次閱讀

    廣和通正式推出AI玩具大模型解決方案

    廣和通近期推出了一款創(chuàng)新的AI玩具大模型解決方案,該方案深度融合了豆包等AI模型,并內(nèi)置了廣和通Cat.1模組,為智能玩具的
    的頭像 發(fā)表于 01-24 10:36 ?1212次閱讀

    Google兩先進生成式AI模型登陸Vertex AI平臺

    新的 AI 模型,包括最先進的視頻生成模型Veo以及最高品質(zhì)的圖像生成模型Imagen 3。近日,我們在 Google Cloud 上進
    的頭像 發(fā)表于 12-30 09:56 ?622次閱讀

    AI模型部署邊緣設備的奇妙之旅:目標檢測模型

    。 總的來說,Leaky ReLU是個簡單而有效的激活函數(shù),它可以改善某些情況下傳統(tǒng)ReLU的局限性。然而,在選擇激活函數(shù)時,應該根據(jù)具體的應用場景和實驗結(jié)果來決定最合適的選項。 (2)Parametric
    發(fā)表于 12-19 14:33

    屆“澎峰云?大模型AI校園應用創(chuàng)新賽完美結(jié)束

    在大模型人工智能的浪潮中,澎峰科技與中科曙光強強聯(lián)合,共同打造了場大模型AI創(chuàng)新應用盛宴——第屆“澎峰云?大
    的頭像 發(fā)表于 11-11 10:59 ?700次閱讀

    如何訓練自己的AI模型

    和訓練AI模型之前,需要明確自己的具體需求,比如是進行自然語言處理、圖像識別、推薦系統(tǒng)還是其他任務。 二、數(shù)據(jù)收集與預處理 數(shù)據(jù)收集 根據(jù)任務需求,收集并準備好足夠的數(shù)據(jù)集。 可以
    的頭像 發(fā)表于 10-23 15:07 ?4984次閱讀

    如果設計一款桌面的機器玩具,最吸引人的外觀與功能要有哪些?

    初步設想制作如下其中一款,有感興趣的朋友可以幫提提意見。 A一款圓敦敦的音響狀的“個人日程助手”,具備番茄鬧鐘、音樂播放、減壓交互、語言對話、工作日報生成。 B一款迷你瓦利機器人,有
    發(fā)表于 10-19 18:25

    求助,求分享一款可以取代IA2410的運放?

    一款TI的 可以取代IA2410
    發(fā)表于 08-22 06:10