精品人妻av字幕,欧洲AV无码精品网站,青青草无码体验区

本文介紹了SONICVERSE，這是一個多感官模擬平臺，用于訓(xùn)練既能看又能聽的家用代理人。該平臺在實時的3D環(huán)境中實現(xiàn)了逼真的連續(xù)音頻渲染，并通過新的音頻-視覺虛擬現(xiàn)實界面實現(xiàn)與代理人的交互。此外，針對語義音頻-視覺導(dǎo)航任務(wù)，作者提出了一種新的多任務(wù)學(xué)習(xí)模型，并展示了SONICVERSE通過模擬到真實環(huán)境的遷移所達(dá)到的真實感。

1 前言

本文介紹了SONICVERSE，一個新的具備多感官功能的模擬平臺，用于訓(xùn)練音頻-視覺具身代理。該平臺實現(xiàn)了實時的3D環(huán)境中連續(xù)音頻渲染，通過使用完整的場景幾何和材料屬性達(dá)到了高保真度的空間音頻渲染。同時，還引入了一個多任務(wù)學(xué)習(xí)框架，用于語義音頻-視覺導(dǎo)航和占據(jù)地圖預(yù)測，取得了最先進的結(jié)果。此外，本文還首次展示了在模擬中訓(xùn)練的音頻-視覺導(dǎo)航代理可以成功部署到現(xiàn)實環(huán)境中。

作者的貢獻(xiàn)有三個方面。

介紹了SONICVERSE，這是一個新的多感官模擬平臺，實時模擬了3D環(huán)境中的連續(xù)音頻渲染，為許多需要音頻-視覺感知的具身化人工智能和人機交互任務(wù)提供了一個新的測試平臺。

介紹了一個多任務(wù)學(xué)習(xí)框架，用于語義音頻-視覺導(dǎo)航和占據(jù)地圖預(yù)測，取得了最先進的結(jié)果。

首次展示了在模擬中訓(xùn)練的音頻-視覺導(dǎo)航代理可以成功部署到現(xiàn)實環(huán)境中。

2 相關(guān)工作

本文介紹了具身AI模擬器和視聽學(xué)習(xí)的相關(guān)研究。作者提出了SONICVERSE模擬器，它能夠提供連續(xù)的3D空間音頻渲染，并結(jié)合完整的場景幾何和表面材料特性實現(xiàn)高度逼真性。作者的工作填補了現(xiàn)有視覺導(dǎo)航研究中缺乏音頻的重要空白，并提供了一個新的測試平臺來支持需要音視知覺的具身AI任務(wù)。通過音視導(dǎo)航任務(wù)的案例研究，作者展示了我們模擬器的有用性和逼真性。此外，作者的工作還提供了一個新的視覺和聽覺學(xué)習(xí)的框架，可以應(yīng)用于各種具身AI任務(wù)，包括音視導(dǎo)航、平面圖重建、探索驅(qū)動好奇心等。

3 SONICVERSE模擬平臺

本節(jié)介紹了SONICVERSE模擬平臺，它是一個具備音視感知功能的具身AI模擬平臺。該平臺構(gòu)建在iGibson 2.0之上，并使用開源的Resonance Audio SDK實現(xiàn)對音頻的模擬。平臺提供了音頻模擬、3D環(huán)境和其他關(guān)鍵功能，為研究者開展音視知覺方面的具身AI研究提供了強大的工具和環(huán)境。

3.1. 聲學(xué)模擬

聲學(xué)模擬中的主要組成部分包括直接聲音、動態(tài)遮擋、早期反射和晚期混響以及頭部相關(guān)傳遞函數(shù)（HRTFs）。直接聲音表示從源頭到聽者的未受環(huán)境阻礙或反射影響的聲音，并隨著距離的增加而衰減。動態(tài)遮擋通過遮擋節(jié)點衰減源頭到聽者的聲音，并模擬現(xiàn)實世界的遮擋效果。早期反射和晚期混響是通過預(yù)模擬混響烘焙過程計算得到的，早期反射還考慮了聽者與探測器位置的關(guān)系，并使用箱形近似房間的方法呈現(xiàn)。頭部相關(guān)傳遞函數(shù)（HRTFs）用于模擬人類通過感知聲音的時間和級別差異來定位聲源。整個聲學(xué)模擬過程可以實現(xiàn)逼真的空間音頻渲染和實時性能。

3.2. 三維環(huán)境

SONICVERSE支持Matterport3D和iGibson兩個3D場景數(shù)據(jù)集，其中Matterport3D包含85個大型的現(xiàn)實世界室內(nèi)環(huán)境場景，而iGibson包含15個具有家具和可動物體的現(xiàn)實世界家庭場景。對于Matterport3D場景，作者使用整個場景進行混響烘焙，并通過將語義網(wǎng)格類別映射到Resonance Audio的材料類型來確定房間表面的聲學(xué)特性。對于iGibson場景，由于物體可移動，作者只使用場景的靜態(tài)骨架進行混響烘焙，并對墻壁、天花板、窗戶和地板進行相應(yīng)的映射。

3.3. 主要特點

SONICVERSE是一個具備音頻-視覺虛擬現(xiàn)實界面和Sim2Real轉(zhuǎn)換能力的模擬器。其音頻-視覺虛擬現(xiàn)實界面基于iGibson 2.0和OpenVR，能夠?qū)⒋髦鳹R頭顯的人作為音頻-視覺化身，并實現(xiàn)人與代理之間的音頻-視覺交互任務(wù)。具體的任務(wù)原型包括說話人跟隨、語音驅(qū)動的物體檢索和盲人聽覺定位訓(xùn)練。同時，SONICVERSE使用TurtleBot作為具體化代理，通過3Dio FS雙耳麥克風(fēng)和Tascam音頻接口實現(xiàn)音頻模擬，并借助Asus XTION PRO RGBD相機和Intel NUC進行視頻捕獲和處理。相比于SoundSp aces和ThreeDWorld，SONICVERSE的模擬器通過將聲音附加到場景中的動態(tài)物體實現(xiàn)音頻和視覺模擬的整合，并支持動態(tài)遮擋和連續(xù)空間的音頻渲染。此外，SONICVERSE利用完整的場景幾何和自動映射的材質(zhì)進行混音烘焙，實現(xiàn)了更高的逼真度。雖然與ThreeDWorld不同，SONICVERSE不直接模擬物體碰撞聲音，但支持將現(xiàn)有的多感官物體資源與預(yù)計算的音頻模擬相結(jié)合使用。通過上述優(yōu)勢和功能，SONICVERSE為音頻-視覺模擬和實際環(huán)境的轉(zhuǎn)換提供了有效的解決方案。

4 在SonicVerse中訓(xùn)練音視化具象導(dǎo)航智能體

SonicVerse支持許多需要音視感知的具象人工智能任務(wù)。作者以具有挑戰(zhàn)性的語義音視導(dǎo)航任務(wù)作為案例研究，以展示作者模擬器的實用性。這是音頻目標(biāo)導(dǎo)航的更具挑戰(zhàn)性的版本，其中智能體必須定位一個持續(xù)發(fā)出聲音的來源。在語義音視導(dǎo)航中，物體會發(fā)出與其現(xiàn)實世界對應(yīng)物相符的聲音（例如，門會發(fā)出咯吱的聲音），而這些聲音只會持續(xù)很短的一段時間。因此，智能體必須能夠在聲音停止發(fā)出后更好地定位聲源，可能通過利用已學(xué)習(xí)的關(guān)于哪些物體可以發(fā)出某些聲音的知識。

任務(wù)定義：在這個任務(wù)中，智能體需要通過聽到物體發(fā)出的聲音，在一個未知且未映射的環(huán)境中導(dǎo)航到一個特定的有語義意義的物體。聲音可以是非周期性的、不連續(xù)的，并且長度各異。為了到達(dá)目標(biāo)物體，智能體必須推理出聲音物體的語義類別以及音頻感知中的雙耳空間線索。作者在實驗中使用一臺TurtleBot作為智能體。使用的15個有語義意義的聲音，包括水槽、靠墊、電視、淋浴等聲音。每個聲音都與特定的目標(biāo)類別進行一對一映射。為了被認(rèn)為是成功，智能體需要在聲音停止后仍能定位到目標(biāo)位置，并導(dǎo)航到發(fā)出聲音的特定目標(biāo)物體，而不是類別內(nèi)的其他物體。

行動和觀測空間：與任務(wù)的現(xiàn)有規(guī)范相反，該規(guī)范使用固定步長的離散平移和旋轉(zhuǎn)，作者使用連續(xù)動作空間來表示機器人輪軸速度。這使得任務(wù)設(shè)定更加現(xiàn)實和具有挑戰(zhàn)性，并且更適用于真實世界的機器人環(huán)境。智能體的觀測包括RGB圖像、深度圖、兩只耳朵接收到的雙聲道音頻譜圖、碰撞傳感器輸入以及與起始位置相關(guān)的當(dāng)前姿態(tài)。

回合規(guī)范與成功準(zhǔn)則：每個回合由以下內(nèi)容定義：場景、智能體的起始位置和方向、目標(biāo)類別、類別內(nèi)的一個目標(biāo)物體以及離目標(biāo)物體位置一米范圍內(nèi)的八個位置，這些位置被視為定義物體邊界的附近位置。當(dāng)智能體到達(dá)這九個終止位置之一時，被認(rèn)為滿足成功準(zhǔn)則：八個靠近目標(biāo)物體的位置和原始目標(biāo)物體位置。達(dá)到終點的距離容差為0.36m，這是真實TurtleBot的寬度。

音視導(dǎo)航模型：作者提出了一個多任務(wù)學(xué)習(xí)框架，同時學(xué)習(xí)語義音視導(dǎo)航和占據(jù)地圖預(yù)測。在每個時間步t，智能體接收到中心視野的視覺觀測，包括RGB圖像和深度圖，以及代表智能體左右耳朵的雙聲道音頻，表示為雙聲道音頻譜圖。作者分別從視覺編碼器和音頻編碼器中提取視覺和音頻特征。

對于語義音視導(dǎo)航，作者采用了來自SAVi的基本架構(gòu)，該架構(gòu)改編自場景記憶變換網(wǎng)絡(luò)。它主要由兩個組件組成：1) Goal Predictor，它以音頻特征和智能體當(dāng)前姿態(tài)作為輸入，預(yù)測一個包含有關(guān)聲源位置和聲音物體的對象類別信息的目標(biāo)描述符；2) Audio-Visual Transformer，它使用一個記憶模塊對智能體的觀測進行編碼，并使用自注意機制來推理到目前為止看到的3D環(huán)境。變換器的解碼器使用目標(biāo)預(yù)測器的輸出和內(nèi)存中編碼的觀測，預(yù)測狀態(tài)特征，然后將其饋送給一個用于預(yù)測下一步動作的actor-critic網(wǎng)絡(luò)。使用中的分布式分散的鄰近策略優(yōu)化兩階段訓(xùn)練范式。

對于占據(jù)地圖預(yù)測，作者將其規(guī)定為逐像素分類任務(wù)。將自中心自我位置圖p ∈ V ×V表示為垂直俯視的地圖，該地圖由相機前方V×V個單元格的局部區(qū)域組成，該區(qū)域表示一個5m × 5m的區(qū)域。每個單元格中的值表示該單元格被占用的概率。通過使用對應(yīng)室內(nèi)環(huán)境的3D網(wǎng)格獲得地面實際局部占用。使用U-Net進行占據(jù)地圖預(yù)測。編碼器的輸入是從深度投影中獲得的局部占用地圖，通過在深度和相機內(nèi)參的點云上設(shè)置高度閾值來獲得。然后，復(fù)制和平鋪狀態(tài)特征向量以匹配特征圖的空間維度，并在后3層編碼器的通道維度上進行連接。解碼器然后將融合的特征圖作為輸入，并通過一系列上卷積層輸出預(yù)測的局部占用地圖，包括可見和不可見的單元格。作者使用二元交叉熵?fù)p失訓(xùn)練占據(jù)預(yù)測網(wǎng)絡(luò)。

作者的占據(jù)地圖預(yù)測模塊與機器人技術(shù)和具體視覺導(dǎo)航中建立世界的連續(xù)表示的前期方法相似。然而，作者聯(lián)合學(xué)習(xí)占據(jù)預(yù)測和音視導(dǎo)航，有新的見解表明準(zhǔn)確預(yù)測占據(jù)地圖有助于學(xué)習(xí)更好的音視特征，從而有助于導(dǎo)航。

5 實驗

該研究展示了在音頻視覺導(dǎo)航領(lǐng)域的實驗結(jié)果，并將在SONICVERSE模擬器中訓(xùn)練的代理轉(zhuǎn)移到真實世界中。通過與多個基準(zhǔn)方法進行比較，作者證明了他們的模型在語義音頻視覺導(dǎo)航中的出色性能。作者還使用不同的評估指標(biāo)對模型進行了評估，并比較了不同數(shù)據(jù)集上的性能。結(jié)果顯示，作者的多任務(wù)學(xué)習(xí)框架在所有指標(biāo)上均優(yōu)于現(xiàn)有的方法。此外，通過在俯視地圖上顯示導(dǎo)航軌跡，并與基準(zhǔn)方法進行對比，作者進一步證明了他們的模型在感知障礙物和聲音、并高效導(dǎo)航到目標(biāo)物體方面的能力。同時，該研究還展示了他們的模擬器的逼真性，通過將在模擬中訓(xùn)練的導(dǎo)航代理成功轉(zhuǎn)移到真實世界環(huán)境中。三個關(guān)鍵步驟(記錄機器人噪音、隨機變化源聲音的增益、校準(zhǔn)深度相機)被證明可以減少虛實差距，從而實現(xiàn)成功的策略轉(zhuǎn)移?？傮w而言，該研究為音頻視覺導(dǎo)航領(lǐng)域的研究提供了有價值的見解，并提供了促進虛實轉(zhuǎn)換的有效方法。

5 總結(jié)

本研究介紹了SONICVERSE，一個用于訓(xùn)練同時能夠看和聽的家居智能體的多感官仿真平臺。該平臺能夠?qū)崟r渲染3D環(huán)境中的連續(xù)音頻，并支持虛擬現(xiàn)實中的音頻流傳輸，為需要音頻視覺感知的體驗式人工智能任務(wù)提供了新的測試平臺。在音頻視覺導(dǎo)航任務(wù)上，研究者提出了一種新的語義音頻視覺導(dǎo)航模型，其性能優(yōu)于以前的方法。此外，他們還成功地將在模擬中訓(xùn)練的智能體應(yīng)用到真實世界環(huán)境中。研究者對SONICVERSE帶來的體驗式多感官學(xué)習(xí)研究表示期待。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴