━━━━
戴上虛擬現(xiàn)實(VR)耳機,然后被“傳送”至一顆遙遠的星球,躲避外星物種之間的戰(zhàn)火。激光槍射出的子彈從你耳邊嗖嗖飛過;戰(zhàn)斗機在你面前盤旋;戰(zhàn)友瘋狂的呼喊從各個方向傳來。切換頻道?,F(xiàn)在你在一場籃球賽的場邊,聽到球員在你面前的球場上打口水戰(zhàn),教練在左邊的長凳上叫喊。你轉(zhuǎn)頭的同時,聲音也跟著你轉(zhuǎn);直播間里的解說員在你前面,球場上的聲音則在你身后。切換頻道?,F(xiàn)在你來到了哥德堡音樂廳,這里的音響效果享譽全球。你坐在前排,起初,由109人組成的交響樂團演奏著柔和的音樂,然后高亢的演奏聲將你圍繞。向左轉(zhuǎn)頭,小提琴的聲音更加清晰強烈;向右轉(zhuǎn),大提琴和銅管樂組的聲音比其他樂器更加突出。
如今,提供這些虛擬現(xiàn)實體驗的可視化組件技術(shù)很快就將得到廣泛應用,價格也將很實惠,但要想發(fā)揮更大效力,虛擬現(xiàn)實不應該只停留在視覺上。除非你聽到的聲音確實與你所看到的非常匹配,否則虛擬體驗便會崩塌。
以球賽為例。如果球員、教練、解說員和觀眾全都聽起來好像坐在中場,那你還不如在電視上觀看這場比賽——你也會有一種“身臨其境”的感覺。
很可惜,目前的音頻設(shè)備以及我們廣泛使用的錄音和聲音播放格式,根本不足以令人信服地再現(xiàn)遙遠星球上戰(zhàn)場的聲音、在球場邊觀看籃球比賽的聲音和在一流音樂廳前排聽到的交響樂。
當然,通過耳機播放的立體聲錄音,你的右耳可能聽到體育賽事解說員的聲音,左耳則聽到教練的聲音,但不管你在虛擬環(huán)境中怎樣移動,它們的位置都不會發(fā)生變化。要想獲得逼真的體驗,工程師需要從上下、遠近、前后各個角度呈現(xiàn)每個聲音的精確方向和位置,并隨著用戶在虛擬世界中的移動進行動態(tài)更新。
這是一項巨大的挑戰(zhàn),但并非完全無法解決,已經(jīng)有一些虛擬現(xiàn)實產(chǎn)品的生產(chǎn)商開始利用有限的第一代3D音頻技術(shù)來改善二維立體聲和環(huán)繞聲。目前,包括我所在的Dirac Research(位于瑞典烏普薩拉)在內(nèi)的研究實驗室已經(jīng)取得了一定的進展,很有希望在幾年內(nèi)實現(xiàn)真正逼真的虛擬現(xiàn)實音頻。以下是我們認為自己能夠提高虛擬現(xiàn)實體驗水平的原因。
當前,使用最廣泛的音頻格式是雙聲道(即立體聲)。立體聲系統(tǒng)會記錄左右兩個信號;聽者通過一對揚聲器或耳機播放聲音,聲音信號依然是左右各一個。環(huán)繞聲系統(tǒng)超越了立體聲,增加了一個中央前置揚聲器、兩個或4個后置揚聲器,以及一個專用于低音輸出的低音炮。更新的辦法是在不同高度增加揚聲器,比如AuroTechnologies公司的Auro-3D。這些方式開始給人帶來一種3D的錯覺,但實際上并不能創(chuàng)造一個虛擬世界,因為揚聲器的位置是固定的。在現(xiàn)實世界中,你可以移動,聽到的聲音也會隨著移動發(fā)生明顯的變化。
雖然這些復雜的環(huán)繞聲設(shè)置肯定比之前的立體聲效果要好,但對如今大多數(shù)聽眾來說,這實際上是一種倒退。現(xiàn)代便攜式音樂設(shè)備使人們遠離揚聲器,而更多地使用耳機。這使人與現(xiàn)實聲音的距離更加遙遠,因為目前頭戴式耳機甚至無法恰到好處地處理立體聲,更不用說環(huán)繞聲或任何接近3D的聲音了。
原因如下。使用揚聲器時,左耳聽到僅通過左揚聲器播放的聲音,在幾乎察覺不到的一瞬間后,右耳就能聽到該聲音,聲音的衰減也很輕微。人的大腦會處理這種輕微的延遲和衰減,并在聲音的方向和距離上產(chǎn)生一個瞬時印象。而使用耳機時,左聲道只能傳到左耳。這種體驗是人為的,會帶來一些奇怪的感覺。例如,當耳機的左聲道和右聲道發(fā)出同樣大小的聲音時,它就好像是從你的腦袋里發(fā)出的,而不是從你面前的某個位置發(fā)出的。這就是為什么有時候通過耳機聽音樂會感覺有些奇怪。那么,怎樣才能獲得全三維的交互式虛擬音頻體驗呢?
由于只有兩個獨立的頻道可供使用,這個目標似乎無法實現(xiàn),但原則上來說并非如此:人類的聽覺系統(tǒng)只使用兩只耳朵來分辨前后、上下以及中間的一切聲音,因此工程師應該可以通過仔細控制每個聲音到達耳朵的時間、音量、共振和回聲特征來創(chuàng)造一種3D音頻體驗。要調(diào)整每個頻道在空中傳播的聲音,需要大量的高速計算。幸運的是,高速計算是可以做到的。
實際上,整個音頻行業(yè)的研究人員都在鉆研這種方法。一方面在于,與露天揚聲器發(fā)出的聲音相比,工程師可以更好地控制耳機發(fā)出的聲音,因為不需要對房間形狀或其中物體的阻礙進行補償,也不需要處理可能會分散人們對虛擬環(huán)境注意力的背景聲音、其他雜音或聲音反射。
━━━━
創(chuàng)建3D音頻錄音最簡單的方法是把麥克風放在耳朵里,然后從特定的位置以立體聲形式記錄場景。在實踐中,錄音師通常會使用仿真人頭來做這件事,稱為雙聲道錄音,該技術(shù)已經(jīng)存在了很長時間。有些廣播電臺會播放雙聲道立體聲音樂會,但該技術(shù)一直沒有廣泛流行。
雙聲道立體聲錄音有幾點限制,對虛擬現(xiàn)實來說,最主要的問題還是聽者和聲源的位置是固定的。
盡管如此,雙聲道立體聲錄音還是有很多可以借鑒的東西,我們可以將這些技巧用于為虛擬現(xiàn)實創(chuàng)建交互式音頻。雙聲道立體聲錄音可以捕捉每個聲源傳達到兩耳的不同聲音強度和時間,也能捕捉到頭部、耳朵和身體姿態(tài)對聲音的反射和遮擋所導致的聲音變化??茖W家將這些效應稱之為頭部相關(guān)傳輸函數(shù)(HRTF)。
借助強大的計算機和數(shù)字信號處理軟件以及配備了位置跟蹤裝置的耳機,我們可以利用仿真人頭或真人模特創(chuàng)建一個標準化的HRTF,然后在播放過程中根據(jù)聽者的頭部方向和聲源的原始方向進行實時調(diào)整。
━━━━
但就在這時,我們遇到了一個障礙。立體聲和環(huán)繞聲均被音頻工程師稱為基于頻道的格式:它們?yōu)樘囟〒P聲器配置進行音頻編碼,用于播放。一般的立體聲錄音只有基本的左右信息,不包含詳細的方向信息。環(huán)繞聲在這方面要好一些;5.1聲道是最著名的環(huán)繞聲格式,使用這種格式,混音工程師可以根據(jù)5個不同的參考位置對聲音進行定位,并添加一個通過重低音喇叭播放的低頻頻道。該格式假定揚聲器位于聽者的左前方、正前方、右前方、左后方和右后方。與普通立體聲相比,這個方案能夠提供更多有關(guān)聲音的信息,但對于逼真的虛擬現(xiàn)實來說,這仍然不夠好。
更新的一種方法是利用基于對象的格式?;趯ο蟮匿浺舴绞酵ㄟ^標記聲源來編碼聲場,而不是采用特定的播放系統(tǒng)。例如,利用與位置、強度相關(guān)的信息和其他數(shù)據(jù)來識別大提琴、鋼琴和歌手的聲音,然后通過智能播放設(shè)備,根據(jù)標簽的功能來解讀標簽,并以與標簽一致的方式播放聲音。2012年推出的杜比全景聲(Dolby Atmos)和2015年推出的DTS:X都采用了這種方法。
基于對象的格式最初是為了提升家庭影院的體驗而創(chuàng)建的。例如,支持杜比全景聲的家庭影院接收器集成了天花板揚聲器。不過這些格式在未來可以進行調(diào)整,以便用于虛擬音頻。
第三種方法是基于場景的格式。20世紀70年代在英國國家研究開發(fā)公司(National Research Development Corp.)的贊助下,由彼得?菲爾格特(Peter Fellgett)、邁克爾?格松(Michael Gerzon)和其他研究人員開發(fā)的聲場環(huán)繞聲(Ambisonics)采用了這種方法?;趫鼍暗木幋a對特定位置的被錄制聲場進行了空間表示。在其基本配置中,聲場環(huán)繞聲錄音使用了以四面體形式排列的4個麥克風膠囊(更高分辨率的錄音中使用的更多)?;趫鼍暗木幋a將聽者周圍的聲音分類整理到多個預設(shè)的定向音箱中,基于對象的格式則不預先確定音箱,而是讓每個聲音對象定位在任意位置上。
當前的聲場環(huán)繞聲技術(shù)存在明顯的不足,尤其是對現(xiàn)實世界進行錄音時。其空間分辨率較低,錄音麥克風往往會在一定程度上模糊方向性,但這是一種方便的錄音方式。因為它是一種現(xiàn)成的開源格式,所以無論大小公司都在使用,其中包括臉書和谷歌,前者將其用于公司的360度視頻,后者將其用于自己的虛擬現(xiàn)實音頻技術(shù)。
到目前為止,有兩家大型商用音頻公司發(fā)布了支持3D音頻的編碼格式,其中集成了一部分上述技術(shù)。由位于德國埃爾朗根的弗勞恩霍夫集成電路研究所開發(fā)的MPEG-H3D音頻系統(tǒng),支持基于對象、基于頻道和基于場景的音頻及其組合形式。杜比AC-4支持基于對象和基于頻道的音頻。雖然這些方案都取得了一定成功,但還沒有一項展現(xiàn)出壓倒性的優(yōu)勢,其中是否會有一個最終在未來占據(jù)主導地位,也不得而知。到目前為止,這些方法都側(cè)重于對音頻進行編碼以便通過揚聲器重放;要應用到耳機上則面臨更大的挑戰(zhàn)。
對于我們這些試圖創(chuàng)建真正虛擬音頻的人來說,這些行動都是好消息。不過,即便這項工作已經(jīng)打下了良好的基礎(chǔ),現(xiàn)有的任何一種方法也都不太可能發(fā)展成一項強大的3D音頻技術(shù)。我們還需要新方法。
━━━━
研究人員越來越接近目標了。如果把基于對象和基于場景的編碼與HRTF處理結(jié)合起來,理論上就能夠在頭戴式虛擬現(xiàn)實耳機中渲染3D音頻,并根據(jù)聽者在虛擬世界中的移動對其進行交互調(diào)整。
不過目前要應用這項技術(shù)還存在困難。HRTF播放最大的缺點是前/后混淆,問題就在這里。人耳的位置意味著,在聽者的前后(或上下)有一個由聲音產(chǎn)生的中心點,聲音由此到達每只耳朵的時間和強度都相同,大腦會把耳朵、頭和身體姿態(tài)引起的微小變化都考慮在內(nèi)。這些人體結(jié)構(gòu)的細節(jié)以及它們所導致的聲音遮擋和聲音反射,會根據(jù)聲音的來源方向優(yōu)先放大某些頻率。由于每個人兩耳之間的距離不同,身體結(jié)構(gòu)也有一定的差異,因此這些細節(jié)因人而異。
許多研究人員認為,解決前/后問題的唯一辦法是使用個性化的HRTF,即定制聲學身體地圖。這一點我們稍后再詳談。
另一個挑戰(zhàn)在于,HRTF處理的聲音常常聽起來不自然。某些音頻頻譜不可避免地被放大太多或放大不足。受過訓練的聽者很容易察覺這些不一致。一般聽者也許無法直接辨別這些聲染色,但很可能會覺得不對勁兒,就像察覺出一個便宜的揚聲器和一個昂貴的揚聲器之間的區(qū)別。
造成第二個問題的原因尚不清楚。一些人認為,我們測量HRTF的方法存在缺陷,導致現(xiàn)有的HRTF數(shù)據(jù)庫不充分。也有人認為,除非定制個性化的HRTF,否則聲染色不可避免。實際情況可能兩者兼而有之:即使對個性化HRTF進行測量,聲染色也不會完全消失,不過其定位精度比一般的HRTF高出許多;這至少要部分歸因于測量HRTF的技術(shù)。
研究人員正在測試創(chuàng)建個性化HRTF的不同測量思路。有些研究人員把麥克風放在聽者的耳朵里,記錄不同方向播放的測試信號;這是一個耗時且容易出錯的方法。還有研究人員嘗試用掃描和計算機圖形分析工具(如射線追蹤)來模擬耳朵,根據(jù)它們對來自不同角度聲音的反應進行編碼。
雖然個性化的HRTF很可能會解決目前虛擬現(xiàn)實聲音所面臨的一些難題,但還存在其他問題。首先,它假定頭部是相對靜止的,身體與之同時移動,而虛擬現(xiàn)實用戶經(jīng)常在不移動身體的情況下轉(zhuǎn)動頭部。不過,最大的困難卻是創(chuàng)造它們的時間長、成本高,也就是說,個性化HRTF對于普通的虛擬現(xiàn)實用戶而言并不現(xiàn)實。
━━━━
這就是Dirac公司的研究切入點。我作為Dirac公司的首席執(zhí)行官和聯(lián)合創(chuàng)始人,在過去10年里和團隊成員研究了各種方法來改進HRTF處理。我們的研究人員發(fā)現(xiàn),頭部運動對HRTF有著尤其重要的影響。
要了解原因,可以想象一下將頭朝你的一側(cè)肩膀傾斜。當耳朵靠近肩膀時,來自肩膀的聲音反射會更快地傳到耳朵,而到達另一只耳朵的相應反射則存在額外的衰減和延遲。
根據(jù)這一觀察,我們基于對30個人的測量結(jié)果構(gòu)建了一組HRTF,稱之為動態(tài)HRTF。我們讓聽者調(diào)整自己的頭部,使其各自相對于身體左右搖擺、前后傾斜和轉(zhuǎn)動,在三維空間上有1度的分辨率,并測試從聽者前方、兩側(cè)、上下以及后方播放的聲音。最終,我們針對每個受試對象做了幾百次測量。(實際測量的HRTF數(shù)量取決于每個受試對象的運動范圍。)
為了避免對模型進行個性化設(shè)置及其可能產(chǎn)生的費用,我們將重點放在了HRTF的共同點上。如果某個HRTF頻率響應中的某個峰值或谷值對所有受試對象來說都是共通的(在容差范圍內(nèi)),便將其納入我們的通用模型;如果某個特征不常見,我們的算法將確保處理過的聲音中不會留下該HRTF的任何聲音痕跡。
雖然這種方法并不一定完美貼合每個人,但是我們對其進行了充分研究并相信,如果模型足夠好,與頭部相對于身體的方向有關(guān)的一些強遮擋效應和強反射就能夠捕捉人類聽覺系統(tǒng)確定聲音方向所需要的基本信息。此外,只要HRTF能以一致的方式捕捉頭部或音頻對象的運動,聽者的聽覺系統(tǒng)就能夠忽略通用模型和個體HRTF之間的細微差異。也就是說,對大多數(shù)聽者而言,音頻體驗將足夠真實。對于那些在某個方向上個體HRTF與模型有很大不同的人來說,聲音也依然較為自然,雖然在方向上并非100%準確。
今年晚些時候,游戲耳機制造商的產(chǎn)品中就會采用Dirac虛擬現(xiàn)實,這是我們的動態(tài)HRTF技術(shù)首次實現(xiàn)商業(yè)應用。
━━━━
然而,解決動態(tài)HRTF問題還不能給我們帶來真正逼真的虛擬聲音體驗。雖然使用HRTF能夠從任意方向模擬聲音,但是聲音不僅僅受聽者的物理特性的影響。人在戶外說話和在室內(nèi)說話的聲音聽起來很不一樣。即使在室內(nèi),墻壁和其他物體的位置也會對聲音產(chǎn)生重要影響。
因此,在虛擬環(huán)境中,我們也必須考慮虛擬房間的形狀和房間中物體的形狀,以及道路、懸崖或戰(zhàn)場的形狀會對聲音產(chǎn)生什么影響。這要求我們在創(chuàng)造聲音時模擬反射波和駐波,考慮墻壁的擴散特性以及內(nèi)部物體的影響。
在播放聲音時,我們需要同時考慮虛擬房間和實際聽者,不僅要傳遞每個聲音,還要傳遞聲波在地板、天花板和其他物體上的每一次反射,而且要采用適當?shù)腍RTF。因此,這個過程會非常復雜,而且需要大量的密集計算。
目前,開發(fā)人員簡化了游戲等交互式應用的聲學信息。他們把聲音分成一組定向聲源和一個組合環(huán)境聲場,而不是模擬整個場景的聲學特性,然后通過HRTF處理定向聲音,同時假設(shè)來自各個方向的環(huán)境聲強度相同。對大多數(shù)人來說,這種技術(shù)在某些虛擬環(huán)境中能夠產(chǎn)生相當逼真的3D聲音。最終,更加真實的虛擬房間聲學模擬將得到發(fā)展,在更多具有挑戰(zhàn)性的環(huán)境中提高音頻體驗的真實性。
預計未來幾年內(nèi),研究人員將能夠為籃球賽或音樂會等虛擬現(xiàn)實場景創(chuàng)造出身臨其境的3D音頻體驗。接下來,最大的挑戰(zhàn)將是對HRTF算法進行微調(diào),降低計算要求和內(nèi)存要求,以便在電池驅(qū)動的便攜式設(shè)備上運行。解決這一難題后,沉浸式虛擬現(xiàn)實3D音頻便做好了進入大規(guī)模應用的準備。
不出10年,具有頭部跟蹤功能的3D耳機音頻將能夠幫我們舉行遠程會議,你可以在真實的房間內(nèi)走動,走到一位同事身邊與之進行討論,或者去找另一位同事。我們將能夠體驗親臨NBA總決賽的感覺,也可以坐在維也納金色大廳的最佳位置欣賞小約翰?施特勞斯的音樂。對我來說,僅僅最后一項就值得投入精力去解決現(xiàn)有的工程挑戰(zhàn),實現(xiàn)3D音頻充滿前途的未來。
-
音頻
+關(guān)注
關(guān)注
29文章
2995瀏覽量
82825 -
數(shù)字信號處理
+關(guān)注
關(guān)注
16文章
567瀏覽量
46439 -
虛擬現(xiàn)實
+關(guān)注
關(guān)注
15文章
2294瀏覽量
98156
原文標題:讓耳朵“聲臨其境”的虛擬現(xiàn)實:3D動態(tài)音頻有望幾年內(nèi)問世
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
DMD芯片在虛擬現(xiàn)實中的應用分享
ar與虛擬現(xiàn)實的區(qū)別 如何優(yōu)化ar應用的用戶界面
PNI高精度低功耗3D動作捕捉手柄方案

具身智能在虛擬現(xiàn)實中的應用實例
發(fā)掘3D文件格式的無限潛力:打造沉浸式虛擬世界

評論