水聲被動(dòng)定位中的機(jī)器學(xué)習(xí)方法研究進(jìn)展綜述
來(lái)源:《信號(hào)處理》,作者牛海強(qiáng)等
摘 要:?本文對(duì)基于機(jī)器學(xué)習(xí)方法的水聲被動(dòng)定位研究進(jìn)展進(jìn)行了綜述。所涉及的機(jī)器學(xué)習(xí)方法有多層感知機(jī)(前饋神經(jīng)網(wǎng)絡(luò))、支持向量機(jī)、隨機(jī)森林及以卷積網(wǎng)絡(luò)層和全連接層為主要組成單元的深度神經(jīng)網(wǎng)絡(luò)。本文通過(guò)重點(diǎn)引述近幾年發(fā)表在國(guó)際期刊和會(huì)議上的相關(guān)前沿研究工作,詳細(xì)論述了將機(jī)器學(xué)習(xí)方法應(yīng)用于水聲被動(dòng)定位的關(guān)鍵理論基礎(chǔ)、單水聽(tīng)器和陣列前端信號(hào)預(yù)處理算法設(shè)計(jì)及幾種典型的機(jī)器學(xué)習(xí)模型。此外,還指出了現(xiàn)有算法在推向?qū)嶋H應(yīng)用中面臨的困難及挑戰(zhàn)。最后,基于作者的思考,文章展望了未來(lái)基于機(jī)器學(xué)習(xí)的水聲定位算法的幾個(gè)潛在的研究方向。
關(guān)鍵詞:水聲被動(dòng)定位;機(jī)器學(xué)習(xí);深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);監(jiān)督學(xué)習(xí)
1?引言
近幾年,機(jī)器學(xué)習(xí)方法(尤其是深度學(xué)習(xí)方法)在語(yǔ)音識(shí)別[1]、圖像處理[2]、自然語(yǔ)言理解[3]等科學(xué)領(lǐng)域取得了突破性進(jìn)展,促進(jìn)了自動(dòng)駕駛、人臉識(shí)別、語(yǔ)音個(gè)人助理、醫(yī)學(xué)影像分析等領(lǐng)域的技術(shù)變革。不僅如此,機(jī)器學(xué)習(xí)方法也在深刻影響著其他自然科學(xué)領(lǐng)域(如地球物理學(xué)[4-7])的發(fā)展方向。從統(tǒng)計(jì)學(xué)的角度看,機(jī)器學(xué)習(xí)方法是一種最優(yōu)化方法。利用大量統(tǒng)計(jì)數(shù)據(jù)對(duì)具有特定結(jié)構(gòu)、包含未知參數(shù)的數(shù)學(xué)模型進(jìn)行訓(xùn)練,可生成含有訓(xùn)練數(shù)據(jù)內(nèi)在統(tǒng)計(jì)特征的擬合器。從這個(gè)角度看,機(jī)器學(xué)習(xí)方法是一種可應(yīng)用于最優(yōu)化問(wèn)題求解的普適性的框架。因此,其可被應(yīng)用于其他多個(gè)自然科學(xué)領(lǐng)域。水聲遠(yuǎn)程被動(dòng)定位問(wèn)題是根據(jù)觀測(cè)到的遠(yuǎn)距離聲源輻射的聲壓數(shù)據(jù),通過(guò)合適的信號(hào)處理算法,在空域內(nèi)尋找聲源最優(yōu)或最可能的位置。顯然,給定合適的經(jīng)過(guò)預(yù)處理之后的訓(xùn)練數(shù)據(jù),該問(wèn)題可用機(jī)器學(xué)習(xí)方法進(jìn)行求解。例如,將機(jī)器學(xué)習(xí)用于分類(lèi)問(wèn)題時(shí),模型的輸出為可能類(lèi)型的概率分布。類(lèi)似地,尋找最優(yōu)聲源位置也可作為機(jī)器學(xué)習(xí)的分類(lèi)問(wèn)題進(jìn)行求解,此時(shí)模型輸出為聲源距離或深度的概率分布。本文對(duì)基于機(jī)器學(xué)習(xí)的水聲被動(dòng)定位算法進(jìn)行綜述,通過(guò)對(duì)目前最新的研究成果進(jìn)行引述,重點(diǎn)討論和給出所涉及到的算法理論基礎(chǔ)、單陣元及陣列的前端信號(hào)預(yù)處理算法、模型選擇和訓(xùn)練及性能評(píng)價(jià)等。
將機(jī)器學(xué)習(xí)方法應(yīng)用到水聲被動(dòng)定位,可以追溯到上世紀(jì)九十年代。1991年,Steinberg[8]等人將神經(jīng)網(wǎng)絡(luò)用于對(duì)均勻介質(zhì)中點(diǎn)聲源的定位。同年,Ozard[9]等人仿真研究了在匹配場(chǎng)處理中利用神經(jīng)網(wǎng)絡(luò)進(jìn)行距離和深度判別。之后,Caiti[10-11]等人(1994、1996)利用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)估計(jì)海底沉積層的特性。另外,Michalopoulou[12](1995)、Stephan[13](1998)和Benson[14](2000)等人分別將神經(jīng)網(wǎng)絡(luò)用于海底分類(lèi)和地聲參數(shù)反演??偟膩?lái)說(shuō),以上工作為神經(jīng)網(wǎng)絡(luò)在水聲學(xué)中的應(yīng)用作了探索性的研究。但是,受限于當(dāng)時(shí)的計(jì)算資源及缺乏高效的訓(xùn)練算法,加之當(dāng)時(shí)主流的被動(dòng)定位算法——匹配場(chǎng)定位[15-19],正處于飛速發(fā)展階段,在之后的很長(zhǎng)一段時(shí)間,機(jī)器學(xué)習(xí)方法在水聲學(xué)領(lǐng)域并沒(méi)有受到足夠重視,而基于物理場(chǎng)聲學(xué)建模的匹配場(chǎng)處理方法則成為水聲被動(dòng)定位的研究熱點(diǎn)。然而,盡管匹配場(chǎng)處理方法經(jīng)過(guò)幾十年的發(fā)展取得了巨大的進(jìn)步,目前也被廣泛應(yīng)用于相關(guān)的工程實(shí)踐,但是匹配場(chǎng)處理方法在實(shí)際應(yīng)用中仍然面臨著諸多困難和挑戰(zhàn),如典型的環(huán)境失配問(wèn)題。海洋是一種時(shí)變、空變的復(fù)雜聲信道,導(dǎo)致實(shí)測(cè)聲場(chǎng)與理論建模聲場(chǎng)之間必然存在一定的偏差和失配,這種失配有時(shí)會(huì)給匹配場(chǎng)定位造成較大影響。為克服和降低海洋環(huán)境參數(shù)不確定性對(duì)匹配場(chǎng)定位的影響,研究人員相繼提出了一些將環(huán)境參數(shù)納入未知參數(shù)集的改進(jìn)的匹配場(chǎng)處理方法,如環(huán)境聚焦匹配場(chǎng)處理[20-24]或貝葉斯匹配場(chǎng)定位[25-26]。但同時(shí)這些方法帶來(lái)的問(wèn)題是計(jì)算量顯著增加,增加了實(shí)時(shí)處理的難度。
由于匹配場(chǎng)處理方法的局限性及近幾年機(jī)器學(xué)習(xí)理論和技術(shù)的新發(fā)展,一些基于機(jī)器學(xué)習(xí)的水聲被動(dòng)定位方法開(kāi)始重新嶄露頭角,相關(guān)研究和報(bào)道也陸續(xù)出現(xiàn)。2017年,Lefort[27]等人利用水箱實(shí)驗(yàn)數(shù)據(jù)模擬研究了在起伏海洋環(huán)境下非線性回歸算法的定位性能,表明機(jī)器學(xué)習(xí)算法在水聲目標(biāo)定位中有一定的優(yōu)勢(shì)和潛力。同年,Niu[28-29]等人提出了一類(lèi)可行的基于機(jī)器學(xué)習(xí)算法的水下聲源定位方法,系統(tǒng)性研究了前饋神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和隨機(jī)森林三種機(jī)器學(xué)習(xí)模型的聲源定位性能,并首次通過(guò)海試實(shí)測(cè)實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了機(jī)器學(xué)習(xí)算法的定位性能。2018年,Wang[30]等人將實(shí)測(cè)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),利用廣義回歸神經(jīng)網(wǎng)絡(luò)對(duì)聲源進(jìn)行定位。同年,Huang[31]等人嘗試將仿真聲場(chǎng)作為訓(xùn)練數(shù)據(jù),利用多層的深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)聲源進(jìn)行定位。2019年,Liu[32]等人利用集合卷積網(wǎng)絡(luò)對(duì)深海直達(dá)聲區(qū)進(jìn)行聲源測(cè)距。Niu[33]等人利用50層殘差卷積神經(jīng)網(wǎng)絡(luò)和單水聽(tīng)器對(duì)不確知環(huán)境條件下的聲源進(jìn)行定位。所有這些工作都表明了機(jī)器學(xué)習(xí)方法在水聲被動(dòng)定位中的應(yīng)用潛力。同時(shí),值得注意的是,相關(guān)研究在國(guó)際水聲學(xué)領(lǐng)域也開(kāi)始顯示出影響力,越來(lái)越多的學(xué)者投入到相關(guān)研究中。以美國(guó)聲學(xué)學(xué)會(huì)年會(huì)為例,基于機(jī)器學(xué)習(xí)的水聲定位或反演研究在2016年的兩次會(huì)議上還較為少見(jiàn)。到2018年11月的秋季年會(huì),相關(guān)的會(huì)議報(bào)告[34- 40]已明顯增加。由此可見(jiàn),該研究方向正處于快速發(fā)展階段,并逐步在整個(gè)水聲學(xué)領(lǐng)域產(chǎn)生影響力。
2?定位算法
到目前為止,水聲遠(yuǎn)程被動(dòng)定位中所涉及的機(jī)器學(xué)習(xí)方法,絕大多數(shù)屬于有監(jiān)督學(xué)習(xí)類(lèi)算法。即利用有標(biāo)注的數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練。若機(jī)器學(xué)習(xí)模型的輸出為連續(xù)的,則為回歸器。若模型輸出為多個(gè)離散值,則將這種機(jī)器學(xué)習(xí)模型稱(chēng)之為分類(lèi)器。理論上,利用回歸器或分類(lèi)器對(duì)聲源距離和深度進(jìn)行估計(jì)都是可行的。定位算法的框圖如圖1所示。定位算法分為兩個(gè)階段:訓(xùn)練階段和預(yù)測(cè)階段。
圖1 機(jī)器學(xué)習(xí)定位算法框圖
Fig.1 Localization algorithm using machine learning
在圖1所示的訓(xùn)練階段,原始聲壓數(shù)據(jù)經(jīng)過(guò)前端預(yù)處理(見(jiàn)第2.2節(jié))之后作為機(jī)器學(xué)習(xí)模型的輸入。用于訓(xùn)練的標(biāo)注數(shù)據(jù)為聲源位置或與聲源位置相關(guān)的量。對(duì)于回歸器,標(biāo)注為連續(xù)的聲源距離或深度[28],對(duì)于分類(lèi)器,標(biāo)注一般采用位向量[28](即組成元素為0和1)對(duì)聲源距離或深度進(jìn)行編碼表示。給定對(duì)應(yīng)的標(biāo)注之后,結(jié)合模型輸出,就可以利用特定的訓(xùn)練損失函數(shù)對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,目的是得到模型中的未知參量。幾種典型的機(jī)器學(xué)習(xí)模型及對(duì)應(yīng)的訓(xùn)練損失函數(shù)見(jiàn)第2.3節(jié)。在訓(xùn)練階段訓(xùn)練好的機(jī)器學(xué)習(xí)模型可用于預(yù)測(cè)階段對(duì)未知數(shù)據(jù)的預(yù)測(cè),預(yù)測(cè)階段機(jī)器學(xué)習(xí)模型的輸入為經(jīng)過(guò)同樣預(yù)處理之后的測(cè)量數(shù)據(jù)。對(duì)于回歸器,模型的輸出為聲源距離或深度;對(duì)于分類(lèi)器,輸出為聲源距離或深度的概率分布,一般取概率最大值為聲源位置的估計(jì)值。
2.1?理論基礎(chǔ)
雖然在某些應(yīng)用中機(jī)器學(xué)習(xí)模型被認(rèn)為是無(wú)法解釋的“黑盒子”模型,但是將機(jī)器學(xué)習(xí)方法應(yīng)用到水聲被動(dòng)定位中,是有合理的物理理論基礎(chǔ)的。如引言所述,機(jī)器學(xué)習(xí)模型實(shí)際上是一個(gè)函數(shù)擬合器,它將輸入按照一定的規(guī)則映射為輸出。在水聲學(xué)中,不同位置(距離和深度)處的聲源所產(chǎn)生的聲場(chǎng)是不同的。具體來(lái)說(shuō),不同位置處聲源對(duì)應(yīng)的信道響應(yīng)是不同的,而聲源激勵(lì)一般來(lái)說(shuō)與位置無(wú)關(guān)。因此,我們可以將預(yù)處理之后的物理量映射為聲源位置或與聲源位置相關(guān)的量。以某淺海環(huán)境下單陣元為例,圖2所示為仿真得到的單個(gè)陣元接收信號(hào)幅度的距離-頻率圖,可見(jiàn)不同距離處對(duì)應(yīng)不同的頻率干涉結(jié)構(gòu)。同樣,在深海直達(dá)聲區(qū),也存在類(lèi)似的干涉結(jié)構(gòu)[32]。因此,這種特征[32-33]可用來(lái)作為機(jī)器學(xué)習(xí)模型的輸入。陣列信號(hào)的采樣協(xié)方差矩陣也包含類(lèi)似的信息(矩陣的對(duì)角線元素對(duì)應(yīng)每個(gè)陣元信號(hào)的幅度,非對(duì)角線元素對(duì)應(yīng)不同陣元信號(hào)間的相位差)。第2.2節(jié)所述的前端預(yù)處理算法的目的是將原始測(cè)量信號(hào)轉(zhuǎn)換為信道響應(yīng)或近似信道響應(yīng),從而盡量減小訓(xùn)練數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)可能存在的差異。在實(shí)際應(yīng)用中,二者差異一般由聲源激勵(lì)不同引起,包括相位和幅度差異。對(duì)于陣列信號(hào)采用的歸一化采樣協(xié)方差矩陣[28-29]以及單陣元信號(hào)采用的分段歸一化幅度[32-33],就是為了減小這種差異。
圖2 接收信號(hào)的干涉結(jié)構(gòu)(距離-頻率圖)
Fig.2 Interference structure of received signals (range-frequency)
2.2?前端預(yù)處理算法
其中,nf為每一分段的頻點(diǎn)數(shù)。向量
即為預(yù)處理之后機(jī)器學(xué)習(xí)模型輸入的單個(gè)樣本點(diǎn)。
p(?f?)=S(?f?)g(f,r)+ε(?f?)
(1)
其中,S(?f?)為復(fù)數(shù)聲源激勵(lì)項(xiàng),g(f,r)為與聲源位置有關(guān)的信道響應(yīng)或格林函數(shù),ε(?f?)為噪聲。因?yàn)橐话闱闆r下聲源激勵(lì)項(xiàng)與聲源位置無(wú)關(guān),并且訓(xùn)練數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)的聲源激勵(lì)可能會(huì)存在差異,為使機(jī)器學(xué)習(xí)模型的輸入數(shù)據(jù)保持相同的特征,預(yù)處理算法的目的是消除或減小聲源激勵(lì)譜幅度和相位的影響[28-29]。
首先,復(fù)聲壓數(shù)據(jù)被歸一化為[28-29]
(2)
若噪聲為零,公式(2)的歸一化方法可將聲源激勵(lì)的幅度譜的影響完全消除。在較高信噪比情況下,聲源幅度譜的影響可被有效抑制。
然后,利用歸一化后的復(fù)聲壓,可得到多次快拍平均的采樣協(xié)方差矩陣(SCM)[28-29]:
(3)
其中,Ns為快拍數(shù)。由公式(1)和(3)可見(jiàn),在較高信噪比的條件下,聲源激勵(lì)相位的影響可被有效抑制和減弱。公式(2)和(3)保證了將與聲源激勵(lì)近似無(wú)關(guān)的物理量作為用于水聲被動(dòng)定位的機(jī)器學(xué)習(xí)模型輸入,而非原始測(cè)量的聲壓。由于公式(3)計(jì)算得到的采樣協(xié)方差矩陣是共軛對(duì)稱(chēng)的,因此為提高計(jì)算效率和較少內(nèi)存占用,可取上三角矩陣對(duì)應(yīng)元素的實(shí)部和虛部作為機(jī)器學(xué)習(xí)模型的輸入。對(duì)于單頻信號(hào),L個(gè)水聽(tīng)器數(shù)據(jù)經(jīng)預(yù)處理之后每個(gè)樣本點(diǎn)的輸入維數(shù)為L(zhǎng)×(L+1)。若考慮輸入為多頻信號(hào),可將多個(gè)頻點(diǎn)的數(shù)據(jù)拼接為一個(gè)長(zhǎng)向量作為模型輸入。
公式(2)和(3)是針對(duì)陣列信號(hào)的預(yù)處理方法。對(duì)于單陣元信號(hào),水聲被動(dòng)定位也是可行的,比如典型的利用波導(dǎo)不變量原理進(jìn)行測(cè)距?;诓▽?dǎo)不變量的測(cè)距方法,實(shí)際上是利用寬帶信號(hào)的干涉結(jié)構(gòu),即不同距離上干涉結(jié)構(gòu)不同。從另一個(gè)角度出發(fā),波導(dǎo)不變量測(cè)距方法利用的是寬帶信號(hào)的幅度譜,基于機(jī)器學(xué)習(xí)的定位方法也可借鑒這一點(diǎn)。因此,類(lèi)似于陣列信號(hào)預(yù)處理方法的出發(fā)點(diǎn),對(duì)于單陣元的寬帶信號(hào),預(yù)處理算法使得訓(xùn)練數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)的特征分布保持一致。記單陣元接收到的F個(gè)頻率的復(fù)聲壓矢量為p=[p1,…,pf,…,pF],對(duì)應(yīng)的幅度譜可寫(xiě)為:
q=[|p1|,…,|pf|,…,|pF|]
(4)
然后,將公式(4)向量中的元素歸一化到[0, 1]區(qū)間[33]:
(5)
與陣列信號(hào)預(yù)處理相似,為降低訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)聲源譜不一致造成的影響,對(duì)于緩變的聲源譜,可用如下的分段歸一化方法[33]:
(6)
在線實(shí)時(shí)融冰技術(shù),將可以有效防止輸電線路覆冰災(zāi)害,減少輸電線路覆冰承載參數(shù),降低輸電線路設(shè)計(jì)成本。文獻(xiàn)[7]提出一種自融冰導(dǎo)線設(shè)計(jì)方法,并設(shè)計(jì)了自融冰設(shè)備,為實(shí)現(xiàn)輸電線路實(shí)時(shí)在線融冰提供了新思路和新方法。
另外,除了以上預(yù)處理算法外,還可以利用協(xié)方差矩陣的本征向量[31]作為模型的輸入。該方法將多次快拍平均的采樣協(xié)方差矩陣進(jìn)行分解,理論上可將整個(gè)空間分解為模態(tài)信號(hào)空間和噪聲空間。然后取前M個(gè)較大本征值(即理想情況下的前M階簡(jiǎn)正波)對(duì)應(yīng)的本征向量作為機(jī)器學(xué)習(xí)模型的輸入。理想情況下,由于只取前M個(gè)特征向量,故該方法可抑制部分噪聲。但同時(shí)存在的問(wèn)題是若采樣協(xié)方差矩陣統(tǒng)計(jì)不充分,子空間的分解可能存在一定的問(wèn)題。另外,信號(hào)有效模態(tài)數(shù)M的值不太好確定,與海洋傳播環(huán)境及信號(hào)頻率等密切相關(guān)??傊?機(jī)器學(xué)習(xí)模型輸入特征的提取和構(gòu)造是一個(gè)非常值得研究的問(wèn)題,關(guān)系到機(jī)器學(xué)習(xí)模型的學(xué)習(xí)效率和穩(wěn)健性。
2.3?典型機(jī)器學(xué)習(xí)模型
根據(jù)現(xiàn)有文獻(xiàn),用于水聲被動(dòng)定位的機(jī)器學(xué)習(xí)模型有支持向量機(jī)、隨機(jī)森林、前饋神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)以及集成神經(jīng)網(wǎng)絡(luò)模型等。其中,支持向量機(jī)、隨機(jī)森林和單隱層的前饋神經(jīng)網(wǎng)絡(luò)屬于淺層模型,對(duì)于小訓(xùn)練數(shù)據(jù)集具有很好的定位性能。而深度神經(jīng)網(wǎng)絡(luò)屬于深度學(xué)習(xí)模型,學(xué)習(xí)能力更強(qiáng),可構(gòu)建高度復(fù)雜的機(jī)器學(xué)習(xí)模型,但同時(shí)需要的訓(xùn)練數(shù)據(jù)也越多。在訓(xùn)練數(shù)據(jù)不足的情況下,機(jī)器學(xué)習(xí)模型可能會(huì)出現(xiàn)過(guò)擬合的現(xiàn)象。選擇哪種模型取決于訓(xùn)練數(shù)據(jù)集的大小及水聲被動(dòng)定位具體的應(yīng)用場(chǎng)景(見(jiàn)第3節(jié)中對(duì)海試試驗(yàn)結(jié)果的概述)。下面對(duì)這幾種模型進(jìn)行簡(jiǎn)要介紹。
支持向量機(jī)[41]是一種典型的分類(lèi)模型,它通過(guò)使間隔(margin)最大化的策略尋找一個(gè)超平面實(shí)現(xiàn)輸入樣本的分類(lèi)。如果訓(xùn)練數(shù)據(jù)空間是線性可分的,可通過(guò)硬間隔最大化得到線性支持向量機(jī)分類(lèi)器;若輸入空間是近似線性可分時(shí),可通過(guò)引入松弛變量即軟間隔最大化,得到線性分類(lèi)器;當(dāng)訓(xùn)練數(shù)據(jù)為線性不可分時(shí),可通過(guò)核技巧實(shí)現(xiàn)非線性支持向量機(jī)。以二分類(lèi)為例,首先假設(shè)輸入樣本空間{xn;?n=1,2,…,N}是線性可分的,對(duì)應(yīng)的類(lèi)型為sn∈{1, -1},則分類(lèi)模型具有以下的形式:
yn=wTxn+b
(7)
其中,w和b是待求解的權(quán)重和偏置項(xiàng)。用于分類(lèi)的超平面滿足wTxn+b=0,若估計(jì)值yn在超平面之上(yn>0),則對(duì)應(yīng)的估計(jì)類(lèi)型為
相反,若yn位于超平面之下(yn<0),則估計(jì)類(lèi)型為
樣本點(diǎn)xn到超平面的垂直距離d等于點(diǎn)xn與其在超平面上投影點(diǎn)x0之間的距離,滿足:
(8)
因此,距離d可寫(xiě)為[28]:
(9)
間隔距離dM定義為從超平面到間隔邊界上最近的樣本點(diǎn)(即支持向量)的距離。模型參數(shù)可由最大化間隔求解得到:
(10)
公式(10)等價(jià)于求解如下優(yōu)化問(wèn)題:
(11)
若訓(xùn)練數(shù)據(jù)是線性不可分的,可引入松弛變量ξn≥0,使得部分樣本點(diǎn)有一定的誤分類(lèi)。此時(shí)對(duì)應(yīng)的優(yōu)化問(wèn)題為[41]:
n=1,…,N
(12)
其中,參數(shù)C>0控制間隔最大化和誤分類(lèi)之間的權(quán)重。另外,對(duì)于非線性的分類(lèi)問(wèn)題,公式(7)可寫(xiě)為:
yn=wT
(xn)+b
(13)
其中
(xn)表示特征空間的變換。對(duì)于該類(lèi)問(wèn)題,可通過(guò)核函數(shù)的技巧進(jìn)行求解。與支持向量機(jī)分類(lèi)器不同,支持向量回歸器則是最小化如下ε敏感度的誤差函數(shù)[41]:
(14)
其中,rn是樣本xn對(duì)應(yīng)的真實(shí)的聲源位置。
隨機(jī)森林模型[42- 43]是決策樹(shù)模型的推廣,它將輸入數(shù)據(jù)劃分到不同的特征空間中。即從根節(jié)點(diǎn)開(kāi)始,對(duì)樣本的某一特征進(jìn)行測(cè)試,根據(jù)測(cè)試結(jié)果將樣本分配到相應(yīng)的子節(jié)點(diǎn)(每個(gè)子節(jié)點(diǎn)對(duì)應(yīng)特征的一個(gè)取值),然后依次遞歸,最終將樣本劃分到不同葉節(jié)點(diǎn)。若輸入樣本{xn;?n=1,2,…,N}是D維空間中的向量。按照決策樹(shù)的思想,通過(guò)在第i維空間上定義一個(gè)截止門(mén)限c,輸入數(shù)據(jù)可被劃分到左右兩個(gè)區(qū)域(或特征空間):
(15)
在每個(gè)分支處的代價(jià)函數(shù)可寫(xiě)為:
(16)
nleft和nright分別為劃分到左右兩個(gè)區(qū)域中的樣本點(diǎn)數(shù),H(·)為純凈度函數(shù)。對(duì)于分類(lèi)問(wèn)題,一種表達(dá)純凈度的函數(shù)為基尼指數(shù)(Gini Index):
(17)
nm為區(qū)域xm內(nèi)的樣本點(diǎn)數(shù),lm為區(qū)域xm對(duì)應(yīng)的標(biāo)注預(yù)測(cè),表示區(qū)域內(nèi)樣本數(shù)量最多的類(lèi)型標(biāo)注:
(18)
其中,rk為聲源位置對(duì)應(yīng)的預(yù)測(cè)類(lèi)型,tn為樣本xn對(duì)應(yīng)的標(biāo)注,且
(19)
對(duì)于回歸算法,區(qū)域的標(biāo)注預(yù)測(cè)lm和純凈度函數(shù)H(·)為:
(20)
(21)
其中rn為對(duì)應(yīng)樣本的聲源位置(標(biāo)注)。單個(gè)決策樹(shù)模型容易產(chǎn)生過(guò)擬合的問(wèn)題,而隨機(jī)森林則是一種通過(guò)統(tǒng)計(jì)自助抽樣集成,綜合多個(gè)決策樹(shù)的模型,穩(wěn)健性更好。對(duì)于給定的訓(xùn)練集,隨機(jī)森林模型通過(guò)自助法產(chǎn)生Mr個(gè)訓(xùn)練集,在每個(gè)訓(xùn)練集上訓(xùn)練產(chǎn)生一個(gè)決策樹(shù)。最終通過(guò)多個(gè)決策樹(shù)的統(tǒng)計(jì)結(jié)果,樣本被歸為出現(xiàn)頻次最多的類(lèi)型。
另一類(lèi)機(jī)器學(xué)習(xí)模型是前饋神經(jīng)網(wǎng)絡(luò)[41],一般也被稱(chēng)之為多層感知機(jī),它具有前向直連的非循環(huán)結(jié)構(gòu)。記輸入層L1為D維的向量x=[x1,…,xD]T,與輸入層相連的第二層L2含有M個(gè)神經(jīng)元,每個(gè)神經(jīng)元的激活值為輸入層單元的線性組合:
(22)
其中,
和
被稱(chēng)之為權(quán)重和偏置,上標(biāo)代表當(dāng)前的層數(shù)。該層神經(jīng)網(wǎng)絡(luò)的輸出為激活值經(jīng)過(guò)一個(gè)激活函數(shù)f(·)的變換:
zj=f(aj)
(23)
激活函數(shù)有多種選擇,包括sigmoid函數(shù)、tanh函數(shù)、ReLU函數(shù)等。以sigmoid函數(shù)為例,其數(shù)學(xué)形式為:
(24)
可以看出該函數(shù)為單調(diào)遞增函數(shù),當(dāng)a→+
,?f(a)→1,當(dāng)a→-
,?f(a)→0。以此類(lèi)推,第三層L3中K個(gè)神經(jīng)元對(duì)應(yīng)的激活值為:
(25)
若該層為輸出層,對(duì)于多分類(lèi)問(wèn)題,一般采用softmax函數(shù)作為激活函數(shù),對(duì)應(yīng)的K個(gè)輸出為:
(26)
yk表示樣本屬于第k個(gè)類(lèi)型的概率,滿足0≤yk≤1且∑kyk=1。記tn為二進(jìn)制的位向量(one-hot vector),向量中僅有一個(gè)數(shù)為非零,其在向量中的位置代表相應(yīng)的類(lèi)型。訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),互熵一般作為訓(xùn)練的代價(jià)函數(shù):
(27)
對(duì)于N個(gè)樣本,對(duì)應(yīng)的平均互熵及最優(yōu)的權(quán)重分別為[41]:
(28)
(29)
對(duì)于回歸問(wèn)題,一般將平方誤差函數(shù)作為最小化的代價(jià)函數(shù)[41]:
(30)
其中,rn為聲源位置(標(biāo)注)。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練一般采用誤差反向傳播算法進(jìn)行權(quán)重的更新。
深度神經(jīng)網(wǎng)絡(luò)一般被認(rèn)為是在深度方向上擁有許多層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。例如,上文介紹的具有多個(gè)隱層的前饋神經(jīng)網(wǎng)絡(luò)也是一種深度神經(jīng)網(wǎng)絡(luò),層與層之間通過(guò)全連接的方式進(jìn)行互連。除了前饋神經(jīng)網(wǎng)絡(luò),在圖像和語(yǔ)音處理領(lǐng)域,被廣泛采用的深度神經(jīng)網(wǎng)絡(luò)還有深度卷積神經(jīng)網(wǎng)絡(luò)及循環(huán)神經(jīng)網(wǎng)絡(luò)。深度卷積神經(jīng)網(wǎng)絡(luò)的基本組成單元為卷積層,通過(guò)權(quán)值參數(shù)共享的方式極大地減少了待求解的參數(shù)數(shù)量。循環(huán)神經(jīng)網(wǎng)絡(luò)則主要用來(lái)對(duì)序列進(jìn)行建模,典型特點(diǎn)為具有有向環(huán)的結(jié)構(gòu)。到目前為止,循環(huán)神經(jīng)網(wǎng)絡(luò)還未在水聲被動(dòng)定位中有所應(yīng)用,因此本文僅簡(jiǎn)要介紹卷積神經(jīng)網(wǎng)絡(luò)。對(duì)于卷積層,記輸入樣本I的維度為W×H×D,在圖像處理中代表寬、高及通道數(shù),對(duì)于水聲定位,輸入可為一維或二維。卷積操作即為輸入I與卷積核K的卷積(convolution),在卷積網(wǎng)絡(luò)算法實(shí)現(xiàn)中,經(jīng)常用互相關(guān)(cross-correlation)代替卷積,二者的區(qū)別在于是否對(duì)卷積核進(jìn)行翻轉(zhuǎn)。對(duì)于單個(gè)通道D=1,數(shù)學(xué)表達(dá)式為:
(31)
卷積操作后的輸出經(jīng)常被稱(chēng)之為特征圖(feature map),卷積核的維度通常遠(yuǎn)小于輸入的維度。然后,與其他神經(jīng)網(wǎng)絡(luò)類(lèi)似,卷積之后的輸出經(jīng)過(guò)一個(gè)激活函數(shù)(卷積網(wǎng)絡(luò)中一般為修正線性單元ReLU),最后經(jīng)過(guò)一個(gè)池化層(pooling)對(duì)輸出進(jìn)行進(jìn)一步修正處理。例如,常見(jiàn)的兩種池化操作為最大池化和平均池化,分別對(duì)某一矩形區(qū)域內(nèi)的元素取最大值或平均值。多個(gè)卷積層的級(jí)聯(lián)可構(gòu)成深度卷積神經(jīng)網(wǎng)絡(luò),深度越深,模型的表達(dá)能力越強(qiáng),但同時(shí)帶來(lái)的問(wèn)題是梯度消失問(wèn)題,導(dǎo)致模型越難訓(xùn)練。為此,有研究人員提出殘差神經(jīng)網(wǎng)絡(luò)(ResNet)[44]來(lái)緩解深度模型的訓(xùn)練問(wèn)題。與常規(guī)卷積神經(jīng)網(wǎng)絡(luò)模擬輸入x與輸出H(x)之間的映射不同,殘差網(wǎng)絡(luò)模擬的是輸入輸出的殘差函數(shù)F(x),即H(x)=F(x)+x。圖3所示的瓶頸(bottleneck)結(jié)構(gòu)[44]是一種實(shí)現(xiàn)殘差網(wǎng)絡(luò)的基本單元。
圖3 殘差網(wǎng)絡(luò)中的瓶頸結(jié)構(gòu)
Fig.3 Bottleneck structure in ResNet
另外,還有研究人員利用集成神經(jīng)網(wǎng)絡(luò)對(duì)聲源進(jìn)行測(cè)距[32]。集成神經(jīng)網(wǎng)絡(luò)模型是利用集成學(xué)習(xí)的思想(類(lèi)似單個(gè)決策樹(shù)和隨機(jī)森林之間的關(guān)系),并綜合多個(gè)神經(jīng)網(wǎng)絡(luò)模型,對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)預(yù)測(cè),可在一定程度上提高模型的穩(wěn)健性和性能。
機(jī)器學(xué)習(xí)模型的訓(xùn)練可在現(xiàn)有主流框架上進(jìn)行高效地訓(xùn)練,如TensorFlow[45]和Scikit-learn[46]等。
2.4?性能評(píng)價(jià)
為度量機(jī)器學(xué)習(xí)方法的定位性能,有三種常見(jiàn)的評(píng)價(jià)準(zhǔn)則,分別是均方誤差(MSE)、平均絕對(duì)值誤差(MAE)以及平均絕對(duì)百分比誤差(MAPE)。記測(cè)試樣本數(shù)為N、第i個(gè)樣本對(duì)應(yīng)的距離或深度的真實(shí)值為gi、第i個(gè)樣本對(duì)應(yīng)的距離或深度的預(yù)測(cè)值為yi,則均方誤差的計(jì)算公式為:
(32)
平均絕對(duì)誤差的計(jì)算公式為:
(33)
平均絕對(duì)百分比誤差的計(jì)算公式為:
(34)
對(duì)于同一數(shù)據(jù)集,這三種評(píng)價(jià)準(zhǔn)則的結(jié)果并不完全一致,一般情況下,可選擇一種或多種度量對(duì)定位結(jié)果進(jìn)行比較和評(píng)價(jià)。
2.5?與匹配場(chǎng)定位的區(qū)別
基于機(jī)器學(xué)習(xí)的水聲定位方法,與經(jīng)典的匹配場(chǎng)定位相比,有以下幾點(diǎn)明顯區(qū)別:
(1)算法的執(zhí)行策略和效率不同。機(jī)器學(xué)習(xí)方法可以被認(rèn)為是一種離線訓(xùn)練、在線預(yù)測(cè)的策略。大量密集的計(jì)算集中在模型的訓(xùn)練階段,訓(xùn)練好的模型在預(yù)測(cè)階段進(jìn)行輕量級(jí)的計(jì)算,因此可較為容易地實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)處理。相反,匹配場(chǎng)處理方法采用的則是在一個(gè)參數(shù)空間內(nèi)進(jìn)行在線匹配的策略,如果參數(shù)空間較大(如同時(shí)包含環(huán)境參數(shù)),則計(jì)算效率會(huì)顯著降低,導(dǎo)致無(wú)法進(jìn)行實(shí)時(shí)處理。
(2)用于定位的代價(jià)函數(shù)不同。機(jī)器學(xué)習(xí)方法根據(jù)回歸或者分類(lèi)任務(wù),大多采用最小均方誤差或最小化互熵等訓(xùn)練的代價(jià)函數(shù)。而匹配場(chǎng)處理大多采用相關(guān)處理的方式。
(3)大數(shù)據(jù)處理的能力。機(jī)器學(xué)習(xí)方法可以很自然的采用大數(shù)據(jù)集結(jié)合深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,數(shù)據(jù)量越大,在統(tǒng)計(jì)意義上越有可能逼近真實(shí)的數(shù)據(jù)分布,并且可以同時(shí)利用仿真數(shù)據(jù)和實(shí)測(cè)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。匹配場(chǎng)處理方法一般情況下無(wú)法有效處理大數(shù)據(jù)。
3?部分海試實(shí)驗(yàn)數(shù)據(jù)概述
本節(jié)對(duì)近幾年公開(kāi)發(fā)表文獻(xiàn)中所涉及的海試實(shí)驗(yàn)數(shù)據(jù)處理中用到的機(jī)器學(xué)習(xí)模型和應(yīng)用場(chǎng)景進(jìn)行總結(jié)和概括,以便于讀者了解目前機(jī)器學(xué)習(xí)方法應(yīng)用于水聲被動(dòng)定位的概況。表1總結(jié)給出了對(duì)應(yīng)的試驗(yàn)海域及類(lèi)型、傳感器和訓(xùn)練數(shù)據(jù)類(lèi)型、機(jī)器學(xué)習(xí)模型及定位類(lèi)型。在文獻(xiàn)[28-30]中,實(shí)際測(cè)量數(shù)據(jù)被用于機(jī)器學(xué)習(xí)模型的訓(xùn)練,由于訓(xùn)練數(shù)據(jù)規(guī)模較小,模型均為結(jié)構(gòu)較為簡(jiǎn)單的淺層模型。采用實(shí)驗(yàn)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)的好處是可避免對(duì)未知環(huán)境的聲場(chǎng)理論建模,從而最大限度避免了環(huán)境失配造成的影響,但同時(shí)對(duì)應(yīng)用場(chǎng)景有較大的限制,即訓(xùn)練好的機(jī)器學(xué)習(xí)模型僅適用于某一特定海域相似環(huán)境條件下(如固定式陣列的岸基系統(tǒng))的聲源定位。對(duì)于缺乏實(shí)驗(yàn)數(shù)據(jù)的場(chǎng)景,文獻(xiàn)[31-33]利用環(huán)境參數(shù)生成的仿真聲場(chǎng)作為模型的訓(xùn)練數(shù)據(jù),結(jié)果表明深度學(xué)習(xí)算法的定位性能優(yōu)于傳統(tǒng)的匹配場(chǎng)處理定位算法。在文獻(xiàn)[31-32]中,由于環(huán)境參數(shù)的先驗(yàn)信息較為準(zhǔn)確,因此仿真聲場(chǎng)數(shù)據(jù)集的規(guī)模不大。而文獻(xiàn)[33]的應(yīng)用場(chǎng)景是不確知海底參數(shù)情況下的聲源定位。為降低海底參數(shù)的不確定性,訓(xùn)練數(shù)據(jù)采用基于多種假定海洋環(huán)境參數(shù)生成的仿真聲場(chǎng),訓(xùn)練數(shù)據(jù)樣本數(shù)超過(guò)上千萬(wàn)個(gè),對(duì)應(yīng)的深度學(xué)習(xí)模型也更加復(fù)雜,采用了50層的深度殘差網(wǎng)絡(luò),可適用于多種不同海底環(huán)境參數(shù)下的聲源被動(dòng)定位。由表1也可以看出,水聲被動(dòng)定位中用到的機(jī)器學(xué)習(xí)模型逐漸向大數(shù)據(jù)集、深度學(xué)習(xí)模型演進(jìn)。究其原因,主要是在推向?qū)嶋H應(yīng)用中,針對(duì)實(shí)測(cè)數(shù)據(jù)集有限和環(huán)境不確定性的應(yīng)對(duì)策略。
表1 部分海試實(shí)驗(yàn)機(jī)器學(xué)習(xí)定位方法總結(jié)
Tab.1 Summary of machine learning methods in sea experimental data processing
4?現(xiàn)有模型存在的問(wèn)題及解決思路
從近期公開(kāi)發(fā)表的相關(guān)文獻(xiàn)來(lái)看,基于機(jī)器學(xué)習(xí)的水聲被動(dòng)定位方法具有較好的應(yīng)用前景和潛力。但同時(shí),這類(lèi)方法作為水聲學(xué)領(lǐng)域中一種新興的技術(shù),尚處于起步階段,在推向?qū)嶋H應(yīng)用時(shí)還面臨著多個(gè)問(wèn)題和挑戰(zhàn)。具體來(lái)說(shuō)有以下幾點(diǎn):
(1)不確知海洋環(huán)境下的聲源被動(dòng)定位。對(duì)于實(shí)際應(yīng)用,海洋環(huán)境是時(shí)變和空變的,海底參數(shù)的準(zhǔn)確獲取也具有相當(dāng)大的難度。在不確知海洋環(huán)境條件下,如何訓(xùn)練機(jī)器學(xué)習(xí)模型成為關(guān)鍵。一種思路是收集不同水文、不同海底參數(shù)條件下的實(shí)測(cè)數(shù)據(jù),將實(shí)測(cè)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練。但難點(diǎn)在于不同環(huán)境條件下、不同聲源位置的實(shí)測(cè)數(shù)據(jù)獲取難度較大。另外一種思路是利用仿真聲場(chǎng)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),這種方法的好處是可以低成本地獲取足夠多環(huán)境條件下的訓(xùn)練數(shù)據(jù)樣本,不足之處是訓(xùn)練數(shù)據(jù)的質(zhì)量依賴(lài)于聲場(chǎng)建模的準(zhǔn)確度,如目前復(fù)雜的二維或三維海洋聲場(chǎng)的準(zhǔn)確建模仍然具有挑戰(zhàn)性。
(2)低信噪比條件下的聲源被動(dòng)定位。目前的研究都集中在較高信噪比條件下的定位,現(xiàn)有模型在低信噪比條件下定位性能會(huì)急劇下降。相應(yīng)的解決思路是利用傳統(tǒng)的陣列信號(hào)處理方法(如波束形成或空域?yàn)V波等)提高信噪比[33],或者通過(guò)將帶噪聲的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),也可能提高機(jī)器學(xué)習(xí)模型在低信噪比條件下的定位穩(wěn)健性。
(3)多聲源同時(shí)定位。在實(shí)際應(yīng)用中,存在多聲源同時(shí)存在(或在同一方向上)的可能性?,F(xiàn)有的機(jī)器學(xué)習(xí)模型目前考慮僅有一個(gè)聲源存在,如何建立針對(duì)多聲源情況的機(jī)器學(xué)習(xí)模型,也是水聲被動(dòng)定位中亟待解決的問(wèn)題。
5?結(jié)論
本文對(duì)目前基于機(jī)器學(xué)習(xí)的水聲被動(dòng)定位方法進(jìn)行了綜述和回顧,介紹了前端信號(hào)預(yù)處理算法、幾種典型的機(jī)器學(xué)習(xí)模型、評(píng)價(jià)準(zhǔn)則,并對(duì)部分海試試驗(yàn)結(jié)果進(jìn)行了概述。作者還簡(jiǎn)要討論了基于機(jī)器學(xué)習(xí)的水聲被動(dòng)定位與經(jīng)典的匹配場(chǎng)處理方法之間的區(qū)別。同時(shí)針對(duì)目前機(jī)器學(xué)習(xí)方法存在的問(wèn)題,給出了相應(yīng)的解決思路?;跈C(jī)器學(xué)習(xí)的水聲被動(dòng)定位具有很好的發(fā)展?jié)摿凸こ袒瘧?yīng)用前景,該研究方向開(kāi)始逐漸引起國(guó)際水聲學(xué)界的興趣,正處于快速發(fā)展時(shí)期。以作者的觀點(diǎn)看,針對(duì)第4節(jié)所述的難點(diǎn),未來(lái)的幾個(gè)潛在的研究方向?yàn)?大數(shù)據(jù)和深度學(xué)習(xí)模型相結(jié)合的定位方法;低信噪比條件下的機(jī)器學(xué)習(xí)定位方法;適用于多聲源定位的機(jī)器學(xué)習(xí)模型和方法。
審核編輯:符乾江
評(píng)論