來(lái)源:機(jī)器之心編譯 作者:Eric Jang
不確定性是機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)一個(gè)重要的研究主題,Eric Jang近日的一篇博客對(duì)這一主題進(jìn)行了詳細(xì)的闡述。順便一提,他的博客還有一些有趣的深度學(xué)習(xí)迷因。
在談到人工智能安全、風(fēng)險(xiǎn)管理、投資組合優(yōu)化、科學(xué)測(cè)量和保險(xiǎn)時(shí),人們都會(huì)提到「不確定性(uncertainty)」的概念。下面有幾個(gè)人們言語(yǔ)中涉及不確定性的例子:
「我們想讓機(jī)器學(xué)習(xí)模型知道它們不知道的東西。」
「負(fù)責(zé)診斷病人和給出治療方案的AI應(yīng)該告訴我們它對(duì)自己的推薦的信心?!?/p>
「科學(xué)計(jì)算中的顯著性值代表了測(cè)量中的不確定性?!?/p>
「我們想讓自動(dòng)智能體探索它們不確定(對(duì)于獎(jiǎng)勵(lì)或預(yù)測(cè))的區(qū)域,這樣它們也許能發(fā)現(xiàn)稀疏的獎(jiǎng)勵(lì)。」
「在投資組合優(yōu)化中,我們希望最大化回報(bào),同時(shí)限制風(fēng)險(xiǎn)。」
「由于地緣政治不確定性增大,美國(guó)股市2018年在失望中收尾?!?/p>
那「不確定性」究竟是什么?
不確定性度量反映的是一個(gè)隨機(jī)變量的離散程度(dispersion)。換句話說(shuō),這是一個(gè)標(biāo)量,反應(yīng)了一個(gè)隨機(jī)變量有多「隨機(jī)」。在金融領(lǐng)域,這通常被稱(chēng)為「風(fēng)險(xiǎn)」。
不確定性不是某種單一形式,因?yàn)楹饬侩x散程度的方法有很多:標(biāo)準(zhǔn)差、方差、風(fēng)險(xiǎn)值(VaR)和熵都是合適的度量。但是,要記住一點(diǎn):?jiǎn)蝹€(gè)標(biāo)量數(shù)值不能描繪「隨機(jī)性」的整體圖景,因?yàn)檫@需要傳遞整個(gè)隨機(jī)變量本身才行!
盡管如此,為了優(yōu)化和比較,將隨機(jī)性壓縮成單個(gè)數(shù)值仍然是有用的??傊涀。冈礁叩牟淮_定性」往往被視為「更糟糕」(除了在模擬強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)中)。
不確定性的類(lèi)型
統(tǒng)計(jì)機(jī)器學(xué)習(xí)關(guān)注的是模型p(θ|D)的估計(jì),進(jìn)而又估計(jì)的是未知隨機(jī)變量p(y|x)。其中有多種不同形式的不確定性。某些不確定性的概念描述了我們能夠預(yù)期的固有的隨機(jī)性(比如拋硬幣的結(jié)果),另一些概念則描述了我們對(duì)模型參數(shù)的最佳猜測(cè)的信心缺乏程度。
為了說(shuō)得具體一點(diǎn),我們假設(shè)有一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)需要根據(jù)一個(gè)每日氣壓表讀數(shù)序列預(yù)測(cè)當(dāng)天的降雨量。氣壓表能檢測(cè)大氣壓,大氣壓下降往往是降雨的前兆。下圖總結(jié)了降雨量預(yù)測(cè)模型與不同類(lèi)型的不確定性。
圖1:試圖根據(jù)氣壓表讀數(shù)序列預(yù)測(cè)每日降雨量的簡(jiǎn)單機(jī)器學(xué)習(xí)模型可能考慮的不確定性。偶然事件不確定性(AleatoricUncertainty)源自數(shù)據(jù)收集過(guò)程,是不可降低的隨機(jī)性。認(rèn)知不確定性(EpistemicUncertainty)反映的是模型做出正確預(yù)測(cè)的置信程度。最后,超出分布的誤差(Out-of-Distributionerror)是指當(dāng)模型的輸入不同于其訓(xùn)練數(shù)據(jù)時(shí)出現(xiàn)的不確定性(比如太陽(yáng)溫度等其它異?,F(xiàn)象)。
偶然事件不確定性
偶然事件不確定性得名于拉丁語(yǔ)詞根aleatorius,意為「將幾率納入創(chuàng)造過(guò)程」。這描述的是源自數(shù)據(jù)生成過(guò)程本身的隨機(jī)性;不能簡(jiǎn)單地通過(guò)收集更多數(shù)據(jù)而消除的噪聲。就像你不能預(yù)知結(jié)果的拋硬幣。
在降雨量預(yù)測(cè)的類(lèi)比中,偶然事件不確定性源自氣壓表的不準(zhǔn)確度。也還存在這種數(shù)據(jù)收集方法沒(méi)有觀察的重要變量:昨日的降雨量是多少?我們測(cè)量大氣壓的時(shí)代是現(xiàn)代還是上個(gè)冰河時(shí)代?這些未知是我們的數(shù)據(jù)收集方法中固有的,所以用該系統(tǒng)收集更多數(shù)據(jù)無(wú)法幫助我們消除這一不確定性。
偶然事件不確定性會(huì)從輸入傳播到模型的預(yù)測(cè)結(jié)果。假設(shè)有一個(gè)簡(jiǎn)單模型y=5x,它的輸入取自正態(tài)分布x~N(0,1)。在這一案例中,y~N(0,5),因此該預(yù)測(cè)分布的偶然事件不確定性可描述為σ=5。當(dāng)然,當(dāng)輸入數(shù)據(jù)x的隨機(jī)結(jié)構(gòu)未知時(shí),預(yù)測(cè)結(jié)果的偶然事件不確定性將更難估計(jì)。
也許有人會(huì)想:因?yàn)榕既皇录淮_定性是不可約減的,所以我們對(duì)此無(wú)能無(wú)力,直接忽略它就好了。這可不行!在訓(xùn)練模型時(shí),應(yīng)該注意選擇能夠正確地代表偶然事件不確定性的輸出表征。標(biāo)準(zhǔn)的LSTM不會(huì)得出概率分布,所以學(xué)習(xí)拋硬幣的結(jié)果時(shí)只會(huì)收斂成均值。相對(duì)而言,用于語(yǔ)言生成的模型能夠得出一系列類(lèi)別分布(詞或字符),這能納入句子完成任務(wù)中的固有歧義性。
認(rèn)知不確定性
「好的模型都是相似的;差的模型各有不同?!?/p>
認(rèn)知不確定性來(lái)自希臘語(yǔ)詞根epistēmē,屬于與知識(shí)相關(guān)的知識(shí)。這衡量了我們對(duì)「源自我們對(duì)正確模型參數(shù)的無(wú)知程度」的正確預(yù)測(cè)的無(wú)知程度。
下圖展示了一個(gè)在某個(gè)簡(jiǎn)單的一維數(shù)據(jù)集上的高斯過(guò)程回歸模型。其置信區(qū)間反映了認(rèn)知不確定性;訓(xùn)練數(shù)據(jù)的認(rèn)知不確定性為零(紅點(diǎn))。隨著我們離訓(xùn)練數(shù)據(jù)點(diǎn)的距離越遠(yuǎn),模型應(yīng)該給預(yù)測(cè)分布分配越高的標(biāo)準(zhǔn)差。不同于偶然事件不確定性,認(rèn)知不確定性可以通過(guò)收集更多數(shù)據(jù)和「去除」模型缺乏知識(shí)的輸入?yún)^(qū)域而降低。
圖2:一維高斯過(guò)程回歸模型,展現(xiàn)了訓(xùn)練集之外的輸入上的認(rèn)知不確定性
深度學(xué)習(xí)與高斯過(guò)程之間有豐富的關(guān)聯(lián)。人們希望能通過(guò)神經(jīng)網(wǎng)絡(luò)的表征能力擴(kuò)展高斯過(guò)程的能感知不確定性的性質(zhì)。不幸的是,高斯過(guò)程難以擴(kuò)展用于大數(shù)據(jù)集的統(tǒng)一隨機(jī)小批量設(shè)置,而且研究大型模型和數(shù)據(jù)集的人也已經(jīng)不再支持這種方法。
如果人們希望在選擇模型族時(shí)有最大的靈活度,使用集成(ensemble)方法來(lái)估計(jì)不確定性是一個(gè)好選擇,這實(shí)際上就是使用「多個(gè)獨(dú)立的學(xué)習(xí)后的模型」。高斯過(guò)程模型是分析式地定義預(yù)測(cè)分布,而集成方法則被用于計(jì)算預(yù)測(cè)的經(jīng)驗(yàn)分布(empiricaldistribution)。
由于訓(xùn)練過(guò)程中出現(xiàn)的隨機(jī)化偏差,任何單個(gè)模型都會(huì)有一些誤差。在集成方法中,其它模型往往會(huì)揭示出單個(gè)模型特有的錯(cuò)處之處,同時(shí)認(rèn)同推理正確的預(yù)測(cè)結(jié)果;因此集成模型是很強(qiáng)大的。
我們?cè)撊绾坞S機(jī)取樣模型以構(gòu)建一個(gè)集成模型呢?在使用bootstrapaggregation構(gòu)建集成模型時(shí),我們首先從一個(gè)大小為N的訓(xùn)練數(shù)據(jù)集開(kāi)始,并從原始訓(xùn)練集采樣M個(gè)大小為N的數(shù)據(jù)(有替換,這樣每個(gè)數(shù)據(jù)集都不會(huì)占據(jù)整個(gè)數(shù)據(jù)集)。分別在這些數(shù)據(jù)集上訓(xùn)練M個(gè)模型,再將它們的預(yù)測(cè)結(jié)果綜合起來(lái)得到一個(gè)經(jīng)驗(yàn)預(yù)測(cè)分布。
如果訓(xùn)練多個(gè)模型的成本過(guò)高,也可以使用dropout訓(xùn)練來(lái)近似模型集成。但是,引入dropout會(huì)涉及到一個(gè)額外的超參數(shù)并且也可能有損單個(gè)模型的表現(xiàn)(對(duì)于實(shí)際應(yīng)用而言往往是不可接受的;在實(shí)際應(yīng)用中,校準(zhǔn)不確定性估計(jì)相對(duì)準(zhǔn)確度而言是次要的)。
因此,如果能使用大量計(jì)算資源(就像谷歌那樣),通常只需要重復(fù)訓(xùn)練多個(gè)模型副本,這要更加容易。這還能在無(wú)損性能的前提下享受集成方法的好處。這篇深度集成論文就采用了這一方法:https://arxiv.org/pdf/1612.01474.pdf。這篇論文的作者還提到由不同的權(quán)重初始化帶來(lái)的隨機(jī)訓(xùn)練動(dòng)態(tài)足以得到一個(gè)多樣化的模型集合,而不必通過(guò)bootstrapaggregation來(lái)降低訓(xùn)練集多樣性。從實(shí)際的工程開(kāi)發(fā)角度看,押注不會(huì)影響模型性能的風(fēng)險(xiǎn)估計(jì)方法或研究者想要嘗試的其它方法是明智的
超出分布的不確定性
對(duì)于我們的降雨量預(yù)測(cè)器,如果我們?yōu)槠涮峁┑妮斎氩皇菤鈮罕碜x數(shù)序列,而是太陽(yáng)的溫度呢?要是提供一個(gè)全是零的序列呢?或者用不同的單位記錄的氣壓表讀數(shù)呢?RNN還是會(huì)繼續(xù)計(jì)算,為我們提供一個(gè)預(yù)測(cè),但結(jié)果很可能毫無(wú)意義。
這個(gè)模型完全沒(méi)有能力基于通過(guò)不同于訓(xùn)練集創(chuàng)建流程的流程生成的數(shù)據(jù)進(jìn)行預(yù)測(cè)。在基準(zhǔn)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)研究領(lǐng)域,這是一種常被忽視的失敗模式,因?yàn)槲覀兺ǔ<僭O(shè)訓(xùn)練、驗(yàn)證和測(cè)試集都完全由獨(dú)立同分布的數(shù)據(jù)構(gòu)成。
確定輸入是否「有效」是實(shí)際部署機(jī)器學(xué)習(xí)所面臨的一個(gè)嚴(yán)峻問(wèn)題,這也被稱(chēng)為超出分布(OoD/OutofDistribution)問(wèn)題。OoD與「模型誤設(shè)錯(cuò)誤」和「異常檢測(cè)」是同義詞。
異常檢測(cè)不僅對(duì)增強(qiáng)機(jī)器學(xué)習(xí)系統(tǒng)穩(wěn)健性很重要,而且本身也是一種非常有用的技術(shù)。舉個(gè)例子,我們可能想構(gòu)建一個(gè)能監(jiān)控健康人士的生命體征的系統(tǒng),讓該系統(tǒng)能在指標(biāo)異常時(shí)發(fā)出警報(bào),這并不需要系統(tǒng)之前見(jiàn)過(guò)這種異常的病理模式。我們也可以用異常檢測(cè)來(lái)管理數(shù)據(jù)中心的「健康」,一旦有不同尋常的事情發(fā)生(磁盤(pán)滿(mǎn)載、安全漏洞、硬件故障等),我們就能得到通知。
因?yàn)镺oD輸入僅出現(xiàn)在測(cè)試時(shí)間,所以我們不應(yīng)假設(shè)我們事先知道模型會(huì)遇到的異常的分布。這正是OoD檢測(cè)的棘手之處——我們必須針對(duì)模型在訓(xùn)練階段從未見(jiàn)過(guò)的輸入來(lái)增強(qiáng)該模型對(duì)這些輸入的抗性!這正是對(duì)抗式機(jī)器學(xué)習(xí)中描述的標(biāo)準(zhǔn)的攻擊場(chǎng)景。
機(jī)器學(xué)習(xí)模型有兩種處理OoD輸入的方法:1)在輸入到達(dá)模型前就識(shí)別出糟糕的輸入;2)根據(jù)模型預(yù)測(cè)結(jié)果的「怪異性」來(lái)幫助我們鑒別可能存在問(wèn)題的輸入。
在第一種方法中,我們不會(huì)對(duì)下游機(jī)器學(xué)習(xí)任務(wù)做任何假設(shè),只會(huì)考慮輸入是否處于訓(xùn)練分布中的問(wèn)題。這正是生成對(duì)抗網(wǎng)絡(luò)(GAN)中判別器的工作。但是,單個(gè)判別器并不具有完美的穩(wěn)健性,因?yàn)樗簧瞄L(zhǎng)辨別真實(shí)數(shù)據(jù)分布和生成器得到的分布;對(duì)于不屬于其中任意一個(gè)分布的輸入而言,它有可能得出任意的預(yù)測(cè)結(jié)果。
除了判別器,我們也可以構(gòu)建一個(gè)分布內(nèi)數(shù)據(jù)的密度模型,比如一個(gè)核密度估計(jì)器或用一個(gè)NormalizingFlow來(lái)擬合數(shù)據(jù)。HyunsunChoi和我最近研究過(guò)這一問(wèn)題,參閱我們最近使用現(xiàn)代生成模型執(zhí)行OoD檢測(cè)的論文:https://arxiv.org/abs/1810.01392
第二種OoD檢測(cè)方法涉及到使用任務(wù)模型的預(yù)測(cè)(認(rèn)知)不確定性來(lái)辨別哪些輸入是OoD。理想情況下,模型在收到錯(cuò)誤的輸入時(shí)應(yīng)該會(huì)得到「怪異的」的預(yù)測(cè)分布p(y|x)。舉個(gè)例子,HendrycksandGimpel(https://arxiv.org/abs/1610.02136)表明OoD輸入的最大化softmax概率(預(yù)測(cè)得到的類(lèi)別)往往低于分布內(nèi)的輸入。這里,不確定性反比于最大softmax概率建模的「置信度」。高斯過(guò)程這樣的模型能通過(guò)構(gòu)造為我們提供這些不確定性估計(jì),或者我們也可通過(guò)深度集成來(lái)計(jì)算認(rèn)知不確定性。
在強(qiáng)化學(xué)習(xí)領(lǐng)域,人們實(shí)際上假設(shè)OoD輸入是一件好事,因?yàn)檫@是智能體還不知道如何處理的世界輸入。鼓勵(lì)策略尋找自己的OoD輸入能實(shí)現(xiàn)「內(nèi)在的好奇心」,從而探索模型的預(yù)測(cè)效果較差的區(qū)域。這是很好的做法,但我很好奇如果將這種好奇心驅(qū)動(dòng)的智能體部署到現(xiàn)實(shí)世界(其中傳感器很容易損壞,也會(huì)發(fā)生其它實(shí)驗(yàn)異常)中會(huì)怎樣。機(jī)器人如何區(qū)分「未曾見(jiàn)過(guò)的狀態(tài)」(好)和「?jìng)鞲衅鲹p壞情況」(壞)?這能得到能學(xué)習(xí)與它們的傳感機(jī)制交互從而生成最大化新穎度的智能體嗎?
誰(shuí)來(lái)看住看門(mén)狗?
正如前一節(jié)提到的那樣,保護(hù)自己免受OoD輸入影響的一種方法是設(shè)置一個(gè)能夠「像看門(mén)狗一樣」監(jiān)控模型輸入的似然模型(likelihoodmodel)。我更喜歡這種方法,因?yàn)檫@能將OoD輸入問(wèn)題與任務(wù)模型中的認(rèn)知和偶然事件不確定性隔開(kāi)。從工程開(kāi)發(fā)角度看,這能讓分析工作更輕松。
但我們不應(yīng)該忘記這個(gè)似然模型也是一個(gè)函數(shù)近似器,可能存在自己的OoD錯(cuò)誤!我們近期的生成式集成方法(GenerativeEnsembles,https://arxiv.org/abs/1810.01392,也可參閱DeepMind的同期研究https://arxiv.org/abs/1810.09136)研究表明,在使用一個(gè)CIFAR似然模型時(shí),來(lái)自SVHN的自然圖像實(shí)際上比CIFAR分布內(nèi)的圖像本身還有更高的可能性!
圖3:似然估計(jì)涉及到一個(gè)本身也可能易受OoD輸入影響的函數(shù)近似器。比起CIFAR測(cè)試圖像,CIFAR的似然模型會(huì)給SVHN圖像分配更高的概率!
但是,希望還是有的!研究表明,似然模型的認(rèn)知不確定性對(duì)該似然模型自身而言是出色的OoD檢測(cè)器。通過(guò)將認(rèn)知不確定性估計(jì)與密度估計(jì)結(jié)合起來(lái),我們能以一種與模型無(wú)關(guān)的方式使用似然模型的集成來(lái)保護(hù)機(jī)器學(xué)習(xí)模型免受OoD輸入影響。
校準(zhǔn):下一件大事?
警告:只是因?yàn)橐粋€(gè)模型能夠確定一個(gè)預(yù)測(cè)結(jié)果的置信區(qū)間,并不意味著該置信區(qū)間能真正反映結(jié)果在現(xiàn)實(shí)中的實(shí)際概率!
置信區(qū)間(比如2σ)隱式地假設(shè)預(yù)測(cè)分布是高斯分布,但如果你想要預(yù)測(cè)的分布是多模態(tài)分布或重尾分布,那么你的模型將不會(huì)得到很好的校準(zhǔn)!
假設(shè)我們的降雨量預(yù)測(cè)RNN告訴我們今日的降雨將為N(4,1)英寸,如果我們的模型經(jīng)過(guò)校準(zhǔn),那么如果我們一次又一次地在同樣的條件下重復(fù)這個(gè)實(shí)驗(yàn)(也許每一次都重新訓(xùn)練該模型),那么我們實(shí)際將會(huì)觀察到實(shí)際的降雨量分布正是N(4,1)。
當(dāng)今學(xué)術(shù)界開(kāi)發(fā)的機(jī)器學(xué)習(xí)模型大都是針對(duì)測(cè)試準(zhǔn)確度或某個(gè)擬合度函數(shù)優(yōu)化的。研究者執(zhí)行模型選擇的方式不是通過(guò)重復(fù)相同的實(shí)驗(yàn)來(lái)部署模型,再衡量校準(zhǔn)誤差,所以不出意外,我們的模型往往只有很差的校準(zhǔn),參閱:https://arxiv.org/abs/1706.04599
展望未來(lái),如果我們要信任部署在現(xiàn)實(shí)世界中的機(jī)器學(xué)習(xí)系統(tǒng)(機(jī)器人、醫(yī)療系統(tǒng)等),我認(rèn)為「證明我們的模型能夠正確理解世界」的一種遠(yuǎn)遠(yuǎn)更為強(qiáng)大方法是針對(duì)統(tǒng)計(jì)校準(zhǔn)測(cè)試它們。優(yōu)良的校準(zhǔn)也意味著優(yōu)良的準(zhǔn)確度,所以這是一個(gè)更嚴(yán)格的更高的優(yōu)化指標(biāo)。
不確定性應(yīng)該是標(biāo)量嗎?
盡管標(biāo)量的不確定性很有用,但它們的信息量永遠(yuǎn)不及它們所描述的隨機(jī)變量,我發(fā)現(xiàn)粒子濾波和分布式強(qiáng)化學(xué)習(xí)等方法非???,因?yàn)樗鼈兪窃谡麄€(gè)分布上運(yùn)行的算法,讓我們無(wú)需借助簡(jiǎn)單的正態(tài)分布來(lái)跟蹤不確定性。除了使用單標(biāo)量的「不確定性」來(lái)塑造基于機(jī)器學(xué)習(xí)的決策,現(xiàn)在我們也可以在決定要做什么時(shí)查詢(xún)分布的整體結(jié)構(gòu)。
Dabneyetal.的ImplicitQuantileNetworks論文(https://arxiv.org/pdf/1806.06923.pdf)很好地討論了如何基于回報(bào)的分布構(gòu)建「風(fēng)險(xiǎn)敏感型智能體」。在某些環(huán)境中,人們可能更偏好傾向于探索未知的機(jī)會(huì)主義策略;而在另一些環(huán)境中,未知事物可能并不安全,應(yīng)當(dāng)避開(kāi)。風(fēng)險(xiǎn)度量的選擇本質(zhì)上決定了如何將回報(bào)的分布映射成一個(gè)標(biāo)量數(shù)量,然后再根據(jù)這個(gè)量進(jìn)行優(yōu)化。所有的風(fēng)險(xiǎn)度量都可以根據(jù)分布計(jì)算得到,所以預(yù)測(cè)整個(gè)分布能讓我們將多個(gè)風(fēng)險(xiǎn)定義輕松地組合起來(lái)。此外,支持靈活的預(yù)測(cè)分布似乎也是一個(gè)提升模型校準(zhǔn)的好方法。
圖4:多種風(fēng)險(xiǎn)度量在Atari游戲上的表現(xiàn),來(lái)自這篇IQN論文:https://arxiv.org/abs/1806.06923
對(duì)金融資產(chǎn)管理者而言,風(fēng)險(xiǎn)度量是一個(gè)非常重要的研究主題。簡(jiǎn)單純粹的馬科維茨(Markowitz)投資組合的目標(biāo)是最小化投資組合回報(bào)的一個(gè)加權(quán)的方差。但是,方差是「風(fēng)險(xiǎn)」在金融語(yǔ)境的一個(gè)不直觀的選擇:大多數(shù)投資者根本不在乎回報(bào)超出預(yù)期,而只是希望最小化回報(bào)少或虧損的可能性。由于這個(gè)原因,Value-at-Risk、ShortfallProbability和TargetSemivariance等僅關(guān)注「糟糕」結(jié)果的概率的風(fēng)險(xiǎn)度量是更有用的優(yōu)化目標(biāo)。
不幸的是,它們也更難分析。我希望在分布式強(qiáng)化學(xué)習(xí)、蒙特卡洛方法和靈活的生成模型上的研究能讓我們構(gòu)建起能與投資組合優(yōu)化器很好地協(xié)同工作的風(fēng)險(xiǎn)度量的可微分弛豫(differentiablerelaxations)。如果你在金融行業(yè)工作,我強(qiáng)烈建議你閱讀IQN論文中的「強(qiáng)化學(xué)習(xí)中的風(fēng)險(xiǎn)」一節(jié)。
總結(jié)
下面總結(jié)了本文的一些要點(diǎn):
不確定性/風(fēng)險(xiǎn)度量是「隨機(jī)性」的標(biāo)量度量。為了優(yōu)化和數(shù)學(xué)計(jì)算的方便,將隨機(jī)變量濃縮成了單個(gè)數(shù)值。
預(yù)測(cè)不確定性可以分解成偶然事件不確定性(來(lái)自數(shù)據(jù)收集過(guò)程的不可約減的噪聲)、認(rèn)知不確定性(對(duì)真實(shí)模型的無(wú)知)和超出分布的不確定性(在測(cè)試時(shí),輸入存在問(wèn)題)。
認(rèn)知不確定性可以通過(guò)softmax預(yù)測(cè)閾值設(shè)置或集成方法降低。
我們可以不將OoD不確定性傳播到預(yù)測(cè)中,而是使用一種與任務(wù)無(wú)關(guān)的過(guò)濾機(jī)制來(lái)濾除「有問(wèn)題的輸入」。
密度模型是在測(cè)試時(shí)過(guò)濾輸入的一個(gè)好選擇。但是,需要認(rèn)識(shí)到,密度模型只是真實(shí)密度函數(shù)的近似,本身也可能易受分布之外的輸入的影響。
自我插拔:生成式集成方法能降低似然模型的認(rèn)知不確定性,所以它們可被用于檢測(cè)OoD輸入。
校準(zhǔn)很重要,而且在研究模型中被低估了。
某些算法(分布式強(qiáng)化學(xué)習(xí))能將機(jī)器學(xué)習(xí)算法延展成能產(chǎn)出靈活分布的模型,這能比單個(gè)風(fēng)險(xiǎn)度量提供更多的信息。
評(píng)論