一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

因果推斷和機(jī)器學(xué)習(xí)已有的聯(lián)系以及應(yīng)該建立哪些聯(lián)系

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:通信信號處理研究所 ? 2020-05-13 16:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文認(rèn)為機(jī)器學(xué)習(xí)人工智能領(lǐng)域中的待解難題本質(zhì)上與因果關(guān)系有關(guān)。

圖靈獎得主、貝葉斯網(wǎng)絡(luò)之父 Judea Pearl 曾自嘲自己是「AI 社區(qū)的反叛者」,因?yàn)樗麑θ斯ぶ悄馨l(fā)展方向的觀點(diǎn)與主流趨勢相反。Pearl 認(rèn)為,盡管現(xiàn)有的機(jī)器學(xué)習(xí)模型已經(jīng)取得了巨大的進(jìn)步,但遺憾的是,所有的模型不過是對數(shù)據(jù)的精確曲線擬合。從這一點(diǎn)而言,現(xiàn)有的模型只是在上一代的基礎(chǔ)上提升了性能,在基本的思想方面沒有任何進(jìn)步。

那么,怎樣才能推動 AI 社區(qū)解決這一問題呢?Pearl 認(rèn)為,我們需要一場「因果革命」。研究者應(yīng)該考慮采用因果推斷模型,從因果而非單純的數(shù)據(jù)角度進(jìn)行研究。

近日,馬克斯·普朗克智能系統(tǒng)中心主任 Bernhard Sch?lkopf 發(fā)表論文,談?wù)摿艘蚬P(guān)系和機(jī)器學(xué)習(xí)之間的聯(lián)系,并科普了一些相關(guān)的重要概念。Judea Pearl 轉(zhuǎn)發(fā)相關(guān)推文,表示「這是一篇非常全面、令人愉悅且極具啟發(fā)性的論文」,適合所有人,而不僅僅是機(jī)器學(xué)習(xí)/人工智能從業(yè)者閱讀。

機(jī)器之心對這篇論文進(jìn)行了摘要編譯,感興趣的同學(xué)可以查看原論文獲取更多信息。

論文地址:https://arxiv.org/pdf/1911.10500.pdf

Judea Pearl 開創(chuàng)的圖因果推斷源自人工智能研究,長期以來與機(jī)器學(xué)習(xí)領(lǐng)域關(guān)聯(lián)甚少。本文討論因果推斷和機(jī)器學(xué)習(xí)已有的聯(lián)系以及應(yīng)該建立哪些聯(lián)系,并介紹其中的核心概念。本文認(rèn)為機(jī)器學(xué)習(xí)和人工智能領(lǐng)域中的待解難題本質(zhì)上與因果關(guān)系有關(guān),并解釋了該領(lǐng)域逐漸理解它們的過程。

引言

近年來,機(jī)器學(xué)習(xí)社區(qū)對因果關(guān)系的興趣顯著增長。我對因果關(guān)系的了解來自于 Judea Pearl 和一些合作者以及同儕,我將其中一些知識寫在了與 Dominik Janzing、Jonas Peters 合著作品《Elements of Causal Inference》中。

我曾在多個場合談?wù)撨^這個話題,其中一些觀點(diǎn)正在融入機(jī)器學(xué)習(xí)主流視角,比如「因果建模能夠帶來更穩(wěn)健的模型」。

我很激動能夠看到因果和機(jī)器學(xué)習(xí)的交集,這篇文章嘗試表達(dá)我的思想,并繪制更廣闊的圖景。我希望本文不僅能夠幫助探討因果思維之于 AI 的重要性,還能夠作為入門文章,引導(dǎo)機(jī)器學(xué)習(xí)群體了解圖因果模型或結(jié)構(gòu)因果模型的相關(guān)概念。

盡管近期機(jī)器學(xué)習(xí)取得了很大成功,但如果我們將機(jī)器學(xué)習(xí)能夠完成的事與動物能做的事進(jìn)行對比,就會發(fā)現(xiàn)機(jī)器學(xué)習(xí)對于動物擅長的一些技能表現(xiàn)并不好。這包括將解決問題的能力遷移至新問題,以及任意形式的泛化,這里不是指從一個數(shù)據(jù)點(diǎn)到另一個數(shù)據(jù)點(diǎn)的泛化(且數(shù)據(jù)點(diǎn)來自同一分布),而是從一個問題泛化至下一個問題。

二者雖然都是「泛化」,但后者難度更高。這個缺點(diǎn)并不令人吃驚,因?yàn)闄C(jī)器學(xué)習(xí)是忽視動物嚴(yán)重依賴的信息:對世界的干預(yù)、域偏移、時間結(jié)構(gòu),總體上,我們覺得這些因素很煩并盡量移除。

最后,機(jī)器學(xué)習(xí)還不擅長在想象空間中行動。我認(rèn)為,關(guān)注對干預(yù)進(jìn)行建模和推理的因果關(guān)系可以極大地幫助理解和解決這些問題,從而將機(jī)器學(xué)習(xí)領(lǐng)域推向新高度。

從統(tǒng)計(jì)模型到因果模型

獨(dú)立同分布(IID)數(shù)據(jù)驅(qū)動的方法

我們的社區(qū)在使用機(jī)器學(xué)習(xí)解決大數(shù)據(jù)問題上取得了很多成功。這其中呈現(xiàn)出多個趨勢:

我們擁有海量數(shù)據(jù),這些數(shù)據(jù)通常來自模擬或大規(guī)模人類標(biāo)注;

我們使用高容量機(jī)器學(xué)習(xí)系統(tǒng)(即具備很多可調(diào)整參數(shù)的復(fù)雜函數(shù)類);

我們使用高性能計(jì)算系統(tǒng);

問題是獨(dú)立同分布的(IID,這一點(diǎn)經(jīng)常被忽視,但是在涉及因果關(guān)系時,這很關(guān)鍵)。

這些設(shè)置通常要么一開始就是 IID(如使用基準(zhǔn)數(shù)據(jù)集的圖像識別),要么被人工處理為 IID,如為給定的應(yīng)用問題精心收集合適的訓(xùn)練數(shù)據(jù)集,或者使用類似 DeepMind「經(jīng)驗(yàn)回放」(experience replay)的方法,即強(qiáng)化學(xué)習(xí)智能體存儲觀測結(jié)果稍后再打亂以便后續(xù)訓(xùn)練。

IID 數(shù)據(jù)具備統(tǒng)計(jì)學(xué)理論中的強(qiáng)泛相合性(strong universal consistency),這確保學(xué)習(xí)算法可以最小風(fēng)險獲得收斂。此類算法確實(shí)存在,比如最近鄰分類器和支持向量機(jī)。

從這個角度看,在提供足夠數(shù)據(jù)的前提下,機(jī)器達(dá)到甚至超過人類性能也無可厚非。但是,當(dāng)機(jī)器面對的問題不遵循 IID 假設(shè)時,那么即使這類問題對 IID 假設(shè)的破壞在人類看來微不足道,機(jī)器也通常很難解決。

當(dāng)一個能以高準(zhǔn)確率被正常識別的物體被放進(jìn)與該物體出現(xiàn)場景呈負(fù)相關(guān)的場景訓(xùn)練集時,視覺系統(tǒng)很容易被誤導(dǎo)。例如,此類系統(tǒng)可能無法識別站在沙灘上的奶牛。

更夸張的是,「對抗脆弱性」(adversarial vulnerability)現(xiàn)象強(qiáng)調(diào),即使對 IID 假設(shè)作出非常微小但有針對性的破壞(這類破壞可以通過向圖像添加精心選擇的噪聲來實(shí)現(xiàn),而人類無法察覺此類更改),也會造成危險的錯誤,比如混淆交通標(biāo)志。

近年來,「防御機(jī)制」和之后很快出現(xiàn)并重新確立問題的新型攻擊展開了攻防戰(zhàn)??傮w上,大量(試圖解決 IID 基準(zhǔn)問題的)當(dāng)前實(shí)踐和大部分(關(guān)于 IID 設(shè)置泛化的)理論結(jié)果無法解決在不同問題上進(jìn)行泛化這一待解難題。

為了進(jìn)一步了解 IID 假設(shè)究竟哪里有問題,我們先來考慮一個購物案例。假設(shè)愛麗絲在網(wǎng)上查找電腦包,網(wǎng)店的推薦系統(tǒng)建議她搭配購買一臺筆記本電腦。這看起來很奇怪,因?yàn)樗芸赡芤呀?jīng)買過筆記本電腦了,不然她也不會先看電腦包啊。

在某種程度上,筆記本電腦是「因」,電腦包是「果」。如果有人告訴我某位顧客是否購買過筆記本電腦,那么我對顧客是否購買過電腦包的不確定性會減少,且反之亦然。二者對我的影響是同等程度的(互信息),所以因果之間的方向性丟失了。

然而,這種情況出現(xiàn)在生成統(tǒng)計(jì)相關(guān)性(statistical dependence)的物理機(jī)制中,例如使擁有筆記本電腦的顧客想要購買電腦包。推薦待購買物品構(gòu)成了對系統(tǒng)的干預(yù),超出了 IID 設(shè)置。我們不再處理觀測數(shù)據(jù)分布,而是某些變量或機(jī)制已經(jīng)發(fā)生改變了的分布。這就屬于因果關(guān)系的范疇了。

Reichenbach (1956) 明確指出了因果關(guān)系和統(tǒng)計(jì)相關(guān)性之間的聯(lián)系。他提出共同原因原理(Common Cause Principle):如果兩個觀測對象 X、Y 具備統(tǒng)計(jì)相關(guān)性,則存在變量 Z 對二者造成因果作用,且通過使它們基于 Z 互相獨(dú)立來解釋二者之間的相關(guān)性。

在特殊情況下,變量 Z 可與 X 或 Y 重疊。假設(shè) X 是鸛鳥的數(shù)目,Y 是人類出生率(在一些歐洲國家中,二者具備相關(guān)性)。如果是鸛鳥帶來了人類嬰兒,則正確的因果圖是 X → Y。如果是嬰兒吸引來了鸛鳥,則因果圖是 X ← Y。如果某個其他變量引出了這兩者(如經(jīng)濟(jì)發(fā)展),則因果圖為 X ← Z → Y。

我們可以從中得出一個重要結(jié)論:在沒有額外假設(shè)的情況下,我們無法利用觀測數(shù)據(jù)區(qū)分這三種情況。在這三個案例中,X 和 Y 的觀測分布類別(可通過模型得到)是相同的。因此,因果模型所包含的信息超出統(tǒng)計(jì)模型。

鑒于僅有兩個觀測對象的案例已經(jīng)很難,我們會思考,包含更多觀測對象的案例是否完全沒有希望解決呢?

令人驚訝的是,事實(shí)并非如此:一定意義上這類問題變得更加簡單了,因?yàn)檫@類問題中存在因果結(jié)構(gòu)暗含的非平凡條件獨(dú)立性(nontrivial conditional independence)屬性。這類屬性可以通過因果圖或結(jié)構(gòu)因果模型來描述,它們集成了概率圖模型和干預(yù)(intervention)概念,最好使用直接的函數(shù)式父子(parent-child)關(guān)系來描述,而不是使用條件句(conditional)。

盡管現(xiàn)在看來其概念很簡單,但它構(gòu)成了理解因果關(guān)系的關(guān)鍵一步,正如 Pearl (2009a, p. 104) 后來所述:

我們研究用函數(shù)式父子關(guān)系 X_i = f_i(PA_i , U_i) 替代父子關(guān)系 P(X_i |PA_i) 的可能性,突然間一切就緒:我們最終得到了一個數(shù)學(xué)對象,我們可以將物理機(jī)制中的熟悉屬性歸因于它,而不是歸因于那些狡猾的認(rèn)知概率 P(X_i |PA_i),它也是我們在貝葉斯網(wǎng)絡(luò)研究中長期研究的對象。

結(jié)構(gòu)因果模型(SCM)

對于更習(xí)慣于用估計(jì)函數(shù)而非概率分布來思考問題的機(jī)器學(xué)習(xí)研究者而言,SCM 比較直觀。SCM 提供了一組觀測對象 X_1, . . . , X_n(被建模為隨機(jī)變量),它們與有向無環(huán)圖(DAG)G 的頂點(diǎn)相關(guān)聯(lián)。我們假設(shè)每個觀測對象是一個任務(wù)的結(jié)果:

該公式使用確定性函數(shù) f_i,該函數(shù)依賴于 X_i 在圖中的父親 PA_i 和隨機(jī)未解釋變量 U_i。圖中的有向邊表示直接因果關(guān)系,因?yàn)楦赣H通過有向邊與 X_i 相連,并通過公式 (1) 直接影響 X_i 的任務(wù)。噪聲 U_i 確保整體目標(biāo) (1) 表示通用條件分布 p(X_i |PA_i),噪聲集合 U_1, . . . , U_n 是聯(lián)合獨(dú)立的。如果它們不是這樣,則根據(jù)共同原因原理,應(yīng)存在另一個變量引起它們的相關(guān)性,因而該模型不具備充足的因果關(guān)系。

如果我們指定 U_1, . . . , U_n 的分布,則對 (1) 的遞歸應(yīng)用使得我們能夠計(jì)算得到的觀測聯(lián)合分布 p(X_1, . . . , X_n)。該分布具備繼承自圖的結(jié)構(gòu)屬性:它滿足因果馬爾可夫條件,即基于其父親,每個 X_j 都獨(dú)立于其非后代。

直觀上,我們可以將獨(dú)立噪聲想象為在圖中擴(kuò)展的「信息探針」(類似于在社交網(wǎng)絡(luò)中蔓延的閑話的獨(dú)立元素)。其信息互相糾纏,以條件依賴性的足跡呈現(xiàn),反映出使用獨(dú)立性檢驗(yàn)從觀測數(shù)據(jù)中推斷出圖結(jié)構(gòu)屬性的可能性。

就像剛才那個閑話的類比一樣,該足跡不足以確定獨(dú)特的因果結(jié)構(gòu)。具體來說,如果只有兩個觀測對象,它肯定無法確定因果結(jié)構(gòu),因?yàn)槿我夥瞧椒矖l件獨(dú)立性語句都至少需要三個變量。

過去十年,我們一直研究雙變量問題。我們意識到通過額外的假設(shè)可以解決該問題,因?yàn)椴粌H圖拓?fù)湓谟^測分布中留下足跡,函數(shù) f_i 也是如此。這一點(diǎn)對于機(jī)器學(xué)習(xí)而言非常有趣,在機(jī)器學(xué)習(xí)中大量注意力被傾注在函數(shù)類的屬性上(如先驗(yàn)或容量度量),稍后我們再討論這一點(diǎn)。

在討論之前,我們需要注意 (1) 的其他兩個屬性。首先,SCM 語言可以直接將干預(yù)公式化為修改任務(wù) (1) 子集的運(yùn)算,如更改 U_i 或?qū)?f_i(X_i)設(shè)置為常量。其次,具備噪聲聯(lián)合獨(dú)立性的圖結(jié)構(gòu)說明可將從 (1) 得到的聯(lián)合分布正準(zhǔn)分解為因果條件句,這又叫做因果(或解糾纏,disentangled)分解

盡管存在很多其他糾纏分解,如

但公式 (2) 是唯一一個將聯(lián)合分布分解為結(jié)構(gòu)任務(wù) (1) 對應(yīng)條件句的分解形式。我們認(rèn)為它們是解釋觀測對象之間統(tǒng)計(jì)相關(guān)性的因果機(jī)制。因此,與 (3) 相反,該解糾纏分解將聯(lián)合分布表示為因果機(jī)制的積。

統(tǒng)計(jì)學(xué)習(xí)的概念基礎(chǔ)是聯(lián)合分布 p(X_1, . . . , X_n)(其中通常存在一個 X_i 是 Y 指定的反應(yīng)變量),我們假設(shè)要逼近的函數(shù)類是回歸 E(Y |X)。因果學(xué)習(xí)考慮更多類的假設(shè),且尋求利用聯(lián)合分布具備因果分解 (2) 這一事實(shí)。它涉及因果條件句 p(X_i | PA_i)(即 (1) 中的函數(shù) f_i 和 U_i 分布)、這些條件句彼此之間的關(guān)聯(lián),以及它們?nèi)菰S的干預(yù)或更改。稍后我們將進(jìn)行詳細(xì)討論。

因果建模的層級

我接受過物理學(xué)訓(xùn)練,喜歡將一組耦合微分方程作為建模物理現(xiàn)象的黃金標(biāo)準(zhǔn)。它幫助我們預(yù)測系統(tǒng)的未來行為,推斷干預(yù)對系統(tǒng)的影響,以及通過適當(dāng)?shù)钠骄襟E預(yù)測耦合時間演化生成的統(tǒng)計(jì)相關(guān)性。此外,它還允許我們獲得對系統(tǒng)的見解,解釋其運(yùn)作,尤其是獲取其因果結(jié)構(gòu)。下面是一組耦合微分方程

其初始值 x(t_0) = x_0。根據(jù)皮卡-林德勒夫定理,如果 f 滿足利普希茨條件,則至少在局部范圍內(nèi),存在唯一解 x(t)。這表明,x 最近的未來值將由其之前的值決定。

基于此,我們可以確定向量 x(t) 的哪些條目導(dǎo)致 x(t+dt),即因果結(jié)構(gòu)。這說明,如果我們擁有一個可使用此類常微分方程 (4) 進(jìn)行建模的物理系統(tǒng),且該系統(tǒng)的解為 dx/dt(該導(dǎo)數(shù)僅出現(xiàn)在公式 (4) 的左側(cè)),則我們可以直接讀取其因果結(jié)構(gòu)。

微分方程是對系統(tǒng)相對完整的描述,統(tǒng)計(jì)模型則可視為較為粗淺的描述。它通常不會談及時間,相反,它告訴我們在實(shí)驗(yàn)條件不變的情況下某些變量如何執(zhí)行對其他變量的預(yù)測。例如,如果我們使用某種類型的噪聲驅(qū)動微分方程系統(tǒng),或者按時間進(jìn)行平均,則 x 的組件之間可能出現(xiàn)統(tǒng)計(jì)相關(guān)性,并被機(jī)器學(xué)習(xí)利用。

此類模型不能預(yù)測干預(yù)的作用,但是其優(yōu)勢在于,它通常基于數(shù)據(jù)學(xué)得,而微分方程通常需要智慧的人類來提出。因果建模位于這兩個極端之間,它旨在提供對干預(yù)的理解,并預(yù)測其影響。因果發(fā)現(xiàn)和學(xué)習(xí)試圖在僅使用弱假設(shè)的前提下,以數(shù)據(jù)驅(qū)動的方式獲得此類模型。

表 1 總結(jié)了整體狀況,該表基于 Peters 等人(2017)的論文內(nèi)容進(jìn)行了改編。

表 1:模型的簡單分類。最詳細(xì)的模型(第一行)是機(jī)械/物理模型,通常以微分方程的形式呈現(xiàn)。而另一個極端(最后一行)是純統(tǒng)計(jì)模型,它可從數(shù)據(jù)中學(xué)得,但無法對建模副現(xiàn)象(epiphenomenon)之間關(guān)聯(lián)以外的事情提供見解。因果模型是中間派,既抽象了物理實(shí)在(physical realism)又保留了回答特定干預(yù)或反事實(shí)問題的能力。讀者可以查閱 Mooij 等人(2013)的論文,了解物理模型和結(jié)構(gòu)因果模型之間的正式聯(lián)系。

獨(dú)立因果機(jī)制

現(xiàn)在回到聯(lián)合分布 p(X_1, . . . , X_n) 的解糾纏分解 (2)。根據(jù)因果圖,當(dāng) U_i 是獨(dú)立的時,該分解通常是可行的,但是我們現(xiàn)在要考慮 (2) 中因子之間的獨(dú)立性這一額外概念。我們可以利用視錯覺 Beuchet Chair 來非正式地介紹它,如圖 1 所示。

圖 1:Beuchet Chair 由兩個單獨(dú)物體構(gòu)成,從破壞了物體和感知過程獨(dú)立性的特定視角看,它們「組成」了一把椅子。

我們在感知物體時,大腦會假設(shè)該物體和其光線所包含信息抵達(dá)大腦的機(jī)制是相互獨(dú)立的。我們可以從特定視角觀看該物體,來破壞這一假設(shè)。如果我們這么做了,則感知會出錯:在 Beuchet Chair 的例子中,我們感知到椅子的三維結(jié)構(gòu),而現(xiàn)實(shí)中并沒有這樣一把椅子。

上述獨(dú)立性假設(shè)是有用的,因?yàn)樵趯?shí)踐中,它符合絕大多數(shù)情況,因此我們的大腦依賴獨(dú)立于特定視角和光照的物體。類似地,不應(yīng)出現(xiàn)偶然巧合,比如以 2D 形式組合的 3D 結(jié)構(gòu),或者與紋理邊界重合的陰影邊界。在視覺研究中,這叫做通用視角假設(shè)(generic viewpoint assumption)。

同樣地,如果我們圍繞該物體移動,則特定視角隨之改變,但我們假設(shè)整體生成過程中的其他變量(如光照、物體位置和結(jié)構(gòu))不受此影響。這是上述獨(dú)立性所暗含的不變性,允許我們即使在沒有立體視覺(運(yùn)動恢復(fù)結(jié)構(gòu),structure from motion)的情況下也能推斷 3D 信息。極端破壞此原則的一個例子是頭戴式 VR 設(shè)備,它追蹤感知者的頭部位置,并對設(shè)備進(jìn)行相應(yīng)的調(diào)整。此類設(shè)備創(chuàng)建了與現(xiàn)實(shí)不對應(yīng)的視覺場景。 我們再來看另一個例子,假設(shè)一個數(shù)據(jù)集包含海拔高度 A 和年均氣溫 T。A 和 T 具備相關(guān)性,我們認(rèn)為其原因在于高度對溫度有因果作用。假設(shè)我們有兩個這樣的數(shù)據(jù)集,一個是奧地利,一個是瑞士。則兩個聯(lián)合分布可能截然不同,因?yàn)楹0胃叨鹊倪吘壏植?p(A) 不同。

但是,條件句 p(T|A) 可能是類似的,因?yàn)樗鼈兠枋龌诟叨壬蓽囟鹊奈锢頇C(jī)制。然而,當(dāng)我們僅關(guān)注整體聯(lián)合分布,缺乏因果結(jié)構(gòu) A → T 的相關(guān)信息時,這種相似性就丟失了。因果分解 p(A)p(T|A) 包含的組件 p(T|A) 可泛化至不同國家,而糾纏分解 p(T)p(A|T) 不具備這種穩(wěn)健性。

當(dāng)我們考慮系統(tǒng)中的干預(yù)時,也會出現(xiàn)相同的情況。對于正確預(yù)測干預(yù)作用的模型,它需要具備穩(wěn)健性,能從觀測分布泛化至特定干預(yù)分布。

我們可以將以上見解表述如下:

獨(dú)立因果機(jī)制(ICM)原理。系統(tǒng)變量的因果生成過程由多個自主模塊構(gòu)成,它們彼此之間不會互相影響。在概率案例中,這意味著每個變量基于其原因(即機(jī)制)的條件分布不會影響其他機(jī)制;

機(jī)制相關(guān)性度量(measures of dependence of mechanisms)。注意 p(X_i |PA_i) 和 p(X_j |PA_j ) 這兩個機(jī)制的相關(guān)性不與隨機(jī)變量 X_i and X_j 的統(tǒng)計(jì)相關(guān)性重合。在因果圖中,很多隨機(jī)變量具備相關(guān)性,即使這些機(jī)制是完全獨(dú)立的。

圖 2:如果 f 和 p_x 是獨(dú)立的,則 p_Y 的峰值可能出現(xiàn)在 f 斜率較小、f^?1 斜率較大的區(qū)域。因而 p_Y 包含 f^?1 的信息。

因果發(fā)現(xiàn)

我們回到從觀測數(shù)據(jù)中發(fā)現(xiàn)因果關(guān)系的問題。如果存在合適的假設(shè),如忠實(shí)性,則我們有時可通過執(zhí)行條件獨(dú)立性檢驗(yàn)從觀測數(shù)據(jù)中恢復(fù)底層圖的屬性。但是,該方法存在一些問題。其中之一是,在實(shí)踐中,數(shù)據(jù)集通常是有限的,條件獨(dú)立性檢驗(yàn)是非常困難的問題,尤其是當(dāng)條件集連續(xù)多維時。

因此,盡管原則上不論 SCM 中的函數(shù)具備怎樣的復(fù)雜度,遵循因果馬爾可夫條件的條件獨(dú)立性都成立,但對于有限數(shù)據(jù)集,條件獨(dú)立性檢驗(yàn)在沒有額外假設(shè)時是非常困難的。另一個問題是,在僅具備兩個變量的案例中,條件獨(dú)立性的三元概念不成立,因此馬爾可夫條件沒有有效作用。

對函數(shù)類作出假設(shè)可以解決上述兩個問題。尤其是對機(jī)器學(xué)習(xí)而言,我們都知道在機(jī)器學(xué)習(xí)中,不對函數(shù)類進(jìn)行假設(shè),則有限樣本泛化不可能實(shí)現(xiàn)。具體而言,盡管一些學(xué)習(xí)算法是普遍一致的,即在無限樣本限制下接近最小預(yù)期誤差,但對于數(shù)據(jù)中的任意函數(shù)相關(guān)性,存在一些收斂很慢的情況。

因此對于給定樣本數(shù)量,這取決于待學(xué)習(xí)問題是否達(dá)到低預(yù)期誤差,統(tǒng)計(jì)學(xué)習(xí)理論以函數(shù)類復(fù)雜度度量提供概率保證。

回到因果關(guān)系,我們?yōu)?SCM 中函數(shù)假設(shè)對基于數(shù)據(jù)學(xué)習(xí)因果關(guān)系的必然性做出了直觀解釋??紤]一個僅具備兩個觀測對象的 SCM X → Y,則 (1) 變成:

。現(xiàn)在假設(shè) V 是從函數(shù)集 F = {f_v(x) ≡ f(x, v) | v ∈ supp(V)} 中選擇的隨機(jī)選擇器變量。如果 f(x, v) 以一種不平滑的方式依賴于 v,則從有限數(shù)據(jù)集中收集 SCM 相關(guān)信息是很難的,因?yàn)?V 不被觀測,它在任意不同的 f_v 之間隨機(jī)切換。這促進(jìn)了對復(fù)雜度的限制。一種自然的限制是假設(shè)一個加性噪聲模型 ?

如果 (7) 中的 f 平滑依賴于 V,V 相對密集,則對復(fù)雜度的限制可以通過局部泰勒展開式來促進(jìn)。它極大降低了函數(shù)類的有效規(guī)模,如果沒有此類假設(shè),則后者會指數(shù)級依賴 supp(V) 的基數(shù)(cardinality)。

對函數(shù)類的限制不僅使從數(shù)據(jù)中學(xué)習(xí)函數(shù)變得簡單,還能夠打破雙變量案例中因果之間的對稱性:給定 X, Y 的分布(由加性噪聲模型生成),無法在相反方向擬合加性噪聲模型(即 X 和 Y 的角色互換)。這符合特定的泛型假設(shè),U、X 是高斯分布,f 是線性函數(shù)的情況屬于例外。它推廣了 Shimizu 等人(2016)對于線性函數(shù)的結(jié)論,該觀點(diǎn)可泛化至非線性重縮放、循環(huán)、干擾因子(confounder)和多變量設(shè)置等情況。我們收集了一組因果推斷基準(zhǔn)問題,目前已有大量方法可以檢測出因果方向,其中一些方法基于上述 Kolmogorov 復(fù)雜度模型構(gòu)建,一些則直接學(xué)習(xí)將雙變量分布分類為因果和非因果。

因此,對函數(shù)類的假設(shè)有助于解決因果推斷問題。它們還能夠幫助解決基于條件獨(dú)立性檢驗(yàn)的因果發(fā)現(xiàn)方法的其他弱點(diǎn)。(條件)獨(dú)立性檢驗(yàn)的近期進(jìn)展主要依賴核函數(shù)類,來表示再生核希爾伯特空間(RKHS)中的概率分布。

因此,我們收集了一些證據(jù),證明機(jī)器學(xué)習(xí)中的想法可以幫助解決之前被認(rèn)為很難的因果關(guān)系問題。但是,相反方向也同樣有趣:因果關(guān)系能夠幫助改善機(jī)器學(xué)習(xí)嗎?目前的機(jī)器學(xué)習(xí)(以及現(xiàn)代 AI 的相當(dāng)多部分)是基于統(tǒng)計(jì)建模的,但是隨著這些方法變得普遍,其局限性也會更加明顯。

不變性、穩(wěn)健性、半監(jiān)督學(xué)習(xí)

大約在 2009 或 2010 年,我們開始對如何利用因果關(guān)系改進(jìn)機(jī)器學(xué)習(xí)感興趣。具體而言,「神經(jīng)網(wǎng)絡(luò)坦克的都市傳說」似乎可以說明些什么。在這個故事中,神經(jīng)網(wǎng)絡(luò)被訓(xùn)練用于以高準(zhǔn)確率分類坦克,但之后發(fā)現(xiàn)該網(wǎng)絡(luò)只是成功地聚焦于包含坦克類型信息的某個特征(如時間段或天氣),問題出在數(shù)據(jù)收集過程中。在不同環(huán)境下拍攝的坦克照片上進(jìn)行測試時,此類系統(tǒng)沒有展示出一點(diǎn)穩(wěn)健性。

我希望包含因果關(guān)系的分類器能夠?qū)Υ祟愖兓邆洳蛔冃?,關(guān)于這個主題我之前使用非因果方法研究過 (Chapelle and Sch?lkopf, 2002)。我們開始思考因果關(guān)系和協(xié)變量偏移之間的連接。我們知道因果機(jī)制應(yīng)該具備不變性,類似地,任何基于學(xué)習(xí)因果機(jī)制獲得的分類器也應(yīng)該具備不變性。但是,很多機(jī)器學(xué)習(xí)分類器不使用因果特征作為輸入,我們注意到它們的確更經(jīng)常解決非因果問題,即使用結(jié)果特征來預(yù)測原因。

從 2010 年 4 月在雷伯格舉辦的院系 retreat 到 2011 年 7 月的 Dagstuhl 研討會,我與 Dominik、Jonas、Joris Mooij、Kun Zhang、Bob Williamson 等進(jìn)行了大量討論,我們關(guān)于不變性的想法在此期間逐漸成熟。

當(dāng)我收到 NIPS 會議 Posner 演講邀請后,將這些想法構(gòu)建成結(jié)論的壓力明顯更大了。那時,我需要建設(shè)新的馬普所,很難勻出時間處理這件事并作出進(jìn)展。因此,我和 Dominik 決定在黑森林度假屋待一周全力處理這件事。

在 2011 年 11 月的那一周中,我們完成了草稿 invariant.tex,之后不久我們將其投遞到 arXiv 網(wǎng)站。這篇論文認(rèn)為因果方向?qū)τ谔囟C(jī)器學(xué)習(xí)問題非常重要,對協(xié)變量偏移保持穩(wěn)健性(不變性)是可以期待的,對于從因預(yù)測果的學(xué)習(xí)問題,遷移也變得更加簡單,這為半監(jiān)督學(xué)習(xí)打了頭陣。

論文地址:https://arxiv.org/abs/1112.2738

半監(jiān)督學(xué)習(xí)(SSL)

假設(shè)底層因果圖是 X → Y,同時我們嘗試學(xué)習(xí)映射 X → Y。則該案例的因果分解 (2) 為:

ICM 原理認(rèn)為聯(lián)合分布因果分解中的模塊無法彼此影響。這意味著,p(X) 不應(yīng)包含關(guān)于 p(Y |X) 的任何信息,即半監(jiān)督學(xué)習(xí)是徒勞的,除非它使用來自無標(biāo)注數(shù)據(jù)的額外 p(X) 信息來改善對 p(Y |X = x) 的估計(jì)。那么反方向呢?半監(jiān)督學(xué)習(xí)在相反的情況下是可能的嗎?答案是「Yes」,參見第 5 章使用獨(dú)立因果機(jī)制的因果推斷研究。

該研究與 Povilas Daniu?is 等人合作完成(2010),它提出對輸入和給定輸入的輸出條件句之間相關(guān)性的度量方法,并展示了如果該相關(guān)性在因果方向上為 0 時,則它在相反方向上為正。因此,因果獨(dú)立性和因果方向中的機(jī)制表明,在反方向中(即非因果學(xué)習(xí)),輸入變量的分布應(yīng)包含給定輸入的輸出條件句的信息,即機(jī)器學(xué)習(xí)通常關(guān)注的量。我之前研究過半監(jiān)督學(xué)習(xí),現(xiàn)在可以明確的是,當(dāng)嘗試使用無標(biāo)注輸入改進(jìn)對輸出的估計(jì)時,給定輸入的輸出條件句的信息恰是 SSL 所需要的。因此,我們預(yù)測 SSL 無法處理因果學(xué)習(xí)問題,但適合處理非因果問題。

之后的研究也證明了這一點(diǎn)(詳情參見原論文)。

對抗脆弱性

你可以假設(shè)因果方向應(yīng)該對分類器能否抵抗對抗攻擊產(chǎn)生影響。最近,這類攻擊變得流行,它們包含對輸入進(jìn)行的微小更改,人類觀察者無法察覺此類更改,但它們確實(shí)改變了分類器的輸出。

這在多個維度上與因果關(guān)系相關(guān)。首先,這些攻擊明確構(gòu)成了對預(yù)測式機(jī)器學(xué)習(xí)的底層 IID 假設(shè)的破壞。如果我們想做的是在 IID 設(shè)置下執(zhí)行預(yù)測,則統(tǒng)計(jì)學(xué)習(xí)完全足夠。而在對抗環(huán)境下,修改后的測試樣本和訓(xùn)練樣本不來自同一個分布:它們構(gòu)成了干預(yù),干預(yù)經(jīng)優(yōu)化后可用來揭示(非因果)p(y|x) 的非穩(wěn)健性。

對抗現(xiàn)象還說明目前分類器所具備的穩(wěn)健性與人類不同。如果我們知道兩種穩(wěn)健性度量,我們會嘗試最大化其中一個、最小化另外一個。目前的方法可被視為對此的粗略逼近,將人類的穩(wěn)健性有效建模為簡單的數(shù)學(xué)集合,如半徑 > 0 的球 l_p:它們通常試圖找出給分類器輸出帶來最大改變的樣本,不過需遵循一項(xiàng)限制,即這些樣本必須在 l_p 球內(nèi)(以像素度量形式)。這也導(dǎo)致對抗訓(xùn)練的步驟類似于在「虛擬」樣本上訓(xùn)練分類器使其具備不變性的舊方法。

現(xiàn)在,考慮將模型分解為多個組件(參見 (3))。如果這些組件對應(yīng)因果機(jī)制,則我們預(yù)計(jì)模型具備一定程度的穩(wěn)健性,因?yàn)橐蚬麢C(jī)制是自然屬性。具體而言,如果我們在因果方向上學(xué)習(xí)分類器,則該分類器具備一定的穩(wěn)健性。你可能因此假設(shè),對于因果學(xué)習(xí)問題(從因預(yù)測果),我們不可能或至少更難找到對抗樣本。近期研究支持這一觀點(diǎn):通過建模因果生成方向來解決非因果分類問題是一種有效的對抗攻擊防御方法,在視覺領(lǐng)域中該方法叫做合成分析(analysis by synthesis)。

更廣泛來講,對于具備兩個以上頂點(diǎn)的圖,我們可以推斷出其結(jié)構(gòu)由多個自主模塊構(gòu)成,如因果分解 (2) 所提供的組件,這類結(jié)構(gòu)應(yīng)該對置換或修改單個組件具備一定的穩(wěn)健性。稍后我們再來講這個話題。

穩(wěn)健性還應(yīng)該在研究策略行為時發(fā)揮作用,策略行為即考慮其他智能體(包括 AI 智能體)的動作后所做出的決策或動作??紤]一個試圖基于一組特征預(yù)測成功償還信用卡概率的系統(tǒng)。這組特征包括個人當(dāng)前債務(wù)及其地址。為了得到更高的信用積分,人們會(通過償還行為)更改其當(dāng)前債務(wù)金額,或者將個人地址更換到更富裕的地區(qū)。前者對償還債務(wù)的概率有正面的因果作用,而后者則相反。因此,我們可以僅使用因果特征作為輸入,構(gòu)建一個對此類策略行為具備更強(qiáng)穩(wěn)健性的得分系統(tǒng)。

多任務(wù)學(xué)習(xí)

假設(shè)我們想構(gòu)建一個在多個環(huán)境中解決多個任務(wù)的系統(tǒng)。此類模型可以利用學(xué)習(xí)視角作為壓縮?;谟?xùn)練集 (x_1, y_1), . . . ,(x_n, y_n) 學(xué)習(xí)函數(shù) f(從 x 到 y 的映射)可被視為 y 基于 x 的條件壓縮。其思路是,我們可以找出最緊湊的系統(tǒng)來基于 x_1, . . . , x_n 恢復(fù) y_1, . . . , y_n。

假設(shè)愛麗絲想與鮑勃交流標(biāo)簽,二人均知道輸入。首先,他們商定將要使用的函數(shù) F 的有限集。然后愛麗絲從函數(shù)集中選出最優(yōu)函數(shù)并告訴鮑勃(選取函數(shù)的數(shù)量取決于函數(shù)集大小,也可能取決于二人商定的先驗(yàn)概率)。此外,愛麗絲可能還要告訴鮑勃函數(shù)無法正確分類的輸入 x_i 的索引 i,即 f(x_i) ≠ y_i。

在選擇大量函數(shù)類(編碼函數(shù)索引需要很多成本)和允許大量訓(xùn)練誤差(需要分開編碼)之間存在權(quán)衡。該權(quán)衡完美對應(yīng)統(tǒng)計(jì)學(xué)習(xí)理論中的標(biāo)準(zhǔn) VC 邊界(standard VC bound)。

你可以將其泛化至多任務(wù)環(huán)境:假設(shè)我們有多個數(shù)據(jù)集,它們從類似但不相同的 SCM 中采樣得來。如果這些 SCM 共享大部分組件,則我們可以通過編碼 SCM 中的函數(shù)來壓縮從多個 SCM 中采樣得到的多個數(shù)據(jù)集。正確的結(jié)構(gòu)(在雙變量案例中,這應(yīng)該等于正確的因果方向)應(yīng)該是最緊湊的一個,因?yàn)樗鄠€數(shù)據(jù)集共享的多個函數(shù),因此只需要執(zhí)行一次編碼即可。

強(qiáng)化學(xué)習(xí)

將統(tǒng)計(jì)學(xué)習(xí)向因果學(xué)習(xí)推動的計(jì)劃與強(qiáng)化學(xué)習(xí)也有關(guān)系。強(qiáng)化學(xué)習(xí)過去(現(xiàn)在通常也)被認(rèn)為是很難處理現(xiàn)實(shí)世界高維數(shù)據(jù)的學(xué)習(xí)方法,原因之一是作為反饋的強(qiáng)化信號相比監(jiān)督學(xué)習(xí)中的標(biāo)簽信息要稀疏很多。DeepQ 智能體取得了當(dāng)時社區(qū)認(rèn)為不可能實(shí)現(xiàn)的結(jié)果,但與動物智能相比它仍然存在一些顯著缺陷。其中兩個主要問題可以表述為:

問題 1:為什么強(qiáng)化學(xué)習(xí)在原始高維 ATARI 游戲中要比在降采樣版本中更難?

對于人類而言,降低游戲屏幕分辨率會使問題變難,這正是 DeepQ 系統(tǒng)的運(yùn)行原理。動物可以根據(jù)「共同命運(yùn)」或?qū)Ω深A(yù)的共同反應(yīng),對像素進(jìn)行分組,從而識別物體(在計(jì)算機(jī)游戲中這叫做「sprite」)。因此該問題與「物體由什么構(gòu)成」這個問題相關(guān),后者不僅關(guān)乎感知還涉及我們與世界的交互方式。我們可以撿起某個物體,但無法撿起半個物體。因此物體也對應(yīng)可被單獨(dú)干預(yù)或操控的模塊化結(jié)構(gòu)。物體由變換下的行為來定義,這個深刻觀點(diǎn)不僅適用于心理學(xué),也適用于數(shù)學(xué)。

問題 2:為什么在打亂重放(replay)數(shù)據(jù)后,強(qiáng)化學(xué)習(xí)會變得簡單?

因?yàn)橹悄荏w在世界中游蕩時,它對其看到的數(shù)據(jù)產(chǎn)生影響,因而統(tǒng)計(jì)數(shù)據(jù)隨著時間發(fā)生改變。這破壞了 IID 假設(shè),如前所述,DeepQ 智能體存儲之前數(shù)據(jù)并在其上重新訓(xùn)練(作者將該過程比作做夢),從而利用標(biāo)準(zhǔn) IID 函數(shù)學(xué)習(xí)技術(shù)。但是,時間順序包含動物智能所使用的信息。信息不僅包含在時間順序中,還包含在統(tǒng)計(jì)數(shù)據(jù)的緩慢改變能夠高效創(chuàng)建多域設(shè)置這一事實(shí)中。

多域數(shù)據(jù)被證明有助于識別因果(也是穩(wěn)?。┨卣?,更廣泛來講,它可以尋找不變性,從而搜尋因果結(jié)構(gòu)。這有助于強(qiáng)化學(xué)習(xí)智能體找到模型中的穩(wěn)健組件,這些組件有望泛化至狀態(tài)空間的其他部分。一種方式是使用 SCM 部署基于模型的強(qiáng)化學(xué)習(xí),該方法可以幫助解決強(qiáng)化學(xué)習(xí)中的干擾問題,在這類問題中時間變化和時間不變的未觀測干擾因子會影響動作和獎勵。 在此類方法中,非平穩(wěn)性是特征而非 bug,智能體積極尋找不同于已知區(qū)域的區(qū)域,以挑戰(zhàn)現(xiàn)有模型,并了解哪些組件具備穩(wěn)健性。這種搜索可被視為一種內(nèi)在動機(jī),該概念與動物行為學(xué)中的潛在學(xué)習(xí)(latent learning)有關(guān),它在強(qiáng)化學(xué)習(xí)中得到了重視。

最后,因果學(xué)習(xí)中還有一個巨大的開放區(qū)域是與動態(tài)過程的連接。我們可能天真地以為因果關(guān)系通常與時間有關(guān),但大部分現(xiàn)有因果模型并非如此。例如海拔高度與溫度那個例子,底層的時間物理過程確保更高的地方溫度更低。在涉及粒子運(yùn)動的微觀方程層次上,存在清晰的因果結(jié)構(gòu)(如上所述,微分方程確切指明變量的哪些之前值對當(dāng)前值產(chǎn)生影響)。 但是,在提及高度和溫度之間的相關(guān)性或因果關(guān)系時,我們無需擔(dān)憂時間結(jié)構(gòu)的細(xì)節(jié),我們使用的數(shù)據(jù)集沒有出現(xiàn)時間信息,我們可以推斷對溫度或高度進(jìn)行干預(yù)后,數(shù)據(jù)集會變成什么樣。我們需要思考如何在這些不同的描述層次之間架起橋梁。

在推導(dǎo)出能夠描述耦合系統(tǒng)干預(yù)行為的 SCM 方面已經(jīng)取得了一些進(jìn)展,耦合系統(tǒng)處于均衡狀態(tài),且可以用「絕熱」方式干擾,并泛化至振動系統(tǒng)。為什么簡單的 SCM 通常是可推導(dǎo)的?這不存在根本性原因。SCM 是對微分方程底層系統(tǒng)的高級抽象,此類方程只在合適的高級變量被定義時才能夠被推導(dǎo),這可能是例外而非規(guī)則。

相比機(jī)器學(xué)習(xí)主流,強(qiáng)化學(xué)習(xí)與因果關(guān)系研究更接近,因?yàn)樗袝r高效直接地估計(jì)執(zhí)行某個行為的概率(在策略學(xué)習(xí))。但是,一旦涉及離策略學(xué)習(xí),特別是在批量(或觀測)設(shè)置下,因果關(guān)系的問題就變得很微妙。

因果表示學(xué)習(xí)

傳統(tǒng)的因果發(fā)現(xiàn)和推理假設(shè)單元是由因果圖連接的隨機(jī)變量。但是,現(xiàn)實(shí)世界觀測結(jié)果通常無法在一開始就結(jié)構(gòu)化為這類單元,如圖像中的對象。因果表示學(xué)習(xí)這一新興領(lǐng)域致力于從數(shù)據(jù)中學(xué)習(xí)這些變量,就像超出符號 AI 的機(jī)器學(xué)習(xí),不需要為算法操控的符號提供先驗(yàn)。定義與因果模型相關(guān)的對象或變量等同于對更詳細(xì)的世界模型進(jìn)行粗糙模仿。 在合適的條件下,對微觀模型的粗糙模仿可以產(chǎn)生結(jié)構(gòu)模型,這些微觀模型包括微觀結(jié)構(gòu)方程模型、常微分方程和時間聚合時序(temporally aggregated time serie)。盡管經(jīng)濟(jì)學(xué)、醫(yī)療或心理學(xué)中的每一個因果模型使用的變量是對較初級概念的抽象,但是表述粗糙變量容許因果模型(具備定義規(guī)范的干預(yù))的通用條件是很有難度的。

識別容許因果模型的合適單元這一任務(wù)對于人類和機(jī)器智能都有難度,但是它與現(xiàn)代機(jī)器學(xué)習(xí)學(xué)習(xí)有意義的數(shù)據(jù)表示這一通用目標(biāo)是一致的,「有意義」表示穩(wěn)健、可遷移、可解釋或公平。為了結(jié)合結(jié)構(gòu)因果建模 (1) 和表示學(xué)習(xí),我們應(yīng)將 SCM 嵌入到更大的機(jī)器學(xué)習(xí)模型中,該模型的輸入和輸出可能是高維和非結(jié)構(gòu)化的,但是其內(nèi)在工作機(jī)制至少部分受 SCM 控制。實(shí)現(xiàn)這一點(diǎn)的一種方式是,將未解釋變量實(shí)現(xiàn)為生成模型中的(潛在)噪聲變量。 此外,還需注意 SCM 和現(xiàn)代生成模型之間存在自然連接:它們都使用重參數(shù)化技巧,包括使期望隨機(jī)性作為模型的(外生)輸入(在 SCM 中,這些是未解釋變量)而非內(nèi)在組件。

學(xué)習(xí)可遷移機(jī)制

復(fù)雜世界中的人工或自然智能體面臨的資源有限。這涉及到訓(xùn)練數(shù)據(jù),即每個任務(wù)/領(lǐng)域的數(shù)據(jù)有限,因此需要尋求池化/數(shù)據(jù)重用方法,這與人類執(zhí)行大規(guī)模標(biāo)注工作的當(dāng)前行業(yè)實(shí)踐形成鮮明對比。它還涉及計(jì)算資源的問題:動物的大腦規(guī)模存在限制,進(jìn)化神經(jīng)科學(xué)中有很多大腦區(qū)域被重新規(guī)劃的示例。 類似的規(guī)模和能量限制也出現(xiàn)在機(jī)器中,因?yàn)闄C(jī)器學(xué)習(xí)方法嵌入的(小型)物理設(shè)備可能是電池供電。因此,未來穩(wěn)健地解決大量現(xiàn)實(shí)問題的 AI 模型有可能需要重用組件,這要求組件對多個任務(wù)和環(huán)境具備穩(wěn)健性。

實(shí)現(xiàn)該目標(biāo)的一種優(yōu)雅方式是,利用能夠反映世界對應(yīng)模塊的模塊化結(jié)構(gòu)。換言之,如果世界確實(shí)是模塊化的,那么一定程度上世界的不同組件在大量環(huán)境、任務(wù)和設(shè)置中發(fā)揮作用,模型需要謹(jǐn)慎利用對應(yīng)模塊。例如,如果自然光線的變化(如太陽、云的位置等)表明視覺環(huán)境的光照條件多達(dá)數(shù)個數(shù)量級,則人類神經(jīng)系統(tǒng)中的視覺處理算法應(yīng)利用能夠因子化這些變化的方法,而不是針對每一種光照條件構(gòu)建不同的人臉識別器。

如果我們的大腦能夠通過增益控制機(jī)制彌補(bǔ)光線變化,那么該機(jī)制無需與帶來光照變化的物理機(jī)制有任何關(guān)系。但是,它會在模塊化結(jié)構(gòu)中發(fā)揮作用,這對應(yīng)于物理機(jī)制在世界的模塊化結(jié)構(gòu)中的作用。這會使向我們無法直接識別的世界展示特定形式的結(jié)構(gòu)同構(gòu)(structural isomorphism)的模型出現(xiàn)偏差,這很有趣,因?yàn)樽罱K我們的大腦什么都沒做,只是將神經(jīng)元信號轉(zhuǎn)換為其他神經(jīng)元信號。

學(xué)習(xí)此類模型的合理歸納偏置是尋找獨(dú)立因果機(jī)制,有競爭力的訓(xùn)練可以發(fā)揮作用:對于模式識別任務(wù),Parascandolo 等人(2018)展示了學(xué)習(xí)包含獨(dú)立機(jī)制的因果模型有助于在迥異領(lǐng)域中實(shí)現(xiàn)模塊遷移。在這篇研究中,手寫字符被一組未知機(jī)制(包括平移、噪聲和對照倒置)扭曲。神經(jīng)網(wǎng)絡(luò)試圖通過一組模塊去除這些變換,這組模塊中的每一個都專注于一個機(jī)制。

對于任意輸入,每個模塊嘗試生成正確的輸出,然后判別器來分辨哪個模塊效果最好。獲勝的模塊通過梯度下降進(jìn)行訓(xùn)練,進(jìn)一步提升其對該輸入的性能。最終系統(tǒng)學(xué)得平移、倒置或去噪等機(jī)制,這些機(jī)制可遷移至來自其他分布的數(shù)據(jù),如梵語字符。近期,這已發(fā)展到新的階段:將一組動態(tài)模塊嵌入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,注意力機(jī)制對此進(jìn)行協(xié)調(diào)。這使得學(xué)習(xí)模塊的動態(tài)過程大部分時間獨(dú)立運(yùn)轉(zhuǎn),但偶爾也會彼此交互。

學(xué)習(xí)解糾纏表示(disentangled representation)

上文我們探討了 ICM 原理,它既表明 (1) 中 SCM 噪聲項(xiàng)的獨(dú)立性,又進(jìn)而說明解糾纏表示具備可行性:

以及條件句 p(S_i | PA_i) 可被獨(dú)立操控,且在大量相關(guān)問題上具備強(qiáng)大的不變性。假設(shè)我們希望利用來自數(shù)據(jù)的獨(dú)立機(jī)制 (11) 重建此類解糾纏表示,但是沒有因果變量 S_i 作為先驗(yàn),只有(可能是高維度的)X = (X_1, . . . , X_d)(下文中,我們將 X 想象為具備像素 X_1, . . . , X_d 的圖像),基于此我們應(yīng)構(gòu)建因果變量 S_1, . . . , S_n (n << d) 以及機(jī)制(參見 (1)), ?

建模 S_i 中的因果關(guān)系。為此,我們首先使用編碼器 q : R^d → R^n 將 X 輸入潛在「瓶頸」表示,該表示包含未解釋噪聲變量 U = (U_1, . . . , U_n)。然后是結(jié)構(gòu)化任務(wù) f_1, . . . , f_n 確定的映射 f(U)。最后,我們使用解碼器 p : R^n → R^d。如果 n 足夠大,則該系統(tǒng)可利用重建誤差訓(xùn)練,以在觀測圖像上滿足 p ? f ? q ≈ id。為了使其具備因果關(guān)系,我們使用 ICM 原理,即我們應(yīng)使 U_i 具備統(tǒng)計(jì)獨(dú)立性,使機(jī)制 f_i 獨(dú)立。這可以通過確保它們對多個問題具備不變性或可被獨(dú)立干預(yù)來實(shí)現(xiàn):如果我們操控其中一些,它們應(yīng)該仍能生成有效圖像,這可以通過生成對抗網(wǎng)絡(luò)的判別器來訓(xùn)練。

我們完美地操控了完整機(jī)制 f_i,現(xiàn)在我們來討論干預(yù)潛在噪聲變量的特例。一種干預(yù)方式是用基于其他輸入圖像計(jì)算出的對應(yīng)值替換噪聲變量,該步驟被 Besserve 等人 (2018b) 稱為「雜合」(hybridization)。在極端情況下,我們可以雜合每個組件都計(jì)算自另一個訓(xùn)練樣本的潛在向量。對于 IID 訓(xùn)練設(shè)置,這些潛在向量具備統(tǒng)計(jì)獨(dú)立性組件。

在此類架構(gòu)中,編碼器是識別或重建世界中因果驅(qū)動因素的非因果映射。這樣,機(jī)制可被公式化,也可在不同任務(wù)中遷移。解碼器在(驅(qū)動因果模型噪聲的)低維潛在表示和高維世界之間建立連接,這部分構(gòu)成了因果生成圖像模型。ICM 假設(shè)表明,如果潛在表示重建真正的因果變量(以及驅(qū)動它們的噪聲),則對這些噪聲(以及被驅(qū)動的機(jī)制)的干預(yù)是允許的,且能夠有效生成圖像數(shù)據(jù)。

學(xué)習(xí)干預(yù)式世界模型(interventional world model)和推理

現(xiàn)代表示學(xué)習(xí)擅長為保留相關(guān)統(tǒng)計(jì)屬性的數(shù)據(jù)學(xué)習(xí)表示。但是,這樣做沒有考慮到變量的因果屬性,也就是說它不關(guān)心它所分析或重建變量的干預(yù)屬性。我希望未來,因果關(guān)系可以在推動表示學(xué)習(xí)更進(jìn)一步的道路上發(fā)揮重要作用,使其超出統(tǒng)計(jì)相關(guān)性結(jié)構(gòu)的表示,向支持干預(yù)、規(guī)劃和推理的模型前進(jìn),實(shí)現(xiàn) Konrad Lorenz「像在想象空間中行動那樣思考」的概念。 這最終需要回顧個人行為和設(shè)想其他場景的能力,可能需要自由意志。自我意識的生物功能可能與個人的 Lorenzian 想象空間中表示自身的變量有關(guān),自由意志可能是交流該變量所執(zhí)行動作的方式,這對社會和文化學(xué)習(xí)都很重要,這個話題尚未進(jìn)入機(jī)器學(xué)習(xí)研究,盡管它是人類智能的核心。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:貝葉斯網(wǎng)絡(luò)之父Judea Pearl力薦、LeCun點(diǎn)贊,這篇長論文全面解讀機(jī)器學(xué)習(xí)中的因果關(guān)系

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    數(shù)據(jù)采集網(wǎng)關(guān)與工業(yè)組態(tài)云平臺有什么聯(lián)系

    數(shù)據(jù)采集網(wǎng)關(guān)與工業(yè)組態(tài)云平臺之間存在著密切的聯(lián)系,它們共同構(gòu)成了工業(yè)物聯(lián)網(wǎng)解決方案的重要組成部分。以下是關(guān)于它們之間聯(lián)系的具體分析: 一、功能與作用 ? 數(shù)據(jù)采集網(wǎng)關(guān) ?: ? 定義 ?:數(shù)據(jù)采集
    的頭像 發(fā)表于 03-20 14:25 ?270次閱讀

    分貝單位與振動傳感器的聯(lián)系

    分貝單位與振動傳感器之間存在緊密的聯(lián)系,這種聯(lián)系主要體現(xiàn)在振動傳感器的動態(tài)范圍測量和振動信號的量化表達(dá)上。以下是對這種聯(lián)系的介紹: 一、分貝單位在振動傳感器動態(tài)范圍中的應(yīng)用 動態(tài)范圍的定義 : 振動
    的頭像 發(fā)表于 02-17 15:21 ?555次閱讀

    研華iMachine設(shè)備云智聯(lián)系統(tǒng)在煤礦行業(yè)的應(yīng)用案例

    創(chuàng)力技術(shù)研究院與研華合作,依托研華iMachine設(shè)備云智聯(lián)系統(tǒng)共創(chuàng)了采煤機(jī)械智能綜采平臺,驅(qū)動煤礦智能運(yùn)維,開啟智能化管控新模式。
    的頭像 發(fā)表于 02-13 09:10 ?680次閱讀

    云計(jì)算和人工智能有什么區(qū)別和聯(lián)系

    云計(jì)算和人工智能雖然各自具有獨(dú)特的特點(diǎn)和應(yīng)用領(lǐng)域,但它們之間存在著緊密的聯(lián)系和互動。接下來,AI部落小編帶您了解云計(jì)算和人工智能的區(qū)別與聯(lián)系。
    的頭像 發(fā)表于 02-06 10:08 ?497次閱讀

    SMO與SMP的區(qū)別與聯(lián)系

    SMO(Social Media Optimization,社交媒體優(yōu)化)和SMP(Social Media Platform,社交媒體平臺)是社交媒體領(lǐng)域中兩個重要的概念。它們之間既有區(qū)別也有聯(lián)系
    的頭像 發(fā)表于 01-03 09:17 ?1869次閱讀

    防雷接地、防雷工程與防雷檢測的相互聯(lián)系和作用

    防雷接地、防雷工程和防雷檢測是雷電防護(hù)系統(tǒng)的三大核心環(huán)節(jié),三者在實(shí)際應(yīng)用中既獨(dú)立開展,又緊密相連,共同構(gòu)建了一個完整的雷電防護(hù)體系。以下是對這三者的作用及其相互聯(lián)系的詳細(xì)分析。 1. 防雷接地 作用
    的頭像 發(fā)表于 11-14 10:32 ?555次閱讀
    防雷接地、防雷工程與防雷檢測的相互<b class='flag-5'>聯(lián)系</b>和作用

    一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

    機(jī)電系統(tǒng)中的故障檢測對其可維護(hù)性和安全性至關(guān)重要。然而,系統(tǒng)監(jiān)測變量往往具有復(fù)雜的聯(lián)系,很難表征它們的關(guān)系并提取有效的特征。本文開發(fā)了一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)(HGCAN),以提高復(fù)雜
    的頭像 發(fā)表于 11-12 09:52 ?1050次閱讀
    一種基于<b class='flag-5'>因果</b>路徑的層次圖卷積注意力網(wǎng)絡(luò)

    socket與WebSocket的區(qū)別與聯(lián)系

    在現(xiàn)代網(wǎng)絡(luò)通信中,Socket和WebSocket是兩種常見的通信協(xié)議。它們在網(wǎng)絡(luò)編程中扮演著重要的角色,但它們之間存在一些關(guān)鍵的區(qū)別和聯(lián)系。 1. 定義和基本概念 Socket(套接字
    的頭像 發(fā)表于 11-04 09:19 ?1229次閱讀

    智慧城市的核心概念與聯(lián)系

    智慧城市是指利用信息通信技術(shù)、大數(shù)據(jù)分析等現(xiàn)代科技手段,以提升城市管理效率、改善居民生活質(zhì)量為目標(biāo)的城市發(fā)展模式。在 智慧城市 構(gòu)建過程中,有幾個核心概念與聯(lián)系需要被理解和把握: 1. 信息與通信
    的頭像 發(fā)表于 10-23 15:55 ?595次閱讀

    云服務(wù)器的購買資源和擴(kuò)容資源的區(qū)別和聯(lián)系

    云服務(wù)器的購買資源和擴(kuò)容資源的區(qū)別和聯(lián)系主要體現(xiàn)在操作流程、成本控制以及數(shù)據(jù)管理等方面。購買資源適合初始部署或大規(guī)模擴(kuò)展,而擴(kuò)容資源更適合對現(xiàn)有系統(tǒng)進(jìn)行微調(diào)和優(yōu)化。云服務(wù)器的購買資源是指用戶在云
    的頭像 發(fā)表于 10-18 11:21 ?518次閱讀

    AI引擎機(jī)器學(xué)習(xí)陣列指南

    AMD Versal AI Core 系列和 Versal AI Edge 系列旨在憑借 AI 引擎機(jī)器學(xué)習(xí) ( ML ) 架構(gòu)來提供突破性的 AI 推斷加速。這些器件的設(shè)計(jì)應(yīng)用范圍廣泛,包括用于
    的頭像 發(fā)表于 09-18 09:16 ?810次閱讀
    AI引擎<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>陣列指南

    數(shù)字量與模擬量的相互聯(lián)系與用途

    數(shù)字量與模擬量在電子、自動化、通信等多個領(lǐng)域中都扮演著重要角色,它們之間既存在相互聯(lián)系,又各有其獨(dú)特的用途。以下是對兩者相互聯(lián)系與用途的介紹: 一、相互聯(lián)系 轉(zhuǎn)換關(guān)系 : 數(shù)字量與模擬量之間可以通過
    的頭像 發(fā)表于 08-30 09:20 ?1423次閱讀

    嵌入式微控制器與嵌入式微處理器的聯(lián)系

    嵌入式微控制器和嵌入式微處理器在嵌入式系統(tǒng)領(lǐng)域中都扮演著至關(guān)重要的角色,它們之間存在著緊密的聯(lián)系,同時也各具特色。以下是對兩者聯(lián)系及特點(diǎn)的詳細(xì)探討。
    的頭像 發(fā)表于 08-22 10:50 ?1336次閱讀

    當(dāng)系統(tǒng)鬧脾氣:用「因果推斷」哄穩(wěn)技術(shù)的心

    背景 系統(tǒng)穩(wěn)定性問題往往涉及復(fù)雜的因果關(guān)系。例如,一個系統(tǒng)的崩潰可能由多個因素引起,包括硬件故障、軟件bug、業(yè)務(wù)配置、外部攻擊或其他操作不當(dāng)?shù)取@斫膺@些因素之間的因果關(guān)系對于系統(tǒng)穩(wěn)定性建設(shè)至關(guān)重要
    的頭像 發(fā)表于 08-14 10:42 ?632次閱讀
    當(dāng)系統(tǒng)鬧脾氣:用「<b class='flag-5'>因果</b><b class='flag-5'>推斷</b>」哄穩(wěn)技術(shù)的心

    柔性機(jī)器人與剛性機(jī)器人區(qū)別與聯(lián)系

    柔性機(jī)器人和剛性機(jī)器人在結(jié)構(gòu)、功能、應(yīng)用場景等方面存在顯著的區(qū)別,但也有一些聯(lián)系。以下是它們的主要區(qū)別與聯(lián)系: 區(qū)別 1.結(jié)構(gòu)材料 柔性機(jī)器
    的頭像 發(fā)表于 07-21 15:37 ?1253次閱讀
    柔性<b class='flag-5'>機(jī)器</b>人與剛性<b class='flag-5'>機(jī)器</b>人區(qū)別與<b class='flag-5'>聯(lián)系</b>