一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

三種數(shù)據(jù)提供有歧義的結(jié)果的情況,因果關(guān)系如何幫助澄清數(shù)據(jù)的解讀

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-31 09:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:Databricks數(shù)據(jù)科學(xué)主管Sean Owen討論了三種數(shù)據(jù)提供有歧義的結(jié)果的情況,以及因果關(guān)系如何幫助澄清數(shù)據(jù)的解讀。

相關(guān)和因果

相關(guān)性不等于因果。僅僅因?yàn)楸苛芎兔篮谒N量同時(shí)上升或下降并不意味著兩者之間有什么因果關(guān)系。然而,人類的思考方式傾向于因果關(guān)系。你大概已經(jīng)意識到這兩種商品的銷量均取決于夏季炎熱的天氣。那么,因果關(guān)系是一個(gè)什么樣的角色?

新入行的數(shù)據(jù)科學(xué)家可能有一個(gè)印象,因果關(guān)系是一個(gè)大家避而不談的話題。這是一個(gè)錯(cuò)誤印象。我們使用數(shù)據(jù)決定“哪則廣告將導(dǎo)致更多點(diǎn)擊?”這樣的事情。已經(jīng)有一個(gè)易用、開放工具的生態(tài)系統(tǒng),可供我們基于數(shù)據(jù)建立模型,我們覺得這些模型可以回答關(guān)于成因和效果的問題。什么時(shí)候它們確實(shí)做到了這一點(diǎn),什么時(shí)候我們誤以為它們做到了?

數(shù)據(jù)告訴我們什么,和我們認(rèn)為數(shù)據(jù)告訴我們什么,這兩者之間存在著微妙的空隙,這正是困惑和錯(cuò)誤的源泉。新入行的數(shù)據(jù)科學(xué)家,盡管配備了強(qiáng)大的建模工具,仍可能成為“未知的未知”的犧牲品,即使是在簡單的分析中也是如此。

本文將演示三種看起來簡單的情況,這些情況會產(chǎn)生驚人的歧義結(jié)果。劇透:在所有情形下,因果關(guān)系是澄清數(shù)據(jù)解讀必不可少的成分。包括概率圖模型和do-calculus在內(nèi)的激動人心的工具,能夠讓我們基于數(shù)據(jù)和因果關(guān)系進(jìn)行推理,得出強(qiáng)有力的結(jié)論。

兩條“最佳擬合”直線

考慮R內(nèi)置的cars數(shù)據(jù)集。這個(gè)簡單的小數(shù)據(jù)集提供了不同車速的制動距離。假設(shè)低速情況下,兩者的關(guān)系是線性的。

再沒什么能比線性回歸更簡單了吧?距離是速度的函數(shù):

同樣,速度也是距離的函數(shù):

盡管看起來是同一件事,兩種說法,這兩種回歸會給出不同的最佳擬合直線。這兩條線不可能都是最佳的,那么哪一條才是最佳擬合直線,為什么?

如果你想親自驗(yàn)證,可以查看、運(yùn)行創(chuàng)建上面兩個(gè)圖形的代碼:https://trial.dominodatalab.com/u/srowen/causation/view/main.R

兩個(gè)最佳療法

下面的數(shù)據(jù)集可能看起來很熟悉。它顯示了腎結(jié)石的兩種療法的治愈率。

你也許注意到了上表的奇怪之處??傮w而言,B療法的治愈率更高。然而,A療法在小結(jié)石上有著更高的治愈率,在小結(jié)石以外的情形(大結(jié)石)上也有著更高的治愈率。這怎么可能?你可以自己算一下。

許多人會馬上意識到這是辛普森悖論的一個(gè)典型例子。(這個(gè)例子取自辛普森悖論的維基頁面。)意識到這一點(diǎn)很重要。然而,意識到這一點(diǎn)并不能回答真正的問題:哪種療法更好?

這里,A療法更好。較大的腎結(jié)石更難治療,總體而言治愈率更低。在這些比較困難的情形下,更常應(yīng)用A療法。雖然A療法實(shí)際上更好,但因?yàn)楦?yīng)用在困難情形下,總體治愈率被拉低了。結(jié)石大小是一個(gè)混淆變量,表格的橫行控制了結(jié)石大小。所以,控制所有像這樣的變量以避免出現(xiàn)悖論總不會錯(cuò)吧?

考慮下面的數(shù)據(jù):

這次是根據(jù)治療后病人的血酸分組。基于這些數(shù)據(jù),哪種療法更好?為什么?

虛幻的相關(guān)性

最后,考慮R內(nèi)置的mtcars數(shù)據(jù)集。它提供了20世界70年代的一些車型的統(tǒng)計(jì)數(shù)據(jù),例如引擎汽缸容量、燃油效率、氣缸數(shù)量,等等??紤]drat(后輪軸減速比)和carb(化油器數(shù)量——現(xiàn)在的車不使用化油器,改用電子噴射系統(tǒng))的相關(guān)性。

幾乎沒有相關(guān)性(r = -0.09)。這是有道理的,畢竟變速設(shè)計(jì)和引擎設(shè)計(jì)實(shí)際上是正交的。(我承認(rèn)這不是一個(gè)最直觀的例子,但這是R語言內(nèi)置的簡易數(shù)據(jù)集中最易懂的例子。)

然而,如果我們只考慮6缸或8缸引擎的車型:

有很清楚的正相關(guān)性(r = 0.52)。那么其他車型呢?

竟也有較小的正相關(guān)性(r = 0.22)。兩個(gè)變量在部分?jǐn)?shù)據(jù)上相關(guān),在剩余數(shù)據(jù)上也相關(guān),但是在整體數(shù)據(jù)上卻不相關(guān),怎么可能會這樣?

答案在因果關(guān)系之中

當(dāng)然,這些問題都有答案。在第一個(gè)例子中,兩條不同的直線源自兩組不同的假定。距離 ~ 速度回歸意味著距離是速度的線性函數(shù),加上高斯噪聲,直線最小化實(shí)際距離和預(yù)測距離的均方誤差。另一條直線最小化實(shí)際速度和預(yù)測速度的均方誤差。前者對應(yīng)的假定是速度的不同導(dǎo)致了制動距離的不同,很有道理;后者暗示距離的不同導(dǎo)致了速度的不同,沒有意義。所以源自距離 ~ 速度的直線是正確的最佳擬合直線。不過,判定這一點(diǎn)需要數(shù)據(jù)以外的信息。

速度不同導(dǎo)致制動距離不同這一想法可以用一個(gè)(非常簡單的)有向圖表示:

類似地,在辛普森悖論的第二個(gè)例子中,血酸不再是混淆變量,而是中介變量。它并不導(dǎo)致選取哪種療法,反而是選取哪種療法導(dǎo)致了不同的血酸水平。將它作為控制變量等于移除了療法的主要效果。在這一情形下,B療法看起來要好一點(diǎn),因?yàn)樗鼘?dǎo)向更低的血酸,從而導(dǎo)向更好的結(jié)果(盡管A療法確實(shí)看起來有一些正面的次級效應(yīng))。

因此,辛普森悖論的原場景為:

而第二個(gè)場景為:

同樣,這里的“悖論”是可以解決的。關(guān)于因果關(guān)系的外部信息解決了“悖論”——兩個(gè)場景的解決方式不同!

第三個(gè)例子是伯克森悖論的一個(gè)例子。假定后輪軸減速比和化油器數(shù)目都影響汽缸數(shù)目(這里不展開討論,假定引擎設(shè)計(jì)上這一點(diǎn)成立),那么后輪軸減速比和化油器數(shù)量沒有相關(guān)性這一結(jié)論是正確的。控制汽缸數(shù)目創(chuàng)造了不存在的相關(guān)性,因?yàn)槠讛?shù)目是同時(shí)和后輪軸減速比與化油器數(shù)量相關(guān)的“碰撞”變量。

同樣,數(shù)據(jù)沒有告訴我們這點(diǎn);具備變量之間因果關(guān)系的知識才能得出這一結(jié)論。

概率圖模型和do-Calculus

我們上面繪制概率圖模型(PGM)有其目的。這些圖表達(dá)了成因-結(jié)果關(guān)系中的條件概率依賴的類型。盡管上述情形的概率圖很是微不足道,它們很容易變得很復(fù)雜。然而,不管簡單還是復(fù)雜,我們都可以通過分析概率圖檢測正確分析數(shù)據(jù)所需的變量之間的關(guān)系。

PGM是一個(gè)有趣的主題。(Coursera上有Daphne Koller開的課程。)理解因果關(guān)系的重要性,以及如何分析因果關(guān)系以正確解讀數(shù)據(jù)是數(shù)據(jù)科學(xué)家之旅必經(jīng)的一步。

這類分析導(dǎo)向了一種可能更加激動人心的能力。假如一個(gè)變量取了不同的值,會發(fā)生什么?做出這方面的推理是有可能的。這一想法聽起來像是條件概率:給定今天的冰淇淋銷量很高(IC)這一條件,美黑霜的銷量很高(ST)的概率是多少?也就是,P(ST|IC)是多少?基于數(shù)據(jù)集,這很容易回答。如果兩者是正相關(guān)的,我們可以進(jìn)一步期望P(IC|ST) > P(IC)——也就是說,當(dāng)美黑霜的銷量很高的時(shí)候,冰淇淋的銷量很高的概率更大。

然而,如果我們提高了美黑霜的銷量(也許可以記作do(ST)),那么冰淇淋的銷量會增長嗎?很清楚,P(IC|do(ST))和P(IC|ST)不是一回事,因?yàn)槲覀儾黄谕@兩者之間有什么因果聯(lián)系。

數(shù)據(jù)只提供了簡單的條件概率嗎?我們有可能演算數(shù)據(jù)中未曾發(fā)生的反事實(shí)概率,從而評判這些有關(guān)行動的論斷嗎?

令人驚喜的答案,是的,在因果模型和Judea Pearl提出的“do-calculus”的幫助下,這是有可能的。do-calculus是Pearl的新書The Book of Why的主題。這本書總結(jié)了因果思考的歷史,貝葉斯網(wǎng)絡(luò),圖模型和Pearl自己對這一領(lǐng)域的顯著貢獻(xiàn),在此高度推薦。

也許do-calculus最引人入勝的演示是這本書對吸煙致癌相關(guān)研究的回溯分析。據(jù)Pearl所述,吸煙致癌到底是通過肺部煙焦油囤積,還是因?yàn)槲粗幕蛞蛩赝瑫r(shí)導(dǎo)致了喜歡吸煙和易得肺癌,對此人們曾有疑問。不幸的是,這一基因因素?zé)o法觀測,也不可能控制。畫出其中暗含的因果模型,就很容易做出推理。

即使在不能確定基因因素是否存在的情況下,還有可能回答“吸煙致癌”這樣的問題嗎?P(癌|do(吸煙)) > P(癌)嗎?

通過應(yīng)用do-calculus的三條基本規(guī)則,這是有可能做到的,具體細(xì)節(jié)這里就不展開了(請看論文和書)。應(yīng)用do-calculus規(guī)則之后,只涉及吸煙、煙焦油、癌癥的條件概率,這些都可以從現(xiàn)實(shí)數(shù)據(jù)集中得出:

僅僅通過數(shù)據(jù)中的條件概率,即使在不知道是否存在未知混淆變量的情況下,就有可能知道是否吸煙導(dǎo)致患癌風(fēng)險(xiǎn)增加,

結(jié)語

有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家不僅知道如何將工具作為黑箱使用,還知道模型和數(shù)據(jù)的正確解讀常常具有歧義,甚至違背直覺。避免常見誤區(qū)是資深從業(yè)者的標(biāo)志。

幸運(yùn)的是,許多這樣的悖論有著常見的來源,通過基于成因-效果網(wǎng)絡(luò)的推理,可以分析這些來源,從而解決這些悖論。概率圖模型和統(tǒng)計(jì)方法一樣重要。

再加上do-calculus,我們可以基于數(shù)據(jù)做出一些解讀和分析,對那些習(xí)慣相信無法僅僅從數(shù)據(jù)中得到因果或反事實(shí)結(jié)論的人來說,這些解讀和分析十分驚人!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4379

    瀏覽量

    64767
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25416

原文標(biāo)題:相關(guān)性≠因果:概率圖模型和do-calculus

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    同步電路設(shè)計(jì)和異步電路設(shè)計(jì)的特點(diǎn)

      同步邏輯是時(shí)鐘之間固定的因果關(guān)系。異步邏輯是各時(shí)鐘之間沒有固定的因果關(guān)系
    的頭像 發(fā)表于 01-17 16:53 ?3759次閱讀
    同步電路設(shè)計(jì)和異步電路設(shè)計(jì)的特點(diǎn)

    健康呼吸其實(shí)一種因果關(guān)系

    過程中,最古老的因果哲學(xué)關(guān)系給予我莫大的啟示。 有時(shí)我們可當(dāng)我們正視危害的來臨,希望通過自身的努力改變一下現(xiàn)狀的時(shí)候,最可悲的結(jié)果卻是我們對于結(jié)果改變的程度不可獲知?;谶@種前提下,歐
    發(fā)表于 06-29 15:46

    SRAM的基礎(chǔ)模塊存有三種情況

    介紹的是關(guān)于SRAM的基礎(chǔ)模塊存有三種情況:standby(空余),read(讀)和write(寫)。 第一情況:standby假如WL沒
    發(fā)表于 09-02 11:56

    LwIP協(xié)議棧開發(fā)嵌入式網(wǎng)絡(luò)的三種方法關(guān)系

    服務(wù)器端通信為例,分析三種方法以及之間的關(guān)系,著重介紹基于raw API的應(yīng)用程序設(shè)計(jì)。 LwIP協(xié)議棧開發(fā)嵌入式網(wǎng)絡(luò)的三種方法分析 摘要輕量級的TCP/IP協(xié)議棧LwIP,提供
    發(fā)表于 08-05 07:55

    傳感器應(yīng)用實(shí)例--三種數(shù)字扭矩測量儀電路實(shí)例

    傳感器應(yīng)用實(shí)例--三種數(shù)字扭矩測量儀電路實(shí)例
    發(fā)表于 12-11 23:15 ?2次下載

    基于加性噪聲的缺失數(shù)據(jù)因果推斷

    推斷數(shù)據(jù)間存在的因果關(guān)系是很多科學(xué)領(lǐng)域中的一個(gè)基礎(chǔ)問題,然而現(xiàn)在暫時(shí)還沒有快速有效的方法對缺失數(shù)據(jù)進(jìn)行因果推斷。為此,提出一基于加性噪聲模
    發(fā)表于 01-14 16:06 ?0次下載

    機(jī)器學(xué)習(xí)的關(guān)鍵點(diǎn)是什么 數(shù)據(jù)量比算法還重要

    相關(guān)性并不意味著因果關(guān)系這一點(diǎn)被頻繁提起,以至于都不值得再批評。但是,我們討論的某類模型可能只學(xué)習(xí)相關(guān)性,但是它們的結(jié)果通常被看作是表征因果關(guān)系問題嗎?如果有,那么大家為何還這么做
    發(fā)表于 11-14 10:19 ?2145次閱讀

    最新的AI可幫助您解釋數(shù)據(jù)的含義

    該公司表示,Explain Data的全部目的是使對數(shù)據(jù)的復(fù)雜統(tǒng)計(jì)分析更易于訪問。這項(xiàng)新功能本質(zhì)上是一AI算法,如果可能的話,它可以最簡單地解釋影響數(shù)據(jù)內(nèi)變化的因素-簡單的因果關(guān)系。
    的頭像 發(fā)表于 03-28 10:24 ?2900次閱讀

    超詳細(xì)EMNLP2020 因果推斷

    )。如何從觀察獲得的數(shù)據(jù)中發(fā)現(xiàn)不同因素之間的因果關(guān)系則是統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和人工智能領(lǐng)域具有挑戰(zhàn)性的重要研究問題---統(tǒng)計(jì)推斷。 本次Fudan DISC實(shí)驗(yàn)室將分享EMNLP 2020中有關(guān)因果推斷的3篇論文,介紹在不同任務(wù)下
    的頭像 發(fā)表于 05-19 15:59 ?5496次閱讀
    超詳細(xì)EMNLP2020 <b class='flag-5'>因果</b>推斷

    芯片設(shè)計(jì)入門基礎(chǔ)知識介紹

    同步邏輯是時(shí)鐘之間固定的因果關(guān)系。異步邏輯是各時(shí)鐘之間沒有固定的因果關(guān)系。
    的頭像 發(fā)表于 12-22 15:56 ?5545次閱讀

    具有Event-Argument相關(guān)性的事件因果關(guān)系提取方法

    事件因果關(guān)系識別(ECI)旨在檢測兩個(gè)給定文本事件之間是否存在因果關(guān)系,是事件因果關(guān)系理解的重要任務(wù)。然而,ECI 任務(wù)忽略了關(guān)鍵的事件結(jié)構(gòu)和因果因果關(guān)系組件信息,使其難以用于下游應(yīng)用
    的頭像 發(fā)表于 02-02 14:59 ?1584次閱讀

    基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)如何測試大語言模型(LLM)的純因果推理能力

    ? 因果推理是人類智力的標(biāo)志之一。因果關(guān)系NLP領(lǐng)域近年來引起了人們的極大興趣,但其主要依賴于從常識知識中發(fā)現(xiàn)因果關(guān)系。本研究提出了一個(gè)基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)來測試大語言模
    的頭像 發(fā)表于 06-20 15:39 ?2402次閱讀
    基準(zhǔn)<b class='flag-5'>數(shù)據(jù)</b>集(CORR2CAUSE)如何測試大語言模型(LLM)的純<b class='flag-5'>因果</b>推理能力

    串行通信的三種數(shù)字編碼方式

    有關(guān)串行通信的知識,介紹了串行通信的幾種數(shù)字編碼方式,共有三種,一是NRZ編碼,二是曼徹斯特(Manchester)編碼,是微分曼徹斯特編碼,一起來了解下。
    的頭像 發(fā)表于 06-29 16:55 ?4627次閱讀

    貝葉斯網(wǎng)絡(luò)的因果關(guān)系檢測(Python)

    從技術(shù)上講,相關(guān)性指的是兩個(gè)變量之間的線性關(guān)系,而關(guān)聯(lián)性則指的是兩個(gè)(或更多)變量之間的任何關(guān)系。而因果關(guān)系則意味著一個(gè)變量(通常稱為預(yù)測變量或自變量)導(dǎo)致另一個(gè)變量(通常稱為結(jié)果變量
    的頭像 發(fā)表于 10-16 15:31 ?1327次閱讀
    貝葉斯網(wǎng)絡(luò)的<b class='flag-5'>因果關(guān)系</b>檢測(Python)

    基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

    機(jī)電系統(tǒng)中數(shù)據(jù)驅(qū)動故障檢測模型的性能和可解釋性。引入了一混合因果發(fā)現(xiàn)算法來發(fā)現(xiàn)監(jiān)測變量之間的繼承因果關(guān)系。順序連接因果變量的
    的頭像 發(fā)表于 11-12 09:52 ?1050次閱讀
    一<b class='flag-5'>種</b>基于<b class='flag-5'>因果</b>路徑的層次圖卷積注意力網(wǎng)絡(luò)