概率論與數(shù)理統(tǒng)計(jì),在生活中實(shí)在是太有用了,但由于大學(xué)課堂理解不夠深入,不能很好地將這些理論具象化并應(yīng)用到實(shí)際生活中,感到實(shí)在是太遺憾了,所以重新學(xué)習(xí)并用小白式的通俗易懂的語(yǔ)言來(lái)解釋記錄,以此來(lái)加深理解應(yīng)用。 先思考一下,數(shù)學(xué)是怎么產(chǎn)生的? 當(dāng)祖先遇到一個(gè)問(wèn)題,最終采用了某種方法,把這個(gè)問(wèn)題解決了,非常開心。動(dòng)物都是有惰性的,為了在下次遇到此類問(wèn)題時(shí)不費(fèi)吹灰之力,于是就把這種解決問(wèn)題的思想和方法提取出來(lái),然后就有了數(shù)學(xué)。為了給更多的人恩惠,就需要把這種方法整理成抽象的,嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)理論,傳遞給他人,別人看完,學(xué)習(xí)到理論,然后去解決新的問(wèn)題。 簡(jiǎn)而言之:
1、祖先是遇到具體的實(shí)際問(wèn)題,然后解決問(wèn)題,提取方法,整理成抽象的嚴(yán)謹(jǐn)?shù)睦碚摗?br />
2、而后人是學(xué)習(xí)抽象的嚴(yán)謹(jǐn)?shù)睦碚?,并利用這些理論去解決新的具體的實(shí)際的問(wèn)題。 看出差別來(lái)了吧,祖先創(chuàng)立數(shù)學(xué)的時(shí)候,入手點(diǎn)是具體的實(shí)際的問(wèn)題,很形象。而后人們?cè)趯W(xué)習(xí)數(shù)學(xué)的時(shí)候,入手點(diǎn)是抽象的嚴(yán)謹(jǐn)?shù)睦碚摗_@就是困難所在。 總結(jié)一下上面的內(nèi)容:
所以,要理解學(xué)好數(shù)學(xué),就必須了解數(shù)學(xué)的是怎么產(chǎn)生的。所有的數(shù)學(xué)都是從實(shí)際中抽離出來(lái)的,是抽象的東西,不要鉆牛角一樣地鉆進(jìn)去,要聯(lián)想實(shí)際應(yīng)用,先去理解,再去摳理論。以上,只是簡(jiǎn)單提供一種理解研究數(shù)學(xué)的方法,接下來(lái)我們言歸正傳,從以下4個(gè)角度來(lái)科普貝葉斯定理及其背后的思維: 1.貝葉斯定理的產(chǎn)生以及意義 2.什么是貝葉斯定理? 3.貝葉斯定理的應(yīng)用案例 4.生活中的貝葉斯思維
1、貝葉斯定理的產(chǎn)生來(lái)源
英國(guó)數(shù)學(xué)家托馬斯·貝葉斯(Thomas Bayes)在1763年發(fā)表的一篇論文中,首先提出了這個(gè)定理。而這篇論文是在他死后才由他的一位朋友發(fā)表出來(lái)的。在這篇論文中,他為了解決一個(gè)“逆向概率”問(wèn)題,而提出了貝葉斯定理。 在貝葉斯寫這篇文章之前,人們已經(jīng)能夠計(jì)算**“正向概率”**,比如杜蕾斯舉辦了一個(gè)抽獎(jiǎng),抽獎(jiǎng)桶里有10個(gè)球,其中2個(gè)白球,8個(gè)黑球,抽到白球就算你中獎(jiǎng)。你伸手進(jìn)去隨便摸出1顆球,摸出中獎(jiǎng)球的概率是多大。根據(jù)頻率概率的計(jì)算公式,你可以輕松的知道中獎(jiǎng)的概率是2/10。
而貝葉斯在他的文章中是為了解決一個(gè)“逆概率”的問(wèn)題。同樣以抽獎(jiǎng)為例,我們并不知道抽獎(jiǎng)桶里有什么,而是摸出一個(gè)球,通過(guò)觀察這個(gè)球的顏色,來(lái)預(yù)測(cè)這個(gè)桶里里白色球和黑色球的比例。
這個(gè)預(yù)測(cè)其實(shí)就可以用貝葉斯定理來(lái)做。貝葉斯當(dāng)時(shí)的論文只是對(duì)“逆概率”這個(gè)問(wèn)題的一個(gè)直接的求解嘗試,這哥們當(dāng)時(shí)并不清楚這里面這里面包含著的深刻思想。然而后來(lái),貝葉斯定理席卷了概率論,并將應(yīng)用延伸到各個(gè)問(wèn)題領(lǐng)域。可以說(shuō),所有需要作出概率預(yù)測(cè)的地方都可以見到貝葉斯定理的影子,特別地,貝葉斯是機(jī)器學(xué)習(xí)的核心方法之一。為什么貝葉斯定理在現(xiàn)實(shí)生活中這么有用呢?這是因?yàn)楝F(xiàn)實(shí)生活中的問(wèn)題,大部分都是像上面的**“逆概率”問(wèn)題**。生活中絕大多數(shù)決策面臨的信息都是不完全的,我們手中只有有限的信息。既然無(wú)法得到全面的信息,我們就應(yīng)該在信息有限的情況下,盡可能做出一個(gè)最優(yōu)的預(yù)測(cè)。 比如,天氣預(yù)報(bào)說(shuō),明天降雨的概率是30%。這是什么意思呢?因?yàn)槲覀儫o(wú)法像計(jì)算頻率概率那樣,重復(fù)地把明天過(guò)上100次,然后計(jì)算出大約有30次會(huì)下雨,所以只能利用有限的信息(過(guò)去天氣的測(cè)量數(shù)據(jù)),采用貝葉斯定理來(lái)預(yù)測(cè)出明天下雨的概率是多少。 同樣的,在現(xiàn)實(shí)世界中,我們每個(gè)人都需要預(yù)測(cè)。要想深入分析未來(lái)、思考是否買股票、政策給自己帶來(lái)哪些機(jī)遇、提出新產(chǎn)品構(gòu)想,或者只是計(jì)劃一周的飯菜。 貝葉斯定理就是為了解決這些問(wèn)題而誕生的,它可以根據(jù)過(guò)去的數(shù)據(jù)來(lái)預(yù)測(cè)出概率。貝葉斯定理的思考方式為我們提供了明顯有效的方法來(lái)幫助我們提供能力,以便更好地預(yù)測(cè)未來(lái)的商業(yè)、金融、以及日常生活??偨Y(jié)下第1部分:貝葉斯定理有什么用?在有限的信息下,能夠幫助我們預(yù)測(cè)出概率。 所有需要作出概率預(yù)測(cè)的地方都可以見到貝葉斯定理的影子,特別地,貝葉斯是機(jī)器學(xué)習(xí)的核心方法之一。例如垃圾郵件過(guò)濾,中文分詞,艾滋病檢查,肝癌檢查等。
2、什么是貝葉斯定理?
貝葉斯定理公式如下:
貝葉斯定理其實(shí)就是下面圖片中的概率公式,這里先不講這個(gè)公式,而是重點(diǎn)關(guān)注它的使用價(jià)值,因?yàn)橹挥欣斫饬怂氖褂靡饬x,你才會(huì)更有興趣去學(xué)習(xí)它。其實(shí),我和你一樣,不喜歡公式。我們還是從一個(gè)例子開始聊起。 我的朋友小鹿說(shuō),他女神每次看到他的時(shí)候都會(huì)沖他笑,他想知道女神是不是喜歡他呢? 誰(shuí)讓我學(xué)過(guò)統(tǒng)計(jì)概率知識(shí)呢,下面我們一起用貝葉斯幫小鹿預(yù)測(cè)以下女神喜歡他的概率有多大,這樣小鹿就可以根據(jù)概率的大小來(lái)決定是否要表白女神。 首先,我們分析給定的已知信息和未知信息:
1)要求解的問(wèn)題:女神喜歡你,記為A事件
2)已知條件:女神經(jīng)常沖你笑,記為B事件 根據(jù)條件概率,P(A|B)是女神經(jīng)常沖你笑這個(gè)B事件發(fā)生后女神喜歡你的概率(A事件)。 現(xiàn)在,我們來(lái)詳細(xì)解釋公式:
從公式來(lái)看,我們需要知道這么3個(gè)事情:1)先驗(yàn)概率
我們把P(A)稱為"先驗(yàn)概率"(Prior probability),即在不知道B事件發(fā)生的前提下,我們對(duì)A事件發(fā)生概率的一個(gè)主觀判斷。這個(gè)例子里就是在不知道女神經(jīng)常對(duì)你笑的前提下,來(lái)主觀判斷出女神喜歡一個(gè)人的概率。這里我們假設(shè)是50%,也就是有可能喜歡你,也有可能不喜歡還你的概率各是一半。2)可能性函數(shù)
P(B|A)/P(B)稱為**"可能性函數(shù)"(Likelyhood),這是一個(gè)調(diào)整因子,即新信息事件B的發(fā)生調(diào)整,作用是,使得先驗(yàn)概率更接近真實(shí)概率。**可能性函數(shù)你可以理解為新信息過(guò)來(lái)后,對(duì)先驗(yàn)概率的一個(gè)調(diào)整。比如上面的例子 在女神沒有對(duì)笑之前,你覺得女神喜歡你的概率50%(先驗(yàn)概率/主管判斷),女生經(jīng)常對(duì)你笑(調(diào)整因子/新的信息),使得你覺得女神喜歡你的概率上升而超過(guò)50%(后驗(yàn)概率);又比如我們剛開始看到“人工智能”這個(gè)信息,你有自己的理解(先驗(yàn)概率/主觀判斷),但是當(dāng)你學(xué)習(xí)了一些數(shù)據(jù)分析,或者看了些這方面的書后(新的信息),然后你根據(jù)掌握的最新信息優(yōu)化了自己之前的理解(可能性函數(shù)/調(diào)整因子),最后重新理解了“人工智能”這個(gè)信息(后驗(yàn)概率)如果"可能性函數(shù)"P(B|A)/P(B)>1,意味著"先驗(yàn)概率"被增強(qiáng),事件A的發(fā)生的可能性變大;
如果"可能性函數(shù)"=1,意味著B事件無(wú)助于判斷事件A的可能性;
如果"可能性函數(shù)"<1,意味著"先驗(yàn)概率"被削弱,事件A的可能性變小。 還是剛才的例子,根據(jù)女神經(jīng)常沖你笑這個(gè)新的信息,我調(diào)查走訪了女神的閨蜜,最后發(fā)現(xiàn)女神平日比較高冷,很少對(duì)人笑。所以我估計(jì)出"可能性函數(shù)"P(B|A)/P(B)=1.5(具體如何估計(jì),省去1萬(wàn)字,后面會(huì)有更詳細(xì)科學(xué)的例子)3)后驗(yàn)概率
P(A|B)稱為"后驗(yàn)概率"(Posterior probability),即在B事件發(fā)生之后,我們對(duì)A事件概率的重新評(píng)估。這個(gè)例子里就是在女神沖你笑后,對(duì)女神喜歡你的概率重新預(yù)測(cè)。
帶入貝葉斯公式計(jì)算出P(A|B)=P(A)* P(B|A)/P(B)=50% *1.5=75% 因此,女神經(jīng)常沖你笑,喜歡上你的概率是75%。這說(shuō)明,女神經(jīng)常沖你笑這個(gè)新信息的推斷能力很強(qiáng),將50%的"先驗(yàn)概率"一下子提高到了75%的"后驗(yàn)概率"。
現(xiàn)在我們?cè)賮?lái)看一遍貝葉斯公式,你現(xiàn)在就能明白這個(gè)公式背后的最關(guān)鍵思想了:
我們先根據(jù)以往的經(jīng)驗(yàn)預(yù)估一個(gè)"先驗(yàn)概率"P(A),然后加入新的信息(實(shí)驗(yàn)結(jié)果B),這樣有了新的信息后,我們對(duì)事件A的預(yù)測(cè)就更加準(zhǔn)確。 因此,貝葉斯定理可以理解成下面的式子:
后驗(yàn)概率(新信息出現(xiàn)后A發(fā)生的概率)=先驗(yàn)概率(A發(fā)生的概率)x可能性函數(shù)(新信息帶出現(xiàn)來(lái)的調(diào)整)貝葉斯的底層思想就是:
如果我能掌握一個(gè)事情的全部信息,我當(dāng)然能計(jì)算出一個(gè)客觀概率(古典概率、正向概率)。
可是生活中絕大多數(shù)決策面臨的信息都是不全的,我們手中只有有限的信息。既然無(wú)法得到全面的信息,我們就在信息有限的情況下,盡可能做出一個(gè)好的預(yù)測(cè)。也就是,在主觀判斷的基礎(chǔ)上,可以先估計(jì)一個(gè)值(先驗(yàn)概率),然后根據(jù)觀察的新信息不斷修正(可能性函數(shù))。
3、貝葉斯定理的應(yīng)用案例
前面我們介紹了貝葉斯定理公式,及其背后的思想。現(xiàn)在我們來(lái)舉個(gè)應(yīng)用案例,你會(huì)更加熟悉這個(gè)牛瓣的工具。
為了后面的案例計(jì)算,我們需要先補(bǔ)充下面這個(gè)知識(shí)。
1.全概率公式
這個(gè)公式的作用是計(jì)算貝葉斯定理中的P(B)。
假定樣本空間S,由兩個(gè)事件A與A'組成的和。例如下圖中,紅色部分是事件A,綠色部分是事件A',它們共同構(gòu)成了樣本空間S。
這時(shí)候來(lái)了個(gè)事件B,如下圖:
全概率公式:
它的含義是,如果A和A'構(gòu)成一個(gè)問(wèn)題的全部(全部的樣本空間),那么事件B的概率,就等于A和A'的概率分別乘以B對(duì)這兩個(gè)事件的條件概率之和。 看到這么復(fù)雜的公式,記不住沒關(guān)系,因?yàn)槲乙灿洸蛔?,下面用的時(shí)候翻到這里來(lái)看下就可以了。案例1:貝葉斯定理在做判斷上的應(yīng)用
有兩個(gè)一模一樣的碗,1號(hào)碗里有30個(gè)巧克力和10個(gè)水果糖,2號(hào)碗里有20個(gè)巧克力和20個(gè)水果糖。
然后把碗蓋住。隨機(jī)選擇一個(gè)碗,從里面摸出一個(gè)巧克力。
問(wèn)題:這顆巧克力來(lái)自1號(hào)碗的概率是多少? 好了,下面我就用套路來(lái)解決這個(gè)問(wèn)題,到最后我會(huì)給出這個(gè)套路。第1步,分解問(wèn)題
1)要求解的問(wèn)題:取出的巧克力,來(lái)自1號(hào)碗的概率是多少?
來(lái)自1號(hào)碗記為事件A1,來(lái)自2號(hào)碗記為事件A2
取出的是巧克力,記為事件B,
那么要求的問(wèn)題就是P(A1|B),即取出的是巧克力,來(lái)自1號(hào)碗的概率
2)已知信息:
1號(hào)碗里有30個(gè)巧克力和10個(gè)水果糖
2號(hào)碗里有20個(gè)巧克力和20個(gè)水果糖
取出的是巧克力第2步,應(yīng)用貝葉斯定理
1)求先驗(yàn)概率
由于兩個(gè)碗是一樣的,所以在得到新信息(取出是巧克力之前),這兩個(gè)碗被選中的概率相同,因此P(A1)=P(A2)=0.5,(其中A1表示來(lái)自1號(hào)碗,A2表示來(lái)自2號(hào)碗)
這個(gè)概率就是"先驗(yàn)概率",即沒有做實(shí)驗(yàn)之前,來(lái)自一號(hào)碗、二號(hào)碗的概率都是0.5。 2)求可能性函數(shù)
P(B|A1)/P(B)
其中,P(B|A1)表示從一號(hào)碗中(A1)取出巧克力(B)的概率。
因?yàn)?號(hào)碗里有30個(gè)水果糖和10個(gè)巧克力,所以P(B|A1)=30/(30+10)=75%
現(xiàn)在只有求出P(B)就可以得到答案。根據(jù)全概率公式,可以求得P(B)如下圖:
圖中P(B|A1)是1號(hào)碗中巧克力的概率,我們根據(jù)前面的已知條件,很容易求出。
同樣的,P(B|A2)是2號(hào)碗中巧克力的概率,也很容易求出(圖中已給出)。
而P(A1)=P(A2)=0.5
將這些數(shù)值帶入公式中就是小學(xué)生也可以算出來(lái)的事情了。最后P(B)=62.5% 所以,可能性函數(shù)P(A1|B)/P(B)=75%/62.5%=1.2
可能性函數(shù)>1.表示新信息B對(duì)事情A1的可能性增強(qiáng)了。 3)代入貝葉斯公式求后驗(yàn)概率
將上述計(jì)算結(jié)果,帶入貝葉斯定理,即可算出P(A1|B)=60%
這個(gè)例子中我們需要關(guān)注的是約束條件:抓出的是巧克力。如果沒有這個(gè)約束條件在,來(lái)自一號(hào)碗這件事的概率就是50%了,因?yàn)榍煽肆Φ姆植疾痪迅怕蕪?0%提升到60%。
現(xiàn)在,我總結(jié)下剛才的貝葉斯定理應(yīng)用的套路,你就更清楚了,會(huì)發(fā)現(xiàn)像小學(xué)生做應(yīng)用題一樣簡(jiǎn)單:
第1步. 分解問(wèn)題
簡(jiǎn)單來(lái)說(shuō)就像做應(yīng)用題的感覺,先列出解決這個(gè)問(wèn)題所需要的一些條件,然后記清楚哪些是已知的,哪些是未知的。
1)要求解的問(wèn)題是什么?
識(shí)別出哪個(gè)是貝葉斯中的事件A(一般是想要知道的問(wèn)題),哪個(gè)是事件B(一般是新的信息,或者實(shí)驗(yàn)結(jié)果)
2)已知條件是什么?第2步.應(yīng)用貝葉斯定理
第3步,求貝葉斯公式中的2個(gè)指標(biāo)
1)求先驗(yàn)概率
2)求可能性函數(shù)
3)帶入貝葉斯公式求后驗(yàn)概率
案例2:貝葉斯定理在疾病檢測(cè)中的應(yīng)用
每一個(gè)醫(yī)學(xué)檢測(cè),都存在假陽(yáng)性率和假陰性率。所謂假陽(yáng)性,就是沒病,但是檢測(cè)結(jié)果顯示有病。假陰性正好相反,有病但是檢測(cè)結(jié)果正常。 假設(shè)檢測(cè)準(zhǔn)備率是99%,如果醫(yī)生完全依賴檢測(cè)結(jié)果,也會(huì)誤診,即假陽(yáng)性的情況,也就是說(shuō)根據(jù)檢測(cè)結(jié)果顯示有病,但是你實(shí)際并沒有得病。 舉個(gè)更具體的例子,因?yàn)榘滩摲诤荛L(zhǎng),所以即便感染了也可能在相當(dāng)長(zhǎng)的一段時(shí)間身體沒有任何感覺,所以艾滋病檢測(cè)的假陽(yáng)性會(huì)導(dǎo)致被測(cè)人非常大的心理壓力。你可能會(huì)覺得,檢測(cè)準(zhǔn)確率都99%了,誤測(cè)幾乎可以忽略不計(jì)了吧?所以你覺得這人肯定沒有患艾滋病了對(duì)不對(duì)?
但我們用貝葉斯分析算一下,你會(huì)發(fā)現(xiàn)你的直覺是錯(cuò)誤的。 假設(shè)某種疾病的發(fā)病率是0.001,即1000人中會(huì)有1個(gè)人得病?,F(xiàn)有一種試劑可以檢驗(yàn)患者是否得病,它的準(zhǔn)確率是0.99,即在患者確實(shí)得病的情況下,它有99%的可能呈現(xiàn)陽(yáng)性。它的誤報(bào)率是5%,即在患者沒有得病的情況下,它有5%的可能呈現(xiàn)陽(yáng)性?,F(xiàn)有一個(gè)病人的檢驗(yàn)結(jié)果為陽(yáng)性,請(qǐng)問(wèn)他確實(shí)得病的可能性有多大? 好了,我知道你面對(duì)這一大推信息又頭大了,我也是。但是我們有模板套路,下面開始。第1步,分解問(wèn)題
1)要求解的問(wèn)題:病人的檢驗(yàn)結(jié)果為陽(yáng)性,他確實(shí)得病的概率有多大?
病人的檢驗(yàn)結(jié)果為陽(yáng)性(新的信息)為事件B,他得病記為事件A,
那么求解的就是P(A|B),即病人的檢驗(yàn)結(jié)果為陽(yáng)性,他確實(shí)得病的概率
2)已知信息
疾病的發(fā)病率是0.001,即P(A)=0.001
試劑可以檢驗(yàn)患者是否得病,準(zhǔn)確率是0.99,即在患者確實(shí)得病的情況下(A),它有99%的可能呈現(xiàn)陽(yáng)性(B),
也就是P(B|A)=0.99
試劑的誤報(bào)率是5%,即在患者沒有得病的情況下,它有5%的可能呈現(xiàn)陽(yáng)性
得病我們記為事件A,那么沒有得病就是事件A的反面,記為A',所以這句話就是P(B|A')=5%2.應(yīng)用貝葉斯定理
1)求先驗(yàn)概率
疾病的發(fā)病率是0.001,即P(A)=0.001
2)求可能性函數(shù)
P(B|A)/P(B) 其中,P(B|A)表示在患者確實(shí)得病的情況下(A),試劑呈現(xiàn)陽(yáng)性的概率,從前面的已知條件中我們已經(jīng)知道P(B|A)=0.99
現(xiàn)在只有求出P(B)就可以得到答案。根據(jù)全概率公式,可以求得P(B)=0.05如下圖:
所以可能性函數(shù)P(B|A)/P(B)=0.99/0.05=19.8
3)帶入貝葉斯公式求后驗(yàn)概率
我們得到了一個(gè)驚人的結(jié)果,P(A|B)等于1.98%。
也就是說(shuō),篩查的正確性都到了99%以上了,通過(guò)體檢判斷有沒有得病的概率也只有1.98%
你可能會(huì)說(shuō),再也不相信那些吹的天花亂墜的技術(shù)了,說(shuō)好了篩查準(zhǔn)確率那么高,結(jié)果篩查的結(jié)果對(duì)于確診疾病一點(diǎn)用都沒有,這還要醫(yī)學(xué)技術(shù)干什么? 沒錯(cuò),這就是貝葉斯分析告訴我們的。我們拿艾滋病來(lái)說(shuō),由于發(fā)艾滋病實(shí)在是小概率事件,所以當(dāng)我們對(duì)一大群人做艾滋病篩查時(shí),雖說(shuō)準(zhǔn)確率有99%,但仍然會(huì)有相當(dāng)一部分人因?yàn)檎`測(cè)而被診斷為艾滋病,這一部分人在人群中的數(shù)目甚至比真正艾滋病患者的數(shù)目還要高。你肯定要問(wèn)了,那該怎樣糾正測(cè)量帶來(lái)的這么高的誤診呢?造成這么不靠譜的誤診的原因,是我們無(wú)差別地給一大群人做篩查,而不論測(cè)量準(zhǔn)確率有多高,因?yàn)檎H说臄?shù)目遠(yuǎn)大于實(shí)際的患者,所以誤測(cè)造成的干擾就非常大了。 根據(jù)貝葉斯定理,我們知道提高先驗(yàn)概率,可以有效的提高后驗(yàn)概率。
所以解決的辦法倒也很簡(jiǎn)單,就是先鎖定可疑的樣本,比如10000人中檢查出現(xiàn)問(wèn)題的那10個(gè)人,再獨(dú)立重復(fù)檢測(cè)一次,因?yàn)檎H诉B續(xù)兩次體檢都出現(xiàn)誤測(cè)的概率極低,這時(shí)篩選出真正患者的準(zhǔn)確率就很高了,這也是為什么許多疾病的檢測(cè),往往還要送交獨(dú)立機(jī)構(gòu)多次檢查的原因。 這也是為什么艾滋病檢測(cè)第一次呈陽(yáng)性的人,還需要做第二次檢測(cè),第二次依然是陽(yáng)性的還需要送交國(guó)家實(shí)驗(yàn)室做第三次檢測(cè)。 在《醫(yī)學(xué)的真相》這本書里舉了個(gè)例子,假設(shè)檢測(cè)艾滋病毒,對(duì)于每一個(gè)呈陽(yáng)性的檢測(cè)結(jié)果,只有50%的概率能證明這位患者確實(shí)感染了病毒。但是如果醫(yī)生具備先驗(yàn)知識(shí),先篩選出一些高風(fēng)險(xiǎn)的病人,然后再讓這些病人進(jìn)行艾滋病檢查,檢查的準(zhǔn)確率就能提升到95%。案例4:貝葉斯垃圾郵件過(guò)濾器
垃圾郵件是一種令人頭痛的問(wèn)題,困擾著所有的互聯(lián)網(wǎng)用戶。全球垃圾郵件的高峰出現(xiàn)在2006年,那時(shí)候所有郵件中90%都是垃圾,2015年6月份全球垃圾郵件的比例數(shù)字首次降低到50%以下。
最初的垃圾郵件過(guò)濾是靠靜態(tài)關(guān)鍵詞加一些判斷條件來(lái)過(guò)濾,效果不好,漏網(wǎng)之魚多,冤枉的也不少。
2002年,Paul Graham提出使用"貝葉斯推斷"過(guò)濾垃圾郵件。他說(shuō),這樣做的效果,好得不可思議。1000封垃圾郵件可以過(guò)濾掉995封,且沒有一個(gè)誤判。 因?yàn)榈湫偷睦]件詞匯在垃圾郵件中會(huì)以更高的頻率出現(xiàn),所以在做貝葉斯公式計(jì)算時(shí),肯定會(huì)被識(shí)別出來(lái)。之后用最高頻的15個(gè)垃圾詞匯做聯(lián)合概率計(jì)算,聯(lián)合概率的結(jié)果超過(guò)90%將說(shuō)明它是垃圾郵件。 用貝葉斯過(guò)濾器可以識(shí)別很多改寫過(guò)的垃圾郵件,而且錯(cuò)判率非常低。甚至不要求對(duì)初始值有多么精確,精度會(huì)在隨后計(jì)算中逐漸逼近真實(shí)情況。
4、生活中的貝葉斯思維
貝葉斯定理與人腦的工作機(jī)制很像,這也是為什么它能成為機(jī)器學(xué)習(xí)的基礎(chǔ)。如果你仔細(xì)觀察小孩學(xué)習(xí)新東西的這個(gè)能力,會(huì)發(fā)現(xiàn),很多東西根本就是看一遍就會(huì)。比如我3歲的外甥,看了我做俯臥撐的動(dòng)作,也做了一次這個(gè)動(dòng)作,雖然動(dòng)作不標(biāo)準(zhǔn),但是也是有模有樣。 同樣的,我告訴他一個(gè)新單詞,他一開始并不知道這個(gè)詞是什么意思,但是他可以根據(jù)當(dāng)時(shí)的情景,先來(lái)個(gè)猜測(cè)(先驗(yàn)概率/主觀判斷)。一有機(jī)會(huì),他就會(huì)在不同的場(chǎng)合說(shuō)出這個(gè)詞,然后觀察你的反應(yīng)。如果我告訴他用對(duì)了,他就會(huì)進(jìn)一步記住這個(gè)詞的意思,如果我告訴他用錯(cuò)了,他就會(huì)進(jìn)行相應(yīng)調(diào)整。(可能性函數(shù)/調(diào)整因子)。經(jīng)過(guò)這樣反復(fù)的猜測(cè)、試探、調(diào)整主觀判斷,就是貝葉斯定理思維的過(guò)程。 同樣的,我們成人也在用貝葉斯思維來(lái)做出決策。比如,你和女神在聊天的時(shí)候,如果對(duì)方說(shuō)出“雖然”兩個(gè)字,你大概就會(huì)猜測(cè),對(duì)方后繼九成的可能性會(huì)說(shuō)出“但是”。我們的大腦看起來(lái)就好像是天生在用貝葉斯定理,即根據(jù)生活的經(jīng)歷有了主觀判斷(先驗(yàn)概率),然后根據(jù)搜集新的信息來(lái)修正(可能性函數(shù)/調(diào)整因子),最后做出高概率的預(yù)測(cè)(后驗(yàn)概率)。 其實(shí)這個(gè)過(guò)程,就是下面圖片的大腦決策過(guò)程:
所以,在生活中涉及到預(yù)測(cè)的事情,用貝葉斯的思維可以提高預(yù)測(cè)的概率。你可以分3個(gè)步驟來(lái)預(yù)測(cè):1.分解問(wèn)題
簡(jiǎn)單來(lái)說(shuō)就像小學(xué)生做應(yīng)用題的感覺,先列出要解決的問(wèn)題是什么?已知條件有哪些?2. 給出主觀判斷
不是瞎猜,而是根據(jù)自己的經(jīng)歷和學(xué)識(shí)來(lái)給出一個(gè)主觀判斷。3.搜集新的信息,優(yōu)化主觀判斷
持續(xù)關(guān)于你要解決問(wèn)題相關(guān)信息的最新動(dòng)態(tài),然后用獲取到的新信息來(lái)不斷調(diào)整第2步的主觀判斷。如果新信息符合這個(gè)主觀判斷,你就提高主觀判斷的可信度,如果不符合,你就降低主觀判斷的可信度。 比如我們剛開始看到“人工智能是否造成人類失業(yè)”這個(gè)信息,你有自己的理解(主觀判斷),但是當(dāng)你學(xué)習(xí)了一些數(shù)據(jù)分析,或者看了些這方面的最新研究進(jìn)展(新的信息),然后你根據(jù)掌握的最新信息優(yōu)化了自己之前的理解(調(diào)整因子),最后重新理解了“人工智能”這個(gè)信息(后驗(yàn)概率)。這也就是胡適說(shuō)的“大膽假設(shè),小心求證”。
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4381瀏覽量
64873 -
數(shù)學(xué)
+關(guān)注
關(guān)注
0文章
99瀏覽量
19538 -
貝葉斯
+關(guān)注
關(guān)注
0文章
77瀏覽量
12765
原文標(biāo)題:小白之通俗易懂的貝葉斯定理
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論