一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

闡述正態(tài)分布的概率,并解釋它的應(yīng)用為何如此的廣泛

WpOh_rgznai100 ? 來源:lq ? 2019-07-13 08:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為什么正態(tài)分布如此特殊?為什么大量數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的文章都圍繞正態(tài)分布進(jìn)行討論?我決定寫一篇文章,用一種簡單易懂的方式來介紹正態(tài)分布。

在機(jī)器學(xué)習(xí)的世界中,以概率分布為核心的研究大都聚焦于正態(tài)分布。本文將闡述正態(tài)分布的概率,并解釋它的應(yīng)用為何如此的廣泛,尤其是在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域,它幾乎無處不在。

我將會(huì)從基礎(chǔ)概念出發(fā),解釋有關(guān)正態(tài)分布的一切,并揭示它為何如此重要。

文章結(jié)構(gòu)

本文的主要內(nèi)容如下:

概率分布是什么

正態(tài)分布意味著什么

正態(tài)分布的變量有哪些

如何使用 Python 來檢驗(yàn)數(shù)據(jù)的分布

如何使用 Python 參數(shù)化生產(chǎn)一個(gè)正態(tài)分布

正態(tài)分布的問題

簡短的背景介紹

首先,正態(tài)分布又名高斯分布

它以數(shù)學(xué)天才 Carl Friedrich Gauss 命名

正態(tài)分布又名高斯分布

越簡單的模型越是常用,因?yàn)樗鼈兡軌虮缓芎玫慕忉尯屠斫?。正態(tài)分布非常簡單,這就是它是如此的常用的原因。

因此,理解正態(tài)分布非常有必要。

什么是概率分布?

首先介紹一下相關(guān)概念。

考慮一個(gè)預(yù)測(cè)模型,該模型可以是我們的數(shù)據(jù)科學(xué)研究中的一個(gè)組件。

如果我們想精確預(yù)測(cè)一個(gè)變量的值,那么我們首先要做的就是理解該變量的潛在特性。

首先我們要知道該變量的可能取值,還要知道這些值是連續(xù)的還是離散的。簡單來講,如果我們要預(yù)測(cè)一個(gè)骰子的取值,那么第一步就是明白它的取值是1 到 6(離散)。

第二步就是確定每個(gè)可能取值(事件)發(fā)生的概率。如果某個(gè)取值永遠(yuǎn)都不會(huì)出現(xiàn),那么該值的概率就是 0 。

事件的概率越大,該事件越容易出現(xiàn)。

在實(shí)際操作中,我們可以大量重復(fù)進(jìn)行某個(gè)實(shí)驗(yàn),并記錄該實(shí)驗(yàn)對(duì)應(yīng)的輸出變量的結(jié)果。

我們可以將這些取值分為不同的集合類,在每一類中,我們記錄屬于該類結(jié)果的次數(shù)。例如,我們可以投10000次骰子,每次都有6種可能的取值,我們可以將類別數(shù)設(shè)為6,然后我們就可以開始對(duì)每一類出現(xiàn)的次數(shù)進(jìn)行計(jì)數(shù)了。

我們可以畫出上述結(jié)果的曲線,該曲線就是概率分布曲線。目標(biāo)變量每個(gè)取值的可能性就由其概率分布決定。

一旦我們知道了變量的概率分布,我們就可以開始估計(jì)事件出現(xiàn)的概率了,我們甚至可以使用一些概率公式。至此,我們就可更好的理解變量的特性了。概率分布取決于樣本的一些特征,例如平均值,標(biāo)準(zhǔn)偏差,偏度和峰度。

如果將所有概率值求和,那么求和結(jié)果將會(huì)是100%

世界上存在著很多不同的概率分布,而最廣泛使用的就是正態(tài)分布了。

初遇正態(tài)分布

我們可以畫出正態(tài)分布的概率分布曲線,可以看到該曲線是一個(gè)鐘型的曲線。如果變量的均值,模和中值相等,那么該變量就呈現(xiàn)正態(tài)分布。

如下圖所示,為正態(tài)分布的概率分布曲線:

理解和估計(jì)變量的概率分布非常重要。

下面列出的變量的分布都比較接近正態(tài)分布:

人群的身高

成年人的血壓

傳播中的粒子的位置

測(cè)量誤差

回歸中的殘差

人群的鞋碼

一天中雇員回家的總耗時(shí)

教育指標(biāo)

此外,生活中有大量的變量都是具有 x % 置信度的正態(tài)變量,其中,x<100。

什么是正態(tài)分布?

正態(tài)分布只依賴于數(shù)據(jù)集的兩個(gè)特征:樣本的均值和方差。

均值——樣本所有取值的平均

方差——該指標(biāo)衡量了樣本總體偏離均值的程度

正態(tài)分布的這種統(tǒng)計(jì)特性使得問題變得異常簡單,任何具有正態(tài)分布的變量,都可以進(jìn)行高精度分預(yù)測(cè)。

值得注意的是,大自然中發(fā)現(xiàn)的變量,大多近似服從正態(tài)分布。

正態(tài)分布很容易解釋,這是因?yàn)椋?/p>

正態(tài)分布的均值,模和中位數(shù)是相等的。

我們只需要用均值和標(biāo)準(zhǔn)差就能解釋整個(gè)分布。

正態(tài)分布是我們熟悉的正常行為

為何如此多的變量都大致服從正態(tài)分布?

這個(gè)現(xiàn)象可以由如下定理理解釋:當(dāng)在大量隨機(jī)變量上重復(fù)很多次實(shí)驗(yàn)時(shí),它們的分布總和將非常接近正態(tài)分布。

由于人的身高是一個(gè)隨機(jī)變量,并且基于其他隨機(jī)變量,例如一個(gè)人消耗的營養(yǎng)量,他們所處的環(huán)境,他們的遺傳等等,這些變量的分布總和最終是非常接近正態(tài)的。

這就是中心極限定理。

本文的核心:

我們從上文的分析得出,正態(tài)分布是許多隨機(jī)分布的總和。 如果我們繪制正態(tài)分布密度函數(shù),那么它的曲線將具有以下特征:

如上圖所示,該鐘形曲線有均值為 100,標(biāo)準(zhǔn)差為1:

均值是曲線的中心。 這是曲線的最高點(diǎn),因?yàn)榇蠖鄶?shù)點(diǎn)都是均值。

曲線兩側(cè)的點(diǎn)數(shù)相等。 曲線的中心具有最多的點(diǎn)數(shù)。

曲線下的總面積是變量所有取值的總概率。

因此總曲線面積為 100%

更進(jìn)一步,如上圖所示:

約 68.2% 的點(diǎn)在 -1 到 1 個(gè)標(biāo)準(zhǔn)偏差范圍內(nèi)。

約 95.5% 的點(diǎn)在 -2 到 2 個(gè)標(biāo)準(zhǔn)偏差范圍內(nèi)。

約 99.7% 的點(diǎn)在 -3 至 3 個(gè)標(biāo)準(zhǔn)偏差范圍內(nèi)。

這使我們可以輕松估計(jì)變量的變化性,并給出相應(yīng)置信水平,它的可能取值是多少。例如,在上面的灰色鐘形曲線中,變量值在 99-101 之間的可能性為 68.2%。

正態(tài)概率分布函數(shù)

正態(tài)概率分布函數(shù)的形式如下:

概率密度函數(shù)基本上可以看作是連續(xù)隨機(jī)變量取值的概率。

正態(tài)分布是鐘形曲線,其中mean = mode = median。

如果使用概率密度函數(shù)繪制變量的概率分布曲線,則給定范圍的曲線下的面積,表示目標(biāo)變量在該范圍內(nèi)取值的概率。

概率分布曲線基于概率分布函數(shù),而概率分布函數(shù)本身是根據(jù)諸如平均值或標(biāo)準(zhǔn)差等多個(gè)參數(shù)計(jì)算的。

我們可以使用概率分布函數(shù)來查找隨機(jī)變量取值范圍內(nèi)的值的相對(duì)概率。 例如,我們可以記錄股票的每日收益,將它們分組到適當(dāng)?shù)募项愔?,然后?jì)算股票在未來獲得20-40%收益的概率。

標(biāo)準(zhǔn)差越大,樣品中的變化性越大。

如何使用 Python 探索變量的概率分布

最簡單的方法是加載 data frame 中的所有特征,然后運(yùn)行以下腳本(使用pandas 庫):

DataFrame.hist(bins=10)#Make a histogram of the DataFrame.

該函數(shù)向我們展示了所有變量的概率分布。

變量服從正態(tài)分布意味著什么?

如果我們將大量具有不同分布的隨機(jī)變量加起來,所得到的新變量將最終具有正態(tài)分布。這就是前文所述的中心極限定理。

服從正態(tài)分布的變量總是服從正態(tài)分布。 例如,假設(shè) A 和 B 是兩個(gè)具有正態(tài)分布的變量,那么:

?A x B 是正態(tài)分布

?A + B 是正態(tài)分布

因此,使用正態(tài)分布,預(yù)測(cè)變量并在一定范圍內(nèi)找到它的概率會(huì)變得非常簡單。

樣本不服從正態(tài)分布怎么辦?

我們可以將變量的分布轉(zhuǎn)換為正態(tài)分布。

我們有多種方法將非正態(tài)分布轉(zhuǎn)化為正態(tài)分布:

1.線性變換

一旦我們收集到變量的樣本數(shù)據(jù),我們就可以對(duì)樣本進(jìn)行線性變化,并計(jì)算Z得分:

計(jì)算平均值

計(jì)算標(biāo)準(zhǔn)偏差

對(duì)于每個(gè) x,使用以下方法計(jì)算 Z:

2.使用 Boxcox 變換

我們可以使用 SciPy 包將數(shù)據(jù)轉(zhuǎn)換為正態(tài)分布:

scipy.stats.boxcox(x,lmbda=None,alpha=None)

3.使用 Yeo-Johnson 變換

另外,我們可以使用 yeo-johnson 變換。 Python 的 sci-kit learn 庫提供了相應(yīng)的功能:

sklearn.preprocessing.PowerTransformer(method=’yeojohnson’,standardize=True,copy=True)

正態(tài)分布的問題

由于正態(tài)分布簡單且易于理解,因此它也在預(yù)測(cè)研究中被過度使用。 假設(shè)變量服從正態(tài)分布會(huì)有一些顯而易見的缺陷。 例如,我們不能假設(shè)股票價(jià)格服從正態(tài)分布,因?yàn)閮r(jià)格不能為負(fù)。 因此,我們可以假設(shè)股票價(jià)格服從對(duì)數(shù)正態(tài)分布,以確保它永遠(yuǎn)不會(huì)低于零。

我們知道股票收益可能是負(fù)數(shù),因此收益可以假設(shè)服從正態(tài)分布。

假設(shè)變量服從正態(tài)分布而不進(jìn)行任何分析是愚蠢的。

變量可以服從Poisson,Student-t 或 Binomial 分布,盲目地假設(shè)變量服從正態(tài)分布可能導(dǎo)致不準(zhǔn)確的結(jié)果。

總結(jié)

本文闡述了正態(tài)分布的概念和性質(zhì),以及它如此重要的原因。

希望能幫助到你。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:正態(tài)分布為何如此重要?

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    FLIR Si2x系列聲學(xué)成像儀的五大優(yōu)勢(shì)

    在防爆行業(yè),安全與效率是企業(yè)運(yùn)營的重中之重,F(xiàn)LIR Si2x系列聲學(xué)成像儀,憑借其卓越的性能和廣泛的應(yīng)用場(chǎng)景,成為了眾多用戶的佳選,那么它為何如此受歡迎呢?
    的頭像 發(fā)表于 06-13 11:29 ?399次閱讀

    芯片軟錯(cuò)誤概率探究:基于汽車芯片安全設(shè)計(jì)視角

    摘要: 本文深入剖析了芯片軟錯(cuò)誤概率問題,結(jié)合 AEC-Q100 與 IEC61508 標(biāo)準(zhǔn),以 130 納米工藝 1Mbit RAM 芯片為例闡述其軟錯(cuò)誤概率,探討汽車芯片安全等級(jí)劃分及軟錯(cuò)誤
    的頭像 發(fā)表于 04-30 16:35 ?281次閱讀
    芯片軟錯(cuò)誤<b class='flag-5'>概率</b>探究:基于汽車芯片安全設(shè)計(jì)視角

    電阻率在電子電力學(xué)中為何如此重要?

    ,以及它對(duì)電子工程師和設(shè)計(jì)師的重要性。電阻率的定義電阻率(用希臘字母ρ表示)是一個(gè)基本的材料屬性,量化了材料對(duì)電流流動(dòng)的阻礙程度。簡單來說,電阻率是指特定材料對(duì)
    的頭像 發(fā)表于 04-01 10:39 ?472次閱讀
    電阻率在電子電力學(xué)中<b class='flag-5'>為何如此</b>重要?

    電網(wǎng)波動(dòng)測(cè)試為何如此重要?

    電網(wǎng)中常會(huì)因雷擊、短路故障、大功率設(shè)備啟動(dòng)、電網(wǎng)切換或負(fù)載突變等原因,可能會(huì)導(dǎo)致如設(shè)備停機(jī)、異常重啟、醫(yī)療設(shè)備斷電危及患者等嚴(yán)重后果,那么該如何避免呢?電網(wǎng)中常會(huì)因雷擊、短路故障、大功率設(shè)備啟動(dòng)、電網(wǎng)切換或負(fù)載突變等原因,出現(xiàn)電壓暫降(Dip)、短時(shí)中斷(Interruption)或電壓波動(dòng)(Variation),可能會(huì)導(dǎo)致如設(shè)備停機(jī)、異常重啟、醫(yī)療設(shè)備斷電
    的頭像 發(fā)表于 03-31 11:40 ?243次閱讀
    電網(wǎng)波動(dòng)測(cè)試<b class='flag-5'>為何如此</b>重要?

    VirtualLab Fusion應(yīng)用:用于參數(shù)掃描的自定義工具

    值結(jié)果根據(jù)要求的文件路徑保存到硬盤上。 利用參數(shù)運(yùn)行的可編程模式進(jìn)行隨機(jī)分布公差分析 在這個(gè)用例中,我們演示了一個(gè)可編程的參數(shù)運(yùn)行,允許用戶使用不同的隨機(jī)分布進(jìn)行公差分析。用戶可以在均勻分布
    發(fā)表于 03-07 08:46

    高電壓轉(zhuǎn)換器與電動(dòng)車應(yīng)用:NPC多電平逆變器為何如此關(guān)鍵?

    隨著能源需求的持續(xù)增長,電流在傳輸和利用過程中出現(xiàn)了許多問題。特別是,智能電網(wǎng)的增長和可再生能源的使用對(duì)電能的“質(zhì)量”提出了更高的要求,例如減少諧波和在電網(wǎng)中平衡有功與無功功率的能力,因此需要使用靜態(tài)無功補(bǔ)償器(STATCOM)。簡單來說,它們由電力電子設(shè)備組成,動(dòng)態(tài)提供無功功率支持,在負(fù)載或發(fā)電波動(dòng)期間幫助穩(wěn)定電壓水平。通常,它們位于高電壓側(cè)(從30kV到
    的頭像 發(fā)表于 01-14 11:02 ?860次閱讀
    高電壓轉(zhuǎn)換器與電動(dòng)車應(yīng)用:NPC多電平逆變器<b class='flag-5'>為何如此</b>關(guān)鍵?

    數(shù)字孿生場(chǎng)景構(gòu)建好處的詳細(xì)闡述

    數(shù)字孿生場(chǎng)景構(gòu)建是指利用物理模型、傳感器更新、運(yùn)行歷史等數(shù)據(jù),集成多學(xué)科、多物理量、多尺度、多概率的仿真過程,在虛擬空間中創(chuàng)建與現(xiàn)實(shí)世界中的物理對(duì)象或場(chǎng)景相對(duì)應(yīng)的數(shù)字版“克隆體”,對(duì)其進(jìn)行全
    的頭像 發(fā)表于 12-26 14:57 ?471次閱讀

    LM98640是給一個(gè)過滿度的正弦波采集大量全碼數(shù)據(jù)進(jìn)行概率分布計(jì)算DNL還是給個(gè)斜坡波進(jìn)行靜態(tài)測(cè)試?

    是給一個(gè)過滿度的正弦波采集大量全碼數(shù)據(jù)進(jìn)行概率分布計(jì)算DNL還是給個(gè)斜坡波進(jìn)行靜態(tài)測(cè)試? 我用的正弦波測(cè)試結(jié)果怎么使兩頭各有一大坨黑的?
    發(fā)表于 12-25 07:11

    一文解析LOPA應(yīng)用-點(diǎn)火概率估算的策略與實(shí)踐

    收到關(guān)于點(diǎn)火概率確定方法的咨詢,因其評(píng)估方法眾多且難獲全員認(rèn)同,成為 LOPA 分析的痛點(diǎn)和難點(diǎn)。本文將探討 LOPA 分析時(shí)點(diǎn)火概率的估算方法,為客戶和同行提供參考思路和框架。 一、點(diǎn)火概率究竟
    的頭像 發(fā)表于 12-21 14:46 ?1087次閱讀
    一文解析LOPA應(yīng)用-點(diǎn)火<b class='flag-5'>概率</b>估算的策略與實(shí)踐

    絕緣電阻測(cè)試的基礎(chǔ)以及為什么如此重要

    采取適當(dāng)?shù)念A(yù)防措施。讓我們來看看電阻測(cè)試的基本原理,是什么使如此重要,以及正確的設(shè)備如何能夠幫助我們。 絕緣電阻測(cè)量期間發(fā)生的情況 絕緣電阻試驗(yàn)是20世紀(jì)發(fā)展起來的,是評(píng)價(jià)絕緣質(zhì)量的最早方法之一。在
    發(fā)表于 12-09 10:24

    圖像高斯濾波的原理及FPGA實(shí)現(xiàn)思路

    (Gaussian Blur),是一種高斯低通濾波。通常這個(gè)算法也可以用來模糊圖像,提供模糊濾鏡。也可以用來過濾自然界的高斯白噪聲。 高斯分布正態(tài)分布)是一個(gè)常見的連續(xù)概率分布
    的頭像 發(fā)表于 12-07 09:12 ?1897次閱讀
    圖像高斯濾波的原理及FPGA實(shí)現(xiàn)思路

    電網(wǎng)中防逆流為何如此重要?

    、可再生能源的廣泛接入,電力逆流現(xiàn)象愈發(fā)頻繁,防逆流裝置的重要性也愈發(fā)凸顯。本文將從防逆流裝置的工作原理、使用場(chǎng)景及其實(shí)際應(yīng)用效果等方面進(jìn)行詳細(xì)闡述。 一、防逆流裝置的工作原理 防逆流裝置的核心在于其內(nèi)置的電力電子元件和控制邏輯
    的頭像 發(fā)表于 09-23 15:31 ?908次閱讀
    電網(wǎng)中防逆流<b class='flag-5'>為何如此</b>重要?

    跨阻放大器的的增益單位是dbΩ,如何如何換算成db?

    跨阻放大器的的增益單位是dbΩ,如何如何換算成db?
    發(fā)表于 08-19 06:28

    【探討】DTAS尺寸公差分析與尺寸鏈計(jì)算邀您探索單孔銷浮動(dòng)之奧秘(二),快來圍觀吧!

    。即建立數(shù)學(xué)模型,然后運(yùn)用數(shù)學(xué)知識(shí)求解新的隨機(jī)變量的累積分布函數(shù)、概率密度函數(shù)、期望方差等,然后與計(jì)算結(jié)果作對(duì)比。 利用同樣的方法我們也可以去推導(dǎo)解釋為什么在三維公差仿真分析中當(dāng)我們用幅度與角度兩個(gè)
    發(fā)表于 08-08 17:12

    空載時(shí)為何OPA454如此發(fā)燙,這個(gè)發(fā)燙是正?,F(xiàn)象嗎?

    Supply voltage, VS = (V+) – (V–) 120 V,是不是意味著我使用(V-)=-12V,(V+)=95V供電是在其允許范圍內(nèi)的?在空載時(shí)為何OPA454如此發(fā)燙,這個(gè)發(fā)燙是正?,F(xiàn)象么?
    發(fā)表于 08-02 10:08