伊人无码在线观看视频,uu2m成人网站入口

一種簡(jiǎn)單的方法，可通過Python實(shí)現(xiàn)在數(shù)據(jù)流中查找異常值

在上一篇文章中，我解釋了流算法的概念，并給出了許多如何應(yīng)用流算法的示例。其中之一是在不保存數(shù)據(jù)流元素的情況下計(jì)算數(shù)據(jù)流的滾動(dòng)平均值。現(xiàn)在，我想擴(kuò)展這個(gè)示例，并在異常值檢測(cè)的背景下向您展示另一種流算法的用例。

當(dāng)我們監(jiān)視機(jī)器的功耗以檢測(cè)任何異常行為時(shí)，可能會(huì)出現(xiàn)類似的問題。如果我們發(fā)現(xiàn)異常值有所增加（異常觀察），則可能表明這臺(tái)機(jī)器的默認(rèn)值，可能值得檢查。

定義和示例

離群值可以通過多種方式定義。在本文中，我們將使用以下定義：

如果數(shù)字?jǐn)?shù)據(jù)流中的元素與到目前為止所見元素的平均值不在3個(gè)標(biāo)準(zhǔn)偏差之內(nèi)，則該元素被視為離群值。

這需要一個(gè)小例子。假設(shè)我們按順序獲得數(shù)據(jù)3、2、4、3、5、3、2、10、2、3、1。讓我們進(jìn)一步假設(shè)，我們從零的均值和方差（以及因此的標(biāo)準(zhǔn)差）開始，即，如果不等于零，則始終將第一個(gè)元素視為離群值。

因此，將3視為離群值，因?yàn)?> 0 3 * 0。現(xiàn)在，我們根據(jù)到目前為止看到的元素（僅是數(shù)字3）更新均值和方差。因此，新均值是3，方差是0。

然后我們看到2。我們有2> 3 3 * 0，所以2也被認(rèn)為是離群值。這是有道理的，因?yàn)榈侥壳盀橹刮覀冎豢吹搅?，所以其他任何數(shù)字都不適合該模式。平均值更新為（3 2）/2=2.5，方差更新為（（3-2.5）2（2-2.5）2）/2=0.25，這意味著標(biāo)準(zhǔn)偏差為0.5。

現(xiàn)在我們看到4。由于2.5–3 *0.5≤4≤2.53 * 0.5，因此該數(shù)字不是異常值（即正常值）。平均值更新為（3 2 4）/ 3 = 3，方差更新為（（3–3）2（2–3）2（4–3）2）/ 3 = 2/3，因此標(biāo)準(zhǔn)偏差為約0.81。

以下數(shù)字3、5、3、2被認(rèn)為是正常的。憑直覺，我們將下面的數(shù)字10視為離群值。讓我們看看該算法的作用。此時(shí)的平均值約為3.1，標(biāo)準(zhǔn)偏差約為1。由于10> 3.1 3 * 1，因此我們希望將10視為離群值。

如果繼續(xù)最后三個(gè)元素，您將看到它們都是正常的。

問題：要計(jì)算平均值和標(biāo)準(zhǔn)偏差，我們必須記住到目前為止看到的所有元素。如果我們有一個(gè)每天輸出成千上萬(wàn)個(gè)元素的系統(tǒng)，那么這不是一個(gè)選擇。

救援的流式算法

解決此問題的一種方法是使用流算法，該算法在從數(shù)據(jù)流中每個(gè)被掃描元素之后更新其內(nèi)部狀態(tài)。內(nèi)部狀態(tài)由到目前為止在任何點(diǎn)看到的所有元素的均值和方差組成，從看到任何元素之前的均值和方差為零開始。確切地說，在看到數(shù)據(jù)流的第n個(gè)元素之后，令m?為平均值，v?為方差，并附加定義m?=v?= 0。

計(jì)算均值

在我有關(guān)流算法的文章中，我們看到了如何僅使用舊的均值，正在掃描的最新元素以及到目前為止看到的元素?cái)?shù)量來更新均值。這意味著我們只需要隨時(shí)使用這種方法存儲(chǔ)兩個(gè)數(shù)字，而不是像幼稚的方法那樣存儲(chǔ)n。讓我再次顯示它，將數(shù)據(jù)流的第i個(gè)傳入元素表示為a?：