[譯] 資料科學人必知的 6 個常見概率分佈

資料科學二項分佈泊松分佈 · 發表 2019-02-28 07:34:46

摘要：本文選自 analyticsvidhya 作者是Radhika Hijhawan 全文長約4100字，建議閱讀時間6分鐘，點選【閱讀原文】可檢視英文原文。簡介假設你是一所大學的老師。在檢查一週的作業後，您對所有學生進行了評分並將這些分數發給了學校的資料...

本文選自 analyticsvidhya

作者是Radhika Hijhawan

全文長約4100字，建議閱讀時間6分鐘，點選【閱讀原文】可檢視英文原文。

簡介

假設你是一所大學的老師。在檢查一週的作業後，您對所有學生進行了評分並將這些分數發給了學校的資料錄入人員，請他建立一個包含所有學生成績的電子表格。但這傢伙只儲存了成績，而沒儲存對應的學生姓名。

而且他在匆忙中犯了另一個錯誤---漏掉了幾個成績，我們不知道誰的成績不見了。讓我們找一找解決這個問題的方法。

一種方法是視覺化成績並檢視是否可以在資料中找到趨勢。

您繪製的這種圖表稱為資料的頻率分佈。你看到有一個平滑的曲線可以定義我們的資料結構，但是這裡有一個異常注意到了嗎？我們在特定的分數範圍內具有異常低的頻率。因此，最好的猜測是用缺少值來消除分佈中的凹痕。

這就是嘗試使用資料分析解決現實問題的方法。對於任何資料科學家、學生或實踐者來說，分佈是一個必須知道的概念。它為分析和推斷統計提供了基礎。

概率的概念為我們提供了數學計算，而分佈則幫助我們真實地視覺化背後發生的事情。

在這篇文章中，我將介紹清晰全面的介紹一些重要的概率分佈。

注意：本文假設您對概率有基本的瞭解。

常見資料型別

在我們開始解釋分佈之前，讓我們看看可能會遇到什麼樣的資料。資料可能是離散的或連續的。

離散資料顧名思義只能採用特定的值。例如，當您擲骰子時，可能的結果是1,2,3,4,5或6而不是1.5或2.45。

連續資料可以在給定範圍內獲取任何值。範圍可以是有限的或無限的。例如，女孩的體重或身高，路的長度。女孩的體重可以是54公斤，或54.5公斤，或54.5436公斤的任何值。

下面我們開始介紹分佈型別。

不同型別的分佈

伯努利分佈

讓我們從最簡單的伯努利分佈開始。它實際上比聽起來更容易理解！

你們這些板球迷們！在任何一場板球比賽開始時，你如何決定誰要擊球？擲硬幣嗎！這完全取決於你是贏還是輸，對嗎？假設擲骰子的結果是頭像面，你就贏了。否則你就輸了，沒有中間選項。

一個伯努 利分佈 只有兩個可能的結果，即1（成功）和0（失敗），以及一次單獨的試驗。因此，具有伯努利分佈的隨機變數X可以取成功概率的值為1，比如p，以及失敗的概率值，比如q或1-p。

這裡，頭像面的出現表示成功，背面的出現表示失敗。獲得頭像面的可能性= 0.5 =獲得背面的可能性，因為只有兩種可能的結果。

概率質量函式由下式給出：p x (1-p) 1-x 其中x€（0,1）。它也可以寫成：

成功和失敗的概率不一定是同樣的可能，假如這是我和老闆之間鬥爭的結果。他很有把握獲勝。所以在這種情況下，我成功的概率是0.15，而我失敗的概率是0.85。

成功的概率（p）與失敗的概率不同。下面的圖表顯示了我們的伯努利分佈。

這裡的成功概率= 0.15，失敗概率= 0.85。任何分佈的基本期望值是分佈的平均值。伯努利分佈的隨機變數X的期望值如下：

E（X）= 1 * p + 0 *（1-p）= p

伯努利分佈的隨機變數的方差是：

V（X）= E（X ² ） - [E（X）]²= p - p ² = p（1-p）

有許多伯努利分佈的例子，例如明天是否會下雨，雨是否表示成功，沒有下雨表示失敗，贏得（成功）或輸了（失敗）。

均勻分佈

當你擲骰子時，結果是從1到6的值。獲得這些結果的概率也同樣可能相同，這是均勻分佈的基礎。與伯努利分佈不同，均勻分佈可能產生的所有n個結果的概率都相同。

變數x被稱為均勻分佈，如果密度函式為：

均勻分佈曲線的曲線圖看起來如下：

您可以看到均勻分佈曲線的形狀是矩形，因此均勻分佈稱為矩形分佈。

對於均勻分佈，a和b是引數。

比如每天在花店銷售的花束數量是均勻分佈的，最多40個，最少10個。讓我們試著計算每日銷售額在15到30之間的概率。

每日銷售額在15至30之間的概率為（30-15）*（1 /（40-10））= 0.5

同樣，每日銷售額大於20的概率= 0.667

均勻分佈後x的平均值和方差為：

平均值 - > E（X）=（a + b）/ 2

方差 - > V（X）=（ba）²/ 12

標準均勻密度具有引數a = 0和b = 1，因此標準均勻密度的PDF由下式給出：

二項分佈

讓我們回到板球比賽。假設您今天贏了擲骰子，這表示一個成功的事件。你又擲了一次，但這次輸了。如果你今天贏了一個擲骰子，這不意味著你明天還會贏。讓我們把一個隨機變數，比如x，賦給你擲骰子贏的次數。x的概率是多少？它可以是任何數字，這取決於你扔硬幣的次數。

只有兩種可能的結果。頭像面表示成功，背面表示失敗。因此，可以容易地計算得到成功概率= 0.5和失敗概率：q = 1- p = 0.5。

只有兩種結果可能的分佈，例如成功或失敗，輸或贏，以及所有試驗的成功和失敗概率相同的情況稱為 二項分佈 。

結果不需要同樣的概率。還記得我和老闆之間的鬥爭的例子嗎？因此，如果實驗中成功概率是0.2，那麼失敗概率可以很容易地計算為q = 1 - 0.2 = 0.8。

每次試驗都是獨立的，因為先前的投擲結果不能確定或影響當前投擲的結果。只有兩種可能的結果並重復n次的實驗稱為二項式。二項分佈的引數是n和p，其中n是試驗總數，p是每次試驗成功的概率。

在上述說明的基礎上，二項分佈的性質是：

1. 每個試驗都是獨立的。

2. 試驗中只有兩種可能的結果 - 成功或失敗。

3. 進行了n次相同試驗的總數。

4. 所有試驗的成功和失敗概率相同。（試驗是相同的。）

二項分佈的數學表示由下式給出：

二項分佈圖，其成功概率不等於失敗概率

現在，當成功概率=失敗概率時，在這種情況下，二項分佈圖如下

二項分佈的均值和方差由下式給出：

平均值 - >μ= n * p

方差 - > Var（X）= n * p * q

正態分佈

正態分佈代表了宇宙中大多數情況的行為（這就是為什麼它被稱為“正態”分佈的原因）。我想！），大量（小）隨機變數的總和往往是正態分佈的，這使得它的應用非常廣泛。如果任何分佈具有以下特徵，則稱為正態分佈：

1. 分佈的均值，中位數和眾數重合。

2. 分佈的曲線是鐘形的並且關於線x =μ對稱。

3. 曲線下的總面積為1。

4. 正好一半的值位於中心的左側，另一半位於右側。

正態分佈與二項分佈有很大不同。但是，如果試驗次數接近無窮大，那麼形狀將非常相似。

正態分佈後的隨機變數X的PDF由下式給出：

被稱為正態分佈的隨機變數X的均值和方差由下式給出：

平均值 - > E（X）=μ

方差 - > Var（X）=σ^ 2

這裡，μ（平均值）和σ（標準偏差）是引數。隨機變數X~N（μ，σ）的圖表如下所示。

標準正態分佈定義為平均值為0且標準差為1的分佈。對於這種情況，PDF變為：

泊松分佈

假設你在呼叫中心工作，一天大約接到多少個電話？它可以是任何數字。現在，一天內呼叫中心的全部呼叫數都是由泊松分佈建模的。還有一些例子如下：

1. 一天內在醫院記錄的緊急呼叫數。

2. 一天內某個區域報告的盜竊數量。

3. 一小時內到達沙龍的顧客數量。

4. 特定城市報告的自殺人數。

5. 本書每頁的列印錯誤數。

現在，您可以在之後思考許多示例。泊松分佈適用於事件發生在隨機時間和空間點的情況，其中我們的興趣僅在於事件發生的次數。

當以下假設有效時，分佈稱為泊松分佈：

1.任何成功的事件都不應影響另一個成功事件的結果。

2.短時間間隔內成功的概率必須等於較長時間間隔內成功的概率。

3.隨著間隔變小，區間成功的概率接近零。

現在，如果任何分佈驗證了上述假設，那麼它就是泊松分佈。泊松分佈中使用的一些符號是：

λ是事件發生的速率，
t是時間間隔的長度，
X是該時間間隔內的事件數。

這裡，X稱為泊松隨機變數，X的概率分佈稱為泊松分佈。

μ表示長度為t的區間中的平均事件數。然後，μ=λ* t。

泊松分佈後的X的PMF由下式給出：

平均μ是該分佈的引數。μ也被定義為該間隔長度的的λ倍。泊松分佈圖如下所示：

下圖顯示了由於平均值增加導致的曲線偏移。

可以感覺到，隨著平均值的增加，曲線向右移動。

泊松分佈後X的均值和方差：

平均值 - > E（X）=μ 方差 - > Var（X）=μ

指數分佈

讓我們再考慮呼叫中心的示例。兩次通話之間的時間間隔如何？讓指數分佈來拯救我們。指數分佈模型的時間間隔呼叫。

其他例子是：

1. 地鐵到達的時間長度

2. 到達加油站的間隔時間3.空調的使用壽命

指數分佈廣泛用於生存分析。從機器的預期壽命到人類的預期壽命，指數分佈成功地提供了結果。

隨機變數X具有PDF 的指數分佈：

f(x) = { λe -λx , x ≥ 0

引數λ> 0，也稱為速率。

對於生存分析，λ被稱為裝置在任何時間t的故障率，因為它已經存活到t。

指數分佈後隨機變數X的均值和方差：

平均值 - > E（X）= 1 /λ

方差 - > Var（X）=（1 /λ）²

此外，速率越大，曲線下降越快，速率越低，曲線越平坦。使用下圖所示的圖表可以更好地解釋這一點。

為了簡化計算，下面給出了一些公式。 P{X≤x} = 1 – e -λx ，對應於x左側的密度曲線下面積。

P{X>x} = e -λx ，對應於x右側的密度曲線下面積。

P{x1<X≤ x2} = e -λx1 – e -λx2 ，對應於x1和x2之間的密度曲線下面積。

分佈之間的關係

伯努利與二項分佈的關係

1.伯努利分佈是二項分佈的一個特例，只有一次試驗。

2.伯努利和二項分佈只有兩種可能的結果，即成功和失敗。

3.伯努利和二項分佈都有獨立的軌跡。

泊松與二項分佈的關係

泊松分佈是在以下條件下二項分佈的極限情況：

1. 試驗次數無限大或n→∞。

2. 每次試驗的成功概率相同且無限小或p→0。

3. np =λ，是有限的。

正態分佈與二項分佈的關係及正態分佈和泊松分佈：

正態分佈是在以下條件下二項分佈的另一種限制形式：

1. 試驗次數無限大，n→∞。

2. p和q都不是無限小。

正態分佈也是泊松分佈的極限情況，引數λ→∞。

指數和泊松分佈之間的關係：

如果隨機事件之間的時間服從指數分佈，則長度t的時間段內的事件總數服從引數為λt的泊松分佈。

檢驗你的知識

你到目前為止。現在，您能回答以下問題嗎？

1.計算標準正態隨機變數的公式是：

a.（x +μ）/σ

b.（x-μ）/σ

c .（x-σ）/μ

2.在伯努利分佈中，計算標準差的公式由下式給出：

a.p（1 - p）

b.SQRT（p（p - 1））

c.SQRT（p（1 - p））

3.對於正態分佈，平均值的增加將：

a.將曲線向左移動

b.將曲線向右移動

c.使曲線變平

4.電池的壽命呈指數分佈，每小時λ= 0.05。電池持續10到15小時的概率是：

a.0.1341

b.0.1540

c.0.0079

小結

概率分佈普遍存在於保險、物理、工程、電腦科學甚至社會科學等許多領域，其中心理學和醫學的學生廣泛使用概率分佈。它應用方便，使用廣泛。本文重點介紹了日常生活中觀察到的六種重要分佈，並解釋了它們的應用。現在，您將能夠識別、關聯和區分這些分佈。

我希望這篇文章可以在您的資料科學之旅上提供一些幫助。

作者簡介

Radhika Nijhawan，有抱負的資料科學家。一位統計學畢業生。試圖通過統計見解和概率決策來解碼這個世界的隨機性。