[譯] 資料科學人必知的 6 個常見概率分佈
本文選自 analyticsvidhya
作者 是Radhika Hijhawan
全文長約4100字,建議閱讀時間6分鐘 , 點選 【閱讀原文】 可檢視英文原文。
簡介
假設你是一所大學的老師。在檢查一週的作業後,您對所有學生進行了評分並將這些分數發給了學校的資料錄入人員,請他建立一個包含所有學生成績的電子表格。但這傢伙只儲存了成績,而沒儲存對應的學生姓名。
而且他在匆忙中犯了另一個錯誤---漏掉了幾個成績,我們不知道誰的成績不見了。讓我們找一找解決這個問題的方法。
一種方法是視覺化成績並檢視是否可以在資料中找到趨勢。
您繪製的這種圖表稱為資料的頻率分佈。你看到有一個平滑的曲線可以定義我們的資料結構,但是這裡有一個異常注意到了嗎?我們在特定的分數範圍內具有異常低的頻率。因此,最好的猜測是用缺少值來消除分佈中的凹痕。
這就是嘗試使用資料分析解決現實問題的方法。對於任何資料科學家、學生或實踐者來說,分佈是一個必須知道的概念。它為分析和推斷統計提供了基礎。
概率的概念為我們提供了數學計算,而分佈則幫助我們真實地視覺化背後發生的事情。
在這篇文章中,我將介紹清晰全面的介紹一些重要的概率分佈。
注意:本文假設您對概率有基本的瞭解。
目錄
-
常見資料型別
-
不同型別的分佈
-
伯努利分佈
-
均勻分配
-
二項分佈
-
正態分佈
-
泊松分佈
-
指數分佈
-
分佈之間的關係
常見資料型別
在我們開始解釋分佈之前,讓我們看看可能會遇到什麼樣的資料。資料可能是離散的或連續的。
離散資料顧名思義只能採用特定的值。例如,當您擲骰子時,可能的結果是1,2,3,4,5或6而不是1.5或2.45。
連續資料 可以在給定範圍內獲取任何值。範圍可以是有限的或無限的。例如,女孩的體重或身高,路的長度。女孩的體重可以是54公斤,或54.5公斤,或54.5436公斤的任何值。
下面我們開始介紹分佈型別。
不同型別的分佈
伯努利分佈
讓我們從最簡單的伯努利分佈開始。它實際上比聽起來更容易理解!
你們這些板球迷們!在任何一場板球比賽開始時,你如何決定誰要擊球?擲硬幣嗎!這完全取決於你是贏還是輸,對嗎?假設擲骰子的結果是頭像面,你就贏了。否則你就輸了,沒有中間選項。
一個 伯努 利分佈 只有兩個可能的結果,即1(成功)和0(失敗),以及一次單獨的試驗。因此,具有伯努利分佈的隨機變數X可以取成功概率的值為1,比如p,以及失敗的概率值,比如q或1-p。
這裡,頭像面的出現表示成功,背面的出現表示失敗。獲得頭像面的可能性= 0.5 =獲得背面的可能性,因為只有兩種可能的結果。
概率質量函式由下式給出:p x (1-p) 1-x 其中x€(0,1)。它也可以寫成:
成功和失敗的概率不一定是同樣的可能,假如這是我和老闆之間鬥爭的結果。他很有把握獲勝。所以在這種情況下,我成功的概率是0.15,而我失敗的概率是0.85。
成功的概率(p)與失敗的概率不同。下面的圖表顯示了我們的伯努利分佈。
這裡的成功概率= 0.15,失敗概率= 0.85。任何分佈的基本期望值是分佈的平均值。伯努利分佈的隨機變數X的期望值如下:
E(X)= 1 * p + 0 *(1-p)= p
伯努利分佈的隨機變數的方差是:
V(X)= E(X ² ) - [E(X)]²= p - p ² = p(1-p)
有許多伯努利分佈的例子,例如明天是否會下雨,雨是否表示成功,沒有下雨表示失敗,贏得(成功)或輸了(失敗)。
均勻分佈
當你擲骰子時,結果是從1到6的值。獲得這些結果的概率也同樣可能相同,這是均勻分佈的基礎。與伯努利分佈不同,均勻分佈可能產生的所有n個結果的概率都相同。
變數x被稱為均勻分佈,如果密度函式為:
均勻分佈曲線的曲線圖看起來如下:
您可以看到均勻分佈曲線的形狀是矩形,因此均勻分佈稱為矩形分佈。
對於均勻分佈,a和b是引數。
比如每天在花店銷售的花束數量是均勻分佈的,最多40個,最少10個。讓我們試著計算每日銷售額在15到30之間的概率。
每日銷售額在15至30之間的概率為(30-15)*(1 /(40-10))= 0.5
同樣,每日銷售額大於20的概率= 0.667
均勻分佈後x的平均值和方差為:
平均值 - > E(X)=(a + b)/ 2
方差 - > V(X)=(ba)²/ 12
標準均勻密度具有引數a = 0和b = 1,因此標準均勻密度的PDF由下式給出:
二項分佈
讓我們回到板球比賽。假設您今天贏了擲骰子,這表示一個成功的事件。你又擲了一次,但這次輸了。如果你今天贏了一個擲骰子,這不意味著你明天還會贏。讓我們把一個隨機變數,比如x,賦給你擲骰子贏的次數。x的概率是多少?它可以是任何數字,這取決於你扔硬幣的次數。
只有兩種可能的結果。頭像面表示成功,背面表示失敗。因此,可以容易地計算得到成功概率= 0.5和失敗概率:q = 1- p = 0.5。
只有兩種結果可能的分佈,例如成功或失敗,輸或贏,以及所有試驗的成功和失敗概率相同的情況稱為 二項分佈 。
結果不需要同樣的概率。還記得我和老闆之間的鬥爭的例子嗎?因此,如果實驗中成功概率是0.2,那麼失敗概率可以很容易地計算為q = 1 - 0.2 = 0.8。
每次試驗都是獨立的,因為先前的投擲結果不能確定或影響當前投擲的結果。只有兩種可能的結果並重復n次的實驗稱為二項式。二項分佈的引數是n和p,其中n是試驗總數,p是每次試驗成功的概率。
在上述說明的基礎上,二項分佈的性質是:
1. 每個試驗都是獨立的。
2. 試驗中只有兩種可能的結果 - 成功或失敗。
3. 進行了n次相同試驗的總數。
4. 所有試驗的成功和失敗概率相同。(試驗是相同的。)
二項分佈的數學表示由下式給出:
二項分佈圖,其成功概率不等於失敗概率
現在,當成功概率=失敗概率時,在這種情況下,二項分佈圖如下
二項分佈的均值和方差由下式給出:
平均值 - >μ= n * p
方差 - > Var(X)= n * p * q
正態分佈
正態分佈 代表了宇宙中大多數情況的行為(這就是為什麼它被稱為“正態”分佈的原因)。我想!),大量(小)隨機變數的總和往往是正態分佈的,這使得它的應用非常廣泛。如果任何分佈具有以下特徵,則稱為正態分佈:
1. 分佈的均值,中位數和眾數重合。
2. 分佈的曲線是鐘形的並且關於線x =μ對稱。
3. 曲線下的總面積為1。
4. 正好一半的值位於中心的左側,另一半位於右側。
正態分佈與二項分佈有很大不同。但是,如果試驗次數接近無窮大,那麼形狀將非常相似。
正態分佈後的隨機變數X的PDF由下式給出:
被稱為正態分佈的隨機變數X的均值和方差由下式給出:
平均值 - > E(X)=μ
方差 - > Var(X)=σ^ 2
這裡,μ(平均值)和σ(標準偏差)是引數。隨機變數X~N(μ,σ)的圖表如下所示。
標準正態分佈定義為平均值為0且標準差為1的分佈。對於這種情況,PDF變為:
泊松分佈
假設你在呼叫中心工作,一天大約接到多少個電話?它可以是任何數字。現在,一天內呼叫中心的全部呼叫數都是由泊松分佈建模的。還有一些例子如下:
1. 一天內在醫院記錄的緊急呼叫數。
2. 一天內某個區域報告的盜竊數量。
3. 一小時內到達沙龍的顧客數量。
4. 特定城市報告的自殺人數。
5. 本書每頁的列印錯誤數。
現在,您可以在之後思考許多示例。泊松分佈適用於事件發生在隨機時間和空間點的情況,其中我們的興趣僅在於事件發生的次數。
當以下假設有效時,分佈稱為泊松分佈:
1.任何成功的事件都不應影響另一個成功事件的結果。
2.短時間間隔內成功的概率必須等於較長時間間隔內成功的概率。
3.隨著間隔變小,區間成功的概率接近零。
現在,如果任何分佈驗證了上述假設,那麼它就是泊松分佈。泊松分佈中使用的一些符號是:
-
λ是事件發生的速率,
-
t是時間間隔的長度,
-
X是該時間間隔內的事件數。
這裡,X稱為泊松隨機變數,X的概率分佈稱為泊松分佈。
μ表示長度為t的區間中的平均事件數。然後,μ=λ* t。
泊松分佈後的X的PMF由下式給出:
平均μ是該分佈的引數。μ也被定義為該間隔長度的的λ倍。泊松分佈圖如下所示:
下圖顯示了由於平均值增加導致的曲線偏移。
可以感覺到,隨著平均值的增加,曲線向右移動。
泊松分佈後X的均值和方差:
平均值 - > E(X)=μ 方差 - > Var(X)=μ
指數分佈
讓我們再考慮呼叫中心的示例。兩次通話之間的時間間隔如何?讓指數分佈來拯救我們。指數分佈模型的時間間隔呼叫。
其他例子是:
1. 地鐵到達的時間長度
2. 到達加油站的間隔時間3.空調的使用壽命
指數分佈廣泛用於生存分析。從機器的預期壽命到人類的預期壽命,指數分佈成功地提供了結果。
隨機變數X具有PDF 的指數分佈:
f(x) = { λe -λx , x ≥ 0
引數λ> 0,也稱為速率。
對於生存分析,λ被稱為裝置在任何時間t的故障率,因為它已經存活到t。
指數分佈後隨機變數X的均值和方差:
平均值 - > E(X)= 1 /λ
方差 - > Var(X)=(1 /λ)²
此外,速率越大,曲線下降越快,速率越低,曲線越平坦。使用下圖所示的圖表可以更好地解釋這一點。
為了簡化計算,下面給出了一些公式。 P{X≤x} = 1 – e -λx ,對應於x左側的密度曲線下面積。
P{X>x} = e -λx ,對應於x右側的密度曲線下面積。
P{x1<X≤ x2} = e -λx1 – e -λx2 ,對應於x1和x2之間的密度曲線下面積。
分佈之間的關係
伯努利與二項分佈的關係
1.伯努利分佈是二項分佈的一個特例,只有一次試驗。
2.伯努利和二項分佈只有兩種可能的結果,即成功和失敗。
3.伯努利和二項分佈都有獨立的軌跡。
泊松與二項分佈的關係
泊松分佈是在以下條件下二項分佈的極限情況:
1. 試驗次數無限大或n→∞。
2. 每次試驗的成功概率相同且無限小或p→0。
3. np =λ,是有限的。
正態分佈與二項分佈的關係及正態分佈和泊松分佈:
正態分佈是在以下條件下二項分佈的另一種限制形式:
1. 試驗次數無限大,n→∞。
2. p和q都不是無限小。
正態分佈也是泊松分佈的極限情況,引數λ→∞。
指數和泊松分佈之間的關係:
如果隨機事件之間的時間服從指數分佈,則長度t的時間段內的事件總數服從引數為λt的泊松分佈。
檢驗你的知識
你到目前為止。現在,您能回答以下問題嗎?
1.計算標準正態隨機變數的公式是:
a.(x +μ)/σ
b.(x-μ)/σ
c .(x-σ)/μ
2.在伯努利分佈中,計算標準差的公式由下式給出:
a.p(1 - p)
b.SQRT(p(p - 1))
c.SQRT(p(1 - p))
3.對於正態分佈,平均值的增加將:
a.將曲線向左移動
b.將曲線向右移動
c.使曲線變平
4.電池的壽命呈指數分佈,每小時λ= 0.05。電池持續10到15小時的概率是:
a.0.1341
b.0.1540
c.0.0079
小結
概率分佈普遍存在於保險、物理、工程、電腦科學甚至社會科學等許多領域,其中心理學和醫學的學生廣泛使用概率分佈。它應用方便,使用廣泛。本文重點介紹了日常生活中觀察到的六種重要分佈,並解釋了它們的應用。現在,您將能夠識別、關聯和區分這些分佈。
我希望這篇文章可以在您的資料科學之旅上提供一些幫助。
作者簡介
Radhika Nijhawan,有抱負的資料科學家。一位統計學畢業生。試圖通過統計見解和概率決策來解碼這個世界的隨機性。