數理統計 Cheat Sheet 2:中心極限定理
在現實中,有些事件的發生會受到大量相互獨立的隨機因素的影響,而其中每一個因素對事件的影響又是微弱的,此類事件往往近似服從正態分佈。
Contents
- 1. 獨立同分布的中心極限定理
- 2. 獨立、非同分佈的中心極限定理
- 3. 獨立二項分佈的中心極限定理
1. 獨立同分布的中心極限定理
定理一(獨立同分布的中心極限定理)設隨機變數 $X_1, X_2, \cdots, X_n, \cdots$ 相互獨立,服從同一分佈,且具有數學期望和方差 $E(X_k) = \mu, \; D(X_k) = \sigma^2 > 0$($k = 1, 2, \cdots$),則隨機變數之和 $\sum\limits_{k=1}^{n} X_k$ 的標準化變數
\begin{equation}
Y_n = \frac{\sum\limits_{k=1}^{n} X_k – E\Big(\sum\limits_{k=1}^{n} X_k\Big)}{\sqrt{D\Big(\sum\limits_{k=1}^{n} X_k\Big)}} = \frac{\sum\limits_{k=1}^{n} X_k – n\mu}{\sqrt{n}\sigma}
\end{equation}
的分佈函式 $F_n(x)$ 對於任意 $x$ 滿足
\begin{align}
\lim_{n \rightarrow \infty} F_n(x) &= \lim_{n \rightarrow \infty} P \Bigg\{ \frac{\sum\limits_{k=1}^{n} X_k – n\mu}{\sqrt{n}\sigma} \leq x \Bigg\} \\
&= \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} \mathrm{e}^{-t^2/2} \mathrm{d}t = \Phi(x) \tag{1}
\end{align}
定理一說明,均值為 $\mu$,方差為 $\sigma^2$ 的獨立同分布隨機變數 $X_1, X_2, \cdots, X_n$ 之和 $\sum\limits_{k=1}^{n} X_k$ 的標準化變數,在當 $n$ 充分大時,有
\begin{equation}
\frac{\sum\limits_{k=1}^{n} X_k – n\mu}{\sqrt{n}\sigma} \overset{近似地}{\sim} N(0, 1) \tag{2}
\end{equation}
在一般情況下,很難求出 $n$ 個隨機變數之和 $\sum\limits_{k=1}^{n} X_k$ 的分佈函式,$(2)$ 式表明當 $n$ 充分大時,$\Phi(x)$ 可以給出其近似的分佈。
$(2)$ 式等號左邊可以寫成
\begin{equation}
\frac{\sum\limits_{k=1}^{n} X_k – n\mu}{\sqrt{n}\sigma} = \frac{\frac{1}{n}\sum\limits_{k=1}^{n} X_k – \mu}{\sigma/\sqrt{n}} = \frac{\overline{X} – \mu}{\sigma/\sqrt{n}}
\end{equation}
於是有
\begin{equation}
\frac{\overline{X} – \mu}{\sigma/\sqrt{n}} \overset{近似地}{\sim} N(0, 1) \quad
或 \quad \overline{X} \overset{近似地}{\sim} N(\mu, \sigma^2/n) \tag{3}
\end{equation}
$(3)$ 式說明,對於均值為 $\mu$,方差為 $\sigma^2 > 0$ 的獨立同分布的隨機變數 $X_1, X_2, \cdots, X_n$ 的算術平均 $\overline{X} = \frac{1}{n} \sum\limits_{k=1}^{n} X_k$,當 $n$ 充分大時,近似地分從均值為 $\mu$,方差為 $\sigma^2/n$ 的正態分佈。這是數理統計中大樣本統計推斷的基礎。
2. 獨立、非同分佈的中心極限定理
定理二(李雅普諾夫(Lyapunov)定理)設隨機變數 $X_1, X_2, \cdots, X_n, \cdots$ 相互獨立,它們具有數學期望和方差
\begin{equation}
E(X_k) = \mu_k, \quad D(X_k) = \sigma_k^2 > 0, \quad k = 1, 2, \cdots
\end{equation}
記
\begin{equation}
B_n^2 = \sum\limits_{k=1}^{n} \sigma_k^2
\end{equation}
若存在整數 $\delta$,使得當 $n \rightarrow \infty$ 時,
\begin{equation}
\frac{1}{B_n^{2 + \delta}} \sum_{k=1}^n E\{|X_k – \mu_k|^{2 + \delta}\} \rightarrow 0
\end{equation}
則隨機變數之和 $\sum\limits_{k=1}^{n} X_k$ 的標準化變數
\begin{equation}
Z_n = \frac{\sum\limits_{k=1}^{n} X_k – E\Big(\sum\limits_{k=1}^{n} X_k\Big)}{\sqrt{D\Big(\sum\limits_{k=1}^{n} X_k\Big)}} = \frac{\sum\limits_{k=1}^{n} X_k – \sum\limits_{k=1}^{n} \mu_k}{B_n}
\end{equation}
的分佈函式 $F_n(x)$ 對於任意 $x$,滿足
\begin{align}
\lim_{n \rightarrow \infty} F_n(x) = \lim_{n \rightarrow \infty} P \Bigg\{ \frac{\sum\limits_{k=1}^{n} X_k – \sum\limits_{k=1}^{n} \mu_k}{B_n} \leq x \Bigg\} \\
= \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} \mathrm{e}^{-t^2/2} \mathrm{d}t = \Phi(x) \tag{4}
\end{align}
定理二表明,在定理的條件下,隨機變數
\begin{equation}
Z_n = \frac{\sum\limits_{k=1}^{n} X_k – \sum\limits_{k=1}^{n} \mu_k}{B_n}
\end{equation}
當 $n$ 很大時,近似服從正態分佈 $N(0, 1)$。由此,當 $n$ 很大時,$\sum\limits_{k=1}^{n} X_k = B_n Z_n + \sum\limits_{k=1}^{n} \mu_k$ 近似服從正態分佈 $N(\sum\limits_{k=1}^{n} \mu_k, B_n^2)$。
注意定理二並沒有要求各個隨機變數 $X_k$($k = 1, 2, \cdots$)服從什麼分佈,只要它們滿足定理的條件,那麼當 $n$ 很大時,它們的和 $\sum\limits_{k=1}^{n} X_k$ 就近似服從正態分佈。
很多時候,我們所關心的問題受到多個獨立隨機因素的影響,即所研究的隨機變數可以表示成多個獨立的隨機變數之和,如任意時刻一個城市的耗電量是大量使用者耗電量之和、一個物理實驗的測量誤差由許多微小誤差合成,它們往往近似服從正態分佈。也正因此,正態隨機變數在概率論中佔有重要地位。
3. 獨立二項分佈的中心極限定理
在定理一中,假設 $X_k$ 均服從引數為 $p$ 的(0-1)分佈,此時有 $\mu = p$,$\sigma^2 = p(1 – p)$($k = 1, 2, \cdots$),代入式 $(1)$,可得
\begin{equation}
\lim_{n \rightarrow \infty} P \Bigg\{ \frac{\sum\limits_{k=1}^{n} X_k – np}{\sqrt{np(1 – p)}} \leq x \Bigg\} = \Phi(x)
\end{equation}
注意到 $\sum\limits_{k=1}^{n} X_k$ 服從引數為 $(n, p)$ 的二項分佈,於是有:
定理三(棣莫弗——拉普拉斯(De Moivre-Laplace)定理)設隨機變數 $\eta_n$($n = 1, 2, \cdots$)服從引數為 $n, p$($0 < p < 1$)的二項分佈,則對於任意 $x$,有
\begin{equation}
\lim_{n \rightarrow \infty} P\bigg\{ \frac{\eta_n – np}{\sqrt{np(1 – p)}} \leq x \bigg\} = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} \mathrm{e}^{-t^2/2} \mathrm{d}t = \Phi(x) \tag{5}
\end{equation}
定理三是定理一的特殊情況。它表明正態分佈是二項分佈的極限分佈,當 $n$ 充分大時,可以利用式 $(5)$ 來計算二項分佈的概率。