數理統計 Cheat Sheet 3：樣本及抽樣分佈

技術 · 發表 2019-04-10 22:37:41

摘要： Contents 1. 隨機樣本定義設 $X$ 是具有分佈函式 $F$ 的隨機變數，若 $X_1, X_2, \cdots, X_n$ 是具有同一分佈函式 $F$ 的、相互獨立的隨機變數，則稱 $X_1, X_2, \cdots, X_n$ 為從分佈函式 $F$（或...

Contents

1. 隨機樣本

定義設 $X$ 是具有分佈函式 $F$ 的隨機變數，若 $X_1, X_2, \cdots, X_n$ 是具有同一分佈函式 $F$ 的、相互獨立的隨機變數，則稱 $X_1, X_2, \cdots, X_n$ 為從分佈函式 $F$（或總體 $F$、或總體 $X$）得到的容量為 $n$ 的簡單隨機樣本 ，簡稱樣本。它們的觀察值 $x_1, x_2, \cdots, x_n$ 稱為樣本值 ，又稱為 $X$ 的 $n$ 個獨立的觀察值 。

也可以將樣本看成是一個隨機向量，寫成 $(X_1, X_2, \cdots, X_n)$，此時樣本值相應地寫成 $(x_1, x_2, \cdots, x_n)$。若 $(x_1, x_2, \cdots, x_n)$ 和 $(y_1, y_2, \cdots, y_n)$ 都是相應於樣本 $(X_1, X_2, \cdots, X_n)$ 的樣本值，一般來說它們是不相同的。

由定義得，若 $X_1, X_2, \cdots, X_n$ 為 $F$ 的一個樣本，則 $X_1, X_2, \cdots, X_n$ 相互獨立，且它們的分佈函式都是 $F$，所以 $(X_1, X_2, \cdots, X_n)$ 的分佈函式為

\begin{equation}

F^*(x_1, x_2, \cdots, x_n) = \prod_{i=1}^n F(x_i)

\end{equation}

又若 $X$ 具有概率密度 $f$，則 $(X_1, X_2, \cdots, X_n)$ 的概率密度為

\begin{equation}

f^*(x_1, x_2, \cdots, x_n) = \prod_{i=1}^n f(x_i)

\end{equation}

2. 抽樣分佈

樣本是進行統計推斷的依據。在應用時，往往不是使用樣本本身，而是針對不同的問題構造適當函式，利用這些樣本的函式進行統計推斷。

定義設 $X_1, X_2, \cdots, X_n$ 是來自總體 $X$ 的一個樣本，$g(X_1, X_2, \cdots, X_n)$ 是 $X_1, X_2, \cdots, X_n$ 的函式，若 $g$ 中不含有未知引數，則稱 $g(X_1, X_2, \cdots, X_n)$ 是一統計量 。

統計量 $g(X_1, X_2, \cdots, X_n)$ 是隨機變數 $X_1, X_2, \cdots, X_n$ 的函式，因此統計量也是一個隨機變數。設 $x_1, x_2, \cdots, x_n$ 是相應於樣本 $X_1, X_2, \cdots, X_n$ 的樣本值，則稱 $g(x_1, x_2, \cdots, x_n)$ 是 $g(X_1, X_2, \cdots, X_n)$ 的觀察值。統計量的分佈稱為抽樣分佈 。

設 $X_1, X_2, \cdots, X_n$ 是來自總體 $X$ 的一個樣本，$x_1, x_2, \cdots, x_n$ 是這一樣本的觀察值，則有以下常用統計量的定義

樣本平均值

\begin{equation}

\overline{X} = \frac{1}{n} \sum\limits_{i=1}^{n} X_i

\end{equation}

樣本方差

\begin{equation}

S^2 = \frac{1}{n – 1} \sum\limits_{i=1}^{n} (X_i – \overline{X})^2 = \frac{1}{n – 1}\Big( \sum\limits_{i=1}^{n} X_i^2 – n\overline{X}^2 \Big)

\end{equation}

樣本標準差

\begin{equation}

S = \sqrt{S^2} = \sqrt{\frac{1}{n – 1} \sum\limits_{i=1}^{n} (X_i – \overline{X})^2}

\end{equation}

樣本 $k$ 階（原點）矩

\begin{equation}

A_k = \frac{1}{n} \sum\limits_{i=1}^{n} X_i^k, \quad k = 1, 2, \cdots

\end{equation}

樣本 $k$ 階中心矩

\begin{equation}

B_k = \frac{1}{n} \sum\limits_{i=1}^{n} (X_i – \overline{X})^k, \quad k = 2, 3, \cdots

\end{equation}

它們的觀察值分別為

\begin{equation}

\overline{x} = \frac{1}{n} \sum\limits_{i=1}^{n} x_i

\end{equation}

\begin{equation}

s^2 = \frac{1}{n – 1} \sum\limits_{i=1}^{n} (x_i – \overline{x})^2 = \frac{1}{n – 1}\Big( \sum\limits_{i=1}^{n} x_i^2 – n\overline{x}^2 \Big)

\end{equation}

\begin{equation}

s = \sqrt{s^2} = \sqrt{\frac{1}{n – 1} \sum\limits_{i=1}^{n} (x_i – \overline{x})^2}

\end{equation}

\begin{equation}

a_k = \frac{1}{n} \sum\limits_{i=1}^{n} x_i^k, \quad k = 1, 2, \cdots

\end{equation}

\begin{equation}

b_k = \frac{1}{n} \sum\limits_{i=1}^{n} (x_i – \overline{x})^k, \quad k = 2, 3, \cdots

\end{equation}

若總體 $X$ 的 $k$ 階矩 $E(X^k) \overset{記成}{=} \mu_k$ 存在，則當 $n \rightarrow \infty$ 時，$A_k \overset{P}{\rightarrow} \mu_k, k = 1, 2, \cdots$。這是因為 $X_1, X_2, \cdots, X_n$ 獨立且與 $X$ 同分布，所以 $X_1^k, X_2^k, \cdots, X_n^k$ 獨立且與 $X^k$ 同分布，故有

\begin{equation}

E(X_1^k) = E(X_2^k) = \cdots = E(X_n^k) = \mu_k

\end{equation}

從而由辛欽大數定理可知

\begin{equation}

A_k = \frac{1}{n} \sum\limits_{i=1}^{n} X_i^k \overset{P}{\rightarrow} \mu_k, \quad k = 1, 2, \cdots

\end{equation}

進而由依概率收斂的性質可知，對於連續函式 $g$，有

\begin{equation}

g(A_1, A_2, \cdots, A_k) \overset{P}{\rightarrow} g(\mu_1, \mu_2, \cdots, \mu_k)

\end{equation}

這是矩估計法的理論依據。

經驗分佈函式設 $X_1, X_2, \cdots, X_n$ 是總體 $F$ 的一個樣本，用 $S(x)$，$-\infty < x < \infty$ 表示 $X_1, X_2, \cdots, X_n$ 中不大於 $x$ 的隨機變數的個數。定義經驗分佈函式為

\begin{equation}

F_n(x) = \frac{1}{n} S(x), \quad -\infty < x < \infty

\end{equation}

經驗分佈函式 $F_n(x)$ 是與總體分佈函式 $F(x)$ 相應的統計量。從一個樣本值中可以很容易地得到經驗分佈函式的觀察值。

一般地，設 $x_1, x_2, \cdots, x_n$ 是總體 $F$ 的一個容量為 $n$ 的樣本值，現將 $x_1, x_2, \cdots, x_n$ 按從小到大的順序排列，並重新編號，設為

\begin{equation}

x_{(1)} \leq x_{(2)} \leq \cdots \leq x_{(n)}

\end{equation}

則經驗分佈函式 $F_n(x)$ 的觀察值為

\begin{equation}

F_n(x) = \begin{cases}

0, & 若 \; x < x_{(1)} \\

\frac{k}{n}, & 若 x_{(k)} \leq x < x_{(k + 1)}, \quad k = 1, 2, \cdots, n – 1 \\

1, & 若 \; x \geq x_{(n)}

\end{cases}

\end{equation}

對於經驗分佈函式 $F_n(x)$，格里汶科（Glivenko）證明對於任一實數 $x$，當 $n \rightarrow \infty$ 時，$F_n(x)$ 以概率 $1$ 一致收斂於分佈函式 $F(x)$，即

\begin{equation}

P\{ \lim_{n \rightarrow \infty} \sup_{-\infty < x < \infty} |F_n(x) – F(x)| = 0 \} = 1

\end{equation}

因此，對於任一實數 $x$，當 $n$ 充分大時，經驗分佈函式的任一個觀察值 $F_n(x)$ 與總體分佈函式 $F(x)$ 只有微小的差別，從而在實際上可以當做 $F(x)$ 來使用。

數理統計 Cheat Sheet 3：樣本及抽樣分佈

1. 隨機樣本

2. 抽樣分佈

您可能也會喜歡…