二項、卜瓦松PMF與高斯PDF

在統計學的世界裡,三個最核心的數學模型:二項分佈卜瓦松分佈高斯分佈。它們之間並非孤立,而是一場關於「極限」的華麗演變。

1. 二項分佈 (binomial distribution):發生的計數

一切的起點是伯努利試驗(只有發生/未發生兩種結果)。當你重複進行 $n$ 次獨立的實驗,在每次發生與未發生的機率分別固定為 $p$ 和 $q$ ( $= 1-p$ ) 的情形下,則總發生次數為 $k$ 的機率 $P(k)$ 所服從的規律就是「二項分佈」機率質量函數(PMF,probability mass function):

$$P( k) = \binom{n}{k} p^k (1-p)^{n-k}$$
其中[註1]:
  • 期望值 $\mu = \langle k \rangle = np$
  • 變異數 $\sigma^2 = Var(k) = npq$

2. 卜瓦松分佈 (Poisson distribution):加入時間的框架

若我們將二項分佈限定在特定時間 $T$ 或空間內,當試驗次數 $n$ 趨於無窮大且假設發生率 $p$ 非常小,但兩者的乘積或期望值 $\mu = np$(發生次數的期望值,等於平均發生率 $\lambda$ 乘以時間 $T$)保持穩定時,二項分佈就會演變成卜瓦松分佈,對應的PMF[註2]如下:

$$P(k) = \frac{\mu^k e^{-\mu}}{k!}$$
它是描述「特定時間或空間內,隨機事件發生次數機率」的最佳工具。

3. 高斯分佈 (Gaussian distribution):試驗次數夠大

試驗次數 $n$ 趨於無窮大時,二項分佈將變成高斯分佈或常態分佈(normal distribution),機率的數學描述必須如下改由連續的機率密度函數(PDF,probability density function)[註3]來表示:

$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$$
特點:由期望值 ($\mu$) 和標準差 ($\sigma$) 決定。對稱、平滑,且曲線下的總面積等於 1。

4. 總結:它們的內在聯繫

這三者其實是一脈相承的:

  1. 二項分佈是基礎(離散型)。

  2. 在給定時間 $T$ 內,當 $n \to \infty$$np$ 為定值時,二項分佈 $\to$ 卜瓦松分佈

  3. 當 $n \to \infty$ 時,二項分佈 $\to$ 高斯分佈

💥💥💥💥💥

[註1]

1) 從最簡單的「伯努利試驗」開始

想像只投擲一次硬幣($n=1$):

  • 發生($k=1$)的機率是 $p$

  • 未發生($k=0$)的機率是 $q = 1-p$

  • 計算期望值 $\langle k \rangle$
$$\langle k \rangle = (1 \cdot p) + (0 \cdot q) = p$$

  • 計算變異數 $Var(k)$,變異數的公式[註4]是
 $$\text{Var}(k) = \langle k^2 \rangle - \langle k \rangle^2 $$

  1. $\langle k^2 \rangle = (1^1 \cdot p) + (0^2 \cdot q) = p$。

  2. 代入公式:$Var(k) = p - p^2 = p(1-p) = pq$

因此,單次試驗的變異數是 $pq$

2) 推廣到 $n$ 次獨立試驗

二項分佈次數 $k$ 其實是 $n$ 個獨立伯努利隨機變數的總和:

$$k = k_1 + k_2 + \dots + k_n$$
因為「總和的期望值 」等於「期望值的總和」,所以:

$$\langle k \rangle = \langle k_1 \rangle + \langle k_2 \rangle  + \dots + \langle k_n \rangle$$

因為每一項 $\langle k_i \rangle$ 都是 $p$,總共有 $n$ 項,所以:

$$\langle k \rangle (= \mu) = \underbrace{p + p + \dots + p}_{n \text{ times}} = np$$

此外,根據變異數的性質,如果隨機變數彼此獨立,那麼「總和的變異數」就等於「變異數的總和」:

$$Var(k) = Var(k_1) + Var(k_2) + \dots + Var(k_n)$$

因為每一項 $Var(k_i)$ 都是 $pq$,總共有 $n$ 項,所以:

$$Var(k) (= \sigma^2) = \underbrace{pq + pq + \dots + pq}_{n \text{ times}} = npq$$


💥💥💥💥💥

[註2]從二項分佈到卜瓦松分佈

1) 設定前提條件:

在時間 $T$ 內重複進行 $n$ 次獨立實驗。我們令 $n \to \infty$ 並保持乘積 $np = \mu$ (發生期望值)為一個常數。

因此,每次發生機率: $p = \frac{\mu}{n} \to 0$。

2) 代入二項分佈的 PMF:

二項分佈公式為:

$$P(k) = \binom{n}{k} p^k (1-p)^{n-k}$$

將 $p = \frac{\mu}{n}$ 代入:

$$P(k) = \frac{n!}{k!(n-k)!} \left( \frac{\mu}{n} \right)^k \left( 1 - \frac{\mu}{n} \right)^{n-k}$$

3) 重整項次:

我們可以將公式拆解成四個部分來觀察:

$$P(N=k) = \frac{\mu^k}{k!} \cdot \left[ \frac{n(n-1)(n-2)\dots(n-k+1)}{n^k} \right] \cdot \left( 1 - \frac{\mu}{n} \right)^n \cdot \left( 1 - \frac{\mu}{n} \right)^{-k}$$

4) 取極限 ($n \to \infty$):

現在,我們對每一部分分別取極限:

  • $\frac{\mu^k}{k!}$$n$ 無關,保持不變。

  • $\frac{n(n-1)\dots(n-k+1)}{n^k} = 1 \cdot (1-\frac{1}{n}) \cdot (1-\frac{2}{n}) \dots \to 1$

  • 指數函數的定義,$\lim_{n \to \infty} (1 - \frac{\mu}{n})^n = e^{-\mu}$

  • $\lim_{n \to \infty} (1 - \frac{\mu}{n})^{-k} = (1 - 0)^{-k} = 1$

5) 得出結果:

將上述四部分的極限值相乘:

$$P(k) = \frac{\mu^k}{k!} \cdot 1 \cdot e^{-\mu} \cdot 1 = \frac{\mu^k e^{-\mu}}{k!}$$

💥💥💥💥💥

[註3]從二項分佈到高斯分佈,德莫佛-拉普拉斯定理 (De Moivre–Laplace theorem)

1) 出發點:二項分佈 PMF

已知呈現二項(發生或未發生)分布的機率質量函數(PMF):

$$P(k) = \frac{n!}{k!(n-k)!} p^k q^{n-k} \quad (\text{其中 } q = 1-p)$$

2) 使用史特靈公式 (Stirling's Formula)

當 $n$ 很大時,$n! \to \sqrt{2\pi n} \left(\frac{n}{e}\right)^n$。將其代入 PMF 中的三個階乘:

$$P(k) = \frac{\sqrt{2\pi n} (n/e)^n}{\sqrt{2\pi k} (k/e)^k \sqrt{2\pi(n-k)} ((n-k)/e)^{n-k}} p^k q^{n-k}$$

簡化後得到:

$$P(k) = \sqrt{\frac{n}{2\pi k(n-k)}} \left( \frac{np}{k} \right)^k \left( \frac{nq}{n-k} \right)^{n-k}$$
3) 引入偏差量 $x$

定義 $k = \mu + x = np + x$($x$ 為偏離期望值 $\mu$ 的距離),可得 $n-k = nq -x$,並將 $P(k)$ 用 $f(x)$ 取代。代入公式:

$$\ln f(x) = \text{Const} - (np+x) \ln \left( 1 + \frac{x}{np} \right) - (nq-x) \ln \left( 1 - \frac{x}{nq} \right)$$

其中,$\text{Const} \to \ln \frac{1}{\sqrt{2\pi npq}}$(當 $n$ 很大時,$k \to np$ 且 $n-k \to nq$ )。

4) 泰勒級數展開

當 $\epsilon$ 很小時, $\ln(1+\epsilon) \to \epsilon - \frac{\epsilon^2}{2}$ ,因此:

  1. $(np+x) \ln(1+\frac{x}{np}) \to x + \frac{x^2}{2np}$

  2. $(nq-x) \ln(1-\frac{x}{nq}) \to -x + \frac{x^2}{2nq}$

將兩者帶回原式,一次項 $x$ 正負抵消:

$$\ln f(x) = \text{Const} - \left( \frac{x^2}{2np} + \frac{x^2}{2nq} \right) = \text{Const} - \frac{x^2}{2npq}(p+q)$$

5) 最終還原

因為 $p+q=1$ 且 $npq = \sigma^2$,我們得到:

$$\ln f(x) = \ln \left( \frac{1}{\sigma\sqrt{2\pi}} \right) - \frac{x^2}{2\sigma^2}$$

兩邊取指數 $e$,並代回 $x = k - np = k - \mu$:

$$f(k) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(k-\mu)^2}{2\sigma^2}}$$

💥💥💥💥💥

[註4]https://rftamt2.blogspot.com/2026/01/varx-langle-x2-rangle-langle-x-rangle2.html



留言

這個網誌中的熱門文章

變異數等於「平方的期望」減去「期望的平方」

坎貝爾定理 (Campbell's theorem)