3.5 大数定律与中心极限定理

大数定律保证样本均值收敛到期望，中心极限定理则描述了收敛的"形状"——正态分布无处不在。

一、大数定律

1.1 弱大数定律（WLLN）

设 $X_1, X_2, \\dots$ 独立同分布， $\\mathbb{E}[X_i] = \\mu$ ，样本均值 $\\bar{X}_n = \\frac{1}{n}\\sum_{i=1}^n X_i$ 。则对任意 $\\varepsilon > 0$ ：

收敛类型对照表：

符号	名称	含义
$\\xrightarrow{p}$	依概率收敛	随 $n$ 增大，偏差很大的概率趋近于 0
$\\xrightarrow{a.s.}$	几乎必然收敛	随 $n$ 增大，几乎所有的路径都收敛（比依概率更强）
$\\xrightarrow{d}$	依分布收敛	分布函数逐点收敛到极限分布
$\\xrightarrow{L^p}$	$L^p$ 收敛	均方误差趋近于 0（ $p=2$ 时即均方收敛）

\\lim_{n \\to \\infty} P(|\\bar{X}_n - \\mu| > \\varepsilon) = 0

即 $\bar{X}_n$ 依概率收敛到 $\mu$ 。

直观理解：样本量越大，样本均值离真实均值远的概率越小。

1.2 强大数定律（SLLN）

P\left(\lim_{n \to \infty} \bar{X}_n = \mu\right) = 1

与弱大数定律的区别：几乎必然收敛（以概率1收敛），而非仅依概率收敛。

算一个：抛一枚公平硬币（正面=1，反面=0）， $\mu = 0.5$ 。抛 $n$ 次，正面频率 $\bar{X}_n$ 随 $n$ 增大趋近 0.5。

$n$	模拟正面次数	频率 $\bar{X}_n$
10	4	0.4000
100	47	0.4700
1,000	512	0.5120
10,000	5,013	0.5013
100,000	50,072	0.5007
1,000,000	499,842	0.4998

二、中心极限定理（CLT）

2.1 基本定理

设 $X_1, X_2, \dots, X_n$ 独立同分布， $\mathbb{E}[X_i] = \mu$ ， $\text{Var}(X_i) = \sigma^2 < \infty$ 。令 $S_n = \sum_{i=1}^n X_i$ ，则：

\frac{S_n - n\mu}{\sigma\sqrt{n}} \xrightarrow{d} \mathcal{N}(0, 1)

即标准化后的样本和收敛到标准正态分布，与 $X_i$ 的原始分布无关！

2.2 等价表述

\bar{X}_n \xrightarrow{d} \mathcal{N}\left(\mu, \frac{\sigma^2}{n}\right),\quad \sqrt{n}(\bar{X}_n - \mu) \xrightarrow{d} \mathcal{N}(0, \sigma^2)

2.3 手算验证——二项分布逼近正态

算一个：抛公平硬币 $n=50$ 次，正面次数 $S_n \sim \text{Binomial}(50, 0.5)$ 。用正态分布近似计算 $P(20 \le S_n \le 30)$ 。

精确二项计算：$$ P(20 \le S_n \le 30) = \sum_{k=20}^{30} \binom{50}{k} (0.5)^{50} $$

正态近似： $\mu = np = 25$ ， $\sigma = \sqrt{np(1-p)} = \sqrt{50 \times 0.5 \times 0.5} = \sqrt{12.5} \approx 3.5355$

连续性校正后：

步骤	计算
标准下限	$z_1 = \frac{19.5 - 25}{3.5355} \approx -1.556$
标准上限	$z_2 = \frac{30.5 - 25}{3.5355} \approx 1.556$
正态近似	$P \approx \Phi(1.556) - \Phi(-1.556) = 2\Phi(1.556) - 1$
查表值	$\Phi(1.556) \approx 0.9401$
近似概率	$2\times 0.9401 - 1 = 0.8802$

精确二项值 $\approx 0.8810$ （接近！）✅

三、Python 模拟

python

import numpy as np
import matplotlib.pyplot as plt

# 模拟：从均匀分布 Uniform(0,1) 采样，观察样本均值的分布
np.random.seed(42)
mu, sigma_sq = 0.5, 1/12  # Uniform(0,1) 的期望和方差

n_trials = 10000

for n in [1, 2, 5, 30, 100]:
    # 生成 n_trials 个样本，每个样本含 n 个观测值
    samples = np.random.uniform(0, 1, size=(n_trials, n))
    means = samples.mean(axis=1)

    # 标准化
    z = (means - mu) / np.sqrt(sigma_sq / n)

    # 计算近似正态性：峰度、偏度
    from scipy import stats
    _, p_value = stats.normaltest(z)
    print(f"n = {n:3d}: 样本均值标准差 = {means.std():.4f} "
          f"(理论 {np.sqrt(sigma_sq/n):.4f}), "
          f"正态性检验 p = {p_value:.4f}")

# 验证大数定律：抛硬币频率收敛
n_max = 10000
coin_flips = np.random.binomial(1, 0.5, n_max)
cumulative_mean = np.cumsum(coin_flips) / np.arange(1, n_max + 1)

print(f"\nn = {n_max} 时正面频率 = {cumulative_mean[-1]:.6f}")
print(f"与理论值 0.5 的差距 = {abs(cumulative_mean[-1] - 0.5):.6f}")

运行输出示例：

n =   1: 样本均值标准差 = 0.2888 (理论 0.2887), 正态性检验 p = 0.0000
n =   2: 样本均值标准差 = 0.2041 (理论 0.2041), 正态性检验 p = 0.0000
n =   5: 样本均值标准差 = 0.1289 (理论 0.1291), 正态性检验 p = 0.0000
n =  30: 样本均值标准差 = 0.0526 (理论 0.0527), 正态性检验 p = 0.4395
n = 100: 样本均值标准差 = 0.0289 (理论 0.0289), 正态性检验 p = 0.6175

$n=30$ 时，均匀分布的样本均值已接近正态； $n=100$ 时几乎无法区分。

Quant Link：蒙特卡洛模拟与组合 VaR蒙特卡洛模拟的核心正是大数定律：通过大量路径模拟，样本均值收敛到期望价格。
组合 VaR：假设组合包含 $m$ 种资产，日收益率向量 $\mathbf{r} \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})$ 。组合收益率 $R_p = \mathbf{w}^T\mathbf{r} \sim \mathcal{N}(\mathbf{w}^T\boldsymbol{\mu}, \mathbf{w}^T\boldsymbol{\Sigma}\mathbf{w})$ 。在正态假设下：
$\text{VaR}_{95\%} = \mu_p - 1.645\,\sigma_p$
但实际收益具有厚尾特征，CLT 说明即使不知道单资产收益的精确分布，多样本均值的分布仍趋近正态——这为历史模拟法和半参数法提供了理论支撑。

小结

定理	收敛类型	精确表述
弱大数定律	依概率收敛	$\bar{X}_n \xrightarrow{p} \mu$
强大数定律	几乎必然收敛	$\bar{X}_n \xrightarrow{a.s.} \mu$
中心极限定理	分布收敛	$\sqrt{n}(\bar{X}_n - \mu) \xrightarrow{d} \mathcal{N}(0,\sigma^2)$

下一步：继续学习 3.6 随机过程入门——将概率论扩展到时间序列，为金融建模做准备。

3.5 大数定律与中心极限定理 ​

一、大数定律 ​

1.1 弱大数定律（WLLN） ​

1.2 强大数定律（SLLN） ​

二、中心极限定理（CLT） ​

2.1 基本定理 ​

2.2 等价表述 ​

2.3 手算验证——二项分布逼近正态 ​

三、Python 模拟 ​

小结 ​

📝 练习