Skip to content

3.5 大数定律与中心极限定理

大数定律保证样本均值收敛到期望,中心极限定理则描述了收敛的"形状"——正态分布无处不在。


一、大数定律

1.1 弱大数定律(WLLN)

X1,X2,dotsX_1, X_2, \\dots 独立同分布,mathbbE[Xi]=mu\\mathbb{E}[X_i] = \\mu,样本均值 barXn=frac1nsumi=1nXi\\bar{X}_n = \\frac{1}{n}\\sum_{i=1}^n X_i。则对任意 varepsilon>0\\varepsilon > 0

收敛类型对照表:

符号名称含义
xrightarrowp\\xrightarrow{p}依概率收敛nn 增大,偏差很大的概率趋近于 0
xrightarrowa.s.\\xrightarrow{a.s.}几乎必然收敛nn 增大,几乎所有的路径都收敛(比依概率更强)
xrightarrowd\\xrightarrow{d}依分布收敛分布函数逐点收敛到极限分布
xrightarrowLp\\xrightarrow{L^p}LpL^p 收敛均方误差趋近于 0(p=2p=2 时即均方收敛)

limntoinftyP(barXnmu>varepsilon)=0 \\lim_{n \\to \\infty} P(|\\bar{X}_n - \\mu| > \\varepsilon) = 0

Xˉn\bar{X}_n 依概率收敛μ\mu

直观理解:样本量越大,样本均值离真实均值远的概率越小。

1.2 强大数定律(SLLN)

P(limnXˉn=μ)=1 P\left(\lim_{n \to \infty} \bar{X}_n = \mu\right) = 1

与弱大数定律的区别:几乎必然收敛(以概率1收敛),而非仅依概率收敛。

算一个:抛一枚公平硬币(正面=1,反面=0),μ=0.5\mu = 0.5。抛 nn 次,正面频率 Xˉn\bar{X}_nnn 增大趋近 0.5。

nn模拟正面次数频率 Xˉn\bar{X}_n
1040.4000
100470.4700
1,0005120.5120
10,0005,0130.5013
100,00050,0720.5007
1,000,000499,8420.4998

二、中心极限定理(CLT)

2.1 基本定理

X1,X2,,XnX_1, X_2, \dots, X_n 独立同分布,E[Xi]=μ\mathbb{E}[X_i] = \muVar(Xi)=σ2<\text{Var}(X_i) = \sigma^2 < \infty。令 Sn=i=1nXiS_n = \sum_{i=1}^n X_i,则:

SnnμσndN(0,1) \frac{S_n - n\mu}{\sigma\sqrt{n}} \xrightarrow{d} \mathcal{N}(0, 1)

即标准化后的样本和收敛到标准正态分布,与 XiX_i 的原始分布无关!

2.2 等价表述

XˉndN(μ,σ2n),n(Xˉnμ)dN(0,σ2) \bar{X}_n \xrightarrow{d} \mathcal{N}\left(\mu, \frac{\sigma^2}{n}\right),\quad \sqrt{n}(\bar{X}_n - \mu) \xrightarrow{d} \mathcal{N}(0, \sigma^2)

2.3 手算验证——二项分布逼近正态

算一个:抛公平硬币 n=50n=50 次,正面次数 SnBinomial(50,0.5)S_n \sim \text{Binomial}(50, 0.5)。用正态分布近似计算 P(20Sn30)P(20 \le S_n \le 30)

精确二项计算:$$ P(20 \le S_n \le 30) = \sum_{k=20}^{30} \binom{50}{k} (0.5)^{50} $$

正态近似:μ=np=25\mu = np = 25σ=np(1p)=50×0.5×0.5=12.53.5355\sigma = \sqrt{np(1-p)} = \sqrt{50 \times 0.5 \times 0.5} = \sqrt{12.5} \approx 3.5355

连续性校正后:

步骤计算
标准下限z1=19.5253.53551.556z_1 = \frac{19.5 - 25}{3.5355} \approx -1.556
标准上限z2=30.5253.53551.556z_2 = \frac{30.5 - 25}{3.5355} \approx 1.556
正态近似PΦ(1.556)Φ(1.556)=2Φ(1.556)1P \approx \Phi(1.556) - \Phi(-1.556) = 2\Phi(1.556) - 1
查表值Φ(1.556)0.9401\Phi(1.556) \approx 0.9401
近似概率2×0.94011=0.88022\times 0.9401 - 1 = 0.8802

精确二项值 0.8810\approx 0.8810(接近!)✅


三、Python 模拟

python
import numpy as np
import matplotlib.pyplot as plt

# 模拟:从均匀分布 Uniform(0,1) 采样,观察样本均值的分布
np.random.seed(42)
mu, sigma_sq = 0.5, 1/12  # Uniform(0,1) 的期望和方差

n_trials = 10000

for n in [1, 2, 5, 30, 100]:
    # 生成 n_trials 个样本,每个样本含 n 个观测值
    samples = np.random.uniform(0, 1, size=(n_trials, n))
    means = samples.mean(axis=1)

    # 标准化
    z = (means - mu) / np.sqrt(sigma_sq / n)

    # 计算近似正态性:峰度、偏度
    from scipy import stats
    _, p_value = stats.normaltest(z)
    print(f"n = {n:3d}: 样本均值标准差 = {means.std():.4f} "
          f"(理论 {np.sqrt(sigma_sq/n):.4f}), "
          f"正态性检验 p = {p_value:.4f}")

# 验证大数定律:抛硬币频率收敛
n_max = 10000
coin_flips = np.random.binomial(1, 0.5, n_max)
cumulative_mean = np.cumsum(coin_flips) / np.arange(1, n_max + 1)

print(f"\nn = {n_max} 时正面频率 = {cumulative_mean[-1]:.6f}")
print(f"与理论值 0.5 的差距 = {abs(cumulative_mean[-1] - 0.5):.6f}")

运行输出示例:

n =   1: 样本均值标准差 = 0.2888 (理论 0.2887), 正态性检验 p = 0.0000
n =   2: 样本均值标准差 = 0.2041 (理论 0.2041), 正态性检验 p = 0.0000
n =   5: 样本均值标准差 = 0.1289 (理论 0.1291), 正态性检验 p = 0.0000
n =  30: 样本均值标准差 = 0.0526 (理论 0.0527), 正态性检验 p = 0.4395
n = 100: 样本均值标准差 = 0.0289 (理论 0.0289), 正态性检验 p = 0.6175

n=30n=30 时,均匀分布的样本均值已接近正态;n=100n=100 时几乎无法区分。

Quant Link蒙特卡洛模拟与组合 VaR蒙特卡洛模拟的核心正是大数定律:通过大量路径模拟,样本均值收敛到期望价格。

组合 VaR:假设组合包含 mm 种资产,日收益率向量 rN(μ,Σ)\mathbf{r} \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})。组合收益率 Rp=wTrN(wTμ,wTΣw)R_p = \mathbf{w}^T\mathbf{r} \sim \mathcal{N}(\mathbf{w}^T\boldsymbol{\mu}, \mathbf{w}^T\boldsymbol{\Sigma}\mathbf{w})。在正态假设下:

VaR95%=μp1.645σp \text{VaR}_{95\%} = \mu_p - 1.645\,\sigma_p

但实际收益具有厚尾特征,CLT 说明即使不知道单资产收益的精确分布,多样本均值的分布仍趋近正态——这为历史模拟法和半参数法提供了理论支撑。


小结

定理收敛类型精确表述
弱大数定律依概率收敛Xˉnpμ\bar{X}_n \xrightarrow{p} \mu
强大数定律几乎必然收敛Xˉna.s.μ\bar{X}_n \xrightarrow{a.s.} \mu
中心极限定理分布收敛n(Xˉnμ)dN(0,σ2)\sqrt{n}(\bar{X}_n - \mu) \xrightarrow{d} \mathcal{N}(0,\sigma^2)

下一步:继续学习 3.6 随机过程入门——将概率论扩展到时间序列,为金融建模做准备。

Built with VitePress