Skip to content

3.4 贝叶斯定理与不等式

贝叶斯定理是概率推断的核心工具。概率不等式则为随机变量尾部行为提供上界估计,在风险管理中至关重要。


一、全概率公式

若事件 B1,B2,,BnB_1, B_2, \dots, B_n 构成样本空间 Ω\Omega 的一个分割,则对任意事件 AA

P(A)=i=1nP(ABi)P(Bi) P(A) = \sum_{i=1}^n P(A \mid B_i)\,P(B_i)

算一个:三个工厂生产同一款产品。工厂1产量占50%(次品率2%),工厂2占30%(次品率3%),工厂3占20%(次品率5%)。随机抽取一件产品是次品的概率。

工厂 iiP(Bi)P(B_i)次品率 P(ABi)P(A \mid B_i)P(ABi)P(Bi)P(A \mid B_i)P(B_i)
10.50.020.01
20.30.030.009
30.20.050.01

P(次品)=0.01+0.009+0.01=0.029=2.9% P(\text{次品}) = 0.01 + 0.009 + 0.01 = 0.029 = 2.9\%


二、贝叶斯定理

2.1 公式

P(BiA)=P(ABi)P(Bi)jP(ABj)P(Bj)=P(ABi)P(Bi)P(A) P(B_i \mid A) = \frac{P(A \mid B_i)\,P(B_i)}{\displaystyle\sum_j P(A \mid B_j)\,P(B_j)} = \frac{P(A \mid B_i)\,P(B_i)}{P(A)}

后验概率 \propto 似然 ×\times 先验概率。

2.2 逐步计算

算一个:接上例。已知抽到一件次品,求它来自工厂1的概率。

步骤计算
先验 P(B1)P(B_1)0.50.5
似然 P(AB1)P(A \mid B_1)0.020.02
联合概率 P(AB1)P(A \cap B_1)0.5×0.02=0.010.5 \times 0.02 = 0.01
全概率 P(A)P(A)0.0290.029(上一步结果)
后验 P(B1A)P(B_1 \mid A)0.01/0.0290.34480.01 / 0.029 \approx 0.3448

同理:P(B2A)=0.009/0.0290.3103P(B_2 \mid A) = 0.009/0.029 \approx 0.3103P(B3A)=0.01/0.0290.3448P(B_3 \mid A) = 0.01/0.029 \approx 0.3448


三、概率不等式

这些不等式在只知道期望和方差(不需要完整分布)时,就能对尾部概率给出估计。

3.1 Markov 不等式

非负随机变量 X0X \ge 0,对任意 a>0a > 0

P(Xa)E[X]a P(X \ge a) \le \frac{\mathbb{E}[X]}{a}

算一个:某资产价格 X0X \ge 0E[X]=100\mathbb{E}[X] = 100。求 P(X500)P(X \ge 500) 的上界。

P(X500)100500=0.2=20% P(X \ge 500) \le \frac{100}{500} = 0.2 = 20\%

即极端高价出现的概率不超过 20%。

3.2 Chebyshev 不等式

对任意随机变量 XX 有有限方差,对任意 k>0k > 0

P(XE[X]kσ)1k2 P(|X - \mathbb{E}[X]| \ge k\sigma) \le \frac{1}{k^2}

其中 σ=Var(X)\sigma = \sqrt{\text{Var}(X)}

算一个:某策略日收益率均值 μ=0.001\mu = 0.001,标准差 σ=0.02\sigma = 0.02。求日收益率偏离均值超过 3σ3\sigma(即 rμ0.06|r - \mu| \ge 0.06)的概率上界。

P(rμ3σ)132=190.1111 P(|r - \mu| \ge 3\sigma) \le \frac{1}{3^2} = \frac{1}{9} \approx 0.1111

即极端亏损或盈利的概率不超过 11.11%。注意:若实际分布是正态,实际概率约为 0.27%,Chebyshev 给出的是保守上界。

kkChebyshev 上界正态实际概率
11 (100%)0.3173 (31.73%)
21/4=0.251/4 = 0.25 (25%)0.0455 (4.55%)
31/90.1111/9 \approx 0.111 (11.11%)0.0027 (0.27%)
41/16=0.06251/16 = 0.0625 (6.25%)6.3×1056.3\times10^{-5} (0.0063%)

3.3 Chernoff 不等式(针对独立随机变量和)

对于独立 {0,1}\{0,1\} 随机变量 X1,,XnX_1,\dots,X_nSn=XiS_n = \sum X_iμ=E[Sn]\mu = \mathbb{E}[S_n]

P(Sn(1+δ)μ)(eδ(1+δ)1+δ)μ P(S_n \ge (1+\delta)\mu) \le \left(\frac{e^\delta}{(1+\delta)^{1+\delta}}\right)^\mu

算一个:抛 100 次公平硬币,μ=50\mu = 50。求 P(Sn60)P(S_n \ge 60) 的 Chernoff 上界。

δ=(6050)/50=0.2\delta = (60-50)/50 = 0.2

P(Sn60)(e0.2(1.2)1.2)50 P(S_n \ge 60) \le \left(\frac{e^{0.2}}{(1.2)^{1.2}}\right)^{50}

部分
e0.2e^{0.2}1.22141.2214
(1.2)1.2(1.2)^{1.2}1.24461.2446
比值0.98140.9814
50 次方0.9814500.3910.9814^{50} \approx 0.391

Chernoff 上界 39.1%\approx 39.1\%,比 Chebyshev 更紧(Chebyshev 上界约 1/4=25%1/4 = 25\%,实际约 0.0280.028 即 2.8%)。

Quant Link尾部风险 VaR(风险价值)本质上是收益分布的分位数,而 CVaR(条件风险价值)是尾部条件期望:

VaRα(X)=inf{xP(Xx)α} \text{VaR}_\alpha(X) = \inf\{x \mid P(X \le x) \ge \alpha\}

CVaRα(X)=E[XXVaRα(X)] \text{CVaR}_\alpha(X) = \mathbb{E}[X \mid X \le \text{VaR}_\alpha(X)]

概率不等式(尤其是 Chernoff)在统计套利和机器学习中用于构建置信区间和控制过拟合风险,是量化风控的理论基石。


Python 验证

python
import numpy as np

# Chebyshev 验证:对正态分布采样
np.random.seed(42)
N = 100000
mu, sigma = 0, 1
samples = np.random.normal(mu, sigma, N)
k = 3
prob_empirical = np.mean(np.abs(samples - mu) >= k * sigma)
print(f"P(|X-μ| >= {k}σ) = {prob_empirical:.5f}")
print(f"Chebyshev bound  = {1/k**2:.5f}")

# Chernoff 验证:抛 100 次硬币
n, p = 100, 0.5
trials = 100000
S = np.random.binomial(n, p, trials)
prob_60 = np.mean(S >= 60)
print(f"P(S_100 >= 60) = {prob_60:.4f}")

小结

工具作用量化应用
全概率公式分解复杂事件多因子风险归因
贝叶斯定理后验推断参数估计、模型更新
Markov 不等式尾部 P(Xa)P(X \ge a) 上界极端收益概率
Chebyshev 不等式尾部 P(Xμkσ)P(|X-\mu|\ge k\sigma) 上界VaR 保守估计
Chernoff 不等式独立和的指数尾上界机器学习泛化界

下一步:继续学习 3.5 大数定律与中心极限定理——样本均值逼近真值的理论基础。

Built with VitePress