Skip to content

3.2 随机变量与分布

随机变量将样本空间的每个结果映射为实数,使我们能用函数工具分析随机现象。


一、随机变量概述

1.1 定义

随机变量 X:ΩRX: \Omega \to \mathbb{R} 是一个函数,将每个样本点映射到一个实数。

类型取值例子
离散型有限或可数无限多值抛硬币({0,1}\{0,1\})、骰子点数
连续型实数区间股票收益率、到期时间

1.2 概率函数

  • 概率质量函数(PMF)p(x)=P(X=x)p(x) = P(X = x),用于离散随机变量
  • 概率密度函数(PDF)f(x)f(x),满足 P(aXb)=abf(x)dxP(a \le X \le b) = \int_a^b f(x)\,dx,用于连续随机变量
  • 累积分布函数(CDF)F(x)=P(Xx)F(x) = P(X \le x),适用于任意随机变量

CDF 性质:单调不减、F()=0F(-\infty)=0F()=1F(\infty)=1


二、离散分布

2.1 伯努利分布 Bernoulli(p)\text{Bernoulli}(p)

单次试验,成功 X=1X=1 概率 pp,失败 X=0X=0 概率 1p1-p

p(x)=px(1p)1x,x{0,1} p(x) = p^x (1-p)^{1-x},\quad x \in \{0,1\}

算一个:抛一枚公平硬币,p=0.5p = 0.5

xxp(x)p(x)计算
00.50.50.50×0.51=0.50.5^0 \times 0.5^{1} = 0.5
10.50.50.51×0.50=0.50.5^1 \times 0.5^{0} = 0.5

2.2 二项分布 Binomial(n,p)\text{Binomial}(n, p)

nn 次独立伯努利试验,成功次数 XX 的分布:

P(X=k)=(nk)pk(1p)nk,k=0,1,,n P(X = k) = \binom{n}{k} p^k (1-p)^{n-k},\quad k = 0,1,\dots,n

算一个:抛一枚公平硬币 3 次,求恰好 2 次正面向上的概率。

n=3,  p=0.5,  k=2n = 3,\; p = 0.5,\; k = 2

P(X=2)=(32)(0.5)2(0.5)1=3×0.25×0.5=0.375 P(X=2) = \binom{3}{2} (0.5)^2 (0.5)^{1} = 3 \times 0.25 \times 0.5 = 0.375

kk(3k)\binom{3}{k}pk(1p)3kp^k(1-p)^{3-k}P(X=k)P(X=k)
010.53=0.1250.5^3 = 0.1250.125
130.53=0.1250.5^3 = 0.1250.375
230.53=0.1250.5^3 = 0.1250.375
310.53=0.1250.5^3 = 0.1250.125

三、连续分布

3.1 正态分布 N(μ,σ2)\mathcal{N}(\mu, \sigma^2)

f(x)=1σ2πexp((xμ)22σ2) f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

标准正态分布 N(0,1)\mathcal{N}(0,1)μ=0,  σ=1\mu = 0,\; \sigma = 1,记作 ZN(0,1)Z \sim \mathcal{N}(0,1)

算一个ZN(0,1)Z \sim \mathcal{N}(0,1),求 P(1Z1)P(-1 \le Z \le 1)

查标准正态分布表或利用 68-95-99.768\text{-}95\text{-}99.7 法则:

区间概率含义
[μσ,μ+σ][\mu - \sigma, \mu + \sigma]0.6827\approx 0.682768% 数据落在 1 倍标准差内
[μ2σ,μ+2σ][\mu - 2\sigma, \mu + 2\sigma]0.9545\approx 0.954595% 数据落在 2 倍标准差内
[μ3σ,μ+3σ][\mu - 3\sigma, \mu + 3\sigma]0.9973\approx 0.997399.7% 数据落在 3 倍标准差内

P(1Z1)0.6827P(-1 \le Z \le 1) \approx 0.6827

3.2 均匀分布 Uniform(a,b)\text{Uniform}(a, b)

f(x)=1ba,axb f(x) = \frac{1}{b-a},\quad a \le x \le b


四、Python 示例

python
import numpy as np
from scipy import stats

# 二项分布:抛10次硬币,7次正面
n, p, k = 10, 0.5, 7
prob = stats.binom.pmf(k, n, p)
print(f"P(X={k}) for Binom({n},{p}) = {prob:.4f}")

# 正态分布CDF:P(Z <= 1.96)
z = 1.96
cdf = stats.norm.cdf(z)
print(f"P(Z <= {z}) = {cdf:.4f}")
print(f"P(-{z} <= Z <= {z}) = {2*cdf - 1:.4f}")

# 标准正态PDF取值
x_vals = np.array([-2, -1, 0, 1, 2])
pdf_vals = stats.norm.pdf(x_vals)
for x, px in zip(x_vals, pdf_vals):
    print(f"  f({x:3d}) = {px:.6f}")

Quant Link期权收益建模 期权到期收益是标的资产价格的函数,实质上就是一个随机变量。例如看涨期权:

CT=max(STK,0) C_T = \max(S_T - K, 0)

其中 STS_T 是标的资产到期价格(通常假设为对数正态分布)。定价Black-Scholes公式依赖于 STS_T 的分布假设,而风险度量(如 VaR)则依赖于收益分布的尾部特征。


二、重要抽样分布

专门为统计学(第 04 章)准备的三类分布:t 分布、χ² 分布、F 分布。它们都是从正态分布派生出来的,在假设检验和回归分析中无处不在。

2.1 χ² 分布(卡方分布)

定义:若 Z1,Z2,,ZkZ_1, Z_2, \dots, Z_k 独立同分布于标准正态分布 N(0,1)N(0,1),则它们的平方和服从自由度为 kk 的 χ² 分布:

X=Z12+Z22++Zk2χ2(k)X = Z_1^2 + Z_2^2 + \dots + Z_k^2 \sim \chi^2(k)

kk 称为自由度——独立标准正态变量的个数。

手算验证:取 k=1k = 1,即一个标准正态变量的平方服从 χ2(1)\chi^2(1)

  • Z=1.96Z = 1.96(正态分布 97.5% 分位数)——分位数(quantile):给定概率 pp,分位数是使得 P(Xleqp)=pP(X \\le q_p) = p 的值。例如 97.5% 分位数意味着正态分布中有 97.5% 的概率取值不超过 1.96——则 Z2=3.84Z^2 = 3.84
  • 查 χ² 分布表,P(χ2(1)>3.84)=0.05P(\chi^2(1) > 3.84) = 0.05
自由度均值方差形状
k=1k=112严重右偏
k=5k=5510右偏
k=30k=303060接近对称
kk \to \inftykk2k2k近似正态

Quant Link:χ² 检验用于检验"两个分类变量是否独立"(如交易信号与后续收益是否相关)、以及 GARCH 模型残差的分布假设检验。

2.2 t 分布(学生 t 分布)

定义t=ZX/kt = \dfrac{Z}{\sqrt{X / k}},其中 ZN(0,1)Z \sim N(0,1)Xχ2(k)X \sim \chi^2(k) 独立,则 tt(k)t \sim t(k)

手算理解:当 kk 很大时,X/k1X/k \approx 1,所以 tt 近似于 N(0,1)N(0,1)。当 kk 很小时,分母有随机性,尾部更厚。

自由度与正态的比较
k=1k=1(柯西分布)尾部极厚,甚至均值不存在
k=5k=5尾部明显厚于正态
k=30k=30已接近正态,95% 分位数 ≈ 2.04(正态 1.96)
kk \to \infty收敛到标准正态分布 N(0,1)N(0,1)

Quant Link:t 分布广泛用于小样本假设检验。比如你只有 12 个月的回测数据来检验策略 alpha 是否显著为正,就必须用 t 分布而非正态分布。

2.3 F 分布

定义F=X1/k1X2/k2F = \dfrac{X_1 / k_1}{X_2 / k_2},其中 X1χ2(k1)X_1 \sim \chi^2(k_1)X2χ2(k2)X_2 \sim \chi^2(k_2) 独立,则 FF(k1,k2)F \sim F(k_1, k_2)

两个自由度参数 k1k_1(分子自由度)和 k2k_2(分母自由度)。

Quant Link:F 检验用于 ANOVA(比较多个策略的收益率是否存在显著差异)和回归模型的整体显著性检验。F 统计量 = (模型解释的方差 / 自由度) / (残差方差 / 自由度)。

2.4 三种分布的关系

                 ┌──→ t(k) = Z / √(χ²/k)
N(0,1) ──→ Z² ──┴──→ χ²(1)
                 └──→ χ²(k) ──→ F(k₁, k₂) = (χ²₁/k₁) / (χ²₂/k₂)

这三个分布你会在第 04 章不断遇到,现在认识它们就够了——使用时只需要查表或让 Python 自动计算,不需要手工推导密度函数。


小结

随机变量类型概率函数常用分布
离散型PMF p(x)p(x)Bernoulli, Binomial, Poisson
连续型PDF f(x)f(x)Normal, Uniform, Exponential
统一描述CDF F(x)F(x)任何随机变量

下一步:继续学习 3.3 期望、方差与条件期望——用数字特征概括随机变量的行为。

Built with VitePress