3.2 随机变量与分布
随机变量将样本空间的每个结果映射为实数,使我们能用函数工具分析随机现象。
一、随机变量概述
1.1 定义
随机变量 是一个函数,将每个样本点映射到一个实数。
| 类型 | 取值 | 例子 |
|---|---|---|
| 离散型 | 有限或可数无限多值 | 抛硬币()、骰子点数 |
| 连续型 | 实数区间 | 股票收益率、到期时间 |
1.2 概率函数
- 概率质量函数(PMF):,用于离散随机变量
- 概率密度函数(PDF):,满足 ,用于连续随机变量
- 累积分布函数(CDF):,适用于任意随机变量
CDF 性质:单调不减、、。
二、离散分布
2.1 伯努利分布
单次试验,成功 概率 ,失败 概率 。
算一个:抛一枚公平硬币,。
| 计算 | ||
|---|---|---|
| 0 | ||
| 1 |
2.2 二项分布
次独立伯努利试验,成功次数 的分布:
算一个:抛一枚公平硬币 3 次,求恰好 2 次正面向上的概率。
:
| 0 | 1 | 0.125 | |
| 1 | 3 | 0.375 | |
| 2 | 3 | 0.375 | |
| 3 | 1 | 0.125 |
三、连续分布
3.1 正态分布
标准正态分布 :,记作 。
算一个:,求 。
查标准正态分布表或利用 法则:
| 区间 | 概率 | 含义 |
|---|---|---|
| 68% 数据落在 1 倍标准差内 | ||
| 95% 数据落在 2 倍标准差内 | ||
| 99.7% 数据落在 3 倍标准差内 |
✅
3.2 均匀分布
四、Python 示例
import numpy as np
from scipy import stats
# 二项分布:抛10次硬币,7次正面
n, p, k = 10, 0.5, 7
prob = stats.binom.pmf(k, n, p)
print(f"P(X={k}) for Binom({n},{p}) = {prob:.4f}")
# 正态分布CDF:P(Z <= 1.96)
z = 1.96
cdf = stats.norm.cdf(z)
print(f"P(Z <= {z}) = {cdf:.4f}")
print(f"P(-{z} <= Z <= {z}) = {2*cdf - 1:.4f}")
# 标准正态PDF取值
x_vals = np.array([-2, -1, 0, 1, 2])
pdf_vals = stats.norm.pdf(x_vals)
for x, px in zip(x_vals, pdf_vals):
print(f" f({x:3d}) = {px:.6f}")Quant Link:期权收益建模 期权到期收益是标的资产价格的函数,实质上就是一个随机变量。例如看涨期权:
其中 是标的资产到期价格(通常假设为对数正态分布)。定价Black-Scholes公式依赖于 的分布假设,而风险度量(如 VaR)则依赖于收益分布的尾部特征。
二、重要抽样分布
专门为统计学(第 04 章)准备的三类分布:t 分布、χ² 分布、F 分布。它们都是从正态分布派生出来的,在假设检验和回归分析中无处不在。
2.1 χ² 分布(卡方分布)
定义:若 独立同分布于标准正态分布 ,则它们的平方和服从自由度为 的 χ² 分布:
称为自由度——独立标准正态变量的个数。
手算验证:取 ,即一个标准正态变量的平方服从 。
- 若 (正态分布 97.5% 分位数)——分位数(quantile):给定概率 ,分位数是使得 的值。例如 97.5% 分位数意味着正态分布中有 97.5% 的概率取值不超过 1.96——则
- 查 χ² 分布表, ✅
| 自由度 | 均值 | 方差 | 形状 |
|---|---|---|---|
| 1 | 2 | 严重右偏 | |
| 5 | 10 | 右偏 | |
| 30 | 60 | 接近对称 | |
| 近似正态 |
Quant Link:χ² 检验用于检验"两个分类变量是否独立"(如交易信号与后续收益是否相关)、以及 GARCH 模型残差的分布假设检验。
2.2 t 分布(学生 t 分布)
定义:,其中 与 独立,则 。
手算理解:当 很大时,,所以 近似于 。当 很小时,分母有随机性,尾部更厚。
| 自由度 | 与正态的比较 |
|---|---|
| (柯西分布) | 尾部极厚,甚至均值不存在 |
| 尾部明显厚于正态 | |
| 已接近正态,95% 分位数 ≈ 2.04(正态 1.96) | |
| 收敛到标准正态分布 |
Quant Link:t 分布广泛用于小样本假设检验。比如你只有 12 个月的回测数据来检验策略 alpha 是否显著为正,就必须用 t 分布而非正态分布。
2.3 F 分布
定义:,其中 与 独立,则 。
两个自由度参数 (分子自由度)和 (分母自由度)。
Quant Link:F 检验用于 ANOVA(比较多个策略的收益率是否存在显著差异)和回归模型的整体显著性检验。F 统计量 = (模型解释的方差 / 自由度) / (残差方差 / 自由度)。
2.4 三种分布的关系
┌──→ t(k) = Z / √(χ²/k)
N(0,1) ──→ Z² ──┴──→ χ²(1)
└──→ χ²(k) ──→ F(k₁, k₂) = (χ²₁/k₁) / (χ²₂/k₂)这三个分布你会在第 04 章不断遇到,现在认识它们就够了——使用时只需要查表或让 Python 自动计算,不需要手工推导密度函数。
小结
| 随机变量类型 | 概率函数 | 常用分布 |
|---|---|---|
| 离散型 | PMF | Bernoulli, Binomial, Poisson |
| 连续型 | Normal, Uniform, Exponential | |
| 统一描述 | CDF | 任何随机变量 |
下一步:继续学习 3.3 期望、方差与条件期望——用数字特征概括随机变量的行为。