3.2 随机变量与分布

随机变量将样本空间的每个结果映射为实数，使我们能用函数工具分析随机现象。

一、随机变量概述

1.1 定义

随机变量 $X: \Omega \to \mathbb{R}$ 是一个函数，将每个样本点映射到一个实数。

类型	取值	例子
离散型	有限或可数无限多值	抛硬币（ $\{0,1\}$ ）、骰子点数
连续型	实数区间	股票收益率、到期时间

1.2 概率函数

概率质量函数（PMF）： $p(x) = P(X = x)$ ，用于离散随机变量
概率密度函数（PDF）： $f(x)$ ，满足 $P(a \le X \le b) = \int_a^b f(x)\,dx$ ，用于连续随机变量
累积分布函数（CDF）： $F(x) = P(X \le x)$ ，适用于任意随机变量

CDF 性质：单调不减、 $F(-\infty)=0$ 、 $F(\infty)=1$ 。

二、离散分布

2.1 伯努利分布 $\text{Bernoulli}(p)$

单次试验，成功 $X=1$ 概率 $p$ ，失败 $X=0$ 概率 $1-p$ 。

p(x) = p^x (1-p)^{1-x},\quad x \in \{0,1\}

算一个：抛一枚公平硬币， $p = 0.5$ 。

$x$	$p(x)$	计算
0	$0.5$	$0.5^0 \times 0.5^{1} = 0.5$
1	$0.5$	$0.5^1 \times 0.5^{0} = 0.5$

2.2 二项分布 $\text{Binomial}(n, p)$

$n$ 次独立伯努利试验，成功次数 $X$ 的分布：

P(X = k) = \binom{n}{k} p^k (1-p)^{n-k},\quad k = 0,1,\dots,n

算一个：抛一枚公平硬币 3 次，求恰好 2 次正面向上的概率。

$n = 3,\; p = 0.5,\; k = 2$ ：

P(X=2) = \binom{3}{2} (0.5)^2 (0.5)^{1} = 3 \times 0.25 \times 0.5 = 0.375

$k$	$\binom{3}{k}$	$p^k(1-p)^{3-k}$	$P(X=k)$
0	1	$0.5^3 = 0.125$	0.125
1	3	$0.5^3 = 0.125$	0.375
2	3	$0.5^3 = 0.125$	0.375
3	1	$0.5^3 = 0.125$	0.125

三、连续分布

3.1 正态分布 $\mathcal{N}(\mu, \sigma^2)$

f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

标准正态分布 $\mathcal{N}(0,1)$ ： $\mu = 0,\; \sigma = 1$ ，记作 $Z \sim \mathcal{N}(0,1)$ 。

算一个： $Z \sim \mathcal{N}(0,1)$ ，求 $P(-1 \le Z \le 1)$ 。

查标准正态分布表或利用 $68\text{-}95\text{-}99.7$ 法则：

区间	概率	含义
$[\mu - \sigma, \mu + \sigma]$	$\approx 0.6827$	68% 数据落在 1 倍标准差内
$[\mu - 2\sigma, \mu + 2\sigma]$	$\approx 0.9545$	95% 数据落在 2 倍标准差内
$[\mu - 3\sigma, \mu + 3\sigma]$	$\approx 0.9973$	99.7% 数据落在 3 倍标准差内

$P(-1 \le Z \le 1) \approx 0.6827$ ✅

3.2 均匀分布 $\text{Uniform}(a, b)$

f(x) = \frac{1}{b-a},\quad a \le x \le b

四、Python 示例

python

import numpy as np
from scipy import stats

# 二项分布：抛10次硬币，7次正面
n, p, k = 10, 0.5, 7
prob = stats.binom.pmf(k, n, p)
print(f"P(X={k}) for Binom({n},{p}) = {prob:.4f}")

# 正态分布CDF：P(Z <= 1.96)
z = 1.96
cdf = stats.norm.cdf(z)
print(f"P(Z <= {z}) = {cdf:.4f}")
print(f"P(-{z} <= Z <= {z}) = {2*cdf - 1:.4f}")

# 标准正态PDF取值
x_vals = np.array([-2, -1, 0, 1, 2])
pdf_vals = stats.norm.pdf(x_vals)
for x, px in zip(x_vals, pdf_vals):
    print(f"  f({x:3d}) = {px:.6f}")

Quant Link：期权收益建模 期权到期收益是标的资产价格的函数，实质上就是一个随机变量。例如看涨期权：
$C_T = \max(S_T - K, 0)$
其中 $S_T$ 是标的资产到期价格（通常假设为对数正态分布）。定价Black-Scholes公式依赖于 $S_T$ 的分布假设，而风险度量（如 VaR）则依赖于收益分布的尾部特征。

二、重要抽样分布

专门为统计学（第 04 章）准备的三类分布：t 分布、χ² 分布、F 分布。它们都是从正态分布派生出来的，在假设检验和回归分析中无处不在。

2.1 χ² 分布（卡方分布）

定义：若 $Z_1, Z_2, \dots, Z_k$ 独立同分布于标准正态分布 $N(0,1)$ ，则它们的平方和服从自由度为 $k$ 的 χ² 分布：

X = Z_1^2 + Z_2^2 + \dots + Z_k^2 \sim \chi^2(k)

$k$ 称为自由度——独立标准正态变量的个数。

手算验证：取 $k = 1$ ，即一个标准正态变量的平方服从 $\chi^2(1)$ 。

若 $Z = 1.96$ （正态分布 97.5% 分位数）——分位数（quantile）：给定概率 $p$ ，分位数是使得 $P(X \\le q_p) = p$ 的值。例如 97.5% 分位数意味着正态分布中有 97.5% 的概率取值不超过 1.96——则 $Z^2 = 3.84$
查 χ² 分布表， $P(\chi^2(1) > 3.84) = 0.05$ ✅

自由度	均值	方差	形状
$k=1$	1	2	严重右偏
$k=5$	5	10	右偏
$k=30$	30	60	接近对称
$k \to \infty$	$k$	$2k$	近似正态

Quant Link：χ² 检验用于检验"两个分类变量是否独立"（如交易信号与后续收益是否相关）、以及 GARCH 模型残差的分布假设检验。

2.2 t 分布（学生 t 分布）

定义： $t = \dfrac{Z}{\sqrt{X / k}}$ ，其中 $Z \sim N(0,1)$ 与 $X \sim \chi^2(k)$ 独立，则 $t \sim t(k)$ 。

手算理解：当 $k$ 很大时， $X/k \approx 1$ ，所以 $t$ 近似于 $N(0,1)$ 。当 $k$ 很小时，分母有随机性，尾部更厚。

自由度	与正态的比较
$k=1$ （柯西分布）	尾部极厚，甚至均值不存在
$k=5$	尾部明显厚于正态
$k=30$	已接近正态，95% 分位数 ≈ 2.04（正态 1.96）
$k \to \infty$	收敛到标准正态分布 $N(0,1)$

Quant Link：t 分布广泛用于小样本假设检验。比如你只有 12 个月的回测数据来检验策略 alpha 是否显著为正，就必须用 t 分布而非正态分布。

2.3 F 分布

定义： $F = \dfrac{X_1 / k_1}{X_2 / k_2}$ ，其中 $X_1 \sim \chi^2(k_1)$ 与 $X_2 \sim \chi^2(k_2)$ 独立，则 $F \sim F(k_1, k_2)$ 。

两个自由度参数 $k_1$ （分子自由度）和 $k_2$ （分母自由度）。

Quant Link：F 检验用于 ANOVA（比较多个策略的收益率是否存在显著差异）和回归模型的整体显著性检验。F 统计量 = (模型解释的方差 / 自由度) / (残差方差 / 自由度)。

2.4 三种分布的关系

                 ┌──→ t(k) = Z / √(χ²/k)
N(0,1) ──→ Z² ──┴──→ χ²(1)
                 └──→ χ²(k) ──→ F(k₁, k₂) = (χ²₁/k₁) / (χ²₂/k₂)

这三个分布你会在第 04 章不断遇到，现在认识它们就够了——使用时只需要查表或让 Python 自动计算，不需要手工推导密度函数。

小结

随机变量类型	概率函数	常用分布
离散型	PMF $p(x)$	Bernoulli, Binomial, Poisson
连续型	PDF $f(x)$	Normal, Uniform, Exponential
统一描述	CDF $F(x)$	任何随机变量

下一步：继续学习 3.3 期望、方差与条件期望——用数字特征概括随机变量的行为。

3.2 随机变量与分布 ​

一、随机变量概述 ​

1.1 定义 ​

1.2 概率函数 ​

二、离散分布 ​

2.1 伯努利分布 Bernoulli(p)\text{Bernoulli}(p)Bernoulli(p) ​

2.2 二项分布 Binomial(n,p)\text{Binomial}(n, p)Binomial(n,p) ​

三、连续分布 ​

3.1 正态分布 N(μ,σ2)\mathcal{N}(\mu, \sigma^2)N(μ,σ2) ​

3.2 均匀分布 Uniform(a,b)\text{Uniform}(a, b)Uniform(a,b) ​

四、Python 示例 ​

二、重要抽样分布 ​

2.1 χ² 分布（卡方分布） ​

2.2 t 分布（学生 t 分布） ​

2.3 F 分布 ​

2.4 三种分布的关系 ​

小结 ​

📝 练习