4.1 参数估计

参数估计是用样本数据推断总体分布中未知参数的方法，包括点估计（给出一个具体数值）和区间估计（给出一个置信区间）。

一、点估计

1.1 极大似然估计（MLE）

思想：找到使当前样本出现概率最大的参数值。

假设 $X_1, \dots, X_n \overset{\text{i.i.d.}}{\sim} f(x \mid \theta)$ ，似然函数为：

L(\theta) = \prod_{i=1}^n f(x_i \mid \theta)

MLE 即 $\hat{\theta} = \arg\max_\theta L(\theta)$ 。通常最大化对数似然 $\ell(\theta) = \log L(\theta)$ 。

例：Bernoulli 分布的 MLE

抛一枚硬币 10 次，结果：H, T, H, H, T, H, T, H, H, T（H=正面，6次正面）。

设 $X_i \sim \text{Bernoulli}(p)$ ， $f(x \mid p) = p^x(1-p)^{1-x}$ 。

L(p) = \prod_{i=1}^{10} p^{x_i}(1-p)^{1-x_i} = p^{\sum x_i}(1-p)^{10-\sum x_i} = p^6(1-p)^4

\ell(p) = 6\ln p + 4\ln(1-p)

求导： $\frac{d\ell}{dp} = \frac{6}{p} - \frac{4}{1-p} = 0 \;\Rightarrow\; \hat{p} = \frac{6}{10} = 0.6$

步骤	计算	结果
数据	10 次抛掷，6 次正面	$n=10$ , $\sum x_i=6$
似然函数	$L(p)=p^6(1-p)^4$	—
对数似然	$\ell(p)=6\ln p + 4\ln(1-p)$	—
导数置零	$6/p - 4/(1-p)=0$	$6(1-p)=4p$
MLE	$\hat{p}=6/10$	$\hat{p}=0.6$

1.2 矩估计（Method of Moments）

思想：用样本矩等于总体矩来解参数。

\frac{1}{n}\sum_{i=1}^n X_i^k = \mathbb{E}[X^k]

例：对 $X \sim N(\mu, \sigma^2)$ ，一阶矩 $\mathbb{E}[X]=\mu$ ，二阶矩 $\mathbb{E}[X^2]=\mu^2+\sigma^2$ 。

\hat{\mu} = \bar{X}, \quad \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2

二、区间估计

2.1 置信区间的基本概念

P(\hat{\theta}_L < \theta < \hat{\theta}_U) = 1 - \alpha

其中 $1-\alpha$ 为置信水平，常用 95%（ $\alpha=0.05$ ）。

2.2 总体均值 $\mu$ 的置信区间（方差已知）

假设 $X_1,\dots,X_n \sim N(\mu, \sigma^2)$ ， $\sigma^2$ 已知：

\bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}

例：某股票日收益率 $\sigma=2\%$ ，观测 25 天得 $\bar{x}=0.3\%$ ，求 95% CI：

0.3\% \pm 1.96 \times \frac{2\%}{\sqrt{25}} = 0.3\% \pm 0.784\% = (-0.484\%, 1.084\%)

参数	值
$\bar{x}$	$0.3\%$
$\sigma$	$2.0\%$
$n$	$25$
$z_{0.025}$	$1.96$
标准误	$2\%/5 = 0.4\%$
95% CI	$(-0.484\%, 1.084\%)$

2.3 总体均值 $\mu$ 的置信区间（方差未知）

用样本标准差 $s$ 代替 $\sigma$ ，使用 $t$ 分布：

\bar{X} \pm t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}}

例：某策略月收益率样本（ $n=12$ ）： $[2.1, 0.3, 1.8, -0.5, 1.2, 2.5, 0.8, -0.1, 1.6, 0.9, 2.0, 0.5]$ （%）。

步骤	公式	结果
样本均值	$\bar{x} = \frac{1}{12}\sum x_i$	$1.0917\%$
样本标准差	$s = \sqrt{\frac{1}{11}\sum(x_i-\bar{x})^2}$	$0.9679\%$
标准误	$s/\sqrt{n}$	$0.2794\%$
$t_{0.025}(11)$	查表	$2.201$
95% CI	$1.0917 \pm 2.201 \times 0.2794$	$(0.476\%, 1.707\%)$

三、Qualifiers

概念	点估计	区间估计
输出	单一数值	一个区间
不确定性	不体现	体现置信水平
例子	$\hat{p}=0.6$	$(0.476\%, 1.707\%)$
使用场景	需要具体参数值	需要评估精度

Quant Link：估计资产期望收益与波动率

在量化金融中，参数估计无处不在：

期望收益估计： $\hat{\mu} = \bar{r} = \frac{1}{T}\sum_{t=1}^T r_t$ （样本收益率均值）
波动率估计： $\hat{\sigma} = \sqrt{\frac{1}{T-1}\sum_{t=1}^T (r_t - \bar{r})^2}$ （样本标准差）
夏普比率： $\text{SR} = \frac{\hat{\mu} - r_f}{\hat{\sigma}}$ ，需要同时估计均值和波动率
置信区间用于风险管理：VaR 的估计本质上是在估计收益率分布的某个分位数

实践中需要注意：

期望收益的估计误差远大于波动率（ $SE_\mu = \sigma/\sqrt{n}$ vs $SE_\sigma \approx \sigma/\sqrt{2n}$ ）
这就是为什么量化策略更关注波动率建模而非预测方向
贝叶斯方法（如 Black-Litterman 模型）通过引入先验信息改进参数估计

Python 验证

python

import numpy as np
from scipy import stats

# Bernoulli MLE
data = np.array([1, 0, 1, 1, 0, 1, 0, 1, 1, 0])  # H=1, T=0
p_hat = data.mean()
print(f"Bernoulli MLE: p̂ = {p_hat}")

# 均值 CI（方差未知）
returns = np.array([2.1, 0.3, 1.8, -0.5, 1.2, 2.5, 0.8, -0.1, 1.6, 0.9, 2.0, 0.5])
n = len(returns)
mean_r = returns.mean()
se = returns.std(ddof=1) / np.sqrt(n)
t_crit = stats.t.ppf(0.975, n-1)
ci = (mean_r - t_crit * se, mean_r + t_crit * se)
print(f"月收益率 95% CI: ({ci[0]:.3f}%, {ci[1]:.3f}%)")

小结

方法	适用场景	缺点
MLE	分布已知，大样本	可能无显式解
矩估计	矩易计算	信息利用率低（忽略高阶矩）
$Z$ 区间	方差已知或大样本	方差需另估计
$t$ 区间	方差未知，小样本	依赖正态性假设

下一步：继续学习 4.2 假设检验——判断参数是否显著。

4.1 参数估计 ​

一、点估计 ​

1.1 极大似然估计（MLE） ​

1.2 矩估计（Method of Moments） ​

二、区间估计 ​

2.1 置信区间的基本概念 ​

2.2 总体均值 μ\muμ 的置信区间（方差已知） ​

2.3 总体均值 μ\muμ 的置信区间（方差未知） ​

三、Qualifiers ​

Python 验证 ​

小结 ​

📝 练习