Skip to content

4.1 参数估计

参数估计是用样本数据推断总体分布中未知参数的方法,包括点估计(给出一个具体数值)和区间估计(给出一个置信区间)。


一、点估计

1.1 极大似然估计(MLE)

思想:找到使当前样本出现概率最大的参数值。

假设 X1,,Xni.i.d.f(xθ)X_1, \dots, X_n \overset{\text{i.i.d.}}{\sim} f(x \mid \theta),似然函数为:

L(θ)=i=1nf(xiθ) L(\theta) = \prod_{i=1}^n f(x_i \mid \theta)

MLE 即 θ^=argmaxθL(θ)\hat{\theta} = \arg\max_\theta L(\theta)。通常最大化对数似然 (θ)=logL(θ)\ell(\theta) = \log L(\theta)

例:Bernoulli 分布的 MLE

抛一枚硬币 10 次,结果:H, T, H, H, T, H, T, H, H, T(H=正面,6次正面)。

XiBernoulli(p)X_i \sim \text{Bernoulli}(p)f(xp)=px(1p)1xf(x \mid p) = p^x(1-p)^{1-x}

L(p)=i=110pxi(1p)1xi=pxi(1p)10xi=p6(1p)4 L(p) = \prod_{i=1}^{10} p^{x_i}(1-p)^{1-x_i} = p^{\sum x_i}(1-p)^{10-\sum x_i} = p^6(1-p)^4

(p)=6lnp+4ln(1p) \ell(p) = 6\ln p + 4\ln(1-p)

求导:ddp=6p41p=0    p^=610=0.6\frac{d\ell}{dp} = \frac{6}{p} - \frac{4}{1-p} = 0 \;\Rightarrow\; \hat{p} = \frac{6}{10} = 0.6

步骤计算结果
数据10 次抛掷,6 次正面n=10n=10, xi=6\sum x_i=6
似然函数L(p)=p6(1p)4L(p)=p^6(1-p)^4
对数似然(p)=6lnp+4ln(1p)\ell(p)=6\ln p + 4\ln(1-p)
导数置零6/p4/(1p)=06/p - 4/(1-p)=06(1p)=4p6(1-p)=4p
MLEp^=6/10\hat{p}=6/10p^=0.6\hat{p}=0.6

1.2 矩估计(Method of Moments)

思想:用样本矩等于总体矩来解参数。

1ni=1nXik=E[Xk] \frac{1}{n}\sum_{i=1}^n X_i^k = \mathbb{E}[X^k]

:对 XN(μ,σ2)X \sim N(\mu, \sigma^2),一阶矩 E[X]=μ\mathbb{E}[X]=\mu,二阶矩 E[X2]=μ2+σ2\mathbb{E}[X^2]=\mu^2+\sigma^2

μ^=Xˉ,σ^2=1ni=1n(XiXˉ)2 \hat{\mu} = \bar{X}, \quad \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2


二、区间估计

2.1 置信区间的基本概念

P(θ^L<θ<θ^U)=1α P(\hat{\theta}_L < \theta < \hat{\theta}_U) = 1 - \alpha

其中 1α1-\alpha 为置信水平,常用 95%(α=0.05\alpha=0.05)。

2.2 总体均值 μ\mu 的置信区间(方差已知)

假设 X1,,XnN(μ,σ2)X_1,\dots,X_n \sim N(\mu, \sigma^2)σ2\sigma^2 已知:

Xˉ±zα/2σn \bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}

:某股票日收益率 σ=2%\sigma=2\%,观测 25 天得 xˉ=0.3%\bar{x}=0.3\%,求 95% CI:

0.3%±1.96×2%25=0.3%±0.784%=(0.484%,1.084%) 0.3\% \pm 1.96 \times \frac{2\%}{\sqrt{25}} = 0.3\% \pm 0.784\% = (-0.484\%, 1.084\%)

参数
xˉ\bar{x}0.3%0.3\%
σ\sigma2.0%2.0\%
nn2525
z0.025z_{0.025}1.961.96
标准误2%/5=0.4%2\%/5 = 0.4\%
95% CI(0.484%,1.084%)(-0.484\%, 1.084\%)

2.3 总体均值 μ\mu 的置信区间(方差未知)

用样本标准差 ss 代替 σ\sigma,使用 tt 分布:

Xˉ±tα/2(n1)sn \bar{X} \pm t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}}

:某策略月收益率样本(n=12n=12):[2.1,0.3,1.8,0.5,1.2,2.5,0.8,0.1,1.6,0.9,2.0,0.5][2.1, 0.3, 1.8, -0.5, 1.2, 2.5, 0.8, -0.1, 1.6, 0.9, 2.0, 0.5](%)。

步骤公式结果
样本均值xˉ=112xi\bar{x} = \frac{1}{12}\sum x_i1.0917%1.0917\%
样本标准差s=111(xixˉ)2s = \sqrt{\frac{1}{11}\sum(x_i-\bar{x})^2}0.9679%0.9679\%
标准误s/ns/\sqrt{n}0.2794%0.2794\%
t0.025(11)t_{0.025}(11)查表2.2012.201
95% CI1.0917±2.201×0.27941.0917 \pm 2.201 \times 0.2794(0.476%,1.707%)(0.476\%, 1.707\%)

三、Qualifiers

概念点估计区间估计
输出单一数值一个区间
不确定性不体现体现置信水平
例子p^=0.6\hat{p}=0.6(0.476%,1.707%)(0.476\%, 1.707\%)
使用场景需要具体参数值需要评估精度

Quant Link:估计资产期望收益与波动率

在量化金融中,参数估计无处不在:

  1. 期望收益估计μ^=rˉ=1Tt=1Trt\hat{\mu} = \bar{r} = \frac{1}{T}\sum_{t=1}^T r_t(样本收益率均值)
  2. 波动率估计σ^=1T1t=1T(rtrˉ)2\hat{\sigma} = \sqrt{\frac{1}{T-1}\sum_{t=1}^T (r_t - \bar{r})^2}(样本标准差)
  3. 夏普比率SR=μ^rfσ^\text{SR} = \frac{\hat{\mu} - r_f}{\hat{\sigma}},需要同时估计均值和波动率
  4. 置信区间用于风险管理:VaR 的估计本质上是在估计收益率分布的某个分位数

实践中需要注意:

  • 期望收益的估计误差远大于波动率(SEμ=σ/nSE_\mu = \sigma/\sqrt{n} vs SEσσ/2nSE_\sigma \approx \sigma/\sqrt{2n}
  • 这就是为什么量化策略更关注波动率建模而非预测方向
  • 贝叶斯方法(如 Black-Litterman 模型)通过引入先验信息改进参数估计

Python 验证

python
import numpy as np
from scipy import stats

# Bernoulli MLE
data = np.array([1, 0, 1, 1, 0, 1, 0, 1, 1, 0])  # H=1, T=0
p_hat = data.mean()
print(f"Bernoulli MLE: p̂ = {p_hat}")

# 均值 CI(方差未知)
returns = np.array([2.1, 0.3, 1.8, -0.5, 1.2, 2.5, 0.8, -0.1, 1.6, 0.9, 2.0, 0.5])
n = len(returns)
mean_r = returns.mean()
se = returns.std(ddof=1) / np.sqrt(n)
t_crit = stats.t.ppf(0.975, n-1)
ci = (mean_r - t_crit * se, mean_r + t_crit * se)
print(f"月收益率 95% CI: ({ci[0]:.3f}%, {ci[1]:.3f}%)")

小结

方法适用场景缺点
MLE分布已知,大样本可能无显式解
矩估计矩易计算信息利用率低(忽略高阶矩)
ZZ 区间方差已知或大样本方差需另估计
tt 区间方差未知,小样本依赖正态性假设

下一步:继续学习 4.2 假设检验——判断参数是否显著。

Built with VitePress