2.6 矩阵微积分

当你对一个向量或矩阵求导时，就是矩阵微积分。这是线性回归、组合优化、神经网络反向传播的数学基础。

一、向量求导的直觉

在一元函数中，导数 $f'(x)$ 告诉你"输入变一点点，输出变多少"。

在多元函数中， $f(\boldsymbol{x})$ 有 $n$ 个输入。导数是一个向量——每个分量对应一个输入的敏感度。

\frac{\partial f}{\partial \boldsymbol{x}} = \begin{bmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{bmatrix}

这就是你已经见过的梯度。

二、三个最常用的公式

2.1 线性函数： $f(\boldsymbol{x}) = \boldsymbol{a}^T \boldsymbol{x}$

\frac{\partial}{\partial \boldsymbol{x}} (\boldsymbol{a}^T \boldsymbol{x}) = \boldsymbol{a}

手算： $\boldsymbol{a} = [2, 3]$ ， $\boldsymbol{x} = [x_1, x_2]$

$\boldsymbol{a}^T \boldsymbol{x} = 2x_1 + 3x_2$

\frac{\partial f}{\partial x_1} = 2,\quad \frac{\partial f}{\partial x_2} = 3 \quad\Rightarrow\quad \nabla f = \begin{bmatrix} 2 \\ 3 \end{bmatrix} = \boldsymbol{a}

2.2 二次型： $f(\boldsymbol{x}) = \boldsymbol{x}^T A \boldsymbol{x}$ （ $A$ 对称）

\frac{\partial}{\partial \boldsymbol{x}} (\boldsymbol{x}^T A \boldsymbol{x}) = 2A\boldsymbol{x}

手算： $A = \begin{bmatrix} 2 & 1 \\ 1 & 3 \end{bmatrix}$ ， $\boldsymbol{x} = [x_1, x_2]$

$\boldsymbol{x}^T A \boldsymbol{x} = 2x_1^2 + 2x_1x_2 + 3x_2^2$

\frac{\partial f}{\partial x_1} = 4x_1 + 2x_2,\quad \frac{\partial f}{\partial x_2} = 2x_1 + 6x_2

写成矩阵： $2A\boldsymbol{x} = 2 \begin{bmatrix} 2 & 1 \\ 1 & 3 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} 4x_1 + 2x_2 \\ 2x_1 + 6x_2 \end{bmatrix}$ ✅

2.3 最小二乘

目标： $L(\boldsymbol{\beta}) = \|\boldsymbol{y} - X\boldsymbol{\beta}\|^2$

展开： $(\boldsymbol{y} - X\boldsymbol{\beta})^T (\boldsymbol{y} - X\boldsymbol{\beta}) = \boldsymbol{y}^T\boldsymbol{y} - 2\boldsymbol{\beta}^T X^T \boldsymbol{y} + \boldsymbol{\beta}^T X^T X \boldsymbol{\beta}$

对 $\boldsymbol{\beta}$ 求导：

\frac{\partial L}{\partial \boldsymbol{\beta}} = -2X^T\boldsymbol{y} + 2X^T X \boldsymbol{\beta}

令为零得正规方程： $X^T X \boldsymbol{\beta} = X^T \boldsymbol{y}$ ，所以 $\hat{\boldsymbol{\beta}} = (X^T X)^{-1} X^T \boldsymbol{y}$ 。

三、量化应用

3.1 Markowitz 最优组合

目标： $\min \boldsymbol{w}^T \Sigma \boldsymbol{w}$ ，约束 $\boldsymbol{1}^T \boldsymbol{w} = 1$

拉格朗日函数： $\mathcal{L} = \boldsymbol{w}^T \Sigma \boldsymbol{w} - \lambda(\boldsymbol{1}^T \boldsymbol{w} - 1)$

对 $\boldsymbol{w}$ 求导： $2\Sigma \boldsymbol{w} - \lambda \boldsymbol{1} = 0 \quad\Rightarrow\quad \boldsymbol{w} = \frac{\lambda}{2} \Sigma^{-1} \boldsymbol{1}$

3.2 线性回归

python

import numpy as np

# 生成数据
np.random.seed(42)
X = np.random.randn(100, 3)
beta_true = np.array([2.0, -1.5, 0.5])
y = X @ beta_true + np.random.randn(100) * 0.1

# 解析解
beta_hat = np.linalg.inv(X.T @ X) @ (X.T @ y)
print(f"真实 β: {beta_true}")
print(f"估计 β: {beta_hat.round(4)}")

小结

场景	公式	应用
线性函数	$\frac{\partial}{\partial \boldsymbol{x}} \boldsymbol{a}^T \boldsymbol{x} = \boldsymbol{a}$	因子暴露度
二次型	$\frac{\partial}{\partial \boldsymbol{x}} \boldsymbol{x}^T A \boldsymbol{x} = 2A\boldsymbol{x}$	组合方差求导
最小二乘	$-2X^T(\boldsymbol{y} - X\boldsymbol{\beta})$	线性回归
Markowitz	$2\Sigma\boldsymbol{w} - \lambda\boldsymbol{1} = 0$	最优组合
\n> 下一步：继续学习 03 概率论

2.6 矩阵微积分 ​

一、向量求导的直觉 ​

二、三个最常用的公式 ​

2.1 线性函数：f(x)=aTxf(\boldsymbol{x}) = \boldsymbol{a}^T \boldsymbol{x}f(x)=aTx ​

2.2 二次型：f(x)=xTAxf(\boldsymbol{x}) = \boldsymbol{x}^T A \boldsymbol{x}f(x)=xTAx（AAA 对称） ​

2.3 最小二乘 ​

三、量化应用 ​

3.1 Markowitz 最优组合 ​

3.2 线性回归 ​

小结 ​

📝 练习