2.4 特征值分解与 SVD

特征值和奇异值是数据背后"最重要的方向"。PCA 降维、风险分解、因子模型都靠它。

一、特征值与特征向量

1.1 什么是特征值

一个矩阵 $A$ 作用于一个向量 $\boldsymbol{v}$ ，通常结果会改变方向。但有一些"特殊方向"， $A$ 作用上去只会拉长或缩短，方向不变。

A \boldsymbol{v} = \lambda \boldsymbol{v}

满足这个式子的 $\lambda$ 叫特征值， $\boldsymbol{v}$ 叫特征向量。

1.2 手算

$A = \begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix}$ 。

先求特征值：

\det(A - \lambda I) = \det\begin{bmatrix} 2-\lambda & 1 \\ 1 & 2-\lambda \end{bmatrix} = (2-\lambda)^2 - 1 = 0

$(2-\lambda)^2 = 1 \quad\Rightarrow\quad 2-\lambda = \pm 1 \quad\Rightarrow\quad \lambda_1 = 3,\; \lambda_2 = 1$

再求特征向量：

$\lambda_1 = 3$ ：解 $(A - 3I)\boldsymbol{v} = \boldsymbol{0}$

\begin{bmatrix} -1 & 1 \\ 1 & -1 \end{bmatrix} \begin{bmatrix} v_1 \\ v_2 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} \quad\Rightarrow\quad -v_1 + v_2 = 0 \quad\Rightarrow\quad v_1 = v_2

取 $\boldsymbol{v}_1 = \begin{bmatrix} 1 \\ 1 \end{bmatrix}$ （方向相同的一组）。

$\lambda_2 = 1$ ：解 $(A - I)\boldsymbol{v} = \boldsymbol{0}$

\begin{bmatrix} 1 & 1 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} v_1 \\ v_2 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} \quad\Rightarrow\quad v_1 + v_2 = 0 \quad\Rightarrow\quad v_1 = -v_2

取 $\boldsymbol{v}_2 = \begin{bmatrix} 1 \\ -1 \end{bmatrix}$ 。

验证： $A\boldsymbol{v}_1 = \begin{bmatrix}2&1\\1&2\end{bmatrix}\begin{bmatrix}1\\1\end{bmatrix} = \begin{bmatrix}3\\3\end{bmatrix} = 3\begin{bmatrix}1\\1\end{bmatrix}$ ✅

1.3 特征值分解

将特征向量和特征值写成矩阵形式：

A = Q \Lambda Q^{-1}, \quad Q = [\boldsymbol{v}_1, \boldsymbol{v}_2], \; \Lambda = \begin{bmatrix} \lambda_1 & 0 \\ 0 & \lambda_2 \end{bmatrix}

如果 $A$ 是对称矩阵（如协方差矩阵）， $Q$ 还是正交矩阵（Orthogonal Matrix）：行和列都是单位长度且两两正交的矩阵，即 $Q^T Q = I$ ，因此 $Q^{-1} = Q^T$ ：

A = Q \Lambda Q^T

Quant Link：PCA = 对协方差矩阵做特征值分解。 $\lambda_1$ 是最大特征值，对应"数据波动最大的方向"（第一主成分）。 $\lambda_2$ 次之（第二主成分，与第一主成分正交）。在利率曲线风险分解中，前三个主成分通常能解释 95% 以上的变动：PC1（水平平移 ~70%）、PC2（倾斜 ~20%）、PC3（曲率 ~5%）。

二、奇异值分解 (SVD)

2.1 特征值分解的局限

特征值分解只能用于方阵。但很多时候你的数据矩阵 $X$ 是 $m \times n$ 的（ $m$ 个样本， $n$ 个特征），不是方阵。SVD 对此做了推广。

2.2 定义

任意 $m \times n$ 矩阵 $A$ 都可以分解为：

A = U \Sigma V^T

其中 $U$ 、 $V$ 是正交矩阵， $\Sigma$ 是对角矩阵（对角线上的 $\sigma_i$ 称为奇异值）。

2.3 SVD 和特征值的关系

$A$ 的奇异值 $\sigma_i = \sqrt{\lambda_i}$ ，其中 $\lambda_i$ 是 $A^T A$ 的特征值。因此 SVD 是"方阵特征值分解的推广"。

2.4 关键应用

低秩近似（≈ 数据压缩）：只保留前 $k$ 个最大的奇异值，丢掉后面的。这就是 PCA 降维的本质。

伪逆（Pseudoinverse / Moore-Penrose inverse）：当 $A$ 不可逆（不是方阵或奇异）时，伪逆是逆矩阵的推广，满足 $A A^+ A = A$ 。SVD 可用来计算伪逆 $A^+ = V \\Sigma^+ U^T$ 。

python

import numpy as np

# 特征值分解
A = np.array([[2, 1], [1, 2]])
eigvals, eigvecs = np.linalg.eig(A)
print(f"特征值: {eigvals}")        # [3, 1]
print(f"特征向量:\n{eigvecs}")

# SVD
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
U, s, Vt = np.linalg.svd(A)
print(f"\n奇异值: {s}")

# PCA 示例——计算方差解释比例
np.random.seed(42)
data = np.random.randn(100, 5)
U, s, Vt = np.linalg.svd(data - data.mean(axis=0), full_matrices=False)
var_exp = s**2 / np.sum(s**2)
for i, v in enumerate(var_exp):
    print(f"  PC{i+1}: {v:.2%}（累计: {var_exp[:i+1].sum():.2%}）")

\n> 下一步：继续学习 2.5 PCA

2.4 特征值分解与 SVD ​

一、特征值与特征向量 ​

1.1 什么是特征值 ​

1.2 手算 ​

1.3 特征值分解 ​

二、奇异值分解 (SVD) ​

2.1 特征值分解的局限 ​

2.2 定义 ​

2.3 SVD 和特征值的关系 ​

2.4 关键应用 ​

📝 练习