07.0 概述

How much information does a price signal contain? That's the question information theory answers.
一个价格信号包含多少信息？一个因子对收益有多大的预测力？信息论给了我们精确的答案——它用熵来量化不确定性，用互信息来量化预测力。

本章定位

前六章为我们提供了理解金融市场的工具：微积分描述变化、线性代数组织多维数据、概率论量化不确定性、优化寻找最优解、随机过程建模时间演化。但有一个根本问题尚未回答：如何度量"信息"本身？ 一个因子比另一个因子"更有信息含量"——这个判断的数学依据是什么？

本章直接依赖 03 概率论（熵和互信息都是概率分布的函数，没有概率密度就没有信息论）和 04 数理统计（从数据中估计熵和互信息需要统计方法）。熵 $H(X) = -\sum P(x)\log P(x)$ 的输入就是一个概率分布，而概率分布正是 03 的核心产出。

在量化金融中，信息论的应用正在快速扩展：最大熵原理用于在信息不完全的情况下构建最无偏的资产价格分布（熵池方法）；互信息用作非线性特征选择工具，发现线性相关系数无法捕捉的因子-收益关系；交叉熵是几乎所有深度学习和分类模型的损失函数；KL 散度用来监测分布偏移（如训练集和实盘市场状态的差异）。信息论提供了一个统一的框架——把"信息"这个词从比喻变成可计算的量。

知识链条

本章的递进逻辑是：度量不确定性 → 比较分布 → 捕捉共享信息 → 用于建模。

7.1 熵：信息论的基石。熵 $H(X)$ 量化了单一随机变量的平均不确定性。偏倚硬币的熵小于公平硬币——知道"正面概率 70%"降低了不确定性。在因子模型中，熵用来衡量因子收益率的"信息含量"。
7.2 KL 散度与交叉熵：从单个分布到两个分布的比较。KL 散度 $D_{\text{KL}}(P\|Q)$ 度量用分布 $Q$ 近似分布 $P$ 时的信息损失。交叉熵是分类模型的标准损失函数——预测分布越接近真实分布，交叉熵越小。在金融中，KL 散度用于监测市场状态的分布偏移。
7.3 互信息：衡量两个随机变量之间的 共享信息。 $I(X;Y) = H(X) - H(X\mid Y)$ 告诉我们"知道 $Y$ 后， $X$ 的不确定性减少了多少"。互信息能捕捉非线性依赖——这是它优于 Pearson 相关系数的核心优势，在因子筛选中尤为关键。
7.4 最大熵原理与量化应用：从度量到构建。最大熵原理说"在满足已知约束的条件下，选择熵最大的分布"——这是 最不偏倚 的选择。熵池（Entropy Pooling）方法将先验分布与投资观点结合，得到后验分布，是现代资产配置的重要工具。

量化应用速览

节	核心概念	量化金融应用
7.1	熵 $H(X) = -\sum P(x)\log P(x)$	因子信息含量度量、市场效率评估
7.2	KL 散度 $D_{\text{KL}}(P\|Q) = \sum P\log(P/Q)$	分类模型交叉熵损失、分布偏移监测、模型近似误差
7.3	互信息 $I(X;Y) = \sum P(x,y)\log\frac{P}{P(x)P(y)}$	非线性特征选择、因果因子发现、筛选 Alpha 信号
7.4	最大熵原理 $\max H(X)$ s.t. 矩约束	熵池资产配置、最小偏倚分布建模、期权隐含分布估计

学习路径

前置知识：03 概率论（概率分布、条件概率、贝叶斯公式）、04 数理统计（分布估计）。建议先复习 03.2 随机变量与分布和 03.3 条件概率。
推荐顺序：7.1 → 7.2 → 7.3 → 7.4，严格递进。7.2 需要 7.1 的熵概念，7.3 互信息可同时用熵和 KL 散度两种方式理解，7.4 最大熵原理将前三个概念综合应用。

下一步：掌握信息论后，学习 08 傅里叶分析——将时间序列从时域变换到频域，识别市场中的周期性模式。

07.0 概述 ​

本章定位 ​

知识链条 ​

量化应用速览 ​

学习路径 ​

📝 练习

07.0 概述

本章定位

知识链条

量化应用速览

学习路径