Skip to content

07.0 概述

How much information does a price signal contain? That's the question information theory answers.

一个价格信号包含多少信息?一个因子对收益有多大的预测力?信息论给了我们精确的答案——它用熵来量化不确定性,用互信息来量化预测力。


本章定位

前六章为我们提供了理解金融市场的工具:微积分描述变化、线性代数组织多维数据、概率论量化不确定性、优化寻找最优解、随机过程建模时间演化。但有一个根本问题尚未回答:如何度量"信息"本身? 一个因子比另一个因子"更有信息含量"——这个判断的数学依据是什么?

本章直接依赖 03 概率论(熵和互信息都是概率分布的函数,没有概率密度就没有信息论)和 04 数理统计(从数据中估计熵和互信息需要统计方法)。熵 H(X)=P(x)logP(x)H(X) = -\sum P(x)\log P(x) 的输入就是一个概率分布,而概率分布正是 03 的核心产出。

在量化金融中,信息论的应用正在快速扩展:最大熵原理用于在信息不完全的情况下构建最无偏的资产价格分布(熵池方法);互信息用作非线性特征选择工具,发现线性相关系数无法捕捉的因子-收益关系;交叉熵是几乎所有深度学习和分类模型的损失函数;KL 散度用来监测分布偏移(如训练集和实盘市场状态的差异)。信息论提供了一个统一的框架——把"信息"这个词从比喻变成可计算的量


知识链条

本章的递进逻辑是:度量不确定性 → 比较分布 → 捕捉共享信息 → 用于建模

  1. 7.1 熵:信息论的基石。熵 H(X)H(X) 量化了单一随机变量的平均不确定性。偏倚硬币的熵小于公平硬币——知道"正面概率 70%"降低了不确定性。在因子模型中,熵用来衡量因子收益率的"信息含量"。
  2. 7.2 KL 散度与交叉熵:从单个分布到两个分布的比较。KL 散度 DKL(PQ)D_{\text{KL}}(P\|Q) 度量用分布 QQ 近似分布 PP 时的信息损失。交叉熵是分类模型的标准损失函数——预测分布越接近真实分布,交叉熵越小。在金融中,KL 散度用于监测市场状态的分布偏移。
  3. 7.3 互信息:衡量两个随机变量之间的 共享信息I(X;Y)=H(X)H(XY)I(X;Y) = H(X) - H(X\mid Y) 告诉我们"知道 YY 后,XX 的不确定性减少了多少"。互信息能捕捉非线性依赖——这是它优于 Pearson 相关系数的核心优势,在因子筛选中尤为关键。
  4. 7.4 最大熵原理与量化应用:从度量到构建。最大熵原理说"在满足已知约束的条件下,选择熵最大的分布"——这是 最不偏倚 的选择。熵池(Entropy Pooling)方法将先验分布与投资观点结合,得到后验分布,是现代资产配置的重要工具。

量化应用速览

核心概念量化金融应用
7.1H(X)=P(x)logP(x)H(X) = -\sum P(x)\log P(x)因子信息含量度量、市场效率评估
7.2KL 散度 DKL(PQ)=Plog(P/Q)D_{\text{KL}}(P|Q) = \sum P\log(P/Q)分类模型交叉熵损失、分布偏移监测、模型近似误差
7.3互信息 I(X;Y)=P(x,y)logPP(x)P(y)I(X;Y) = \sum P(x,y)\log\frac{P}{P(x)P(y)}非线性特征选择、因果因子发现、筛选 Alpha 信号
7.4最大熵原理 maxH(X)\max H(X) s.t. 矩约束熵池资产配置、最小偏倚分布建模、期权隐含分布估计

学习路径

  • 前置知识:03 概率论(概率分布、条件概率、贝叶斯公式)、04 数理统计(分布估计)。建议先复习 03.2 随机变量与分布和 03.3 条件概率。
  • 推荐顺序:7.1 → 7.2 → 7.3 → 7.4,严格递进。7.2 需要 7.1 的熵概念,7.3 互信息可同时用熵和 KL 散度两种方式理解,7.4 最大熵原理将前三个概念综合应用。

下一步:掌握信息论后,学习 08 傅里叶分析——将时间序列从时域变换到频域,识别市场中的周期性模式。

Built with VitePress