7.1 熵
熵(Entropy)由 Claude Shannon 在 1948 年提出,是信息论的核心概念——它量化了一个随机变量的不确定性。在量化金融中,熵被用来度量因子的信息含量和市场效率。
自信息(Self-information)
对于一个离散随机变量 ,取值 的概率为 ,其自信息定义为:
是以 2 为底的对数,。信息论中用 的原因是结果以比特(bit)为单位——一个二进制位只能存储 0 或 1,正好是 1 比特信息。
- 概率越小的事件,发生时的信息量越大
- 确定事件()的信息量为
直观理解:如果一件事必然发生,它的发生没有带来任何新信息;如果一件事非常罕见,它的发生带来了大量信息。
熵(Entropy)
熵是随机变量 的平均自信息量:
熵衡量了一个分布的不确定性——熵越大,不确定性越高。
性质:
- ,当 为确定值时取等
- 对于 个等概率结果,(最大可能值)
- 熵只取决于分布,不取决于具体取值
手算实例:偏倚硬币的熵
一枚硬币 ,。
| 事件 | 概率 | ||
|---|---|---|---|
| 正面 | |||
| 反面 | |||
| 合计 | — | 比特 |
对比:一枚公平硬币()的熵为 比特。偏倚降低了不确定性。
Python 示例
python
import numpy as np
def entropy(p):
"""计算离散分布的熵(单位:比特)"""
p = np.asarray(p)
return -np.sum(p * np.log2(p + 1e-15)) # 加极小值防止 log(0)
# 偏倚硬币
p_coin = [0.7, 0.3]
print(f"偏倚硬币熵: H = {entropy(p_coin):.4f} 比特")
# 输出: 偏倚硬币熵: H = 0.8813 比特
# 对比公平硬币
p_fair = [0.5, 0.5]
print(f"公平硬币熵: H = {entropy(p_fair):.4f} 比特")
# 输出: 公平硬币熵: H = 1.0000 比特Quant Link:因子信息含量
在因子模型中,我们可以用熵来衡量一个因子的信息含量——因子收益率的分布越分散(熵越大),该因子携带的信息越多。反之,如果某个因子几乎总是正收益,其熵接近 0,说明它可能已被市场充分定价。
实际应用中,交易员会计算因子收益率的经验熵,与理论最大熵(均匀分布)对比,得到一个信息效率比,用于筛选最有预测力的因子。 \n> 下一步:继续学习 7.2 KL散度与交叉熵