1. 相对熵
1.1 简介
相对熵也称为 KL 散度(Kullback-Leibler divergence),相对熵是两个概率分布 P 和 Q 差别的度量。具体来说,P 和 Q 的相对熵是用来度量使用基于 Q 的分布来编码服从 P 的分布的样本所需的额外平均比特数。典型情况下,P 表示真实分布,Q 表示数据的理论分布或者是估计的模型分布。
1.2 定义
-
对于离散随机变量,其概率分布 P 和 Q 的相对熵定义为:
DKL(P∥Q)=−i∑P(i)lnP(i)Q(i)=EP[−lnPQ]
其中,P(i) 和 Q(i) 分别表示 P 和 Q 的离散概率。当式中出现 0ln0 时,其值按 0 处理。
-
对于连续随机变量,其概率分布 P 和 Q 的相对熵定义为:
DKL(P∥Q)=−∫−∞∞p(x)lnp(x)q(x)dx=Ep[−lnpq]
其中,p 和 q 分别表示 P 和 Q 的概率密度。
1.3 性质
- 相对熵非负:DKL(P∥Q)≥0
- 相对熵非对称(故其不是一个真正的距离度量):DKL(P∥Q)=DKL(Q∥P)
2. 交叉熵
2.1 简介
交叉熵是指基于 Q 的分布来编码服从 P 的分布的样本所需要的平均比特数。
2.2 定义
-
对于离散随机变量,其概率分布 P 和 Q 的交叉熵定义为:
H(P,Q)=−i∑P(i)lnQ(i)=EP[−lnQ]
其中,P(i) 和 Q(i) 分别表示 P 和 Q 的离散概率。
-
对于连续随机变量, 其概率分布 P 和 Q 的交叉熵定义为:
H(P,Q)=−∫−∞∞p(x)lnq(x)dx=Ep[−lnq]
其中,p 和 q 分别表示 P 和 Q 的概率密度。
2.3 性质
- H(P,Q)=H(P)+DKL(P∥Q)
附录