相对熵和交叉熵

1. 相对熵

1.1 简介

相对熵也称为 KL 散度(Kullback-Leibler divergence),相对熵是两个概率分布 PPQQ 差别的度量。具体来说,PPQQ 的相对熵是用来度量使用基于 QQ 的分布来编码服从 PP 的分布的样本所需的额外平均比特数。典型情况下,PP 表示真实分布,QQ 表示数据的理论分布或者是估计的模型分布。

1.2 定义

  • 对于离散随机变量,其概率分布 PPQQ 的相对熵定义为:

    DKL(PQ)=iP(i)lnQ(i)P(i)=EP[lnQP]D_{\mathrm{KL}}(P \Vert Q) = -\sum_{i} P(i) \ln{\frac{Q(i)}{P(i)}} = \mathbb{E}_{P} \left[ - \ln{\frac{Q}{P}} \right]

    其中,P(i)P(i)Q(i)Q(i) 分别表示 PPQQ 的离散概率。当式中出现 0ln00 \ln{0} 时,其值按 00 处理。

  • 对于连续随机变量,其概率分布 PPQQ 的相对熵定义为:

    DKL(PQ)=p(x)lnq(x)p(x)dx=Ep[lnqp]D_{\mathrm{KL}}(P \Vert Q) = - \int_{-\infty}^{\infty} p(x) \ln{\frac{q(x)}{p(x)}} \mathrm{d}x = \mathbb{E}_{p} \left[ - \ln{\frac{q}{p}} \right]

    其中,ppqq 分别表示 PPQQ 的概率密度。

1.3 性质

  • 相对熵非负:DKL(PQ)0D_{\mathrm{KL}}(P \Vert Q) \geq 0
  • 相对熵非对称(故其不是一个真正的距离度量):DKL(PQ)DKL(QP)D_{\mathrm{KL}}(P \Vert Q) \neq D_{\mathrm{KL}}(Q \Vert P)

2. 交叉熵

2.1 简介

交叉熵是指基于 QQ 的分布来编码服从 PP 的分布的样本所需要的平均比特数。

2.2 定义

  • 对于离散随机变量,其概率分布 PPQQ 的交叉熵定义为:

    H(P,Q)=iP(i)lnQ(i)=EP[lnQ]H(P, Q) = -\sum_{i} P(i) \ln{Q(i)} = \mathbb{E}_{P} \left[ -\ln{Q} \right]

    其中,P(i)P(i)Q(i)Q(i) 分别表示 PPQQ 的离散概率。

  • 对于连续随机变量, 其概率分布 PPQQ 的交叉熵定义为:

    H(P,Q)=p(x)lnq(x)dx=Ep[lnq]H(P, Q) = - \int_{-\infty}^{\infty} p(x) \ln{q(x)} \mathrm{d}x = \mathbb{E}_{p} \left[ - \ln{q} \right]

    其中,ppqq 分别表示 PPQQ 的概率密度。

2.3 性质

  • H(P,Q)=H(P)+DKL(PQ)H(P, Q) = H(P) + D_{\mathrm{KL}}(P \Vert Q)

附录