Kullback–Leibler divergence讲解

Kullback–Leibler divergence (KL divergence) 是一种用于衡量两个概率分布之间差异的非对称度量。它衡量的是一个分布如何偏离另一个分布。通常，KL 散度用于量化一个分布 $Q$ 与一个真实分布 $P$ 之间的差异。

KL 散度的定义为：

$D_{\text{KL}}(P || Q) = \sum_{x} P(x) \log\left(\frac{P(x)}{Q(x)}\right)$

或者对于连续分布：

$D_{\text{KL}}(P || Q) = \int_{-\infty}^{+\infty} P(x) \log\left(\frac{P(x)}{Q(x)}\right) dx$

其中：

非对称性：KL 散度是非对称的，即 $D_{\text{KL}}(P || Q) \neq D_{\text{KL}}(Q || P)$ 。这意味着 KL 散度在比较 $P$ 和 $Q$ 时，它依赖于我们是从 $P$ 到 $Q$ 的方向，还是从 $Q$ 到 $P$ 的方向。
非负性：KL 散度总是非负的，且只有当 $P (x) = Q (x)$ 对于所有 $x$ 都成立时，KL 散度为 0。也就是说，两个分布相同的情况下，KL 散度为 0，否则为正数。这可以从对数函数的凹性和 Jensen’s Inequality 推导出来。
信息损失的度量：KL 散度可以被理解为在使用分布 $Q$ 来近似真实分布 $P$ 时所造成的信息损失。KL 散度越大，意味着 $Q$ 对 $P$ 的近似越差。

假设我们有两个概率分布：真实分布 $P$ 和我们尝试用来近似 $P$ 的分布 $Q$ 。KL 散度衡量的是，如果我们用 $Q$ 代替 $P$ 来描述数据，我们会损失多少信息。简而言之，它表示的是我们使用 $Q$ 作为 $P$ 的近似时的效率损失。

例如，在机器学习中，如果我们训练一个模型来拟合数据分布，我们可以通过计算模型的分布 $Q$ 和真实数据分布 $P$ 之间的 KL 散度来评估模型的质量。KL 散度越小，表示模型与真实分布的差异越小，模型的拟合效果越好。

变分自编码器（VAE）：在变分自编码器中，KL 散度用于衡量编码器生成的潜在分布和先验分布（通常是标准正态分布）之间的差异。最小化 KL 散度可以使得潜在表示与先验分布保持接近，从而促进模型的正则化。
语言模型：KL 散度常用于比较两个语言模型的输出分布，尤其是在训练中进行最大似然估计时。
信息论：KL 散度最初在信息论中用于衡量两个分布之间的相对熵，衡量如果我们使用一个错误的分布来代替真实分布时，平均每个事件会增加多少不确定性。

假设我们有两个离散分布 $P$ 和 $Q$ ，它们在样本空间 $\in \{1, 2\}$ 上的定义如下：

那么，KL 散度 $D_{\text{KL}}(P || Q)$ 为：

$D_{\text{KL}}(P || Q) = 0.8 \log\left(\frac{0.8}{0.6}\right) + 0.2 \log\left(\frac{0.2}{0.4}\right)$

通过计算可以得到一个正数值，表示分布 $Q$ 对 $P$ 的近似误差。

最新新闻