2022-12-05 K-L散度
2022-12-05 K-L散度
description
Kullback-Leibler(KL)散度介绍 - 知乎 (zhihu.com)
简介
一种比较两个概率分布的方法, 称为Kullback-Leibler散度(通常简称为KL散度)
通常用简单的分布来近似一个复杂的分布,表示在选择近似时候损失了多少信息
熵
KL散度起源于信息论
信息熵是信息论中一个重要的概念,$$H=-\sum_{i=1}^{N}p(x_i)logp(x_i)$$
当使用log2计算时,熵解释为“编码信息所需要的最小比特数”
K-L散度
K-L散度就是在信息熵的基础上修改,表示丢失了多少信息
\[D_{KL}(p||q)=\sum_{i=1}^{N}p(x_i)(logp(x_i)-logq(x_i))
\]
看起来和期望一样
改写得到:$$D_{KL}(q||p)=E[logp(x_i)-logq(x_i)]$$
比较常见的形式:
\[D_{KL}(q||p)=\sum_{i=1}^{N}p(x_i)log\frac{p(x_i)}{q(x_i)}
\]
或者$$D_{KL}(q||p)=E_{x~p}[log\frac{p(x_i)}{q(x_i)}]$$
注意
[!attention]
K-L衡量的不是分布的距离
因为K-L是非对称的
使用K-L散度作为优化目标
可以将KL散度作为目标函数来找到我们可以得出的任何近似分布的最优值
如VAE, 贝叶斯