2022-12-05 K-L散度

description

简介

一种比较两个概率分布的方法，称为Kullback-Leibler散度(通常简称为KL散度)
通常用简单的分布来近似一个复杂的分布，表示在选择近似时候损失了多少信息

KL散度起源于信息论
信息熵是信息论中一个重要的概念，$$H=-\sum_{i=1}^{N}p(x_i)logp(x_i)$$
当使用log2计算时，熵解释为“编码信息所需要的最小比特数”

K-L散度就是在信息熵的基础上修改，表示丢失了多少信息

\[D_{KL}(p||q)=\sum_{i=1}^{N}p(x_i)(logp(x_i)-logq(x_i)) \]

看起来和期望一样

改写得到：$$D_{KL}(q||p)=E[logp(x_i)-logq(x_i)]$$
比较常见的形式：

\[D_{KL}(q||p)=\sum_{i=1}^{N}p(x_i)log\frac{p(x_i)}{q(x_i)} \]

或者$$D_{KL}(q||p)=E_{x~p}[log\frac{p(x_i)}{q(x_i)}]$$

[!attention]
K-L衡量的不是分布的距离
因为K-L是非对称的

可以将KL散度作为目标函数来找到我们可以得出的任何近似分布的最优值

如VAE, 贝叶斯

posted @ 2023-02-27 14:32 cyinen 阅读(51) 评论(0) 收藏举报

刷新页面返回顶部