熵(Entropy),交叉熵(Cross-Entropy),KL-松散度(KL Divergence)

Posted on 2017-12-05 16:14 MaHaLo 阅读(13009) 评论(0) 收藏举报

1.介绍：

当我们开发一个分类模型的时候，我们的目标是把输入映射到预测的概率上，当我们训练模型的时候就不停地调整参数使得我们预测出来的概率和真是的概率更加接近。

这篇文章我们关注在我们的模型假设这些类都是明确区分的，假设我们是开发一个二分类模型，那么对应于一个输入数据，我们将他标记为要么绝对是正，要么绝对是负。比如，我们输入的是一张图片，来判断这张图片是苹果还是梨子。

在训练过程中，我们可能输入了一张图片表示的是苹果，那么对于这张输入图片的真实概率分布为y=(苹果：1，梨子：0)，但是我们的模型可能预测出来的是另一种概率分布y`(苹果：0.4，梨子：0.6)，然后我们发现了在这张输入图片上的真实概率分布和预测出来的概率分布差别很大，所以我们要调整参数，来使得这两个分布更加接近。

但是我们怎么定义这个接近呢？也就是我们如何去衡量y,y`的接近程度？

在这里我们介绍一下一种衡量方式交叉熵（Cross-Entropy），然后说明一下为什么这种方式适用于分类问题。

2.熵（Entropy）：

熵的概念来自物理中的热力学，表示热力学系统中的无序程度，我们说的熵是信息论中的熵，表示对不确定性的测量，熵越高，能传输的信息越多，熵越少，传输的信息越少。举个例子说，当你站在一条公路旁边，看着车流来来往往，然后，你想告诉你的朋友每个车型号，但是只有一个二进制的信道，仅仅可以传输0，1序列，然后这个通讯相当的昂贵，十元1bit。你需要很多个二进制序列来表示每一个车型号。那么你该怎么来编码这些车的型号呢？会使用相同长度的bit来表示丰田Camry和奥迪Q7么? 当然不会了，因为你知道丰田Camry比奥迪Q7普遍多了，所以你会用更少的bit来编码丰田。换成数学的角度来看，其实就是我们把这个随便经过一个车，把这个车是丰田Camry还是奥迪Q7看成随机事件，用随机变量X表示，所以我们在做的就是用X的分布来减少我们发送的bit的平均长度。

也就是我们现在有了观测到的概率分布y,y_i = P(X=x_i)。我们要使用平均最小的bit，所以我们应该为x_i 分配log(1/y_i) 个比特。对所有的x_i 我们都有一个对应的最小需要分配的bit长度，那么我们对这个log(1/y_i)求期望也就得到了X的熵的定义了：

3.交叉熵（Cross-Entropy）:

假如说我们用这个分布来作为我们来对事件编码的一个工具，熵就衡量了我们用这个正确的分布y来对事件编码所能用的最小的bit 长度，我们不能用更短的bit来编码这些事件或者符号了。

相对的，交叉熵是我们要对y这个分布去编码，但是我们用了一些模型估计分布y`。这里的话通过y`这个分布我们得到的关于x_i的最小编码长度就变成了log(1/y`_i)，但是呢，我们的期望仍是关于真是分布y的。所以交叉熵的定义就变成了：

交叉熵是大于等于熵的，因为我们使用了错误的分布y`会带来更多的bit使用。当y和y`相等的时候，交叉熵就等于熵了。

4.KL 松散度（KL Divergence）：

KL松散度和交叉熵的区别比较小，KL松散度又叫做相对熵，从定义很好看出区别：

这个意思就是说我们要编码一个服从y分布的随机变量，假设我们使用了一些数据估计出来这个随机变量的分布是y`，那么我们需要用比真实的最小bit多多少来编码这个随机变量。这个值是大于等于0的，并且当，y和y`相等的时候才为0。注意这里对交叉熵求最小和对KL松散度求最小是一样的。也就是我们要调整参数使得交叉熵和熵更接近，KL松散度越接近0，也就是y`越接近y。