信息熵及其相关概念

文章目录

机器学习中，绕不开的一个概念就是熵 (Entropy)，信息熵。信息熵常被用来作为一个系统的信息含量的量化指标，从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。在决策树的生成过程中，就使用了熵来作为样本最优属性划分的判据。下面按照本人的理解来系统梳理一下有关熵的概念。

1. 熵的定义是怎么来的？

信息熵的定义公式：

$H(X)=-\sum_{x\in\chi}p(x)\log{p(x)}H(X)=−x∈χ∑p(x)logp(x)$

并且规定 $0\log(0)=00log(0)=0。$

首次看到这个定义，我感到莫名其妙，为什么熵要定义成这么复杂的形式，并且其中还出现了对数函数这种非常不直观的表述？

1.1 信息熵的三个性质

信息论之父克劳德·香农给出的信息熵的三个性质[1]：

单调性，发生概率越高的事件，其携带的信息量越低；
非负性，信息熵可以看作为一种广度量，非负性是一种合理的必然；
累加性，即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和，这也是广度量的一种体现。

香农从数学上严格证明了满足上述三个条件的随机变量不确定性度量函数具有唯一形式
$H(X)=-C\sum_{x\in\chi}p(x)\log{p(x)}H(X)=−Cx∈χ∑p(x)logp(x)$

其中的

1.2 对信息熵三条性质的理解

单调性说的是，事件发生的概率越低，其发生时所能给出的信息量越大。举一个极端的例子，“太阳从西边升起”所携带的信息量就远大于“太阳从东边升起”，因为后者是一个万年不变的事实，不用特意述说大家都知道；而前者是一个相当不可能发生的事情，如果发生了，那代表了太多的可能性，可能太阳系有重大变故，可能物理法则发生了变化，等等。从某种角度来考虑，单调性也暗含了一种对信息含量的先验假设，即默认某些事实是不含信息量的（默认事实其实也是一种信息，我理解的默认事实应该指的是概率分布），这其实是把默认情况的信息量定标为

对累加性的解释，考虑到信息熵的定义涉及到了事件发生的概率，我们可以假设信息熵是事件发生概率的函数：

对于两个相互独立的事件

$Y=B)=p(X=A)\cdot p(Y=B)p(X=A,Y=B)=p(X=A)⋅p(Y=B)$

其同时发生的信息熵，根据累加性可知：

$H\left(p(X=A, Y=B)\right)=H\left(p(X=A)\cdot p(Y=B)\right)=H\left(p(X=A)\right)+H\left(p(Y=B)\right)H(p(X=A,Y=B))=H(p(X=A)⋅p(Y=B))=H(p(X=A))+H(p(Y=B))$

一种函数形式，满足两个变量乘积函数值等于两个变量函数值的和，那么这种函数形式应该是对数函数。再考虑到概率都是小于等于

1.3 回看信息熵定义

回过头来再看信息熵的公式，其中对概率取负对数表示了一种可能事件发生时候携带出的信息量。把各种可能表示出的信息量乘以其发生的概率之后求和，就表示了整个系统所有信息量的一种期望值。从这个角度来说信息熵还可以作为一个系统复杂程度的度量，如果系统越复杂，出现不同情况的种类越多，那么他的信息熵是比较大的。如果一个系统越简单，出现情况种类很少（极端情况为

2. 伯努利分布熵的计算[3]

熵的定义公式中对数函数不局限于采用特定的底，不同的底对应了熵的不同度量单位。如果以

从熵的定义中可以看出，熵是关于变量

熵越大代表随机变量的不确定性越大，当变量可取值的种类一定时，其取每种值的概率分布越平均，其熵值越大。熵的取值范围为：

$0\leq H(p)\leq \log(n)0≤H(p)≤log(n)$

作为一个具体的例子，当随机变量只取两个值，例如

$\quad P(X=0)=1-p, \quad 0\leq p \leq 1P(X=1)=p,P(X=0)=1−p,0≤p≤1$

熵为：

$H(p)=-p\log_2p-(1-p)\log_2(1-p)H(p)=−plog2p−(1−p)log2(1−p)$

这时，熵

熵与概率的关系

当

3. 两随机变量系统中熵的相关概念[4]

以上介绍了关于单随机变量系统的熵的计算，现实中的系统很多是含有多随机变量的。为了简化问题，以两随机变量系统来说，介绍几个与熵相关的概念。

3.1 互信息

两个离散随机变量

$I(X,Y)=\sum_{y\in Y}\sum_{x\in X}p(x,y)\log\left(\frac{p(x,y)}{p(x)p(y)}\right)I(X,Y)=y∈Y∑x∈X∑p(x,y)log(p(x)p(y)p(x,y))$

为了理解互信息的涵义，我们把公式中的对数项分解

log (p ( x , y ) p ( x ) p ( y ) ) = log ( p ( x , y ) - ( log p

我们知道概率取负对数表征了当前概率发生所代表的信息量。上式表明，两事件的互信息为各自事件单独发生所代表的信息量之和减去两事件同时发生所代表的信息量之后剩余的信息量，这表明了两事件单独发生给出的信息量之和是有重复的，互信息度量了这种重复的信息量大小。最后再求概率和表示了两事件互信息量的期望。从式中也可以看出，当两事件完全独立时， $p(x,y)=p(x)\cdot p(y)p(x,y)=p(x)⋅p(y)，互信息计算为 0 00，这也是与常识判断相吻合的。$

3.2 联合熵

两个离散随机变量

$H(X,Y)=-\sum_{y\in Y}\sum_{x\in X}p(x,y)\log p(x,y)H(X,Y)=−y∈Y∑x∈X∑p(x,y)logp(x,y)$

联合熵表征了两事件同时发生系统的不确定度。

3.3 条件熵

条件熵 (Conditional Entropy)

$\mid X)=\sum_{x\in X}p(x)H(Y \mid x)=-\sum_{x\in X}p(x)\sum_{y\in Y}p(y \mid x)\log p(y \mid x)H(Y∣X)=x∈X∑p(x)H(Y∣x)=−x∈X∑p(x)y∈Y∑p(y∣x)logp(y∣x)$

3.4 互信息、联合熵、条件熵之间的关系

对互信息定义公式继续进行推导：

I (X, Y) = \sum y \in Y \sum x \in X p (x, y) log p

对条件熵定义公式继续进行推导：

联合上述结果，总结如下：

上述变量之间的关系，可以用 Venn 图来表示：

另外，在分类任务的决策树学习过程中，采用信息增益的概念来决定选用哪个特征作为后续的决策依据。这里的信息增益等价于训练数据集中类与特征的互信息。

4. 两分布系统中熵的相关概念[5]

4.1 交叉熵

考虑一种情况，对于一个样本集，存在两个概率分布

$H(p)=-\sum_xp(x)\log p(x)$

$H(p,q)=-\sum_xp(x)\log q(x)$

举个例子，考虑一个随机变量

交叉熵为

4.2 相对熵

相对熵 (Relative Entropy) 也称 KL 散度，设

$D_{KL}(p \Vert q)=\sum_x p(x)\log\frac{p(x)}{q(x)}=E_{p(x)}\log\frac{p(x)}{q(x)}$

$\sum_x p(x)=1$

4.3 相对熵与交叉熵的关系

对相对熵公式进一步变形为：

$D_{KL}(p \Vert q) \geq 0$

同时，也更容易的看出来相对熵表示的其实是当我们用一个非真实的分布表示系统时，其得到的信息量期望值相比采用真实分布表示时候多出的部分。

在机器学习中，训练数据的分布已经固定下来，那么真实分布的熵

相对熵与交叉熵的更多信息可以参考链接 [5]、[6] 中所述。

参考

1: 2: 3: 4: 5: 6:

posted @ 2020-11-27 22:00 常给自己加个油阅读(528) 评论(0) 编辑收藏举报

刷新页面返回顶部

常给自己加个油