熵的定义与性质

熵(Entropy)\(\newcommand{\E}{\mathbb{E}}\)

对于离散随机变量\(X\)，假设其概率密度函数为\(p(x)\)，其中\(p(x)=Pr[X=x]\)，则定义\(X\)的熵(Entropy)为\(H(X)=-\sum\limits_{x\in\mathcal{X}}p(x)\log p(x)\)。其中\(\mathcal{X}\)是所有\(p(x)>0\)的\(x\)构成的集合。（在信息论中，我们不关心对数的底数。但为了之后讨论二进制编码方便，一般会把底数取为\(2\)。在连续的情形，我们又经常会把底数取为\(e\)。）

根据我们的定义，由于\(p(x)\)始终小于1，\(H(X)\)始终是非负的。我们注意到，熵的值只取决于概率分布本身（甚至不取决于分布的排列顺序），而不取决于在每个概率密度上的具体取值。从期望的角度，熵的定义可以等价地写作\(-\log p(X)\)这个随机变量（\(p(X)(x):=\Pr[X=x]\)）的期望：\(H(X)=\E\left[-\log p(X)\right]\)。也就是说，熵可以看作随机变量分布的概率密度的对数值的期望。

是什么决定了熵的大小？这是信息论要回答的最关键的问题。我们无法简单而精确地表述出熵的直观意义，但我们大概可以说，我们用熵\(H(X)\)来衡量随机变量的“不确定性”。当\(X\)均匀分布时，我们说它具有最大的不确定性，因为取每个值的概率都相等。而如果\(X\)只有很小概率有一个很大的概率密度，而其余概率密度都很小，那么概率密度的期望就很小，因此熵很小，因为此时我们能够确定\(X\)大概率会取在那个很大的概率密度上，换言之它有着较小的不确定性。

我们来证明一下均匀分布时熵的值是最大的：取\(p(x)=\dfrac{1}{|\mathcal{X}|}\)，\(H(X)=-|\mathcal{X}| \cdot \dfrac{1}{|\mathcal{X}| }\cdot \log \dfrac{1}{|\mathcal{X}| }=\log |\mathcal{X}|\)。而对于\(H(X)=-\sum\limits_{x\in \mathcal{X} } p(x)\log p(x)\)，我们注意到\(\log x\)是上凸函数，因此把\(H(X)=-\sum\limits_{x\in \mathcal{X} } p(x)\log p(x)=\sum\limits_{x\in \mathcal{X}} p(x)\log \dfrac{1}{p(x)}\)看作在\(\log x\)上分别以\(p(x)\)的权重选取\(x_i=\dfrac{1}{p(x)}\)，由Jensen不等式可得\(H(X) \leq \log\left(\sum\limits_{x\in \mathcal{X}}p(x) \cdot \dfrac{1}{p(x)}\right)=\log |\mathcal{X}|\)。当且仅当\(p(x)=\dfrac{1}{| \mathcal{X}|}\)时取到等号。由此可见，离散的随机变量的熵始终满足\(0\leq H(X)\leq \log |\mathcal{X}|\)，均匀分布时取到最大值。

信息论的全部内容都基于熵的定义。这其实并不是一个人为的定义，我们更倾向于认为——这是自然界中本身就存在的一个量！由熵的定义发展出来的信息论解决了编码、通信等诸多领域的问题，逐渐成为信息科学中最基础的理论。

熵在信息论中可以用来描述\(X\)中所包含的“信息”有多少，其单位是bit。为什么随机变量的不确定性就是信息量呢？这个问题需要我们从定义出发发展大量的工具才能精确理解，但现在我们可以对此有一个模糊的感受：我们已经看到，随机变量的熵不超过\(\log|\mathcal{X}|\)。而另一方面，如果我们要对\(X\)的所有可能取值做二进制编码，所需要的位数也不超过\(|\mathcal{X}|\)。然而，如果\(X\)的分布在某些值上特别大而又在某些值上特别小，我们可以在那些常用的值上用尽量少的位数来编码，在那些不常用的值上则采用较长一些的编码，这样我们可以期待平均意义下编码的长度能够小于\(\log |\mathcal{X}|\)。经过论证，我们发现如果采用最优的编码策略，\(X\)的平均意义下编码的长度恰好为\(H(X)\)。自然地我们能够接受，所需要的编码长度越长，它所蕴涵的信息量就越多。这就是我们所说的“\(H(X)\)表示\(X\)中所含的信息量”。

联合熵(Joint Entropy)

两个随机变量的联合分布可以导出“联合熵”。这是很自然的，因为熵是一个仅仅关于分布的函数，只需要一系列离散的概率密度就可以定义。设\(X,Y\)有联合分布的密度函数\(p(x,y)\)，那么定义\(X,Y\)的联合熵为\(H(X,Y)=-\sum\limits_{x \in \mathcal{X}}\sum\limits_{y \in \mathcal{Y}}p(x,y)\log p(x,y)\)。从期望的角度，\(H(X,Y)=-\E[\log p(X,Y)]\)。事实上，我们可以把\((X,Y)\)看作一个整体（一个随机向量），那么\(X,Y\)联合分布的概率密度实际就是这单个随机向量的概率分布，它衡量这个随机向量（另一个新的随机变量）的不确定性。从对称性容易看出，\(H(X,Y)=H(Y,X)\)。

容易验证，如果\(X=Y\)，那么\(p(x,y)>0\)当且仅当\(x=y\)，\(p(x,x)=p(x)\)，代入定义式可得\(H(X,X)=-\sum\limits_{x \in \mathcal{X}}\sum\limits_{y \in \mathcal{X}}p(x,y)\log p(x,y)=-\sum\limits_{x \in \mathcal{X}}p(x,x)\log p(x,x)\)\(-\sum\limits_{x\in\mathcal{X}}p(x)\log p(x)=H(X)\)。所以，两个相同的随机变量的联合熵就等于单个随机变量的熵。从信息量的角度，增加一个相同的随机变量并没有增加信息量。

如果\(X\)是\(Y\)的函数，也即\(Y\)确定时\(X\)会被唯一确定，那么\(y\)确定时使得\(p(x,y)>0\)的只有唯一的\(x\)，因此\(p(x,y)=p(y)\)。于是代入定义可得\(H(X,Y)=-\sum\limits_{x \in \mathcal{X}}\sum\limits_{y \in \mathcal{Y}}p(x,y)\log p(x,y)\)\(=-\sum\limits_{y \in \mathcal{Y}}p(y)\log p(y)=H(Y)\)。\(X\)的信息完全被包含在\(Y\)以内，因此增加\(X\)并不能带来更多的信息。

如果\(X,Y\)独立，那么\(p(x,y)=p(x)p(y)\)。那么\(H(X,Y)=-\sum\limits_{x \in \mathcal{X}}\sum\limits_{y \in \mathcal{Y}}p(x)p(y)[\log p(x)+\log p(y)]\)\(=-\sum\limits_{x \in \mathcal{X}}p(x)\log p(x)\sum\limits_{y \in \mathcal{Y}}p(y)-\sum\limits_{x \in \mathcal{X}}p(x)\sum\limits_{y \in \mathcal{Y}}p(y)\log p(y)\)\(=H(X)+H(Y)\)。两个独立的随机变量的熵恰好是它们熵的和。\(X,Y\)中并没有互相重叠的信息。

联合熵可以继续推广到多元：定义\(H(X_1,\cdots,X_n)=-\sum p(x_1,\cdots,x_n)\log p(x_1,\cdots,x_n)\)\(=-\E[\log p(X_1,\cdots,X_n)]\)。

条件熵(Conditional Entropy)

由随机变量的条件分布可以导出条件熵。对于两个离散随机变量\(X,Y\)，\(p(Y\mid X=x)\)依然是一个概率分布，由此定义\(H(Y\mid X=x)=-\sum\limits_{y\in \mathcal{Y}}p(y\mid X=x)\log p(y\mid X=x)\)。从期望的角度，可以写作\(-\E[\log p(y\mid X=x)]\)。基于\(H(Y\mid X=x)\)，定义\(X,Y\)的条件熵\(H(Y \mid X)=\sum\limits_{x \in \mathcal{X}}p(x)H(Y\mid X=x)\)。它表示已知\(X\)时\(Y\)的不确定性，而“已知\(X\)”是期望意义下的已知。展开\(H(Y\mid X=x)\)这一项，得到\(H(Y\mid X)=-\sum\limits_{x \in \mathcal{X}}\sum\limits_{y \in\mathcal{Y}}p(x)p(y\mid x)\log p(y\mid x)\)。而\(p(x)p(y\mid x)=p(x,y)\)，因此得到条件熵的一般表达式\(H(Y\mid X)=-\sum\limits_{x \in \mathcal{X}}\sum\limits_{y \in\mathcal{Y}}p(x,y)\log p(y\mid x)\)\(=-\E[\log p(Y\mid X)]\)。

注意，\(H(X\mid Y)\)一般不等于\(H(Y \mid X)\)。但可以证明：\(H(X\mid Y)+H(Y)=H(Y\mid X)+H(X)=H(X,Y)\)。这称为熵的计算的链式法则。这可以从概率的链式法则\(p(x,y)=p(x\mid y)p(y)\)直接导出：从期望的角度，\(H(X,Y)=-\E[\log p(X,Y)]=-\E[\log p(X\mid Y)+\log p(Y)]\)\(=H(X\mid Y)+H(Y)\)。另一个是对称的。推广到\(n\)元情形：\(H(X_1,\cdots,X_n)=\sum\limits_{i=1}^{n}H(X_i\mid X_{i-1},\cdots,X_1)\)。

同样的，根据条件概率的定义容易验证\(p(x,y\mid z)=p(x\mid z)\cdot p(y\mid x,z)\)。用同样的方法可以证明\(H(X,Y\mid Z)=H(X\mid Z)+H(Y\mid X,Z)\)。

当\(X\)是\(Y\)的函数时，\(H(X,Y)=H(Y)\)。而\(H(X,Y)=H(Y)+H(X\mid Y)\)，可见此时\(H(X\mid Y)=0\)，\(Y\)已知时\(X\)没有任何不确定性。而反过来，如果\(H(X\mid Y)=0\)，那么\(\sum\limits_{x \in \mathcal{X}}\sum\limits_{y \in\mathcal{Y}}p(x,y)\log p(x\mid y)=0\)，这当且仅当\(p(x\mid y)\)恒等于1，也即\(y\)确定\(x\)确定，\(X\)是\(Y\)的函数。综上我们得到，\(X=f(y)\iff H(X\mid Y)=0\)。

Mutual Information(互信息)

比较\(H(Y\mid X)\)与\(H(Y)\)的大小，从直观上，“X已知”本身提供了信息，这一信息势必会使得\(Y\)的不确定性降低，或至少不会让\(Y\)变得更不确定。因此应当成立不等式\(H(Y \mid X)\leq H(Y)\)。什么时候成立等号呢？代入\(H(Y\mid X)=H(X,Y)-H(X)\)，等号成立时\(H(X,Y)=H(X)+H(Y)\)。我们先前验证了，如果\(X,Y\)是独立的，那么这个等式就成立。直观上，这个不等式（也即差值\(H(Y)-H(Y\mid X)\)）在衡量随机变量\(X,Y\)之间距离独立还有多远。我们定义这个差值为\(X,Y\)的互信息\(I(X;Y)=H(Y)-H(Y\mid X)\)（或对称的\(I(X;Y)=H(X)-H(X\mid Y)\)）。代入化简可得\(I(X;Y)=\sum\limits_{x \in \mathcal{X}}\sum\limits_{y \in \mathcal{Y}}p(x,y)\log \dfrac{p(x,y)}{p(x)p(y)}\)。互信息具有对称性：\(I(X;Y)=I(Y;X)\)。从信息的角度，它描述\(X,Y\)之间有多少共同的信息。如果没有共同的信息（独立），那么互信息为0。

事实上，表达式\(\sum\limits_{x \in \mathcal{X}}p(x)\log \dfrac{p(x)}{q(x)}\)是一种用来衡量分布之间“距离”的一般方式，它称为Kullback-Leibler距离，记为\(D(p(x)||q(x))\)，又称为分布分别为\(p,q\)的两个随机变量的相对熵(Relative Entropy)。互信息可以用KL距离写作\(I(X;Y)=D(p(x,y)||p(x)p(y))\)。（注意，Kullback-Leibler距离是不具有对称性的）

下面我们证明，始终成立\(D(p(x)||q(x))\geq 0\)。这是信息论中最重要的不等式之一，称为信息不等式(Information Inequality)。根据定义，\(D(p(x)||q(x))=\sum\limits_{x \in \mathcal{X}}p(x)\log \dfrac{p(x)}{q(x)}=-\sum\limits_{x \in \mathcal{X}}p(x)\log \dfrac{q(x)}{p(x)}\)。由于\(\log\)是上凸函数，根据Jensen不等式有\(\sum\limits_{x \in \mathcal{X}}p(x)\log \dfrac{q(x)}{p(x)}\leq\log \left(\sum\limits_{x \in \mathcal{X}} p(x)\cdot \dfrac{q(x)}{p(x)}\right)\)\(=\log 1 = 0\)。因此\(D(p||q)\geq 0\)。由于Jensen不等式只在所有点都重合时取等，因此当且仅当\(p,q\)为同一分布时\(D(p||q)=0\)。由\(I(X;Y)=D(p(x,y)||p(x)p(y))\)，可得\(I(X;Y)\geq 0\)。信息不等式表明，互信息始终是非负的！

作为例子，我们取\(q\)为均匀分布，也即\(q(x)\equiv \dfrac{1}{|\mathcal{X}|}\)，那么\(D(p||q)=\sum\limits_{x}p(x)\log p(x)+\sum\limits_xp(x)\log |\mathcal{X}|\)\(=\log|\mathcal{X}|-H(X)\)。由于\(D(p||q)\geq 0\)，这再次表明\(H(X)\)只能在均匀分布时取到最大值\(\log |\mathcal{X}|\)。后续在微分熵中，这是更普适的证明方法。

信息图(The Information Diagram)

\(X,Y\)的熵、联合熵、互信息始终满足\(H(X,Y)=H(X)+H(Y)-I(X;Y)\)。这意味着，我们可以用韦恩图来理解熵与互信息的关系：\(H(X),H(Y)\)是单个圆的面积，\(H(X,Y)\)是并集的面积，而\(I(X;Y)\)是交集的面积。\(H(X\mid Y)\)是\(Y\)去掉\(X\)部分的面积，\(H(Y\mid X)\)是\(X\)去掉\(Y\)部分的面积。

我们可以把信息图推广到以下的三元情形：

在熵与联合熵中，只会涉及逗号与竖线，其中逗号表示对两块面积取并，竖线表示去除对应部分的面积，逗号的优先级高于竖线。在互信息中，会出现分号，其中分号表示对两块面积取交，分号的优先级高于竖线，低于逗号。综合起来，优先级从高到低为\(, > ;>|\)。我们可以验证，根据信息图做恒等变形始终是成立的。其中，为\(I(X;Y\mid Z)=H(X\mid Z)-H(X\mid Y,Z)\)称为条件互信息(Conditional Mutual Information)。条件互信息也具有非负性。\(I(X_1;X_2;X_3)\)仅仅是一个形式上的记号，它并不是互信息，不具有非负性（它也是信息图中唯一可能取负值的一片区域。我们可以证明，当\(X=Y=Z\)时\(I(X;Y;Z)>0\)，而\(Z=X+Y\)时\(I(X;Y;Z)<0\)。）

信息图为我们完整描述了三元以内的所有熵与互信息之间的等式关系。而对于三元以上的信息图，我们不能找到一个把它在平面上画出来的简单方式。但是可以验证，以下基于信息图的理解经过验证在三元以上的情形也是正确的：

①熵的链式法则：\(H(X_1,\cdots,X_n)=\sum\limits_{i=1}^{n}H(X_i\mid X_1,\cdots,X_{i-1})\)（一系列面积取并，等价于每次累加一个新面积去除已经计算过的所有面积）；

②互信息的链式法则：\(I(X_1,\cdots,X_n;Y)=\sum\limits_{i=1}^{n}I(X_i;Y\mid X_{i-1},\cdots,X_1)\)（一系列面积与另一个面积取交，等价于每次累加一个面积与它的交去除所有已经计算过的部分）；

③互信息与熵的转化：\(I(X_1,\cdots,X_n;Y)=H(X_1,\cdots,X_n)-H(X_1,\cdots,X_n\mid Y)\)（将\((X_1,\cdots,X_n)\)看作一个随机向量）；

把\(H(X\mid Y)\leq H(X)\)中的\(X,Y\)看作随机向量推广到多元，可以验证不等式依然成立。那么基于熵的链式法则\(H(X_1,\cdots,X_n)=\sum\limits_{i=1}^{n}H(X_i\mid X_1,\cdots,X_{i-1})\)，可以得到以下不等式，称为The Independence Bound: \(H(X_1,\cdots,X_n)\leq\sum\limits_{i=1}^{n}H(X_i)\)。这直观上表明\(n\)个随机变量联合熵总是不超过各自熵的和。这种系统间的相互影响（重叠的信息）而造成的。如果\(n\)个变量全都互相独立，那么恰好取到等号。这个不等式可以看作信息不等式的一个推论。信息图中真正本质的不等关系只有信息不等式一个（而它的本质是Jensen不等式）。

同样的，基于\(D(p||q)=\E_p\left[\log \dfrac{p(x)}{q(x)}\right]\)，可以定义条件相对熵(Conditional Relative Entropy) \(D(p(y\mid x)||q(y\mid x))=\E_{p(x,y)}\left[\log \dfrac{p(Y\mid X)}{q(Y\mid X)}\right]\)\(=\sum\limits_{x}\sum\limits_{y}p(x,y)\log \dfrac{p(y\mid x)}{q(y\mid x)}\)。

对于\(D(p(x,y)||q(x,y))\)，会出现\(\log \dfrac{p(x,y)}{q(x,y)}\)一项，根据条件概率可以展开为\(\log \dfrac{p(x)p(y\mid x)}{q(x)q(y\mid x)}=\log \dfrac{p(x)}{q(x)}+\log \dfrac{p(y\mid x)}{q(y\mid x)}\)。因此\(D(p(x,y)||q(x,y))=D(p(x)||q(x))+D(p(y\mid x)||q(y\mid x))\)。这是相对熵的链式法则。

马尔科夫链(Markov Chain)

一般来说，根据链式法则，三个随机变量的分布满足\(p(x,y,z)=p(x)p(y\mid x)p(z\mid x,y)\)。假如我们发现分布可以进一步满足\(p(x,y,z)=p(x)p(y\mid x)p(z\mid y)\)，也即在\(X,Y,Z\)的联合分布中\(Z\)总是只依赖于\(Y\)而不依赖于\(X\)，就称这三个随机变量形成了马尔可夫链\(X\to Y \to Z\)。一个很常见的情形是，\(Z=f(Y)\)，此时自然有\(X \to Y \to f(Y)\)。

对于\(X\to Y\to Z\)，根据马尔可夫链定义，由\(p(x,z\mid y)=\dfrac{p(x,y,z)}{p(y)}\)\(=\dfrac{p(x)p(y\mid x)p(z\mid y)}{p(y)}\)\(=\dfrac{p(x,y)p(z\mid y)}{p(y)}=p(x\mid y)p(z\mid y)\)。这说明，马尔可夫链等价于在中间随机变量的条件概率意义下，前后的两个事件是独立的。而这样的定义是对称的，因此\(X\to Y\to Z\)一定同时意味着\(Z\to Y \to X\).

对于马尔可夫链，变量之间的互信息满足以下重要的不等式，称为数据处理不等式(Data-processing inequality)：如果\(X\to Y \to Z\)，那么\(I(X;Y)\geq I(X;Z)\)。它表明，在马尔可夫链中相距更近的两个变量之间的关联一定比更远的变量更紧密。仅仅通过处理\(Y\)的数据来得到的变量\(Z\)不可能帮助我们获得更多信息。证明如下：由于\(X\to Y\to Z\)，因此在\(Y\)的条件下\(X,Z\)独立，那么有\(I(X;Z\mid Y)=0\)。根据链式法则，\(I(X;Y,Z)=I(X;Z)+I(X; Y\mid Z)\)，对称的也有\(I(X;Y,Z)=I(X;Y)+I(X;Z\mid Y)=I(X;Y)\)。因为\(I(X;Y\mid Z)\geq 0\)，因此\(I(X;Z)\leq I(X;Y)\)。

根据\(I(X;Y)=H(X)-H(X\mid Y)\)，\(I(X;Z)=H(X)-H(X\mid Z)\)，数据处理不等式也可以等价地写为\(H(X\mid Y)\leq H(X\mid Z)\)。这说明给定一个马尔可夫链上间隔越远的已知条件，对不确定性的约束效果更弱。

在马尔可夫链中，由于\(I(X;Z\mid Y)\)恒为0，因此我们不需要韦恩图中\((X\cap Z)\setminus Y\)那一片区域，因此可以把韦恩图画成三个山峰的形式。多元的马尔可夫链的韦恩图也是类似的（要保证\(X_1\)和\(X_n\)相交）。

posted @ 2024-02-26 17:25 DennyQi 阅读(398) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

行而上

To The Things Themselves