硬学信息熵的一些理解

本博客旨在通过一些例子不严谨但直观的“推出”信息熵的概念。

首先,信息熵是度量一件事儿的不确定性的,而这里“一件事儿”更确切的说是“一个随机变量及其分布”。比如,扔硬币这件事儿其实是离散型随机变量\(P=\{0,1\}\)服从\(\{\frac12,\frac12\}\)的随机分布。

所以,我们定义一个离散型随机变量\(P\)的信息熵为\(H(P)\),我们希望\(P\)越不确定\(H(P)\)就越大。

定义一个量当然要定义这个量一个单位的含义,我们不如就假设,抛一个硬币看正反面所对应的随机变量\(P1\)的信息熵\(H(P1)=1\)

接下来,我们假设有\(H(A+B)=H(A)+H(B)\)成立,即两件事情之和的不确定性等于两件事情各自的不确定性之和,你可能觉得这个假设有些道理又有些没道理,那么不妨继续看下去————如果顺着这个假设能推出来有用的东西,那这个假设自然就是有道理的了。

按照上述假设,我们发现同时抛掷三枚硬币的信息熵应该是\(3H(P1)=3\),而该事件所对应的随机变量\(P2\)是以\(\frac18\)等概率分布的。

对比一下以\(\frac12\)概率等概率分布的\(P1\)信息熵是\(1\),而以\(\frac18\)等概率分布的\(P2\)信息熵是\(3\)。因此我们不妨先写出一个初步的定义:

若随机变量\(P\)是服从以\(p\)为概率的等概率分布,则\(H(p)=-log(p)\)

那么如果不等概率呢?数学感觉好的大佬可能会发现,\(H(P1)=-log(p)=-log(0.5)=1\)可以理解为\(H(P1)=-\frac{log(0.5)}{2}-\frac{log(0.5)}{2}\),即每一种可能性的\(log(p)\)按照其概率\(\frac12\)取平均值。因此大胆猜测,如果有一个随机变量\(P3\)的分布是\(\{\frac14,\frac34\}\)的话,那么其\(H(P3)=-\frac{log(0.25)}{4}-\frac{3log(0.75)}{4}\)

这合理吗?计算发现\(H(P3)=0.81...\),比\(H(P1)=1\)要小,而\(P3\)也确实应该有更小的不确定性(因为\(P3\)\(\frac34\)的概率取到一个值,所以我们可以更确定这个值被取到的概率更大)。

因此,总结上面的内容,我们得到:如果有一个随机变量\(P\)的分布为\(\{p_1,p_2,...,p_n\}\),那么我们定义其信息熵为:$$H(P)=\Sigma_{i=1}^{n} -p_ilog(p_i)$$

posted @ 2020-10-27 15:32  炸鸡块君  阅读(111)  评论(0编辑  收藏  举报