信息量,信息熵

1. 信息量的多与少

任何事都会承载一定的信息量,包括已发生和未发生的事,只是它们承载的信息量有所不同。如昨天下雨这个已知事件,因为已经发生,你我都知道这件事,故它的信息量为0。但明天会下雨这件事,因为未发生,所以这事的信息量就大。

从上面例子可以看出信息量是一个与事件发生概率相关的概念,一条信息的信息量跟这个信息能解答的问题的不确定性有关。一条信息能解答的问题越不确定,那它包含的信息量就越大。如猜一个骰子最后向上的那面是多少点的游戏,这个游戏可能的情况有6种,但是猜32支球队中谁获得世界杯冠军的游戏则有32种可能。所以“哪支球队最终获得世界杯冠军”的信息量比“骰子最后向上那面是多少点”的信息量大,因为前者是从32种可能中确定答案,而后者是从6种可能中确定答案。

2. 信息量的计算

假设我错过了某年世界杯比赛,现在要去问一个知道比赛结果的朋友“哪支球队最终获得世界杯冠军”?他要求我猜,猜完会告诉我是对还是错,但我每猜一次就要给他一块钱。那么我需要付给他多少钱才能知道谁是冠军?

解:我可以把球队编号,从1到32,然后问“冠军的球队在1-16号中吗?”。假如他告诉我对了,我就问“冠军的球队在1-8号中吗?”。如果他告诉我不对,我就自然就知道冠军队在9-16号中。这样我只需要猜5次就可以知道哪支球队是冠军了(思路类似于折半查找)

所以,“谁是世界杯冠军”这个问题的答案的信息量只值5块钱。香农用“比特”(bit)来作为信息量的单位。像上边“谁是世界杯冠军”这个问题的答案的信息量是5比特。如果是64支球队,“谁是世界杯冠军”这个问题的答案的信息量就是6比特,因为要多猜一次。

对足球了解的朋友看到这有疑问了,他觉得他不需要5次来猜。因为他知道巴西,西班牙,德国等这些强队夺冠的可能性比日本,韩国等球队大的多。所以他可以先把强队分成一组,剩下的其它队伍一组。然后问冠军是否在夺冠热门组里边。重复这样的过程,根据夺冠的概率对剩下的候选球队分组,直至找到冠军队,这样也许三次或四次就猜出结果了。因此,当每支球队夺冠的可能性(概率)不一样时,“谁是世界杯冠军”这个问题的答案的信息量比5比特少。


香农指出
当一件事发生的概率为 \(P(x)\) ,那么它的信息量是 \(-log^{p(x)}\)
香农信息量用于刻画消除随机变量X在x处不确定性所需的信息量的大小

如果我们把事件的所有可能性罗列出来,就可以求得该事件信息量的期望,而信息量的期望即为信息熵
一个随机变量X信息熵的公式定义为:\(-\sum_{i=1}^{n} p(x_{i}) \log p(x_{i})\)
其中 \(x_i\) 是随机变量X的可能取值,之所以称为熵是因为它的定义形式和热力学的熵有很大的相似性
信息熵是用于刻画消除随机变量X不确定性所需要的总体信息量的大小

3. 信息熵公式的个人理解

以下为个人理解,可能不对
假设有A、B、C、D四件事,每次仅其中一件事情发生,每件事发生等概率,管理员知道最终发生了哪件事,管理员要我猜,猜完会告诉是对是错,那么猜几次能知道是哪件事发生了呢?若已知A、B、C、D事件发生概率率分别为 \(\frac{1}{8}\)、 \(\frac{4}{8}\)、 \(\frac{2}{8}\)、 \(\frac{1}{8}\)呢?

  1. A、B、C、D等概率时,因为 \(log^4=2\),所以询问2次即可得知哪件事发生

    对应信息熵式子为

\[\begin{aligned} H &=-\left(\frac{1}{4} \log ^{\frac{1}{4}}+\frac{1}{4} \log ^{\frac{1}{4}}+\frac{1}{4} \log ^{\frac{1}{4}}+\frac{1}{4} \log ^{\frac{1}{4}} \right) \\ &=-\left(\log \frac{1}{4}\right) \\ &=\log ^{4} \\ &=2 \end{aligned} \tag{3.1} \]

如何理解上式4个-\(\frac{1}{4}log^{\frac{1}{4}}\) ? 举A为例,若最终A发生,则要猜 \(log^4\)=2 次才能确定是A发生,另外A发生的概率为\(\frac{1}{4}\),BCD同理。所以式3.1可以理解为猜测次数的期望为2。

图3.1

  1. A、B、C、D概率分别为 \(\frac{1}{8}\)、 \(\frac{4}{8}\)、 \(\frac{2}{8}\)、 \(\frac{1}{8}\)时,按照概率高低排列B、C、A、D,询问时按照概率占比每次折半询问如图3.2所示,先问是不是B,不是再问是不是C,不是最后问是不是A
图3.2

对应信息熵式子为

\[\begin{aligned} H &=-(\frac{4}{8}log^{\frac{4}{8}}+\frac{2}{8}log^{\frac{2}{8}}+\frac{1}{8}log^{\frac{1}{8}}+\frac{1}{8}log^{\frac{1}{8}})\\ &=\frac{4}{8}log^{\frac{8}{4}}+\frac{2}{8}log^{\frac{8}{2}}+\frac{1}{8}log^{\frac{8}{1}}+\frac{1}{8}log^{\frac{8}{1}}\\ &=\frac{4}{8}log^{2}+\frac{2}{8}log^{4}+\frac{1}{8}log^{8}+\frac{1}{8}log^{8}\\ &=1.75 \end{aligned} \tag{3.2} \]

如何理解上式?若结果为A,只需1次即可猜出,为C需要2次,为A或D需要3次,各自的次数乘以相应的概率,得到的结果可以理解为猜测次数的期望1.75

4. 总结

随机变量X在x处的香农信息量定义:

\[-\log p(x)=\log \frac{1}{p(x)} \]

信息熵

\[\begin{aligned} H=\mathrm{E}_{x \sim p(x)}[-\log p(x)] &= -\sum_{i=1}^{n} p(x_{i}) \log p(x_{i})【X为离散型随机变量时】 \\ &= -\int p(x) \log p(x) d x 【X为连续型随机变量时】 \end{aligned} \]

Reference

1. 信息怎样衡量多少?
2. 香农信息量

posted @ 2021-05-25 12:00  MorStar  阅读(380)  评论(0编辑  收藏  举报