信息量，信息熵

1. 信息量的多与少

任何事都会承载一定的信息量，包括已发生和未发生的事，只是它们承载的信息量有所不同。如昨天下雨这个已知事件，因为已经发生，你我都知道这件事，故它的信息量为0。但明天会下雨这件事，因为未发生，所以这事的信息量就大。

从上面例子可以看出信息量是一个与事件发生概率相关的概念，一条信息的信息量跟这个信息能解答的问题的不确定性有关。一条信息能解答的问题越不确定，那它包含的信息量就越大。如猜一个骰子最后向上的那面是多少点的游戏，这个游戏可能的情况有6种，但是猜32支球队中谁获得世界杯冠军的游戏则有32种可能。所以“哪支球队最终获得世界杯冠军”的信息量比“骰子最后向上那面是多少点”的信息量大，因为前者是从32种可能中确定答案，而后者是从6种可能中确定答案。

2. 信息量的计算

假设我错过了某年世界杯比赛，现在要去问一个知道比赛结果的朋友“哪支球队最终获得世界杯冠军”？他要求我猜，猜完会告诉我是对还是错，但我每猜一次就要给他一块钱。那么我需要付给他多少钱才能知道谁是冠军？

解：我可以把球队编号，从1到32，然后问“冠军的球队在1-16号中吗？”。假如他告诉我对了，我就问“冠军的球队在1-8号中吗？”。如果他告诉我不对，我就自然就知道冠军队在9-16号中。这样我只需要猜5次就可以知道哪支球队是冠军了（思路类似于折半查找）

所以，“谁是世界杯冠军”这个问题的答案的信息量只值5块钱。香农用“比特”（bit）来作为信息量的单位。像上边“谁是世界杯冠军”这个问题的答案的信息量是5比特。如果是64支球队，“谁是世界杯冠军”这个问题的答案的信息量就是6比特，因为要多猜一次。

对足球了解的朋友看到这有疑问了，他觉得他不需要5次来猜。因为他知道巴西，西班牙，德国等这些强队夺冠的可能性比日本，韩国等球队大的多。所以他可以先把强队分成一组，剩下的其它队伍一组。然后问冠军是否在夺冠热门组里边。重复这样的过程，根据夺冠的概率对剩下的候选球队分组，直至找到冠军队，这样也许三次或四次就猜出结果了。因此，当每支球队夺冠的可能性（概率）不一样时，“谁是世界杯冠军”这个问题的答案的信息量比5比特少。

香农指出
当一件事发生的概率为 \(P(x)\) ，那么它的信息量是 \(-log^{p(x)}\)
香农信息量用于刻画消除随机变量X在x处不确定性所需的信息量的大小

如果我们把事件的所有可能性罗列出来，就可以求得该事件信息量的期望，而信息量的期望即为信息熵
一个随机变量X信息熵的公式定义为：\(-\sum_{i=1}^{n} p(x_{i}) \log p(x_{i})\)
其中 \(x_i\) 是随机变量X的可能取值，之所以称为熵是因为它的定义形式和热力学的熵有很大的相似性
信息熵是用于刻画消除随机变量X不确定性所需要的总体信息量的大小

3. 信息熵公式的个人理解

以下为个人理解，可能不对
假设有A、B、C、D四件事，每次仅其中一件事情发生，每件事发生等概率，管理员知道最终发生了哪件事，管理员要我猜，猜完会告诉是对是错，那么猜几次能知道是哪件事发生了呢？若已知A、B、C、D事件发生概率率分别为 \(\frac{1}{8}\)、 \(\frac{4}{8}\)、 \(\frac{2}{8}\)、 \(\frac{1}{8}\)呢？

A、B、C、D等概率时，因为 \(log^4=2\)，所以询问2次即可得知哪件事发生

对应信息熵式子为

\[\begin{aligned} H &=-\left(\frac{1}{4} \log ^{\frac{1}{4}}+\frac{1}{4} \log ^{\frac{1}{4}}+\frac{1}{4} \log ^{\frac{1}{4}}+\frac{1}{4} \log ^{\frac{1}{4}} \right) \\ &=-\left(\log \frac{1}{4}\right) \\ &=\log ^{4} \\ &=2 \end{aligned} \tag{3.1} \]

如何理解上式4个-\(\frac{1}{4}log^{\frac{1}{4}}\) ? 举A为例，若最终A发生，则要猜 \(log^4\)=2 次才能确定是A发生，另外A发生的概率为\(\frac{1}{4}\)，BCD同理。所以式3.1可以理解为猜测次数的期望为2。

图3.1

A、B、C、D概率分别为 \(\frac{1}{8}\)、 \(\frac{4}{8}\)、 \(\frac{2}{8}\)、 \(\frac{1}{8}\)时，按照概率高低排列B、C、A、D，询问时按照概率占比每次折半询问如图3.2所示，先问是不是B，不是再问是不是C，不是最后问是不是A

图3.2
对应信息熵式子为

\[\begin{aligned} H &=-(\frac{4}{8}log^{\frac{4}{8}}+\frac{2}{8}log^{\frac{2}{8}}+\frac{1}{8}log^{\frac{1}{8}}+\frac{1}{8}log^{\frac{1}{8}})\\ &=\frac{4}{8}log^{\frac{8}{4}}+\frac{2}{8}log^{\frac{8}{2}}+\frac{1}{8}log^{\frac{8}{1}}+\frac{1}{8}log^{\frac{8}{1}}\\ &=\frac{4}{8}log^{2}+\frac{2}{8}log^{4}+\frac{1}{8}log^{8}+\frac{1}{8}log^{8}\\ &=1.75 \end{aligned} \tag{3.2} \]

如何理解上式？若结果为A，只需1次即可猜出，为C需要2次，为A或D需要3次，各自的次数乘以相应的概率，得到的结果可以理解为猜测次数的期望1.75

4. 总结

随机变量X在x处的香农信息量定义：

\[-\log p(x)=\log \frac{1}{p(x)} \]

信息熵

\[\begin{aligned} H=\mathrm{E}_{x \sim p(x)}[-\log p(x)] &= -\sum_{i=1}^{n} p(x_{i}) \log p(x_{i})【X为离散型随机变量时】 \\ &= -\int p(x) \log p(x) d x 【X为连续型随机变量时】 \end{aligned} \]

Reference

1. 信息怎样衡量多少？
2. 香农信息量

posted @ 2021-05-25 12:00 MorStar 阅读(380) 评论(0) 编辑收藏举报

刷新页面返回顶部

MorStar-Lab