信息量,信息熵
1. 信息量的多与少
任何事都会承载一定的信息量,包括已发生和未发生的事,只是它们承载的信息量有所不同。如昨天下雨这个已知事件,因为已经发生,你我都知道这件事,故它的信息量为0。但明天会下雨这件事,因为未发生,所以这事的信息量就大。
从上面例子可以看出信息量是一个与事件发生概率相关的概念,一条信息的信息量跟这个信息能解答的问题的不确定性有关。一条信息能解答的问题越不确定,那它包含的信息量就越大。如猜一个骰子最后向上的那面是多少点的游戏,这个游戏可能的情况有6种,但是猜32支球队中谁获得世界杯冠军的游戏则有32种可能。所以“哪支球队最终获得世界杯冠军”的信息量比“骰子最后向上那面是多少点”的信息量大,因为前者是从32种可能中确定答案,而后者是从6种可能中确定答案。
2. 信息量的计算
假设我错过了某年世界杯比赛,现在要去问一个知道比赛结果的朋友“哪支球队最终获得世界杯冠军”?他要求我猜,猜完会告诉我是对还是错,但我每猜一次就要给他一块钱。那么我需要付给他多少钱才能知道谁是冠军?
所以,“谁是世界杯冠军”这个问题的答案的信息量只值5块钱。香农用“比特”(bit)来作为信息量的单位。像上边“谁是世界杯冠军”这个问题的答案的信息量是5比特。如果是64支球队,“谁是世界杯冠军”这个问题的答案的信息量就是6比特,因为要多猜一次。
对足球了解的朋友看到这有疑问了,他觉得他不需要5次来猜。因为他知道巴西,西班牙,德国等这些强队夺冠的可能性比日本,韩国等球队大的多。所以他可以先把强队分成一组,剩下的其它队伍一组。然后问冠军是否在夺冠热门组里边。重复这样的过程,根据夺冠的概率对剩下的候选球队分组,直至找到冠军队,这样也许三次或四次就猜出结果了。因此,当每支球队夺冠的可能性(概率)不一样时,“谁是世界杯冠军”这个问题的答案的信息量比5比特少。
香农指出
当一件事发生的概率为 \(P(x)\) ,那么它的信息量是 \(-log^{p(x)}\)
香农信息量用于刻画消除随机变量X在x处不确定性所需的信息量的大小
如果我们把事件的所有可能性罗列出来,就可以求得该事件信息量的期望,而信息量的期望即为信息熵
一个随机变量X信息熵的公式定义为:\(-\sum_{i=1}^{n} p(x_{i}) \log p(x_{i})\)
其中 \(x_i\) 是随机变量X的可能取值,之所以称为熵是因为它的定义形式和热力学的熵有很大的相似性
信息熵是用于刻画消除随机变量X不确定性所需要的总体信息量的大小
3. 信息熵公式的个人理解
以下为个人理解,可能不对
假设有A、B、C、D四件事,每次仅其中一件事情发生,每件事发生等概率,管理员知道最终发生了哪件事,管理员要我猜,猜完会告诉是对是错,那么猜几次能知道是哪件事发生了呢?若已知A、B、C、D事件发生概率率分别为 \(\frac{1}{8}\)、 \(\frac{4}{8}\)、 \(\frac{2}{8}\)、 \(\frac{1}{8}\)呢?
- A、B、C、D等概率时,因为 \(log^4=2\),所以询问2次即可得知哪件事发生
对应信息熵式子为
如何理解上式4个-\(\frac{1}{4}log^{\frac{1}{4}}\) ? 举A为例,若最终A发生,则要猜 \(log^4\)=2 次才能确定是A发生,另外A发生的概率为\(\frac{1}{4}\),BCD同理。所以式3.1可以理解为猜测次数的期望为2。
- A、B、C、D概率分别为 \(\frac{1}{8}\)、 \(\frac{4}{8}\)、 \(\frac{2}{8}\)、 \(\frac{1}{8}\)时,按照概率高低排列B、C、A、D,询问时按照概率占比每次折半询问如图3.2所示,先问是不是B,不是再问是不是C,不是最后问是不是A
对应信息熵式子为
4. 总结
随机变量X在x处的香农信息量定义:
信息熵