信息熵
对于一个随机变量x,当我们观察到它的一个具体取值时,我们得到了多少信息呢?如果有人告诉我们一个很不可能发生的事件发生了,我们得到的信息显然要多于我们被告知一个很可能发生的事件发生了。一定会发生的事件,说了跟没说一样,俗称“废话”,不包含信息。因此,信息的量化跟事件发生的概率有关。假设我们用h(x)来表示信息量,则它是一个关于概率分布p(x)的函数,即h(x) = f(p(x))。
h(x, y) = h(x) + h(y) = f(p(x)) + f(p(y)) = f(p(x, y))
p(x, y) = p(x)p(y)
h(x) = -log2p(x)