考虑一个离散型随机变量
- 信息量可视为“意外的程度”(degree of surprise)关于对该随机变量
x 的掌握; - 如果该事件发生了,而我们事先被告知,该事件极不可能(highly improbable)发生,将会比被告知该事件极极可能发生(very likely)获得更可能多的信息,
- 又或者当我们确定(certain)该变量会发生,且事件确实发生时,我们获得的信息是零(从信息——意外的程度,的观点来看的话)
由以上的感性判断可知:
- 信息的度量与随机变量的概率分布(
p(x) )有关,或者说取决于随机变量的概率分布(p(x) ) - 因此我们定义
h(x) 是p(x) 的单调函数, - 如果两事件
x 和y 彼此无关,因此,可知h(x,y)=h(x)+h(y) ,二者无关时,由概率论的知识可知,p(x,y)=p(x)p(y) ,