关于信息熵的记忆笔记
对于变量x,符合一定的概率分布p(x)
entropy: 从编码的角度是平均编码长度
其中p(x)的概率分布对于entropy的大小有着决定性的影响。
如果x~p,且x的取值的概率几乎相等,则entropy较大,否则较小。
也可以理解为 :不确定性越高,则entropy越大,反之越小。
对于变量x有两种分布p,q
cross-entropy: 从编码的角度就是符合q分布的变量使用q的编码方式,或者相反。
符合q分布的变量使用q的编码方式:

如果p,q概率分布约接近的话,Hp (q)会与H(q)的大小越接近。
需要注意不存在等式:
![]()
KL-divergence(Kullback–Leibler divergence):
![]()
这个可以用用来衡量两种概率分布p,q之间的差异程度。
变量x,y,且(x,y)~p
joint entroy: 需要编码多个变量需要的平均编码长度

变量x,y .P(x)便是x的概率.P(x|y)表示在y发生的条件下,x发生的概率。
conditional entropy:

条件熵一定程度上,可以用来缩减平均编码长度。
mutual infomation:
![]()
可以看作是变量(x,y)存在一一对应的二元组所占用的平均编码长度。
一个瑕疵的图可以表示为:

variation of information:
![]()
one equation:

one inequality:
![]()

浙公网安备 33010602011771号