关于信息熵的记忆笔记

对于变量x,符合一定的概率分布p(x）

entropy：　　从编码的角度是平均编码长度

　　　　　　　　

　　　　　　其中p(x)的概率分布对于entropy的大小有着决定性的影响。

　　　　　　如果x~p，且x的取值的概率几乎相等，则entropy较大，否则较小。

　　　　　　也可以理解为：不确定性越高，则entropy越大，反之越小。

对于变量x有两种分布p，q

cross-entropy：　　从编码的角度就是符合q分布的变量使用q的编码方式，或者相反。

　　　　　　　　符合q分布的变量使用q的编码方式：

　　　　　　

　　　　　　如果p，q概率分布约接近的话，H_p(q)会与H(q)的大小越接近。

　　　　　　需要注意不存在等式：

　　　　　　

KL-divergence(Kullback–Leibler divergence):

　　　　　　

　　　　　　这个可以用用来衡量两种概率分布p，q之间的差异程度。

变量x，y，且（x,y）~p

joint entroy：　　需要编码多个变量需要的平均编码长度

　　　　　　

变量x,y .P(x)便是x的概率.P(x|y)表示在y发生的条件下，x发生的概率。

conditional entropy:

　　　　　　　

　　　　　　　　条件熵一定程度上，可以用来缩减平均编码长度。

mutual infomation:

　　　　　　　

　　　　　　可以看作是变量（x，y）存在一一对应的二元组所占用的平均编码长度。

　　　　　　一个瑕疵的图可以表示为：　

　　　　　　　

variation of information：

　　　　　　

one equation:

　　　　　　

one inequality:

　　　　　　

　　

posted @ 2018-03-25 15:12 code-cultivater 阅读(159) 评论(0) 收藏举报

刷新页面返回顶部