关于信息熵的记忆笔记

对于变量x,符合一定的概率分布p(x)

entropy:  从编码的角度是平均编码长度

        

      其中p(x)的概率分布对于entropy的大小有着决定性的影响。

      如果x~p,且x的取值的概率几乎相等,则entropy较大,否则较小。

      也可以理解为 :不确定性越高,则entropy越大,反之越小。


对于变量x有两种分布p,q

 cross-entropy:  从编码的角度就是符合q分布的变量使用q的编码方式,或者相反。

        符合q分布的变量使用q的编码方式:

      

      如果p,q概率分布约接近的话,H(q)会与H(q)的大小越接近。

      需要注意不存在等式:

      


KL-divergence(Kullback–Leibler divergence):

      

      这个可以用用来衡量两种概率分布p,q之间的差异程度。


 

变量x,y,且(x,y)~p

joint entroy:  需要编码多个变量需要的平均编码长度

      


 

变量x,y  .P(x)便是x的概率.P(x|y)表示在y发生的条件下,x发生的概率。

conditional entropy:

       

        条件熵一定程度上,可以用来缩减平均编码长度。


 

mutual infomation:

       

 

      可以看作是变量(x,y)存在一一对应的二元组所占用的平均编码长度。

      一个瑕疵的图可以表示为: 

       


variation of information:

      


one equation:

      


 

one inequality:

      

 

 

   

 

 

posted @ 2018-03-25 15:12  code-cultivater  阅读(159)  评论(0)    收藏  举报