信息的度量和作用

1.信息熵:

     一条信息的信息量和它的不确定性有着直接的关系,所有信息量就等于不确定性的多少
     
     度量工具:
          对于任意一个随机变量X,其熵定义如下:
               H(x)=-∑P(x)logP(x),其中x∈X
 
2.信息的作用:用来消除不确定性
     一个事物内部会存在随机性,即不确定性,假定为U,要从外部消除此不确定性唯一的办法是输出信息I,而引入的信息量取决于不确定性的大小,即I>U,当I<U时,输出的信息可以消除一部分不确定性,产生新的不确定性U'=U-I
     
     误区:如果没有信息输出,任何公式或者数字游戏都无法排除不确定性.
 
     网页搜索本质是利用信息消除不确定性的过程,如果提供的信息不够多,应该挖掘新的隐含的信息,如网页本身的质量信息,如果这些信息还是不能够消除不确定性,不妨再问问用户。在不引入新的信息的情况下,在其他的在关键字上玩数字游戏,是无法消除不确定性的
     信息的作用在于消除不确定性,自然语言处理的大量问题就是找相关的信息
 
3.条件熵:
     只有当输入的信息跟原始信息相关时,才能消除原始信息的不确定性
     假设X、Y是两个随机变量,X是我们需要了解的,如果知道了X的概率分布,那么就知道了X的熵,即其不确定性;
     如果现在还知道Y的一些情况,包括和X一起出现的概率,在数学上称为联合概率分布(Joint Probability),以及在Y去不同值的前提下X的概率分布,在数学上称为条件概率分布,定义在Y的条件下X的条件熵为:
  
          可以证明H(X)大于等于H(X|Y),即在知道Y的情况下,X的不确定性下降了(X Y是相关的)
          同时H(X|Y)大于等于H(X|Y,Z),即三元模型应该比二元的好
     
     
4.互信息:
     对两个随机事件"相关性"的量化度量,即在了解其中一个Y的前提下,对消除另一个X不确定性所提供的信息量:
     
     对于两个随机事件X和Y,其互信息
          I(X;Y)=H(X)-H(X|Y)

          其值取值在0到min(H(X),H(Y))之间的函数,当X、Y完全相关时,取值为1,当两者完全无关时,取值为0

 
     用途:消除奇异,通过两种不同含义上下文出现的词和本次出现词的相关性来消除词的奇异
 
5.相对熵:
     也是用来衡量相关性,和变量的互信息不同,它用来衡量两个取值为正数的函数的相似性,定义:
     
      对于此公式:
          a.对于两个完全相同的函数,其相对熵等于0;
          b.相对熵越大,两个函数差异越大;反之,差异越小
          c.对于概率分布或者概率密度函数,如果取值均大于0,相对熵可以度量两个随机分布的差异性
 
     应用:
          衡量两个常用词在不同文本中的概率分布,分析其是否同义;
          根据两篇文章中不同词的分布,分析其内容是否相近等
 
6.评价:
     熵、条件熵、相对熵三个概率与语言模型关系密切
     信息熵是对不确定性的度量,可以直接衡量统计语言模型的好坏;而对于有上下文条件的高级语言模型,应该使用条件熵进行评价;在考虑到从训练预料和真实应用的文本中得到的概率函数有编码,需要用相对熵来评价,贾里尼克从条件熵和相对熵出发,定义了语言模型复杂度的概率,来评价模型的好坏:
          一个模型复杂度越小,每个位置的词越确定,模型越好
posted @ 2017-01-16 15:09  成金之路  阅读(1945)  评论(0编辑  收藏  举报