数学之美- 古德-图灵估计

一个偶然的机会读了吴军老师的《数学之美》,受益匪浅,别于以后的温习就打算写下来

此估计是为训练统计语言模型而提出的 ,其原理就是对于没有看见的事件,我们不能认为它的发生概率就是零,因此我们从概率的总量(Probability mass)中,分配一个很小的比例给予这些没有看见的事件,这样一来,看见的那些事件的概率总和就要小于1,因此,需要将所有看见的事件概率小一点。至于小多少,要根据“越是不可信的统计折扣越多”的方法进行。

以统计词典的每个词的概率为例,来说明古德-图灵估计公式。

假设在语料库中出现r次的词有Nr个,特别的未出现的词数为N0,预料库的大小为N。出现r次的词在整个语料库中的相对频度则是r/N,如果不做任何优化处理,就是这个相对的品读作为这些词的概率估计。

现在假定当r比较小时,它的统计可能不可靠,因此出现r次的那些词在计算它们概率时要使用一个更小一点的次数,是dr,古德-图灵估计按照下面的公式计算dr。dr=(r+1)*Nr+1/Nr  显然∑dr*Nr=N,一般来说,出现一次的词数量比出现两次的多,出现两次的比出现三次的多,这种规律称为Zipf定律。

据上对于二元组(wi-1,wi)的概率估计P(wi|wi-1)也可以做同样的处理。

二元模型概率的公式如下:

                          f(wi|wi-1)  if #(wi|wi-1)>=T

P(wi|wi-1)= fgt(wi|wi-1)  if 0<#(wi|wi-1)<T

                    Qwi-1)*f(wi)  otherwise

注意:T为某一阀值,fgt()表示经过古德-图灵估计后的相对频度,而Q(wi-1)=(1-∑p(wi|wi-1))/∑f(wi

posted @ 2014-03-18 16:12  场者  阅读(2719)  评论(0编辑  收藏  举报