数学之美- 古德-图灵估计

一个偶然的机会读了吴军老师的《数学之美》，受益匪浅，别于以后的温习就打算写下来

此估计是为训练统计语言模型而提出的，其原理就是对于没有看见的事件，我们不能认为它的发生概率就是零，因此我们从概率的总量（Probability mass）中，分配一个很小的比例给予这些没有看见的事件，这样一来，看见的那些事件的概率总和就要小于1，因此，需要将所有看见的事件概率小一点。至于小多少，要根据“越是不可信的统计折扣越多”的方法进行。

以统计词典的每个词的概率为例，来说明古德-图灵估计公式。

假设在语料库中出现r次的词有Nr个，特别的未出现的词数为N_0，预料库的大小为N。出现r次的词在整个语料库中的相对频度则是r/N，如果不做任何优化处理，就是这个相对的品读作为这些词的概率估计。

现在假定当r比较小时，它的统计可能不可靠，因此出现r次的那些词在计算它们概率时要使用一个更小一点的次数，是dr，古德-图灵估计按照下面的公式计算dr。dr=（r+1）*Nr+1/Nr 显然∑dr*Nr=N，一般来说，出现一次的词数量比出现两次的多，出现两次的比出现三次的多，这种规律称为Zipf定律。

据上对于二元组（w_i-1,w_i）的概率估计P（w_i|w_i-1）也可以做同样的处理。

二元模型概率的公式如下：

f（w_i|w_i-1） if #（w_i|w_i-1）>=T

P（w_i|w_i-1）= f_gt（w_i|w_i-1） if 0<#（w_i|w_i-1）<T

Q（w_i-1）*f（w_i） otherwise

注意：T为某一阀值,f_gt()表示经过古德-图灵估计后的相对频度，而Q（w_i-1）=（1-∑p（w_i|w_i-1））/∑f（w_i）

posted @ 2014-03-18 16:12 场者阅读(2719) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

生为代码狂

代码之美

数学之美- 古德-图灵估计

公告