摘要: 一个偶然的机会读了吴军老师的《数学之美》,受益匪浅,别于以后的温习就打算写下来此估计是为训练统计语言模型而提出的 ,其原理就是对于没有看见的事件,我们不能认为它的发生概率就是零,因此我们从概率的总量(Probability mass)中,分配一个很小的比例给予这些没有看见的事件,这样一来,看见的那些事件的概率总和就要小于1,因此,需要将所有看见的事件概率小一点。至于小多少,要根据“越是不可信的统计折扣越多”的方法进行。以统计词典的每个词的概率为例,来说明古德-图灵估计公式。假设在语料库中出现r次的词有Nr个,特别的未出现的词数为N0,预料库的大小为N。出现r次的词在整个语料库中的相对频度则是r 阅读全文
posted @ 2014-03-18 16:12 场者 阅读(2719) 评论(0) 推荐(0) 编辑