language model —— basic model 语言模型之基础模型

一、发展

起源:统计语言模型起源于 Ponte 和 Croft 在 1998年的 SIGIR上发表的论文

应用:语言模型的应用很多:

corsslingual retrieval

distributed IR

expert finding

passage retrieval

web search

genomics retrieval 基因组学检索

topic tracking

subtopic retrieval

二、basic model

1、Ponte and Croft

核心思想:query likelihood scoring

算法:

clip_image001

两个核心问题: (1) 如何定义 θD?

(2) 怎么计算θD?

多重伯努利模型 mutiple Bernoulli model : 该词出现(=1)或不出现(=0) ,只有两种情况

clip_image002

上述公式没有考虑 TF,若考虑的话,如下:

clip_image003

2、BBN and Twenty-one in TREC-7

本质: unigram model

公式:

clip_image004

平滑上述公式,如下:

clip_image005

文档的得分用下述公式计算:

clip_image006

三、basic model 变体总结

clip_image007

(1)Bernoulli并没有multinomial 受欢迎,因为前者没有考虑TF,即使考虑了,也不太自然

(2)bernoulli的假设是: term出现与否与其他term是独立的

multinomial的假设是:term出现次数与其他term是独立的,及时是出现在不同地方的同一个term

posted @ 2015-03-20 11:30  betterSN  阅读(309)  评论(0编辑  收藏  举报