信息检索模型

语言模型(Language Model)

基于统计语言模型的检索模型于1998年首次提出,借鉴了语音识别领域采用的语言模型技术。
一类最简单的语言模型与一个概率有穷自动机等价。
在一元语言模型中,词出现的先后次序无关紧要,因此,这类模型也往往称为词袋模型

I. 基本思想
区别于其他大多数检索模型从查询到文档(即给定用户查询,如何找出相关的文档),语言模型由文档到查询,即为每个文档建立不同的语言模型,判断由文档生成用户查询的可能性有多大,然后按照这种生成概率由高到低排序,作为搜索结果。

II. 生成查询概率
为每个文档建立一个语言模型,语言模型代表了单词(或单词序列)在文档中的分布情况。针对查询中的单词,每个单词都有一个抽取概率,将这些单词的抽取概率相乘就是文档生成查询的概率。

III. 存在问题
由于一个文档文字内容有限,所以很多查询词都未在文中出现过,生成概率为0,会导致查询整体的生成概率为0,这被称为语言模型的数据稀疏问题,是语言模型方法重点需要解决的问题。

IV. 解决方案
一般采用数据平滑方式解决数据稀疏问题。语言模型检索方法则是为所有单词引入一个背景概率做数据平滑。

原文链接:https://blog.csdn.net/zealfory/article/details/78069043

posted @ 2018-06-02 18:23  Loading~  阅读(464)  评论(0编辑  收藏  举报