摘要: 1.简介 在所有的二元检索模型中,文档会被归为两类,相关文档和不相关文档。我们的任务是确定新来的文档是属于相关文档还是不相关文档。 如何判断相关与否,我们认为新来的文档如果属于相关文档的概率大于不相关文档,则归于相关文档,否则属于不相关文档。 //所谓的贝叶斯分类器 bayes classifer, R relevant , D document //贝叶斯公式 所以 我们判断是相关即要求 这个后面会引出BM25模型 2.如何计算P(D|R) 采用二元模型,我们用一个文档中所有词的出现概率来计算P(D|R),我们不考虑词的位置,也不考虑出现次数,并且我们假设采用1gram模型,也即A 阅读全文
posted @ 2010-07-04 17:52 阁子 阅读(1674) 评论(0) 推荐(0) 编辑