摘要:
地址:https://en.wikipedia.org/wiki/Okapi_BM25Ininformation retrieval,Okapi BM25(BM stands for Best Matching) is aranking functionused bysearch enginesto... 阅读全文
摘要:
BM25算法的全称是 Okapi BM25,是一种二元独立模型的扩展,也可以用来做搜索的相关度排序。Sphinx的默认相关性算法就是用的BM25。Lucene4.0之后也可以选择使用BM25算法(默认是TF-IDF)。如果你使用的solr,只需要修改schema.xml,加入下面这行就可以BM25也... 阅读全文
摘要:
Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很复杂,但是它其实只包含了两个简单规则某个词或短语在一篇文章中出现的次数越多,越相关整个文档集合中包含某... 阅读全文