2015 年 6月 15 日随笔档案 - lvyafei

2015年6月15日

摘要：最近想学习下Lucene ，以前运行的Demo就感觉很神奇，什么原理呢，尤其是查找相似度最高的、最优的结果。索性就直接跳到这个问题看，很多资料都提到了VSM（Vector Space Model）即向量空间模型，根据这个模型可以对搜索的结果进行最优化的筛选，目前还不知道如何证明，只能凭借想象应该是这... 阅读全文

posted @ 2015-06-15 18:08 lvyafei 阅读(582) 评论(0) 推荐(0) 编辑

Solr相似度算法四：IBSimilarity

摘要： Information based:它与Diveragence from randomness模型非常相似。与DFR相似度模型类似，据说该模型也适用于自然语言类的文本。阅读全文

posted @ 2015-06-15 17:03 lvyafei 阅读(682) 评论(0) 推荐(0) 编辑

Solr相似度算法三：DRFSimilarity框架介绍

摘要：地址:http://terrier.org/docs/v3.5/dfr_description.htmlThe Divergence from Randomness (DFR) paradigm is a generalisation of one of the very first models ... 阅读全文

posted @ 2015-06-15 17:00 lvyafei 阅读(881) 评论(0) 推荐(0) 编辑

Solr相似度算法三：DRFSimilarity

摘要：该Similarity 实现了 divergence from randomness（偏离随机性）框架,这是一种基于同名概率模型的相似度模型.该 similarity有以下配置选项:basic_model– 可能的值:be,d,g,if,in,ine和p。after_effect– 可能的值:no,... 阅读全文

posted @ 2015-06-15 16:50 lvyafei 阅读(651) 评论(0) 推荐(0) 编辑

Solr相似度算法二：Okapi BM25

摘要：地址：https://en.wikipedia.org/wiki/Okapi_BM25Ininformation retrieval,Okapi BM25(BM stands for Best Matching) is aranking functionused bysearch enginesto... 阅读全文

posted @ 2015-06-15 16:48 lvyafei 阅读(1255) 评论(0) 推荐(0) 编辑

Solr相似度算法二：BM25Similarity

摘要： BM25算法的全称是 Okapi BM25，是一种二元独立模型的扩展，也可以用来做搜索的相关度排序。Sphinx的默认相关性算法就是用的BM25。Lucene4.0之后也可以选择使用BM25算法(默认是TF-IDF)。如果你使用的solr，只需要修改schema.xml，加入下面这行就可以BM25也... 阅读全文

posted @ 2015-06-15 16:20 lvyafei 阅读(1687) 评论(0) 推荐(0) 编辑

Solr相似度算法一：Lucene TF-IDF 相关性算分公式

摘要： Lucene在进行关键词查询的时候，默认用TF-IDF算法来计算关键词和文档的相关性，用这个数据排序TF:词频,IDF：逆向文档频率，TF-IDF是一种统计方法，或者被称为向量空间模型,名字听起来很复杂，但是它其实只包含了两个简单规则某个词或短语在一篇文章中出现的次数越多，越相关整个文档集合中包含某... 阅读全文

posted @ 2015-06-15 16:13 lvyafei 阅读(2017) 评论(0) 推荐(0) 编辑

lvyafei

公告