lvyafei

2015年6月15日

摘要：地址：https://en.wikipedia.org/wiki/Okapi_BM25Ininformation retrieval,Okapi BM25(BM stands for Best Matching) is aranking functionused bysearch enginesto... 阅读全文

posted @ 2015-06-15 16:48 lvyafei 阅读(1267) 评论(0) 推荐(0) 编辑

Solr相似度算法二：BM25Similarity

摘要： BM25算法的全称是 Okapi BM25，是一种二元独立模型的扩展，也可以用来做搜索的相关度排序。Sphinx的默认相关性算法就是用的BM25。Lucene4.0之后也可以选择使用BM25算法(默认是TF-IDF)。如果你使用的solr，只需要修改schema.xml，加入下面这行就可以BM25也... 阅读全文

posted @ 2015-06-15 16:20 lvyafei 阅读(1716) 评论(0) 推荐(0) 编辑

Solr相似度算法一：Lucene TF-IDF 相关性算分公式

摘要： Lucene在进行关键词查询的时候，默认用TF-IDF算法来计算关键词和文档的相关性，用这个数据排序TF:词频,IDF：逆向文档频率，TF-IDF是一种统计方法，或者被称为向量空间模型,名字听起来很复杂，但是它其实只包含了两个简单规则某个词或短语在一篇文章中出现的次数越多，越相关整个文档集合中包含某... 阅读全文

posted @ 2015-06-15 16:13 lvyafei 阅读(2042) 评论(0) 推荐(0) 编辑

2015年6月12日

Solr相似度算法一：DefaultSimilarity(基于TF-IDF的默认相似度算法)

摘要：默认的similarity是基于TF/IDF 模块. 该 similarity有以下配置选项:discount_overlaps–确定是否重叠的标识（标记位置增量为0）都将被忽略在正常计算的时候。默认情况下是：true，这意味着重叠标记在计算时不计数。阅读全文

posted @ 2015-06-12 17:18 lvyafei 阅读(1035) 评论(0) 推荐(0) 编辑

2015年6月11日

Solr特性：Schemaless Mode(自动往Schema中添加field)

摘要： WiKi:https://cwiki.apache.org/confluence/display/solr/Schemaless+Mode介绍：Schemaless Mode is a set of Solr features that, when used together, allow user... 阅读全文

posted @ 2015-06-11 14:39 lvyafei 阅读(1631) 评论(0) 推荐(0) 编辑

2015年6月10日

Mahout的taste里的几种相似度计算方法

摘要：欧几里德相似度（Euclidean Distance）最初用于计算欧几里德空间中两个点的距离，以两个用户x和y为例子，看成是n维空间的两个向量x和y, xi表示用户x对itemi的喜好值，yi表示用户y对itemi的喜好值，他们之前的欧几里德距离是对应的欧几里德相似度，一般采用以下公式进行转换：距离... 阅读全文

posted @ 2015-06-10 09:16 lvyafei 阅读(282) 评论(0) 推荐(0) 编辑

2015年6月2日

Solr之functionQuery(函数查询)

摘要： Solr函数查询让我们可以利用 numeric域的值或者与域相关的的某个特定的值的函数，来对文档进行评分。怎样使用函数查询这里主要有两种方法可以使用函数查询，这两种方法都是通过solr http 接口的。内嵌在正常的solr查询表达式中。即，将函数查询写在 q这个参数中，这时候，我们使用_va... 阅读全文

posted @ 2015-06-02 17:16 lvyafei 阅读(268) 评论(0) 推荐(0) 编辑

Solr中的一些查询参数

摘要： fl: 是逗号分隔的列表，用来指定文档结果中应返回的 Field 集。默认为 “*”，指所有的字段。defType: 指定query parser，常用defType=lucene, defType=dismax, defType=edismaxq: query。q.alt: 当q字段为空时，用于设... 阅读全文

posted @ 2015-06-02 14:25 lvyafei 阅读(259) 评论(0) 推荐(0) 编辑

solr特点三: 基于Solr实现排序定制化参考

摘要：排序实现有N种形式，最低成本、最快响应时间是目标一份索引，支持N种排序策略并且在线互不干扰是要考虑的每一种实现，处理的场景是不同的，不要千篇一律 020排序，从索引到效果，有不少坑，这篇文章没有细说，原因是有些内容不好公开几点基础概念回顾（1）排序定制化不同于实现业务排序。实现业务排序可以是查阶段... 阅读全文

posted @ 2015-06-02 11:08 lvyafei 阅读(1143) 评论(0) 推荐(0) 编辑

solr特点三: 排序样例汇总

摘要：目的是提供solrj 实现查询的样例参考单维度排序//查询条件query.setQuery(queryString);// add 是添加query.addSortField(field_price, ORDER.asc);//set是覆盖，也就是后面的覆盖前面的。query.setSortFie... 阅读全文

posted @ 2015-06-02 11:06 lvyafei 阅读(727) 评论(0) 推荐(0) 编辑

Solr中的概念:分析器(analyzer)、字符过滤器(character filter)、分词器（Tokenizer）、词元过滤器（Token Filter）、词干化(Stemming)

摘要：文本中包含许多文本处理步骤，比如：分词，大写转小写，词干化，同义词转化和许多的文本处理。文本分析既用于索引时对一文本域的处理，也用于查询时查询字符串的文本处理。文本处理对搜索引擎的搜索结果有着重要的影响，特别是对如召回率的影响。文本分析是将一个文本域的值转化为一个词序列。词是Lucene实际索... 阅读全文

posted @ 2015-06-02 10:48 lvyafei 阅读(2453) 评论(0) 推荐(0) 编辑

2015年5月29日

Solr 使用自定义 Query Parser(短语查询,精准查询)

摘要：原文出处：http://blog.chenlb.com/2010/08/solr-use-custom-query-parser.html由于 Solr 默认的 Query Parser 生成的 Query 一般是 “短语查询”，导致只有很精确的结果才被搜索出来。大部分时候我们要分词后的 Boole... 阅读全文

posted @ 2015-05-29 17:43 lvyafei 阅读(1204) 评论(0) 推荐(0) 编辑

solr-DIH:定时增量索引

摘要：参考：官方文档,http://wiki.apache.org/solr/DataImportHandler#Schedulinggooglecode 找到：https://code.google.com/p/solr-dataimport-scheduler/1.复制solr-4.2.11\solr... 阅读全文

posted @ 2015-05-29 17:39 lvyafei 阅读(306) 评论(0) 推荐(0) 编辑

solr-DIH:dataimport增量全量创建索引

摘要：索引创建完毕，就要考虑怎么定时的去重建，除了写solrj，可以定时调用下面两条url进行增量或者全量创建索引全量:http://ip:port/webapp_name/core_name/dataimport?command=full-import 增量:http://ip:port/webap... 阅读全文

posted @ 2015-05-29 17:37 lvyafei 阅读(426) 评论(0) 推荐(0) 编辑

Solr查询query效果对比

摘要： q条件默认分词（org.apache.solr.analysis.TokenizerChain） "parsedquery"IK分词（org.wltea.analyzer.lucene.IKAnalyzer） "parsedquery"title:李大霄title:招商银行"title:李 t... 阅读全文

posted @ 2015-05-29 17:20 lvyafei 阅读(439) 评论(0) 推荐(0) 编辑

公告