爱开卷360

2011年11月7日

摘要：在Tomcat6增加 Solr的访问权限方法如下：编辑tomcat6/Catalina/localhost/solr.xml<Context docBase="/var/solr/solr.war" debug="0" privileged="true" allowLinking="true" crossContext="true"><Environment name="solr/home" type="java.lang.String" 阅读全文

posted @ 2011-11-07 14:46 爱开卷360 阅读(7143) 评论(0) 推荐(1)

2011年11月3日

TPCC简单计算法

摘要：计算原则：以单台服务器性能进行计算，即确保单台服务器工作的时候可以满足系统正常运行的需要；假设每天有1万人次来窗口办理业务，每人次办理一项业务。即以每日1万笔前台交易为例进行综合系数的推导：1.假设每月前台交易数（未来5年内的设计指标）为220,000 （有些业务在月初、月末的处理量比较高，按月统计可以平衡此项差异）;2.每日前台交易数=220000/22=10,000 ，即每日 1万笔；3.忙时处理能力：每日交易的80%在4个小时内完成，即10000*80%/4=2000（笔/小时）4.峰值处理能力：2000*2=4000（笔/小时），即峰值处理能力为每小时4000笔，或 67笔/分，假设业阅读全文

posted @ 2011-11-03 18:36 爱开卷360 阅读(841) 评论(0) 推荐(0)

solrj使用demo

摘要： solr服务器类PersonSolrServer.java:import java.net.MalformedURLException; import java.util.ArrayList; import java.util.List; import org.apache.solr.client.solrj.SolrQuery; import org.apache.solr.client.solrj.impl.BinaryRequestWriter; import org.apache.solr.client.solrj.impl.CommonsHttpSolrServer... 阅读全文

posted @ 2011-11-03 15:04 爱开卷360 阅读(3433) 评论(0) 推荐(0)

2011年11月2日

Apache Solr solrconfig.xml 中文说明

摘要： solrconfig.xml文件包含了大部分的参数用来配置Solr本身的。Solrconfig.xml代码dataDirparameter：<dataDir>/var/data/solr</dataDir>用来指定一个替换原先在Solr目录下默认存放所有的索引数据，可以在Solr目录以外的任意目录中。如果复制使用后应该符合该参数。如果这个目录不是绝对路径的话，那么应该以当前的容器为相对路径。mainIndex：这个参数的值用来控制合并多个索引段。<useCompoundFile>：通过将很多Lucene内部文件整合到单一一个文件来减少使用中的文件的数量。这可阅读全文

posted @ 2011-11-02 12:01 爱开卷360 阅读(6253) 评论(0) 推荐(0)

Apache Solr schema.xml及solrconfig.xml文件中文注解

摘要：一、字段配置（schema）schema.xml位于solr/conf/目录下，类似于数据表配置文件，定义了加入索引的数据的数据类型，主要包括type、fields和其他的一些缺省设置。1、先来看下type节点，这里面定义FieldType子节点，包括name,class,positionIncrementGap等一些参数。name：就是这个FieldType的名称。class：指向org.apache.solr.analysis包里面对应的class名称，用来定义这个类型的行为。view plaincopy to clipboardprint?Java代码<schemaname=&qu 阅读全文

posted @ 2011-11-02 11:57 爱开卷360 阅读(2481) 评论(0) 推荐(0)

Apache Solr 扩展

摘要： Solr的扩展(Scaling)当你的索引数量越来越大，你会发现你的搜索响应时间变得更慢，索引新内容的时间也会越来越长，那么，到了做出一些改变的时候了，幸运的是，solr很好的考虑到了这些情况，你只需要改变你的配置就可以了。以下将从三个方面讲述solr的scaling：l调优某个Solr服务器(Scale High)通过缓存和内存管理优化某个单实例的Solr。将Solr部署到一个拥有快速的CPU和硬件的专用服务器，通过调优，最大化的将单个服务器的性能达到最高。l使用多Solr服务器(Scale Wide)使用多Solr服务器。如果你的avgTimePerRequest参数在你可接受的范围内（数阅读全文

posted @ 2011-11-02 10:50 爱开卷360 阅读(5917) 评论(2) 推荐(1)

2011年11月1日

Apache Solr 实现去掉重复的搜索结果

摘要：打上SOLR-236_collapsing.patch补丁，实现 solr 搜索结果折叠、除去重复的搜索结果，可以实现类似google搜索结果的“站内的其它相关信息 ”。solr collapsing patch 是用 hash 某个字段来实现折叠重复结果的。下面我演示下应用这个补丁并搜索试用下。其实 solr 上已经有了这功能的实现：solr 1.3 collapse patch，请看：https://issues.apache.org/jira/browse/SOLR-236，我这里下载是了新的：https://issues.apache.org/jira/secure/attach.. 阅读全文

posted @ 2011-11-01 17:25 爱开卷360 阅读(3751) 评论(2) 推荐(0)

自定义评分器Similarity,提高搜索体验

摘要：首先说一下lucene对文档的评分规则：score(q,d) = coord(q,d) ·queryNorm(q) ·∑(tf(t in d) ·idf(t)2·t.getBoost() ·norm(t,d))具体可以查看相关文章：http://blog.chenlb.com/2009/08/lucene-scoring-architecture.html这里先考虑三个因素coord(q,d)与tf(t in d)，当查询串中，命中的词越多，coord计算的值则越大，某个词在文档中出现的次数越多则tf的值越大。还有就是norm(t,d)，这个主阅读全文

posted @ 2011-11-01 15:33 爱开卷360 阅读(2735) 评论(0) 推荐(0)

Apache Solr索引富文本（html word pdf）

摘要： lucene对索引的更新比solr麻烦，solr只需要调用一个函数UpdateRequest.setAction(AbstractUpdateRequest.ACTION.COMMIT, false, false)就完成了更新，而lucene需要先删除再更新，否则就变成增量索引了lucene更新索引：http://langhua9527.iteye.com/blog/582347前面已经简单介绍了solr的安装与使用，下面来看看如何用客户端solrj来建立索引及查询view plainimportjava.io.IOException;importjava.util.ArrayList;imp 阅读全文

posted @ 2011-11-01 15:16 爱开卷360 阅读(7896) 评论(3) 推荐(0)

2011年10月31日

Apache Solr的索引和查询顺序

摘要：拜读了solr的部分源码,却急于弄明白solr的索引顺序和查询顺序,如下是探访结果.　所有的配置都在solr/example/solr/conf/schema.xml当中. 1  2 <fieldTypename="text"class="solr.TextField"positionIncrementGap="100"autoGeneratePhraseQueries="true"> 3 <!-- 索引顺序1空格2同义词3过滤词4拆字5小写阅读全文

posted @ 2011-10-31 18:54 爱开卷360 阅读(3939) 评论(0) 推荐(0)

好文章 • 爱开卷 • 360Tech

公告