上一页 1 ··· 8 9 10 11 12 13 14 15 16 下一页
摘要: bobo-browse 是一用java写的lucene扩展组件,通过它可以很方便在lucene上实现分组统计功能。可以从http://sna-projects.com/bobo/上下载和查看相关文档。下面介绍如何使用:第一步:设置相关配置文件bobo-browse 使用了spring,这里主要配置bobo.spring和field.xml两个文件。可以从他的源码例子中找到这两个文件,参考它做相应的修改。bobo.spring<?xml version="1.0" encoding="UTF-8"?> <beans xmlns=" 阅读全文
posted @ 2011-11-15 12:21 爱开卷360 阅读(1418) 评论(0) 推荐(0) 编辑
摘要: 在IndexSearcher类中有一个管理Lucene得分情况的方法,如下所示:1 public Explanation explain(Weight weight, int doc) throws IOException {2 return weight.explain(reader, doc);3 }返回的这个Explanation的实例解释了Lucene中Document的得分情况。我们可以测试一下,直观地感觉一下到底这个Explanation的实例都记录了一个Document的哪些信息。写一个测试类,如下所示: 1 package org.shirdrn.lucene.lea... 阅读全文
posted @ 2011-11-15 10:01 爱开卷360 阅读(1221) 评论(0) 推荐(0) 编辑
摘要: 开场白:作为一个人才网站的搜索功能,不但需要考滤搜索性能与效率,与需要注意用户体验,主要体现于用户对搜索结果的满意程度.大家都知道Lucene的排序中,如果单纯使用Lucene的DefaultSimilarity作为一个相似度的排序,意思是说总体上越相关的记录需要排得越前,但事与愿违.这样使用户体现也表现得相当糟糕.关键字"程序员"标题中也不能保证全部都匹配到(搜索结果来自 www.jobui.com 职友集) [下图]起因:之很长一段时间我都注重于搜索性能与速度的提高,而对于搜索结果对用户的体验却一直没有太多的关注,现在需要关注一下用户体现这个东西了.同时技术上也作为一些 阅读全文
posted @ 2011-11-14 11:35 爱开卷360 阅读(8044) 评论(2) 推荐(0) 编辑
摘要: 现象:在synonyms.txt输入中文同义词后,Tomcat启动报错,不能读取文件。原因:使用SOLR加入中文同义词需要把synonyms.txt的默认编码改成与自己系统使用的编码一致。 比如说:你整个系统的编码都是用UTF-8,那么你就要把synonyms.txt这个文件的编码格式转换成UTF-8。原因是,对某个词进行同义的时候找到的词是乱码,而乱码在对于的索引中是没有存在的。这也就导致了中文不可以使用的原因。解决:在eclipse里把synonyms.txt文件编码格式转成UTF-8(系统默认UTF-8),然后再输入中文同义词,保存,重启tomcat,问题解决。总结:SOLR中文分词无法 阅读全文
posted @ 2011-11-14 11:03 爱开卷360 阅读(2948) 评论(0) 推荐(0) 编辑
摘要: 基于词典的逆向最大匹配中文分词算法,能实现中英文数字混合分词。比如能分出这样的词:bb霜、3室、乐phone、touch4、mp3、T恤。实际分词效果比正向分词效果好 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->publicclass RMM{ privatestaticfinal Log log = LogFactory.getLog(RMM.class); privatestatic HashMap<String, Intege 阅读全文
posted @ 2011-11-11 16:48 爱开卷360 阅读(1500) 评论(1) 推荐(0) 编辑
摘要: 基于词典的正向最大匹配中文分词算法,能实现中英文数字混合分词。比如能分出这样的词:bb霜、3室、乐phone、touch4、mp3、T恤第一次写中文分词程序,欢迎拍砖。Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->publicclass MM2 { privatestaticfinal Log log = LogFactory.getLog(MM2.class); privatestatic HashMap<String, Integ 阅读全文
posted @ 2011-11-11 16:46 爱开卷360 阅读(2546) 评论(0) 推荐(0) 编辑
摘要: 1、 StopAnalyzerStopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能。2、 StandardAnalyzerStandardAnalyzer根据空格和符号来完成分词,还可以完成数字、字母、E-mail地址、IP地址以及中文字符的分析处理,还可以支持过滤词表,用来代替StopAnalyzer能够实现的过滤功能。3、 SimpleAnalyzerSimpleAnalyzer具备基本西文字符词汇分析的分词器,处理词汇单元时,以非字母字符作为分割符号。分词器不能做词汇的过滤,之进行词汇的分析和分割。输出地词汇单元完成小写字符转换,去掉标点符号等分割符。在全文检 阅读全文
posted @ 2011-11-11 12:07 爱开卷360 阅读(6784) 评论(0) 推荐(0) 编辑
摘要: 介绍一下Solr的分组查询方式:public static Map<String, Integer> queryByGroup(String qStr,String groupField,String sortField,boolean asc,Integer pageSize,Integer pageNum){ Map<String, Integer> rmap = new LinkedHashMap<String, Integer>(); try { SolrServer server = getSolrServer();//getSolrServer( 阅读全文
posted @ 2011-11-10 09:56 爱开卷360 阅读(2812) 评论(0) 推荐(0) 编辑
摘要: solr 查询参数说明备忘常用q - 查询字符串,必须的。fl - 指定返回那些字段内容,用逗号或空格分隔多个。start - 返回第一条记录在完整找到结果中的偏移位置,0开始,一般分页用。rows - 指定返回结果最多有多少条记录,配合start来实现分页。sort - 排序,格式:sort=<field name>+<desc|asc>[,<field name>+<desc|asc>]… 。示例:(inStock desc, price asc)表示先 “inStock” 降序, 再 “price” 升序,默认是相关性降序。wt - (wr 阅读全文
posted @ 2011-11-10 09:51 爱开卷360 阅读(1007) 评论(0) 推荐(0) 编辑
摘要: 今天同事问我怎么远程调试 java 程序。我不会,那马上搜索看看。在被高度的程序中加个数据就行。然后 eclipse 调试时指定端口就行,太方便了。比如,现在有一个代码:把这个java 导出为 remoting-debug.jar 上传到目标机器(当然本地也行)。然后在目标机器上运行:java -Xdebug -Xrunjdwp:transport=dt_socket,server=y,address=8000 -jar remoting-debug.jar 会出现:Listening for transport dt_socket at address: 8000程序正在等待调试。右击 .. 阅读全文
posted @ 2011-11-08 12:42 爱开卷360 阅读(674) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 15 16 下一页