爱开卷360

2011年11月15日

摘要： bobo-browse 是一用java写的lucene扩展组件，通过它可以很方便在lucene上实现分组统计功能。可以从http://sna-projects.com/bobo/上下载和查看相关文档。下面介绍如何使用：第一步：设置相关配置文件bobo-browse 使用了spring，这里主要配置bobo.spring和field.xml两个文件。可以从他的源码例子中找到这两个文件，参考它做相应的修改。bobo.spring<?xml version="1.0" encoding="UTF-8"?> <beans xmlns=" 阅读全文

posted @ 2011-11-15 12:21 爱开卷360 阅读(1418) 评论(0) 推荐(0) 编辑

Apache Lucene 评分原理及代码分析

摘要：在IndexSearcher类中有一个管理Lucene得分情况的方法，如下所示：1 public Explanation explain(Weight weight, int doc) throws IOException {2 return weight.explain(reader, doc);3 }返回的这个Explanation的实例解释了Lucene中Document的得分情况。我们可以测试一下，直观地感觉一下到底这个Explanation的实例都记录了一个Document的哪些信息。写一个测试类，如下所示： 1 package org.shirdrn.lucene.lea... 阅读全文

posted @ 2011-11-15 10:01 爱开卷360 阅读(1221) 评论(0) 推荐(0) 编辑

2011年11月14日

Lucene关于实现Similarity自定义排序

摘要：开场白:作为一个人才网站的搜索功能,不但需要考滤搜索性能与效率，与需要注意用户体验,主要体现于用户对搜索结果的满意程度.大家都知道Lucene的排序中,如果单纯使用Lucene的DefaultSimilarity作为一个相似度的排序,意思是说总体上越相关的记录需要排得越前,但事与愿违.这样使用户体现也表现得相当糟糕.关键字"程序员"标题中也不能保证全部都匹配到(搜索结果来自 www.jobui.com 职友集) [下图]起因：之很长一段时间我都注重于搜索性能与速度的提高,而对于搜索结果对用户的体验却一直没有太多的关注,现在需要关注一下用户体现这个东西了.同时技术上也作为一些阅读全文

posted @ 2011-11-14 11:35 爱开卷360 阅读(8044) 评论(2) 推荐(0) 编辑

SOLR同义词中文问题

摘要：现象：在synonyms.txt输入中文同义词后，Tomcat启动报错，不能读取文件。原因：使用SOLR加入中文同义词需要把synonyms.txt的默认编码改成与自己系统使用的编码一致。比如说：你整个系统的编码都是用UTF-8,那么你就要把synonyms.txt这个文件的编码格式转换成UTF-8。原因是，对某个词进行同义的时候找到的词是乱码，而乱码在对于的索引中是没有存在的。这也就导致了中文不可以使用的原因。解决：在eclipse里把synonyms.txt文件编码格式转成UTF-8（系统默认UTF-8），然后再输入中文同义词，保存，重启tomcat，问题解决。总结：SOLR中文分词无法阅读全文

posted @ 2011-11-14 11:03 爱开卷360 阅读(2948) 评论(0) 推荐(0) 编辑

2011年11月11日

基于词典的逆向最大匹配中文分词算法，更好实现中英文数字混合分词

摘要：基于词典的逆向最大匹配中文分词算法，能实现中英文数字混合分词。比如能分出这样的词：bb霜、3室、乐phone、touch4、mp3、T恤。实际分词效果比正向分词效果好 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->publicclass RMM{ privatestaticfinal Log log = LogFactory.getLog(RMM.class); privatestatic HashMap<String, Intege 阅读全文

posted @ 2011-11-11 16:48 爱开卷360 阅读(1500) 评论(1) 推荐(0) 编辑

基于词典的正向最大匹配中文分词算法，能实现中英文数字混合分词

摘要：基于词典的正向最大匹配中文分词算法，能实现中英文数字混合分词。比如能分出这样的词：bb霜、3室、乐phone、touch4、mp3、T恤第一次写中文分词程序，欢迎拍砖。Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->publicclass MM2 { privatestaticfinal Log log = LogFactory.getLog(MM2.class); privatestatic HashMap<String, Integ 阅读全文

posted @ 2011-11-11 16:46 爱开卷360 阅读(2546) 评论(0) 推荐(0) 编辑

Apache Lucene 几种分词系统

摘要： 1、 StopAnalyzerStopAnalyzer能过滤词汇中的特定字符串和词汇，并且完成大写转小写的功能。2、 StandardAnalyzerStandardAnalyzer根据空格和符号来完成分词，还可以完成数字、字母、E-mail地址、IP地址以及中文字符的分析处理，还可以支持过滤词表，用来代替StopAnalyzer能够实现的过滤功能。3、 SimpleAnalyzerSimpleAnalyzer具备基本西文字符词汇分析的分词器，处理词汇单元时，以非字母字符作为分割符号。分词器不能做词汇的过滤，之进行词汇的分析和分割。输出地词汇单元完成小写字符转换，去掉标点符号等分割符。在全文检阅读全文

posted @ 2011-11-11 12:07 爱开卷360 阅读(6784) 评论(0) 推荐(0) 编辑

2011年11月10日

Apache Solr facet 分组查询

摘要：介绍一下Solr的分组查询方式：public static Map<String, Integer> queryByGroup(String qStr,String groupField,String sortField,boolean asc,Integer pageSize,Integer pageNum){ Map<String, Integer> rmap = new LinkedHashMap<String, Integer>(); try { SolrServer server = getSolrServer();//getSolrServer( 阅读全文

posted @ 2011-11-10 09:56 爱开卷360 阅读(2812) 评论(0) 推荐(0) 编辑

solr 查询参数说明

摘要： solr 查询参数说明备忘常用q - 查询字符串，必须的。fl - 指定返回那些字段内容，用逗号或空格分隔多个。start - 返回第一条记录在完整找到结果中的偏移位置，0开始，一般分页用。rows - 指定返回结果最多有多少条记录，配合start来实现分页。sort - 排序，格式：sort=<field name>+<desc|asc>[,<field name>+<desc|asc>]… 。示例：（inStock desc, price asc）表示先 “inStock” 降序, 再 “price” 升序，默认是相关性降序。wt - (wr 阅读全文

posted @ 2011-11-10 09:51 爱开卷360 阅读(1007) 评论(0) 推荐(0) 编辑

2011年11月8日

Eclipse远程调试Java程序

摘要：今天同事问我怎么远程调试 java 程序。我不会，那马上搜索看看。在被高度的程序中加个数据就行。然后 eclipse 调试时指定端口就行，太方便了。比如，现在有一个代码：把这个java 导出为 remoting-debug.jar 上传到目标机器（当然本地也行）。然后在目标机器上运行：java -Xdebug -Xrunjdwp:transport=dt_socket,server=y,address=8000 -jar remoting-debug.jar 会出现：Listening for transport dt_socket at address: 8000程序正在等待调试。右击 .. 阅读全文

posted @ 2011-11-08 12:42 爱开卷360 阅读(674) 评论(0) 推荐(0) 编辑

好文章 • 爱开卷 • 360Tech

公告