2010 年 10月 18 日随笔档案 - huangfox

lucene3.0_IndexSearcher过滤

摘要：系列汇总：lucene3.0_基础使用及注意事项汇总lucene中的过滤行为将带有过滤行为的检索分成三个过程：过程1：根据用户指定的检索式获得初步目标结果；过程2：根据指定的条件（可以是检索式）获得过滤器，简单理解过滤器——即哪些文档必须从初步目标结果中kill掉。过程3：将初步目标结果“通过”过滤器的“校验”，获得最终的目标结果。上面三个步骤是一种最基础的过滤行为，用实例简单演示一下：正常检索结果（不适用过滤器，将所有文档打印出来）：Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeH 阅读全文

posted @ 2010-10-18 17:23 huangfox 阅读(1434) 评论(0) 推荐(0) 编辑

lucene3.0_IndexSearcher排序

摘要：系列汇总：lucene3.0_基础使用及注意事项汇总IndexSearcher排序本文主要讲解：1.IndexSearcher中和排序相关的方法及sort类、SortField类（api级别）；2.按文档得分进行排序；3.按文档内部id进行排序；4.数值型、日期型排序注意事项；5.多Field排序；6.通过改变boost值来改变文档的得分。----------------------------------------------------------------------1.IndexSearcher中和排序相关的方法及sort类、SortField类（api级别）；用IndexSear 阅读全文

posted @ 2010-10-18 15:04 huangfox 阅读(2361) 评论(0) 推荐(0) 编辑

[ lucene FAQ ] 如何避免lucene queryparser中文分词的缺陷？[转]

摘要：很多人在使用lucene时会使用其提供的queryparser分析query。不过，lucene的queryparser从一开始到现在都没有充分考虑中文等语言的特点，使得查询中文会出现让人不可理解的查不到结果的情况。这个bug就是LUCENE-2458。这个问题简单说来就是，对于一个连续的中文query，queryparser将Analyzer返回的Term序列构成了PhraseQuery（也有可能是MultiPhraseQuery），而PhraseQuery默认的匹配规则是要求Term序列在索引的文档中完全顺序匹配。这对于英文查询来说是可以接受的，因为queryparser在分析query时阅读全文

posted @ 2010-10-18 14:17 huangfox 阅读(2384) 评论(0) 推荐(0) 编辑

lucene3.0_IndexWriter中的commit、rollback和close

摘要：系列汇总：lucene3.0_基础使用及注意事项汇总IndexWriter中的commit、rollback和close基础介绍（api级别）Commit：Commits all pending changes (added & deleted documents, optimizations, segment merges, added indexes, etc.) to the index, and syncs all referenced index files, such that a reader will see the changes and the index upda 阅读全文

posted @ 2010-10-18 11:30 huangfox 阅读(5873) 评论(2) 推荐(1) 编辑