北在北方

太白枝头看,花开不计年,杯中浮日月,楼外是青天。
随笔 - 200, 文章 - 0, 评论 - 239, 阅读 - 68万

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

随笔分类 -  Lucene

摘要:分页查询只需要传入每页显示多少条记录,当前是第几页就可以了。 当然是对搜索返回的结果进行分页,并不是对搜索结果的总数量进行分页,因为我们搜索的时候都是返回前n条记录。 例如indexSearcher.search(query, 100);//只返回前100条记录/** * 对搜索返回的前n条结果进行分页显示 * @param keyWord 查询关键词 * @param pageSize 每页显示记录数 * @param currentPage 当前页 * @throws ParseException * @throws CorruptIndexException ... 阅读全文

posted @ 2012-06-24 21:19 CN.programmer.Luxh 阅读(6364) 评论(4) 推荐(1) 编辑

摘要:默认根据文档查询的相关度得分来进行排序,得分越高,排名越前。 1、设置Lucene的文档对象Document中的一个促进因子,可以提高相关度得分。Book book = new Book();book.setId(2);book.setTitle("建筑的永恒之道");book.setAuthor("亚历山大");book.setContent("《建筑的永恒之道》提出了一个关于建筑设计、建筑和规划的新的理论、思想.");book.setPrice(65.5F); Document doc = new Document();doc.a 阅读全文

posted @ 2012-06-24 11:58 CN.programmer.Luxh 阅读(1728) 评论(0) 推荐(1) 编辑

摘要:Lucene的高亮器就是给搜索关键词加上HTML标签,这样在网页上显示的时候,可以有不同的突出显示效果。 高亮器会做两个工作: 1)让搜索关键词突出显示。 2)截取出现搜索关键词最多的一段文本生成摘要。 使用高亮器需要引入两个jar文件:lucene-highlighter-3.6.0.jar和lucene-memory-3.6.0.jar。 创建高亮器的代码: //配置高亮器 //默认使用HTML的<B>标签标记关键词//Formatter formatter = new SimpleHTMLFormatter(); //以红色字体标记关键词Formatter format... 阅读全文

posted @ 2012-06-24 10:56 CN.programmer.Luxh 阅读(1583) 评论(0) 推荐(1) 编辑

摘要:分词器对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。 国人林良益写的IK Analyzer应该是最好的Lucene中文分词器之一,而且随着Lucene的版本更新而不断更新,目前已更新到IK Analyzer 2012版本。 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。到现在,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除... 阅读全文

posted @ 2012-06-23 13:55 CN.programmer.Luxh 阅读(15139) 评论(15) 推荐(5) 编辑

摘要:根据实际情况对索引库进行优化,可以提升创建索引和搜索的速度。 1、合并索引库片段文件 IndexWriter的optimize()方法已经过时,因为这个方法的效率很低。合并文件主要是使用IndexWriter的setMergeFactor(int)方法,但是在Lucene3.6版本中,该方法已过时,直接使用LogMergePolicy.setMergeFactor(int)方法代替。 当setMergeFactor(int)的参数值较小的时候,创建索引的速度较慢。当参数值较大的时候,创建索引的速度就比较快。大于10适合批量创建索引。 2、内存索引目录和文件系统索引目录结合使用 内... 阅读全文

posted @ 2012-06-23 01:02 CN.programmer.Luxh 阅读(2171) 评论(3) 推荐(1) 编辑

摘要:Lucene的普及和成功的背后是因为它的简单。 因此,你不需要深入理解Lucene的信息索引和检索工作方面的知识就可以开始使用。 Lucene提供了简单但是强大的核心API去实现全文索引和检索,你只需要掌握少数的类就能将Lucene整合到应用中。 刚接触Lucene的人可能会误认为Lucene是一个文件搜索工具、网络爬虫、或者网页搜索引擎。实际上Lucene是一个软件库,而不是一个全功能的搜索应用程序。它涉及全文索引和搜索,而且做得非常好。Lucene可以让你的应用程序隐藏起复杂的索引和搜索背后的操作,而使用简单的API处理特定的问题领域和业务规则。你可以想象Lucene就是像一个层... 阅读全文

posted @ 2012-06-20 17:59 CN.programmer.Luxh 阅读(2206) 评论(0) 推荐(0) 编辑

摘要:Lucene,是一个Java全文搜索引擎。 使用Lucene3.6版本,到官网下载lucene-3.6.0.zip,解压。 需要用到的jar: \lucene-3.6.0\lucene-core-3.6.0.jar ------> Lucene的核心包 \lucene-3.6.0\contrib\analyzers\common\lucene-analyzers-3.6.0.jar ------> 分词器 \lucene-3.6.0\contrib\highlighter\lucene-highlighter-3.... 阅读全文

posted @ 2012-06-17 23:07 CN.programmer.Luxh 阅读(2194) 评论(2) 推荐(1) 编辑

点击右上角即可分享
微信分享提示