北在北方

太白枝头看,花开不计年,杯中浮日月,楼外是青天。

导航

2012年6月23日

摘要: 分词器对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。 国人林良益写的IK Analyzer应该是最好的Lucene中文分词器之一,而且随着Lucene的版本更新而不断更新,目前已更新到IK Analyzer 2012版本。 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。到现在,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除... 阅读全文

posted @ 2012-06-23 13:55 CN.programmer.Luxh 阅读(15122) 评论(15) 推荐(5) 编辑

摘要: 根据实际情况对索引库进行优化,可以提升创建索引和搜索的速度。 1、合并索引库片段文件 IndexWriter的optimize()方法已经过时,因为这个方法的效率很低。合并文件主要是使用IndexWriter的setMergeFactor(int)方法,但是在Lucene3.6版本中,该方法已过时,直接使用LogMergePolicy.setMergeFactor(int)方法代替。 当setMergeFactor(int)的参数值较小的时候,创建索引的速度较慢。当参数值较大的时候,创建索引的速度就比较快。大于10适合批量创建索引。 2、内存索引目录和文件系统索引目录结合使用 内... 阅读全文

posted @ 2012-06-23 01:02 CN.programmer.Luxh 阅读(2164) 评论(3) 推荐(1) 编辑