摘要: 分词器对英文的支持是非常好的。一般分词经过的流程:1)切分关键词2)去除停用词3)把英文单词转为小写但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。国人林良益写的IK Analyzer应该是最好的Lucene中文分词器之一,而且随着Lucene的版本更新而不断更新,目前已更新到IK Analyzer 2012版本。IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。到现在,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词 阅读全文
posted @ 2013-12-27 13:05 郑文亮 阅读(2846) 评论(0) 推荐(0) 编辑
摘要: 在lucene使用过程中,如果要对同一IndexWriter中不同 Document,不同Field中使用不同的analyzer,我们该如何实现呢?通过对《lucene in action》的阅读,发现是可以解决这一问题的。lucene可以正对整个IndexWriter对象或者每一个document对象或者特定 Field使用不同的分析器。Java代码 复制代码 Analyzer analyzer = new StandardAnalyzer(); IndexWriter writer = new IndexWriter(direcotry, analyzer, true); // Docum 阅读全文
posted @ 2013-12-27 11:41 郑文亮 阅读(955) 评论(0) 推荐(0) 编辑