07 2009 档案

摘要:Lucene的CJKAnalyzer分析器。CJKAnalyzer分析器的思想:对中文汉字,每两个字作为一个词条,例如A,B,C,D是四个中文汉字,使用CJKAnalyzer分析器分词后一共得到三个词条如下:AB,BC,CD。其实,CJKAnalyzer分析器在对中文分词方面比StandardAnalyzer分析器要好一点。因为根据中文的习惯,包括搜索的时候键入关键字的习惯,中文的词(大于一个汉字... 阅读全文
posted @ 2009-07-29 19:52 abstractwind 阅读(4319) 评论(0) 推荐(2) 编辑
摘要:Lucene的StandardAnalyzer分析器。不同的Lucene分析器Analyzer,它对TokenStream进行分词的方法是不同的,这需要根据具体的语言来选择。比如英文,一般是通过空格来分割词条,而中文汉字则不能通过这种方式,最简单的方式就是单个汉字作为一个词条。TokenStream是通过从设备或者其他地方获取数据源而构造的一个流,我们要执行分词的动作,应该对这个TokenStre... 阅读全文
posted @ 2009-07-20 14:51 abstractwind 阅读(5936) 评论(0) 推荐(0) 编辑
摘要:Lucene分析器的实现。Lucene(分词)过滤器TokenFilter类,以及继承它的子类的实现类。TokenFilter类的继承关系,如图所示:TokenFilter是一个抽象类,定义了对一个经过分词(Tokenizer)后的TokenStream进行过滤的功能,它的源代码如下所示:package org.apache.lucene.analysis;import java.io.IOExc... 阅读全文
posted @ 2009-07-19 18:50 abstractwind 阅读(652) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示