06 2009 档案

摘要:CharTokenizer是一个抽象类,它主要是对西文字符进行分词处理的。常见的英文中,是以空格、标点为分隔符号的,在分词的时候,就是以这些分隔符作为分词的间隔符的。package org.apache.lucene.analysis;import java.io.IOException;import java.io.Reader;// CharTokenizer 是一个抽象类public abs... 阅读全文
posted @ 2009-06-07 20:48 abstractwind 阅读(521) 评论(0) 推荐(1) 编辑
摘要:Lucene分析器的实现。Lucene分词器Tokenizer,它的继承子类的实现。Tokenizer类的继承关系,如图所示:ChineseTokenizer类实现中文分词中文分词在Lucene中的处理很简单,就是单个字分。它的实现类为ChineseTokenizer,在包org.apache.lucene.analysis.cn中,源代码如下:package org.apache.lucene.... 阅读全文
posted @ 2009-06-03 11:35 abstractwind 阅读(1960) 评论(0) 推荐(0) 编辑
摘要:研究Lucene分析器的实现。Analyzer抽象类所有的分析器的实现,都是继承自抽象类Analyzer,它的源代码如下所示:package org.apache.lucene.analysis;import java.io.Reader;public abstract class Analyzer {// 通过Field的名称,和一个Reader对象,创建一个分词流,该方法是抽象方法publi... 阅读全文
posted @ 2009-06-02 09:32 abstractwind 阅读(669) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示