2009 年 6月文章档案 - abstractwind

CharTokenizer对西文字符进行分词处理

摘要：CharTokenizer是一个抽象类，它主要是对西文字符进行分词处理的。常见的英文中，是以空格、标点为分隔符号的，在分词的时候，就是以这些分隔符作为分词的间隔符的。package org.apache.lucene.analysis;import java.io.IOException;import java.io.Reader;// CharTokenizer 是一个抽象类public abs... 阅读全文

posted @ 2009-06-07 20:48 abstractwind 阅读(521) 评论(0) 推荐(1) 编辑

ChineseTokenizer类实现中文分词

摘要：Lucene分析器的实现。Lucene分词器Tokenizer，它的继承子类的实现。Tokenizer类的继承关系，如图所示：ChineseTokenizer类实现中文分词中文分词在Lucene中的处理很简单，就是单个字分。它的实现类为ChineseTokenizer，在包org.apache.lucene.analysis.cn中，源代码如下：package org.apache.lucene.... 阅读全文

posted @ 2009-06-03 11:35 abstractwind 阅读(1960) 评论(0) 推荐(0) 编辑

Lucene分析器的实现

摘要：研究Lucene分析器的实现。Analyzer抽象类所有的分析器的实现，都是继承自抽象类Analyzer，它的源代码如下所示：package org.apache.lucene.analysis;import java.io.Reader;public abstract class Analyzer {// 通过Field的名称，和一个Reader对象，创建一个分词流，该方法是抽象方法publi... 阅读全文

posted @ 2009-06-02 09:32 abstractwind 阅读(669) 评论(0) 推荐(0) 编辑

NOW OR NEVER

Yesterday You Said Tomorrow

06 2009 档案

公告

随笔档案

文章档案

评论排行榜

最新评论