2009 年 7月文章档案 - abstractwind

Lucene的CJKAnalyzer分析器

摘要：Lucene的CJKAnalyzer分析器。CJKAnalyzer分析器的思想：对中文汉字，每两个字作为一个词条，例如A，B，C，D是四个中文汉字，使用CJKAnalyzer分析器分词后一共得到三个词条如下：AB，BC，CD。其实，CJKAnalyzer分析器在对中文分词方面比StandardAnalyzer分析器要好一点。因为根据中文的习惯，包括搜索的时候键入关键字的习惯，中文的词(大于一个汉字... 阅读全文

posted @ 2009-07-29 19:52 abstractwind 阅读(4319) 评论(0) 推荐(2) 编辑

StandardAnalyzer分析器

摘要：Lucene的StandardAnalyzer分析器。不同的Lucene分析器Analyzer，它对TokenStream进行分词的方法是不同的，这需要根据具体的语言来选择。比如英文，一般是通过空格来分割词条，而中文汉字则不能通过这种方式，最简单的方式就是单个汉字作为一个词条。TokenStream是通过从设备或者其他地方获取数据源而构造的一个流，我们要执行分词的动作，应该对这个TokenStre... 阅读全文

posted @ 2009-07-20 14:51 abstractwind 阅读(5936) 评论(0) 推荐(0) 编辑

英文同义词过滤

摘要：Lucene分析器的实现。Lucene(分词)过滤器TokenFilter类，以及继承它的子类的实现类。TokenFilter类的继承关系，如图所示：TokenFilter是一个抽象类，定义了对一个经过分词(Tokenizer)后的TokenStream进行过滤的功能，它的源代码如下所示：package org.apache.lucene.analysis;import java.io.IOExc... 阅读全文

posted @ 2009-07-19 18:50 abstractwind 阅读(652) 评论(0) 推荐(0) 编辑

NOW OR NEVER

Yesterday You Said Tomorrow

07 2009 档案

公告

随笔档案

文章档案

评论排行榜

最新评论