Lucene中文分词组件 JE-Analysis

//采用正向最大匹配的中文分词算法，相当于分词粒度等于0
MMAnalyzer analyzer = new MMAnalyzer();

//参数为分词粒度：当字数等于或超过该参数，且能成词，该词就被切分出来
MMAnalyzer analyzer = new MMAnalyzer(int wordLength);

//字符串切分，常用于客户的关键字输入
analyzer.segment(String text, String separator);

词典维护API（静态方法）：

//增加一个新词典，采用每行一个词的读取方式（注意：多线程状态下此时的分词效果将不可预料）
MMAnalyzer.addDictionary(Reader reader);

//增加一个新词
MMAnalyzer.addWord(String newWord);

//删除词库中的全部词语（注意：非常危险的操作，在没有加载新的词库前所有的分词都将失效）
MMAnalyzer.clear();

//词库中是否包含该词
MMAnalyzer.contains(String word);

//从词库中移除该词
MMAnalyzer.removeWord(String word);

//当前词库中包含的词语总数
MMAnalyzer.size();

posted @ 2008-04-10 10:12 雨中漫步的太阳阅读(2929) 评论(1) 编辑收藏举报

刷新页面返回顶部

Lucene中文分词组件 JE-Analysis

公告