mmseg4j 中文分词器的一些简介整理

Posted on 2010-05-14 17:03 蝈蝈俊阅读(1417) 评论(0) 编辑收藏举报

在 lucene 中，我们是使用 IndexWriter 调用 Analyzer 将文章切成以词为单位的 Stream，然后生成索引的。lucene 内建的分词器很多，比如：按空白字符分词的WhitespaceAnalyzer，添加了stopword过滤的StopAnalyzer，以及最常用的是StandardAnalyzer。这些自带的分词器对中文支持多不好，我觉得比较好的中文分词器是 mmseg4j 。

mmseg4j 是用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器。并实现了 lucene 的 analyzer 和 solr 的 TokenizerFactory 以方便在 Lucene 和 Solr 中使用。

对 lucene 来说，mmseg4j 有以下四个 analyzer：SimpleAnalyzer、ComplexAnalyzer、MaxWordAnalyzer、MMSegAnalyzer。前面三个都是继承 MMSegAnalyzer，MMSegAnalyzer 默认使用 max-word 方式分词。

上面四个分次类涉及到了三个分词方法：Simple、Complex、max-word。MMSeg 算法有两种分词方法：Simple 和 Complex，都是基于正向最大匹配。mmseg4j 1.6 版开始在 Complex 算法基础上实现了最多分词(max-word)。类似如下的分词就是 max-word 分词：“很好听” -> "很好|好听"; “中华人民共和国” -> "中华|华人|共和|国"; “中国人民银行” -> "中国|人民|银行"。

mmseg4j 的词库是使用 utf-8 格式的，由于 utf-8 文件有带与不带 BOM 之分，建议词库第一行为空行或为无 BOM 格式的 utf-8 文件。

jar 中已有了，只有你对这个不满意时才需要替换的词库文件：

data/chars.dic 是单字与语料中的频率，一般不用改动，mmseg4j 1.5版本后已经加到mmseg4j的jar里了，我们不需要关心它，当然你在词库目录放这个文件可以覆盖它。
data/units.dic 是单字的单位，默认读jar包里的，你也可以自定义覆盖它，这功能是试行，如果不喜欢它，可以空的units.dic文件(放到你的词库目录下)覆盖它。

词库文件：

data/words.dic 是词库文件，一行一词，当然你也可以使用自己的，1.5版本使用 sogou 词库，1.0的版本是用 rmmseg 带的词库。一般我们使用这个作为系统自带词库。分词效果当然还与词库有关，sogou 的词库是统计得出，有些高频的单字组合也成了词，如“我们的”。如果还要提高 mmseg4j 的分词效果，还要在整理下词库。
data/wordsxxx.dic 1.6版支持多个词库文件，data 目录（或你定义的目录）下读到"words"前缀且".dic"为后缀的文件。如：data/words-my.dic。一般我们在这里里面，把这个当成我们自身特色的词库。

停止词