文本分类(一)封装分词器

我自己简易封装了一个分词器,使用Lucene.Net.类图如下:

使用测试如下:

 

Code

 

输出结果如下:

 

可见:

SimpleSpliter的分词方法是以空格、或标点分词,并去掉了标点;

StandarSpliter的粉刺方法是中文单字分词,英文以空格分词,并去掉了标点;

CnSpliter的分词方法是中文单字分词,对单个无意义的英文字母直接去掉了;-_-!

ICTCLAS的分词方法比较适合使用,对“我们“、”是“这样的无意义中文进行了过滤,中文分词效果也比较理想。

稍后贴出下载地址。

 

posted @ 2009-05-29 18:14  waemz  阅读(555)  评论(1编辑  收藏  举报