文本分类(一)封装分词器
我自己简易封装了一个分词器,使用Lucene.Net.类图如下:
使用测试如下:
Code
输出结果如下:
可见:
SimpleSpliter的分词方法是以空格、或标点分词,并去掉了标点;
StandarSpliter的粉刺方法是中文单字分词,英文以空格分词,并去掉了标点;
CnSpliter的分词方法是中文单字分词,对单个无意义的英文字母直接去掉了;-_-!
ICTCLAS的分词方法比较适合使用,对“我们“、”是“这样的无意义中文进行了过滤,中文分词效果也比较理想。
稍后贴出下载地址。