摘要: 上一节做了分词器的实现,并实现了Simple、Standar、Cn、ICTCLAS几个分词算法。本节实现文档转向量表示,并命名为特征权重量化器,特征权重量化我只实现1个算法----TFIDF算法。 阅读全文
posted @ 2009-05-29 21:45 waemz 阅读(763) 评论(0) 推荐(0) 编辑
摘要: 我自己简易封装了一个分词器,使用Lucene.Net.类图如下 阅读全文
posted @ 2009-05-29 18:14 waemz 阅读(557) 评论(1) 推荐(0) 编辑