随笔档案「2012年7月19日」：使用Mahout0.5进行中文聚类 ... - BitSpark

2012年7月19日

摘要：相对于英文聚类，Mahout进行中文聚类主要注意的就是数据的编码方式和分词器的选择问题。一、数据准备这里使用复旦大学中文语料（http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15）(PS:这个文本集好像下不到了，推荐另一个语料http://ishare.iask.sina.com.cn/f/22774613.html，2805篇中文文本)我下载的是文本分类语料库（训练），里面一共包含9804篇文档。刚开始在Linux环境下折腾半天，结果总是乱码，结果发现是编码方式的问题。可以使用iconv命令来将GB2312的文件的编码方式阅读全文

posted @ 2012-07-19 17:25 BitSpark 阅读(1408) 评论(5) 推荐(2)

公告