2012 年 10月 20 日随笔档案 - fbiswt

2012年10月20日

摘要： weka是一个很好的数据挖掘实验的工具，可以进行标准的数据挖掘的各种实验，首先来说一下关联规则的挖掘。在linux环境下，在使用weka之前，要配置好环境变量，将weka目录下的weka.jar的位置加到classpath中，然后就可以调用weka的命令行进行数据挖掘了。weka的apriori算法优化非常不好，相当占用内存，大约50w的属性开14G的内存都不够用，所以如果在本机进行数据量较大的实验的话，要选FPGrowth算法。FPGrowth算法只需要扫面两遍数据库，虽然他是递归的选择rules的，也比较占用内存，但是如果有4G以上的内存的话，基本上就够用了。至于FPGrowth的算法实现阅读全文

posted @ 2012-10-20 17:28 fbiswt 阅读(4319) 评论(5) 推荐(0) 编辑

冯博

公告