对比了几篇在hadoop环境中实现关联规则、频繁项集的论文,文章结构都涉及mapreduce模型、传统与改进apriori算法比较、实验结果分析(数据规模-用时or加速比,节点-用时or加速比)。有一篇北交大的毕业论文是作者在淘宝实习做的项目,很有实践参考价值。
又过了遍《machine learning》中的apriori算法,倒是关联规则函数中合并什么的又看不懂了,只能回去对比之前的笔记。
明天还是论文、应用、新邻域。