摘要: Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构。与MapReduce不同,Spark并不局限于编写map和reduce两个方法,其提供了更为强大的内存计算(in-memory computing)模型,使得用户可以... 阅读全文
posted @ 2014-10-01 14:57 Mark Lin 阅读(5533) 评论(0) 推荐(3) 编辑
摘要: FP-Growth是一种常被用来进行关联分析,挖掘频繁项的算法。与Aprior算法相比,FP-Growth算法采用前缀树的形式来表征数据,减少了扫描事务数据库的次数,通过递归地生成条件FP-tree来挖掘频繁项。参考资料[1]详细分析了这一过程。事实上,面对大数据量时,FP-Growth算法生成... 阅读全文
posted @ 2014-09-13 14:35 Mark Lin 阅读(3798) 评论(4) 推荐(1) 编辑
摘要: 关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。关联分析的一个典型例子是购物篮分析。通过发现顾客放入购物篮中不同商品之间的联系,分析顾客的购买习惯。比如,67%的顾客在购买尿布的同时也会购买啤酒。通过了解哪些商品... 阅读全文
posted @ 2014-08-11 11:46 Mark Lin 阅读(32114) 评论(0) 推荐(4) 编辑
摘要: 在看机器学习的论文时,经常会看到有作者提到“curse of dimensionality”,中文译为“维数灾难”,这到底是一个什么样的“灾难”?本文将通过一个例子来介绍这令人讨厌的“curse of dimensionality”以及它在分类问题中的重要性。 假设现在有一组照片,每一张照片里... 阅读全文
posted @ 2014-06-25 16:01 Mark Lin 阅读(5880) 评论(6) 推荐(8) 编辑