Mark Lin - 博客园

2014年10月1日

摘要： Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构。与MapReduce不同，Spark并不局限于编写map和reduce两个方法，其提供了更为强大的内存计算(in-memory computing)模型，使得用户可以... 阅读全文

posted @ 2014-10-01 14:57 Mark Lin 阅读(5575) 评论(0) 推荐(3)

2014年9月13日

Mahout源码分析：并行化FP-Growth算法

摘要： FP-Growth是一种常被用来进行关联分析，挖掘频繁项的算法。与Aprior算法相比，FP-Growth算法采用前缀树的形式来表征数据，减少了扫描事务数据库的次数，通过递归地生成条件FP-tree来挖掘频繁项。参考资料[1]详细分析了这一过程。事实上，面对大数据量时，FP-Growth算法生成... 阅读全文

posted @ 2014-09-13 14:35 Mark Lin 阅读(3918) 评论(4) 推荐(1)

2014年8月11日

关联分析：FP-Growth算法

摘要：关联分析又称关联挖掘，就是在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。关联分析的一个典型例子是购物篮分析。通过发现顾客放入购物篮中不同商品之间的联系，分析顾客的购买习惯。比如，67%的顾客在购买尿布的同时也会购买啤酒。通过了解哪些商品... 阅读全文

posted @ 2014-08-11 11:46 Mark Lin 阅读(32611) 评论(0) 推荐(4)

2014年6月25日

分类问题中的“维数灾难”

摘要：在看机器学习的论文时，经常会看到有作者提到“curse of dimensionality”，中文译为“维数灾难”，这到底是一个什么样的“灾难”？本文将通过一个例子来介绍这令人讨厌的“curse of dimensionality”以及它在分类问题中的重要性。假设现在有一组照片，每一张照片里... 阅读全文

posted @ 2014-06-25 16:01 Mark Lin 阅读(6071) 评论(6) 推荐(8)