Leo Zhang

A simple man with my own ideal

09 2011 档案

Mahout学习——Canopy Clustering
摘要:聚类是机器学习里很重要的一类方法,基本原则是将“性质相似”(这里就有相似的标准问题,比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对象尽可能不相似。对聚类算法而言,有三座大山需要爬过去:(1)、a large number of clusters,(2)、a high feature dimensionality,(3)、a large number of data points。在这三种情况下,尤其是三种情况都存在时,聚类的计算代价是非常高的,有时候聚类都无法进行下去,于是出现一种简单而又有效地方法:Canopy Method,说简单是因为它不用什么高深的理论或推导就可以理解,说有效是因为它的实际表现确实可圈可点。 阅读全文

posted @ 2011-09-23 17:30 Leo Zhang 阅读(18608) 评论(12) 推荐(4) 编辑

Hadoop初体验——搭建hadoop简单实现文本数据全局排序
摘要:之前在实现一些机器学习算法时,跑数据量、feature很多的数据集往往要耗费很多时间,尤其是处理大量文本数据时候,单机跑算法的时间让我无法容忍,理论上如果合理的将大数据量分布式并行计算框架... 阅读全文

posted @ 2011-09-20 14:21 Leo Zhang 阅读(8160) 评论(6) 推荐(7) 编辑

导航

统计信息

点击右上角即可分享
微信分享提示