摘要: canopy是聚类算法的一种实现它是一种快速,简单,但是不太准确的聚类算法canopy通过两个人为确定的阈值t1,t2来对数据进行计算,可以达到将一堆混乱的数据分类成有一定规则的n个数据堆由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别,所以它是不太准确的但是通过canopy计算出... 阅读全文
posted @ 2015-04-15 19:01 蒋源德 阅读(634) 评论(0) 推荐(0) 编辑
摘要: 在使用mahout之前要安装并启动hadoop集群将mahout的包上传至linux中并解压即可mahout下载地址:点击打开链接mahout中的算法大致可以分为三大类:聚类,协同过滤和分类其中常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等常用分类算... 阅读全文
posted @ 2015-04-15 19:00 蒋源德 阅读(1655) 评论(0) 推荐(0) 编辑