2012年6月15日
摘要: 所有聚类方法都是可以抽象的聚类接口为以下:提供如下常量:提供一个默认的聚类点集在HDFS上的地址字符串:CLUSTERED_POINTS_DIR提供一个默认的聚类后形成的CLUSTER目录地址: INITIAL_CLUSTERS_DIR提供一个默认的聚类点集终极OUTPUT目录: CLUSTERS_DIR提供如下方法:int getId(); //得到某个CLUSTER的编好 Vector getCenter(); //得到中心点的N维向量 Vector getRadius(); //... 阅读全文
posted @ 2012-06-15 09:50 真心的不懂 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 一、相异度计算基于空间的距离1、欧几里得距离:2、曼哈顿距离:3、闵科夫斯基距离:(可见:欧氏距离和曼哈顿距离都是闵科夫斯基距离在P=1,2下的特例)标量规格化由于标量大小不一致导致对空间映射会同质化,所以需要对属性在[0,1]空间上映射,以来规格化。映射公式为: (ai 是一个属性)二、二元变量二元变量就是只能取0、1 的变量。二元相异度计算公式: 取值不同的同位属性个数 / 所有属性个数例如:X={1,0,0,0,1,0,1,1},Y={0,0,0,1,1,1,1,1}。 二元相异度为 3/8非对称二元相异度计算公式:取值不同的同位属性个数/所有属性个数 - 值为0的同位属性个数非对称二. 阅读全文
posted @ 2012-06-15 09:48 真心的不懂 阅读(1990) 评论(0) 推荐(0) 编辑
摘要: 都交流啊,受不了了!!!! 阅读全文
posted @ 2012-06-15 09:15 真心的不懂 阅读(138) 评论(0) 推荐(0) 编辑