摘要:
所有聚类方法都是可以抽象的聚类接口为以下:提供如下常量:提供一个默认的聚类点集在HDFS上的地址字符串:CLUSTERED_POINTS_DIR提供一个默认的聚类后形成的CLUSTER目录地址: INITIAL_CLUSTERS_DIR提供一个默认的聚类点集终极OUTPUT目录: CLUSTERS_DIR提供如下方法:int getId(); //得到某个CLUSTER的编好 Vector getCenter(); //得到中心点的N维向量 Vector getRadius(); //... 阅读全文
摘要:
一、相异度计算基于空间的距离1、欧几里得距离:2、曼哈顿距离:3、闵科夫斯基距离:(可见:欧氏距离和曼哈顿距离都是闵科夫斯基距离在P=1,2下的特例)标量规格化由于标量大小不一致导致对空间映射会同质化,所以需要对属性在[0,1]空间上映射,以来规格化。映射公式为: (ai 是一个属性)二、二元变量二元变量就是只能取0、1 的变量。二元相异度计算公式: 取值不同的同位属性个数 / 所有属性个数例如:X={1,0,0,0,1,0,1,1},Y={0,0,0,1,1,1,1,1}。 二元相异度为 3/8非对称二元相异度计算公式:取值不同的同位属性个数/所有属性个数 - 值为0的同位属性个数非对称二. 阅读全文
摘要:
都交流啊,受不了了!!!! 阅读全文