摘要: K-means与K-means++: 原始K-means算法最开始随机选取数据集中K个点作为聚类中心, 而K-means++按照如下的思想选取K个聚类中心: 假设已经选取了n个初始聚类中心(0<n<K),则在选取第n+1个聚类中心时:距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心 阅读全文
posted @ 2018-04-02 20:12 寒杰士 阅读(48517) 评论(0) 推荐(5) 编辑
摘要: 介绍K均值算法: 优点:易于实现 缺点:可能收敛于局部最小值,在大规模数据收敛慢 算法思想较为简单如下所示: 选择K个点作为初始质心 repeat 将每个点指派到最近的质心形成K个簇 重新计算每个簇的质心 until簇不发生变化或达到最大迭代次数 这里的重新计算每个簇的质心,如何计算的是根据目标函数 阅读全文
posted @ 2018-04-02 18:05 寒杰士 阅读(369) 评论(0) 推荐(0) 编辑
摘要: 什么是聚类分析 聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。 不同的簇类型 聚类旨在发现有用的对象簇,在现实中我们用到很多的簇的类型,使用不同的簇类型划分数据的结果是不同的,如下的几种簇类型。 明显分离的 可以看到(a)中不同组中任意两 阅读全文
posted @ 2018-04-02 17:40 寒杰士 阅读(2085) 评论(0) 推荐(0) 编辑