摘要: 言 最近在面试中,除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西只知其皮毛而不得深入,故写一个有关数据挖掘十大算法的系列 阅读全文
posted @ 2017-09-11 20:24 追梦的独行者 阅读(962) 评论(1) 推荐(0) 编辑
摘要: 聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法。摘自 数据挖掘中的聚类分析研究综述 这篇论文。 1、层次聚类 阅读全文
posted @ 2017-09-11 20:22 追梦的独行者 阅读(987) 评论(0) 推荐(0) 编辑
摘要: 在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 基本K均值:选择K个初始质心,其中K是用户指定的参数,即所期望的簇的个数。每次循环中,每个点被指派到最近的质心,指派到同一个质心的点集构成一个簇。然后 阅读全文
posted @ 2017-09-11 19:54 追梦的独行者 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 凝聚层次聚类: 所谓凝聚的,指的是该算法初始时,将每个点作为一个簇,每一步合并两个最接近的簇。另外即使到最后,对于噪音点或是离群点也往往还是各占一簇的,除非过度合并。对于这里的“最接近”,有下面三种定义。我在实现是使用了MIN,该方法在合并时,只要依次取当前最近的点对,如果这个点对当前不在一个簇中, 阅读全文
posted @ 2017-09-11 19:50 追梦的独行者 阅读(1540) 评论(0) 推荐(0) 编辑