摘要: 聚类是一种很常见的数据处理方式,为的就是把具有相同类型的数据聚集在一起,再做处理,聚类属于无监督学习算法的一种,没有正确的结果可供检验。 书中介绍了两种聚类的方法,一种是层次聚类,另一种是是k-均值聚类。 层次聚类可以看做是在一个图中找出最小代价树的kruskal算法,每次处理时会将两个相聚最近的不同类聚集在一起,这个过程一直重复直到整个数据集属于一个类,当然也可以等有k个类别的时候就停止聚类操作。初始数据集中的每个数据都属于不同的类别,经过一次操作后两个最接近的数据点会被划分成同一个类别,这个时候就会出现一个问题,这一个类别中包含了多个点,当计算这个类别和其他类别的相似度时该如何计算呢? . 阅读全文
posted @ 2012-03-11 09:54 追风人 阅读(216) 评论(0) 推荐(0) 编辑