聚类
什么叫做聚类?
聚类是一个将数据集划分为若干组或类的过程,并使得同一个组内的数据对象具有较高的相似度,而不同组中的数据对象则是非相似的。
什么来衡量相似?
通常利用对象间的距离来进行描述。
聚类方法的划分
可分为统计方法、机器学习方法和神经网络方法。
统计方法
聚类分析、回归分析、判别分析是多元数据分析的三大方法。传统的统计聚类分析方法包括系统聚类法、动态聚类法和模糊聚类等。主要是基于几何距离的聚类,
这种聚类方法是一种基于全局比较的聚类,需要考察所有个体才能决定类的划分。因此它要求所有的数据必须预先给定,而不能动态增加新的数据对象。聚类分析
方法不具有线性的计算复杂度,难以适用于数据库非常大的情况。
路漫漫其修远兮,吾将上下而求索