聚类
1. 简介
在无监督学习算法,应用最广泛的算法是聚类。
还有其他的无监督学习算法如下:
* 密度估计
* 异常检测
聚类可以将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇(cluster)。
通过这这样的划分,每个簇对于于一些潜在的类别。
2. k均值算法
算法流程
step 1. 随机产生k个分类特征的中心点(cluster center)
step2. 计算数据点到中心点的距离(distance)
step 3. 数据点到哪个中心点最近就分到哪个类(cluster)
step 4. 迭代:更新中心点位置,重新计算距离并分配类别,直到总体距离最小
------------恢复内容结束------------