聚类

一、距离的度量

几种常见的距离度量方式要了解，其中闵可夫斯基距离当p=2时候就是欧式距离，等于1时就是街区距离

二、K-means

步骤：

1、随机选择K个类别中心

2、计算每个样本与中心的距离，标记为距离最小的那个类

3、计算每个簇的平均值作为新的中心，然后重新重复第二步，直到两次样本中心的变化小于某个值就停止

注意：其实k_means算法也有目标函数，目标函数是平方和，这里是运用了梯度下降算法来计算，这个目标函数取导数之后就是均值，也就是我们前面步骤中有做了个平均值作为新的中心的步骤，其实就是梯度下降算法！如果这里目标函数是绝对值，那就是k中值算法，k均值算法这里用了平方误差作为目标函数，与最小二乘法那里其实一样的，最小二乘法是通过高斯模型推导出来，所以这里也默认样本服从高斯分布，也就是k个高斯混合模型！