机器学习算法之Kmeans算法（K均值算法）

KMeans算法是典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

两个样本在欧式空间中的距离

Cluster：表示一个簇
centroid：表示当前簇的中心

1.随机从数据集中选取k个样本当做centroid
2.对于数据集中的每个点，计算它距离每个centroid的距离，并把它归为距离最近打那个cluster
3.更新新的centroid位置
4.重复2和2，直到centroid的位置不再改变

1. 非监督类的算法不需要样本的标注信息

1. 不能利用到数据的标注信息，意味着模型的性能不如其他监督学习
2. 对于K的取值，也就是你认为数据集中的样本应该分为几类，这个参数的设置极为敏感！
不同的K值，导致完全不同的分类结果！
3. 对于数据集本身样本的分布也很敏感

  1.只关注待测样本的局部分布
  2.K：K个最近邻 
  3.监督类模型

  1.关注样本的全局分布
  2.k：K个簇

posted @ 2021-02-06 16:12 virtualman 阅读(847) 评论(0) 收藏举报

刷新页面返回顶部

virtualman的个人博客