K-means 聚类算法###

初始随机选择
而后不断更新

kmeans 应用 省份归类#####

调用kmeans方法所需要的参数

  • n_clusters 指定的聚类中心
  • init 初始聚类中心的初始化方法 默认k-means++
  • max_iter 最大的次数 默认300
  • data 数据
  • label 聚类后所属的标签
  • fit_predict() 计算簇中心以及为其选取序号
扩展改进######

可以自己改测量方法。。
更改源码
推荐 scipy.spatial.distance.cdist

DBSCAN 密度聚类 聚类算法###

这是一种基于密度的聚类算法
将数据点分为三类

  1. 核心点:再半径Eps内含有超过MinPts 的点
  2. 边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内
  3. 噪音点:其他的点
算法流程#####
  1. 将所有点标记为三类点
  2. 删除噪声点
  3. 为距离在Eps之内的所有核心点之间连一条边
  4. 每组连同的哪一个核心点形成一个簇
  5. 将每个边界点指派到一个与之相关的核心点的簇中(哪一个核心点的半径范围之内)
算法参数#####
  • eps
  • min_samples 簇的样本数?
  • metric 距离计算方法 edulidean