均值漂移法 + 轮廓系数+DBSCAN算法

均值漂移法:中间密,四周散

漂移时拟合度达到前所未有的高度。

 

轮廓系数:

  好的聚类:同一个聚类内部的样本要足够密集,不同的聚类要足够疏远

  轮廓系数的计算规则:针对一个特定样本a,一级该样本与距离最近的另一个聚类中所有样本的平均距离b。一般情况下a<b

 

DBSCAN算法:从样本空间任意选择一个样本,以事先给定的半径做圆,凡被该圆圈中的样本都视为该样本的同类。

  外周样本:

  孤立样本:就一个样本,自己形成一个聚类

  核心样本:聚类中心的样本。

 

API:

  sc.DBSCAN(eps=epsilon,min_samples=5)

         半径

  y = model.labels_

  x[y == -1]的样本则是孤立样本

  x[model.core_sample_indices_]为核心样本

  

 

posted @ 2020-03-24 19:23  初学者小明  阅读(800)  评论(0编辑  收藏  举报