均值漂移法 + 轮廓系数+DBSCAN算法
均值漂移法:中间密,四周散
漂移时拟合度达到前所未有的高度。
轮廓系数:
好的聚类:同一个聚类内部的样本要足够密集,不同的聚类要足够疏远
轮廓系数的计算规则:针对一个特定样本a,一级该样本与距离最近的另一个聚类中所有样本的平均距离b。一般情况下a<b
DBSCAN算法:从样本空间任意选择一个样本,以事先给定的半径做圆,凡被该圆圈中的样本都视为该样本的同类。
外周样本:
孤立样本:就一个样本,自己形成一个聚类
核心样本:聚类中心的样本。
API:
sc.DBSCAN(eps=epsilon,min_samples=5)
半径
y = model.labels_
x[y == -1]的样本则是孤立样本
x[model.core_sample_indices_]为核心样本