密度聚类(DBSCAN)
DBSCAN是密度聚类算法,和K-Means,BIRCH只适用于凸样本集的聚类相比,DBSCAN既适用于凸样本集,也适用于非凸样本集。
1. 密度聚类原理
DBSCAN算法指类别可通过样本分布的紧密程度决定。即同一类别的样本紧密相连,也就是说在该类别的不远处一定有同类别的样本。
2. DBSCAN密度定义
DBSCAN是基于一组领域来描述样本集的紧密程度,参数(ε, MinPts)用来描述领域的样本分布紧密程度。其中,ε表示样本的领域距离阈值,MinPts表示样本的距离为ε的领域中样本个数的阈值。
假定样本集D = (x1,x2,x3,...xm),则DBSCAN具体的密度描述如下:
1. ε领域:样本集D中与 xj 的距离不大于 ε 的子样本集。
2. 核心对象:ε 领域对应的 Nε(xj)至少包含MinPts个样本,即 xj 是核心对象。
3. 密度直达:如果 xi 位于 xj 的 ε 领域中,且 xj 是核心对象,则称 xi 由 xj 密度直达。反之不一定成立,即不能说 xj 由 xi 密度直达,除非 xi 也是核心对象。
4. 密度可达:对 xi 和 xj ,如果存在样本序列 p1,p2,...pT,满足 p1=xi, pT=xj ,且 pt+1 由 pt 密度直达,则称 xj 由 xi 密度可达。也就是说,密度可达满足传递性。此时序列中的传递样本