密度聚类（DBSCAN）

　　DBSCAN是密度聚类算法，和K-Means，BIRCH只适用于凸样本集的聚类相比，DBSCAN既适用于凸样本集，也适用于非凸样本集。

1. 密度聚类原理

　　DBSCAN算法指类别可通过样本分布的紧密程度决定。即同一类别的样本紧密相连，也就是说在该类别的不远处一定有同类别的样本。

2. DBSCAN密度定义

　　DBSCAN是基于一组领域来描述样本集的紧密程度，参数(ε, MinPts)用来描述领域的样本分布紧密程度。其中，ε表示样本的领域距离阈值，MinPts表示样本的距离为ε的领域中样本个数的阈值。

　　假定样本集D = (x₁,x₂,x₃,...x_m)，则DBSCAN具体的密度描述如下：

1. ε领域：样本集D中与 x_j的距离不大于 ε 的子样本集。

2. 核心对象：ε 领域对应的 N_ε(x_j)至少包含MinPts个样本，即 x_j 是核心对象。

3. 密度直达：如果 x_i 位于 x_j 的 ε 领域中，且 x_j 是核心对象，则称 x_i 由 x_j 密度直达。反之不一定成立，即不能说 x_j由 x_i 密度直达，除非 x_i 也是核心对象。

4. 密度可达：对 x_i 和 x_j ，如果存在样本序列 p₁,p₂,...p_T，满足 p₁=x_i, p_T=x_j ，且 p_t+1 由 p_t 密度直达，则称 x_j 由 x_i 密度可达。也就是说，密度可达满足传递性。此时序列中的传递样本

posted @ 2020-07-23 11:24 做梦当财神阅读(875) 评论(0) 收藏举报

刷新页面返回顶部

做梦当财神