密度聚类(DBSCAN)

  DBSCAN是密度聚类算法,和K-Means,BIRCH只适用于凸样本集的聚类相比,DBSCAN既适用于凸样本集,也适用于非凸样本集。

1. 密度聚类原理

  DBSCAN算法指类别可通过样本分布的紧密程度决定。即同一类别的样本紧密相连,也就是说在该类别的不远处一定有同类别的样本。

2. DBSCAN密度定义

  DBSCAN是基于一组领域来描述样本集的紧密程度,参数(ε, MinPts)用来描述领域的样本分布紧密程度。其中,ε表示样本的领域距离阈值,MinPts表示样本的距离为ε的领域中样本个数的阈值。

  假定样本集D = (x1,x2,x3,...xm),则DBSCAN具体的密度描述如下:

1. ε领域:样本集D中与 xj 的距离不大于 ε 的子样本集。

2. 核心对象:ε 领域对应的 Nε(xj)至少包含MinPts个样本,即 xj 是核心对象。

3. 密度直达:如果 xi 位于 xj 的 ε 领域中,且 xj 是核心对象,则称 xi 由 xj 密度直达。反之不一定成立,即不能说 xj 由 xi 密度直达,除非 xi 也是核心对象。

4. 密度可达:对 xi 和 xj ,如果存在样本序列 p1,p2,...pT,满足 p1=xi, pT=xj ,且 pt+1 由 pt 密度直达,则称 xj 由 xi 密度可达。也就是说,密度可达满足传递性。此时序列中的传递样本  

posted @   做梦当财神  阅读(850)  评论(0编辑  收藏  举报
编辑推荐:
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(1)
历史上的今天:
2019-07-23 pandas 中的 reset_index()
点击右上角即可分享
微信分享提示