凝聚层次聚类:初始每个对象看成一个簇,即n个簇,合并最相似的两个簇,成(n-1)个簇,重复直到一个簇

\

相似度衡量方法

最小距离:两个簇中最近的两个对象的距离

最大距离:两个簇中最远的两个对象的距离

平均距离:两个簇中所有对象两两距离的平均值

质心距离:两个簇质心的距离

\

DBSCAN聚类算法

数据集中一个对象的半径𝜉内有大于minPts个对象时,称这个点核心点,将这些核心点半径内的对象加入这个簇,同时这些对象中若存在核心点,则合并簇

最终不属于簇的点为离群点即噪音

数据集D有n个对象\(D=\{o_i|i=1,2,...n\}\)设定半径𝜉,minPts半径内对象的个数最小值即密度阈值

𝜉,minPts的设定可通过k距离

K距离指一个点的距离它第k近的点的距离,计算数据集中每个点的k距离后可排序生成k距离图,选取其变化剧烈的的位置的k距离作为𝜉,k为minPts。

posted on 2020-11-17 19:07  一口盐汽水  阅读(174)  评论(0编辑  收藏  举报