数据挖掘-聚类分析【1】

本节内容：

0：数据挖掘的常用方法

1：什么是聚类----聚类是无监督学习

2：聚合和分类的区别---事先定义的类型标记

3：聚类结果的影响有哪些---量纲、行为准则、距离

4：聚类分析的分类--根据x或特征值

5：聚类分析的一般步骤

6：聚类分析的案例

7：聚类的原理--距离和相似度才划分聚类

0：数据挖掘的常用方法

一、什么是聚类

聚类也称为聚类分析（某些应用中也称数据分割），指将样本分到不同的组中使得同一组中的样本差异尽可能的小，而不同组中的样本差异尽可能的大。
聚类得到的不同的组称为簇（cluster）
早在孩提时代，人就通过不断改进下意识的聚类模式才学会如何区分猫和狗、动物和植物

"物以类聚，人以群分"。对事务进行分类，是人们认识事务的出发点，也是人们认识世界的一种重要手段。

无监督学习也称聚类分析，无监督学习源于许多研究领域，受到很多应用的推动。如：

在复杂网络分析中，人们希望发现具有内在紧密联系的社团
在图像分析中，人们希望将图像分割成具有类似性质的区域
在文本处理中，人们希望发现具有相同主题的文本子集
.....
这些情况都可以在适当的条件下归为聚类分析。

二、聚类和分类的区别

无监督学习和分类不同，没有事先定义的类型标记。

--聚类所说的类不是事先给定的，而是根据数据的相似度和距离来划分

--聚类的数目和结构都没有事先假定

聚类分析的用途：

可作单独的数据分析工具
可作为其他方法的预处理手段

聚类方法的目的是寻找数据中

【1】潜在的自然分组结构 a structure of "natural" grouping

【2】感兴趣的关系 relationsship

三、聚类结果的影响有哪些

1：量纲（一般我们需要对数据进行标准化）

2：聚类的行为准则

3：距离测度

四、聚类分析的分类

根据样本的的X进行分类，或者是根据对X的n个特征值进行分类

五、聚类分析的一般步骤

六、聚类分析的案例

七、聚类的原理

原理：距离、相似度进行聚类

明视距离：

欧式距离
曼哈段距离

相似度：

二元相似度
向量相似度

posted @ 2019-12-22 16:37 你是我的神奇阅读(1010) 评论(0) 收藏举报

刷新页面返回顶部

你是我的神奇