【数字挖掘学习笔记】第二章__数据

1、数据类型与对象

什么是数据?

数据是数据对象的集合;数据对象用一组刻画其基本性质的属性描述;属性是对象的性质或者特征;

属性值:为了分析属性,我们为他们赋予的数字或符号,称为属性值。

 

 属性分为离散型和连续型。

非对称属性:只重视少部分非零属性值才有意义,称该属性为非对称属性。

2、数据性质与类型

数据集的一般特性:

维数:数据集中属性的数目。在分析高维数据时容易陷入维度灾难(https://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/)

维度灾难:增加更多特征维度时,模型的效果反而下降的现象。【解释】:随着维数增加,数据在特征空间中越来越稀疏,导致过拟合学习了噪声和异常值。

 

 

 数据集的类型:

 

 3、数值质量

 

常见的数据质量问题:①噪声 ②异常值③缺失值 ④重复值 ⑤不一致值

噪声:是无关的数据对象。

异常值:是数据对象,但其特征与数据集中大多数对象有显著不同。

缺失值:

 

重复值:数据来源不同导致数据重复。

不一致值:同一属性的格式的编码 不一样。

 

 4、数据相似性和相异性的度量

 

(1)二元向量的相似度

 

 

 (2)多元向量间的相似度——余弦相似度

 

 

 (3)相关性——皮尔森相关

 

 

(4)相关性——卡方检验

 

(5)Euclidean距离

 

 (6)Minkowski距离

 

 (7)马氏距离

 

 

 马氏距离的优点:①马氏距离不受量纲的影响;②马氏距离还可以排除变量之间的相关性的干扰。

课堂小结

 

posted @ 2022-04-18 09:55  xxxsardar  阅读(176)  评论(0编辑  收藏  举报