【数字挖掘学习笔记】第二章__数据
1、数据类型与对象
什么是数据?
数据是数据对象的集合;数据对象用一组刻画其基本性质的属性描述;属性是对象的性质或者特征;
属性值:为了分析属性,我们为他们赋予的数字或符号,称为属性值。
属性分为离散型和连续型。
非对称属性:只重视少部分非零属性值才有意义,称该属性为非对称属性。
2、数据性质与类型
数据集的一般特性:
维数:数据集中属性的数目。在分析高维数据时容易陷入维度灾难(https://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/)
维度灾难:增加更多特征维度时,模型的效果反而下降的现象。【解释】:随着维数增加,数据在特征空间中越来越稀疏,导致过拟合学习了噪声和异常值。
数据集的类型:
3、数值质量
常见的数据质量问题:①噪声 ②异常值③缺失值 ④重复值 ⑤不一致值
噪声:是无关的数据对象。
异常值:是数据对象,但其特征与数据集中大多数对象有显著不同。
缺失值:
重复值:数据来源不同导致数据重复。
不一致值:同一属性的格式的编码 不一样。
4、数据相似性和相异性的度量
(1)二元向量的相似度
(2)多元向量间的相似度——余弦相似度
(3)相关性——皮尔森相关
(4)相关性——卡方检验
(5)Euclidean距离
(6)Minkowski距离
(7)马氏距离
马氏距离的优点:①马氏距离不受量纲的影响;②马氏距离还可以排除变量之间的相关性的干扰。
课堂小结