数据挖掘之数据

2.数据

本章概要：

　　数据类型：定量或者定性，除此外某些数据可能还具备自身的属性（时间属性，彼此之间有明显的联系）。数据挖掘通常是针对特定的领域和特定的数据类型展开的。————识别数据

　　数据质量：数据中的噪声和离群点，数据遗漏，不一致或重复，偏差或不能地表总体。————数据清洗

　　数据预处理：预处理提高数据质量，转换成适合挖掘的形式。（连续转换成离散，维度降低）

　　数据的联系：根据相似度或者距离分析（聚类，分类）

2.1 数据类型

　　非对称的二元属性：这种数据的大部分值为0，因此关注非零值将更有意义。

　　数据集的类型：对于数据集而言有三个一般的特性（1.维度 2.稀疏性【少量的非零值】 3.分辨率【一天的天气变化和一小时的天气变化】）

　　记录的数据：事物数据或购物篮数据，数据矩阵，

2.2 数据质量

　　离群点：不同于其他大部分数据对象的特征的数据对象（异常检测）

　　遗漏值（缺失值）：1.直接删除数据对象或者属性 2.估计遗漏值（邻近的属性值或者属性的平均值进行平滑） 3.忽略遗漏值

　　不一致值：如身高为负，邮政和地名不匹配等。

　　重复数据:

2.3 数据的预处理

　　聚集，抽样，维归纳，特征子集选择，特征创建，离散化和二元化，变量变化

　　维归纳：通常有两种技术完成对维的归纳：1,创建新的属性，将一些旧的属性合并在一起降低数据集的维度。2,选择旧属性的子集来选择特征。

　　　　PCA（主成分分析，Principal Component Analysis）：对于里阿奴属性的线性代数技术，找出新的属性，

　　　　SVD（奇异值分解，Singular Value Decomposition）：一种线性代数技术，与PCA有关，也用于降维。

posted @ 2016-09-27 15:36 二十又七阅读(533) 评论(0) 编辑收藏举报

刷新页面返回顶部

二十又七