数据挖掘之数据

2.数据

本章概要:

  数据类型:定量或者定性,除此外某些数据可能还具备自身的属性(时间属性,彼此之间有明显的联系)。数据挖掘通常是针对特定的领域和特定的数据类型展开的。————识别数据

  数据质量:数据中的噪声和离群点,数据遗漏,不一致或重复,偏差或不能地表总体。————数据清洗

  数据预处理:预处理提高数据质量,转换成适合挖掘的形式。(连续转换成离散,维度降低)

  数据的联系:根据相似度或者距离分析(聚类,分类)

2.1 数据类型

  非对称的二元属性:这种数据的大部分值为0,因此关注非零值将更有意义。

  数据集的类型:对于数据集而言有三个一般的特性(1.维度 2.稀疏性【少量的非零值】 3.分辨率【一天的天气变化和一小时的天气变化】)

  记录的数据:事物数据或购物篮数据,数据矩阵,

2.2 数据质量

  离群点:不同于其他大部分数据对象的特征的数据对象(异常检测)

  遗漏值(缺失值):1.直接删除数据对象或者属性 2.估计遗漏值(邻近的属性值或者属性的平均值进行平滑) 3.忽略遗漏值

  不一致值:如身高为负,邮政和地名不匹配等。

  重复数据:

2.3 数据的预处理

  聚集,抽样,维归纳,特征子集选择,特征创建,离散化和二元化,变量变化

  维归纳:通常有两种技术完成对维的归纳:1,创建新的属性,将一些旧的属性合并在一起降低数据集的维度。2,选择旧属性的子集来选择特征。

    PCA(主成分分析 ,Principal Component Analysis):对于里阿奴属性的线性代数技术,找出新的属性,

    SVD(奇异值分解,Singular Value Decomposition):一种线性代数技术,与PCA有关,也用于降维。

 

  

posted @ 2016-09-27 15:36  二十又七  阅读(533)  评论(0编辑  收藏  举报