数据挖掘复习笔记(二、数据预处理)

(一)数据对象、属性

数据集由数据对象组成。一个数据对象代表一个实体。属性是一个数据字段,表示数据对象的一个特征。

可以用多种方法组织属性类型:

1.标称属性(相当于枚举类型)、序数属性、数值属性。

2.离散属性、连续属性

(二)数据描述

1.中心趋势度量:均值、中位数、众数、中列数

2.离散趋势度量:方差、标准差、分位数、分位数极差

(三)数据预处理

1.为什么要进行数据预处理

现实世界中数据往往存在以下问题:

  • 不完整的:有感兴趣的属性缺少属性值
  • 含噪声的:包含错误或“孤立点”
  • 不一致的:在命名或编码上存在差异

 2.数据预处理包括哪些工作

  • 数据清理。数据清理包括填写缺失值、平滑噪声数据、识别和删除孤立点。

噪声的处理方法:分箱,将数据分箱,对箱中数据用均值、中位数或箱边界进行光滑。回归,用一个函数拟合数据,达到光滑数据的效果。

识别离群点:通过聚类方法把数据划分为簇,落在簇之外的就是离群点。

  • 数据集成。将来自多个数据库的数据集成在一起。
  • 数据变换。对数据进行规范化等。

    规范化方法一 ——最小-最大(min-max)规范化

    最小-最大规范化保持原有数据之间的联系。如果今后的输入落在A的原始数据值域之外,该方法将面临“越界错误”。

    规范化方法二——z-score规范化

    也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1

    当属性f的实际最大和最小值未知,或异常点左右了最小-最大规范化时,该方法是有用的。

    规范化方法三——小数定标规范化

    小数定标规范化通过移动属性A 的小数点位置进行规范化。

  • 数据规约。对数据进行精简,但仍保持或接近于保持数据的完整性。

          数据归约策略

          a) 数据立方体聚集

          b) 维归约:通过删除不相干的属性或维减少数据量。维规约的方法包括小波变换和主成分分析。

          c) 数据压缩:用数据编码或者变换得到原始数据的压缩表示。典型的有主成分分析

          d) 数值归约

          e) 离散化和概念分层

3.距离与相似性度量

数据之间的相似性度量

1)常用距离函数:

欧式(Euclidean)距离、曼哈顿(Manhattan)距离、切比雪夫距离等。

(2) 二值属性数据距离度量

二值属性变量(binary variable)只有两种状态:0或1,表示属性的存在与否。一种差异计算方法就是根据二值数据值的计数,计算二值属性的距离。

 

posted on 2017-12-07 14:30  起名真TM烦  阅读(450)  评论(0编辑  收藏  举报

导航