数据挖掘复习笔记（二、数据预处理）

（一）数据对象、属性

数据集由数据对象组成。一个数据对象代表一个实体。属性是一个数据字段，表示数据对象的一个特征。

可以用多种方法组织属性类型：

1.标称属性（相当于枚举类型）、序数属性、数值属性。

2.离散属性、连续属性

（二）数据描述

1.中心趋势度量：均值、中位数、众数、中列数

2.离散趋势度量：方差、标准差、分位数、分位数极差

（三）数据预处理

1.为什么要进行数据预处理

现实世界中数据往往存在以下问题：

2.数据预处理包括哪些工作

噪声的处理方法：分箱，将数据分箱，对箱中数据用均值、中位数或箱边界进行光滑。回归，用一个函数拟合数据，达到光滑数据的效果。

识别离群点：通过聚类方法把数据划分为簇，落在簇之外的就是离群点。

数据归约策略

a) 数据立方体聚集

b) 维归约：通过删除不相干的属性或维减少数据量。维规约的方法包括小波变换和主成分分析。

c) 数据压缩：用数据编码或者变换得到原始数据的压缩表示。典型的有主成分分析

d) 数值归约

e) 离散化和概念分层

3.距离与相似性度量

数据之间的相似性度量

（1）常用距离函数:

欧式(Euclidean)距离、曼哈顿(Manhattan)距离、切比雪夫距离等。

(2) 二值属性数据距离度量

二值属性变量(binary variable)只有两种状态:0或1,表示属性的存在与否。一种差异计算方法就是根据二值数据值的计数，计算二值属性的距离。

posted on 2017-12-07 14:30 起名真TM烦阅读(450) 评论(0) 编辑收藏举报

刷新页面返回顶部