数据预处理是数据挖掘的重要步骤,数据挖掘者的大部分时间和经历都要花在预处理阶段。数据预处理涉及的策略和技术非常广泛,主要包括如下技术:

1)聚集

  聚集(Aggregation)就是将两个或多个对象合并为单个对象。一般来说,定量数据通常通过求和或求平均值进行聚集,定性数据通常通过汇总进行聚集。聚集可能导致有趣细节的丢失。

2)抽样

3)维度规约

4)属性选择

5)属性创建

6)离散化和二元化

7)变量变换

posted on 2015-06-04 13:56  chamie  阅读(310)  评论(0编辑  收藏  举报