摘要: 一、脏数据处理 为什么要预处理数据? 数据缺失:记录为空&属性为空 数据重复:完全重复&不完全重复 数据错误:异常值&不一致 数据不可用:数据正确但不可用 如何预防脏数据? 制定数据标准 优化系统设计 1. 处理数据缺失: 忽略该记录 使用默认值 使用属性平均值 使用同类样本平均值 预测最可能的值 阅读全文
posted @ 2018-10-13 11:00 macy_zhang 阅读(5256) 评论(0) 推荐(1) 编辑