会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
macy_zhang
博客园
首页
新随笔
联系
订阅
管理
2018年10月13日
数据清洗与规约方法
摘要: 一、脏数据处理 为什么要预处理数据? 数据缺失:记录为空&属性为空 数据重复:完全重复&不完全重复 数据错误:异常值&不一致 数据不可用:数据正确但不可用 如何预防脏数据? 制定数据标准 优化系统设计 1. 处理数据缺失: 忽略该记录 使用默认值 使用属性平均值 使用同类样本平均值 预测最可能的值
阅读全文
posted @ 2018-10-13 11:00 macy_zhang
阅读(5256)
评论(0)
推荐(1)
编辑
公告