摘要: 特征工程: 一.数据处理 1.数据收集 埋点,mysql,hdfs,日志等收集。 2.数据清洗 a.不符合常理数据 b.超出统计值的数据 c.缺省值极多的字段 3.数据采样 (1)正样本大于负样本,且相差很大 下采样(截取与负样本量相近的正样本) (2)正样本大于负样本,相差不大 a.采集跟多数据 阅读全文
posted @ 2016-03-27 11:17 xmeo 阅读(350) 评论(0) 推荐(0) 编辑