如何处理缺失值？

通常碰到缺失值时，我们会考虑：缺失的面积有多大？缺失值所在列对目标变量的影响有多大？

一般处理方法有：如果大面积缺失，例如80%，像这样的缺失量我们会将其丢弃或者找其他方法新构造一列代替它

如果小面积缺失，例如40%，很多人会使用统计量来适当的填充它

那么，根据自己平时的理解，我有一些其它的想法

自己的猜想：
1. 降低整个特征的权重；比如A特征有缺失值，那么为了降低缺失值对预测结果的影响，我们人为地降低A特征的权重
2. 降低样本中缺失值的特征值权重：比如A特征有缺失值，那么将A特征中缺失值标记为0，然后就可以在后期对A特征值=0的降低它的权重

posted @ 2020-03-03 16:28 Alexisbusy 阅读(183) 评论(0) 编辑收藏举报

刷新页面返回顶部