如何处理缺失值?
通常碰到缺失值时,我们会考虑:缺失的面积有多大?缺失值所在列对目标变量的影响有多大?
一般处理方法有:如果大面积缺失,例如80%,像这样的缺失量我们会将其丢弃或者找其他方法新构造一列代替它
如果小面积缺失,例如40%,很多人会使用统计量来适当的填充它
那么,根据自己平时的理解,我有一些其它的想法
自己的猜想:
1. 降低整个特征的权重; 比如A特征有缺失值,那么为了降低缺失值对预测结果的影响,我们人为地降低A特征的权重
2. 降低样本中缺失值的特征值权重: 比如A特征有缺失值,那么将A特征中缺失值标记为0,然后就可以在后期对A特征值=0的降低它的权重