处理缺失值的三个层级的方法总结

缺失值是现实数据集中的常见问题,处理缺失值是数据预处理的关键步骤。缺失值可能由于各种原因而发生,例如数据的结构和质量、数据输入错误、传输过程中的数据丢失或不完整的数据收集。这些缺失的值可能会影响机器学习模型的准确性和可靠性,因为它们可能会引入偏差并扭曲结果,有些模型甚至在在缺少值的情况下根本无法工作。所以在构建模型之前,适当地处理缺失值是必要的。

本文将展示如何使用三种不同级别的方法处理这些缺失值:

  • 初级:删除,均值/中值插补,使用领域知识进行估计
  • 中级:回归插补, K-Nearest neighbors (KNN) 插补
  • 高级:链式方程(MICE)的多元插补, MICEforest

完整文章:

https://avoid.overfit.cn/post/803b18d975bc4cdd82aa3026cd405ce8

posted @ 2023-03-16 11:06  deephub  阅读(28)  评论(0编辑  收藏  举报