检测和处理异常值的极简指南

本文是关于检测和处理数据集中的异常值,主要包含以下四部分内容:

  • 什么是异常值?
  • 为什么检测异常值很重要?
  • 如何检测异常值?
  • 如何处理异常值?

什么是异常值?

异常值是与其他观察结果显着不同的数据点。如下图所示,橙色数据点与一般分布相去甚远。我们将此点称为异常值。

为什么检测异常值很重要?

在数据科学项目、统计分析、机器学习应用中检测异常值非常重要:

  • 异常值会导致分布偏斜。
  • 异常值会严重影响数据集的均值和标准差。这些可能会在统计上给出错误的结果。
  • 可能导致偏差或影响估计。
  • 大多数机器学习算法在存在异常值的情况下都不能很好地工作。
  • 异常值在欺诈检测等异常检测中非常有用,其中欺诈交易与正常交易非常不同。

特别是在线性问题中,异常值更能显示出它们的影响。例如下面的例子;左边的图片中当 x 变量的值增加时,y 变量的值减小。但是由于异常值,观察到随着变量 x 的值增加,变量 y 的值也增加。异常值扭曲了我们的分析结果。

在上面的示例中,如果从数据集中移除异常值,可以获得更准确、不会被误导的测试结果。

完整文章:

https://www.overfit.cn/post/151694f1b1194e6197e8da22c981be7c

posted @ 2022-04-19 10:29  deephub  阅读(131)  评论(0编辑  收藏  举报