使用孤立森林进行无监督的离群检测

孤立森林是一种无监督算法的异常检测，可以快速检测数据集中的异常值。

孤立森林是一种简单但非常有效的算法，能够非常快速地发现数据集中的异常值。理解这个算法对于处理表格数据的数据科学家来说是必须的，所以在本文中将简要介绍算法背后的理论及其实现。

由于其算法非常的简单并且高效，所以 Scitkit Learn 已经将其进行了高效的实现，我们可以直接调用使用。但在直接进入示例之前，还是需要介绍其背后的理论，这样才可以深入的了解该算法的。

一些理论

1、什么是异常？

异常（异常值）可以描述为数据集中与其他数据或观察结果显著不同的数据点。发生这种情况的原因有几个：

2、为什么要进行异常检测？

我们之所以想要找出和深入研究异常，是因为这些数据点要么会浪费的时间和精力，要么可以让我们识别出有意义的东西。

在简单线性回归的情况下，错误的异常值会增加模型的方差，并进一步降低模型对数据的把握能力。异常值导致回归模型（尤其是线性模型）学习对异常值的偏差理解。

其他的方法一直在尝试构建正常数据的配置文件（分布、规律等），然后进一步将哪些不符合配置文件的数据点识别为异常。

而孤立森林的亮点在于它可以使用“孤立”规则来直接检测异常（一个数据点与其余数据的距离）。这意味着该算法可以像其他与距离相关的模型（例如 K-Nearest Neighbors）一样以线性时间复杂度运行。

该算法是通过以异常值最明显的特点为中心来进行工作：

孤立森林通过引入（一组）二叉树来实现，该二叉树通过随机选择一个特征然后随机选择该特征的分割值来递归地生成分区。分区过程将一直持续，直到它将所有数据点与其余样本分开。

因为每棵树的实例中只选择一个特征。可以说决策树的最大深度实际上是一，所以孤立森林的基本估计器实际上是一个具有各种数据子集的极其随机的决策树（ExtraTrees）。

孤立森林中的一棵树的示例如下：

上图异常值的属性，可以观察到与正常样本相比异常值平均需要更少的分叉就能将它们隔离。每个数据点将在X轮之后根据它们被隔离的容易程度获得分数，有异常分数的数据点将被标记为异常。

完整文章：

posted @ 2022-03-20 11:53 deephub 阅读(159) 评论(0) 收藏举报

刷新页面返回顶部