异常检测 - 郑哲

异常检测

异常检测：

判断测试集是否异常。如下例中对飞机引擎的判断：

我们建立评估模型概率模型p(x)来判断，如果p(x)<ε异常，反之正常

用处举例：购物网站用户异常检测，计算机集群异常检测

算法实现：

建立评估模型：

1.选择相应的变量。

2.变量拟合高斯分布。

3.计算概率。

两个参数时的概率模型图：

模型实例：

数据的分配：（推荐使用前一种方式）

模型建立：

模型评估：

可以尝试不同的阈值来调整模型。

监督学习和异常检测的区别

总结：误差检测模型（正例数量大，负例数量很小）

（五）、如何选取或设计feature

下面我们说说异常检测问题中的feature应如何选取或设计。

这部分将介绍两个方面：一是数据变换，二是增加更具辨别力的feature

一、数据变换

我们知道，上述异常检测系统是建立在每一维数据都服从高斯分布的假设基础上的。那么如果原始数据并不服从高斯分布呢？办法就是，先对原始数据进行某种变换，其实也相当于是设计新的feature。举例说明如下图：

左上图：统计数据x的直方图，发现基本符合高斯分布

左下图：发现数据的直方图并不符合高斯分布

右下图：对x进行log(x)变换以后，统计直方图基本符合高斯分布了

类似log(x)的变换有很多，如右上显示的几种函数都可以在实验时尝试。

下面举个实验中的例子，具体阐述一下如何做数据变换。如接下来的几幅图所示，代码是Octave的：

初始数据是这个样子的：

将变换后的符合高斯分布的数据赋值给新的xNew，拿xNew去估计高斯分布的两个参数即可。大功告成！

二、增加更具辨别力的feature

此外，由于我们是靠概率阈值来区分正常和异常样本的，我们当然是希望异常样本的概率值小且正常样本的概率值大。这时容易碰到的问题便是，如果一个测试样本的预测概率值不大不小恰好在阈值附近的话，预测结果出错的可能性就比较大了。如下图所示：

在绿色X样本的位置，预测概率值对于正常和异常样本来说都挺大的，很难给出一个正确的判断。

这时，如果我们有另外一个维度的特征，在绿色X的位置附近对于正常和异常样本更有区分度，那么我们可能就可以对绿色X做出正确的判断了。如下图所示，我们增加x2特征以后，发现绿色X样本在x2这个特征维度上的概率p(x2)很小，与p(x1)的乘积自然也较小。从而，当特征x1无法区分时，特征x2帮助模型成功辨别了该样本。

综上，选取特征时注意两点：

1、当特征数据不符合高斯分布时，通过统计数据的直方图分布，尝试用多种函数变换数据，使直方图分布特性符合高斯模型。

2、当前特征区分度不够时，可设计增加更有区分度的特征，以帮助模型更具辨别力。

（七）、多元高斯分布及其在异常检测问题上的应用

一、Motivation

为什么又有了多元高斯分布的概念呢？下面为了引入motivation，我们举个用多元高斯分布比用上述高斯分布模型更靠谱的栗子

如下图所示，当x1和x2存在左图中的线性关系时（这里可以先不用在意二者的线性关系，后续会详细讲解），绿色X样本的p(x1)和p(x2)都在阈值范围内，也就是都没有小到判为异常样本的程度（如右图），那么它们的乘积自然很有可能也不满足异常样本的判定条件。具体地，如左图，紫色的圆圈越往外，属于正常样本的概率就越小，圆心点的概率最大。这时我们看到绿色X测试样本和几个红色X训练样本距离圆心的距离是相近的，也就是拥有相似的概率值，那么绿色点就会被判为和红色一样是正常样本了。