Loading

多维数据上的无监督异常检测综述

摘 要:本文首先介绍了异常检测的概念,对多维数据上的无监督异常检测的方法进行了简单的分类。对于基于邻近度的方法下的基于最近邻的方法和基于聚类的方法,我们阐述了基本算法的原理,分析了基本算法衍生的算法和更先进的算法的优点。对于基于投影的和基于深度学习的异常检测,我们比较了一些算法的优劣。对于新兴的异常检测,比如高维的、数据流上的和分布式异常检测,我们分别列举了一些算法并比较了算法的优劣,并且在最后主要对这些异常检测领域分析了未来挑战以及进行了展望。

关键词:异常检测;无监督;多维数据

Unsupervised Anomaly Detection on Multidimensional Data: A Survey

Abstract:This paper first introduces the concept of anomaly detection and makes a simple classification of the methods of unsupervised anomaly detection on multidimensional data. For the nearest neighbor-based methods and cluster-based methods under the proximity-based methods, we explained the principle of the basic algorithm and analyzed the advantages of the algorithms derived from the basic algorithm and the more advanced algorithms. For anomaly detection based on projection and deep learning, we compared the pros and cons of some algorithms. For some emerging anomaly detection, such as high-dimensional anomaly detection, anomaly detection on data stream and distributed anomaly detection, we listed some algorithms and compared advantages and disadvantages between these algorithms. In the end, we mainly analyzed the future challenges and prospects of these anomaly detection fields.

Key word:anomaly detection; unsupervised; multidimensional data

1 简介

随着信息技术的长足进步和快速发展,数据采集、存储和管理手段日趋完善,信息可以在全球范围内高速传输和共享。同时,目前数据的爆炸式增长对数据处理和分析方法提出了诸多挑战,传统的数据分析方法在挖掘数据中隐藏的信息方面的缺陷日益明显。在这种背景和需求下,数据挖掘学科应运而生,并随着机器学习、人工智能等领域的进步而发展。
数据挖掘是指从大规模数据中提取和挖掘知识(Fayyadetal.,1996),一般定义为从大量不完整、有噪声、随机的实际数据中提取人们事先不知道但潜在有用的隐藏信息和知识的过程(唐志恩,2008)。数据挖掘的任务主要包括预测建模、聚类分析、关联分析和异常检测(Mucherinoetal.,2009)。前三种方法是为了在数据中发现普遍的、共同的规律或模式,而异常检测是在不符合预期正常行为的数据中发现模式的过程。
异常检测又被称为离群点检测、新奇点检测、噪声检测、偏差检测或异常挖掘(HodgeV. and JimA.,2004)。早期,检测异常值的动机是数据清理:从数据集中去除异常值,以便参数统计模型能够更平滑地拟合训练数据。很快,越来越多的注意力转向了异常值本身,因为异常值通常代表有趣和关键的信息。
在许多安全关键环境中,离群点检测是一项关键任务,因为离群点表示可能导致显著性能退化的异常运行条件,例如飞机发动机旋转缺陷(王光霞,2016)或管道中的流动问题。异常值可以表示图像中的异常物体(吕承侃等人,2022),如地雷。一个异常值可以定位系统内具有恶意意图的入侵者(孙海丽等人,2022),因此快速的异常检测是必不可少的。因此,大量的研究工作致力于开发高性能的异常检测技术,其已应用于各种现实生活场景,比如发现监控视频里的异常事件(王志国和章毓晋,2020)等,除了以上应用外,还可以在Chandola等人(2009)以及Wang等人(2019)的研究中找到更详细的应用列表。
在许多安全关键环境中,离群点检测是一项关键任务,因为离群点表示可能导致显著性能退化的异常运行条件,例如飞机发动机旋转缺陷(王光霞,2016)或管道中的流动问题。异常值可以表示图像中的异常物体(吕承侃等人,2022),如地雷。一个异常值可以定位系统内具有恶意意图的入侵者(孙海丽等人,2022),因此快速的异常检测是必不可少的。因此,大量的研究工作致力于开发高性能的异常检测技术,其已应用于各种现实生活场景,比如发现监控视频里的异常事件(王志国和章毓晋,2020)等,除了以上应用外,还可以在Chandola等人(2009)以及Wang等人(2019)的研究中找到更详细的应用列表。
异常检测具有挑战性。一个重要的原因是由于离群点的稀少而缺乏标记数据。因此,许多方法本质上是无监督的。然而,很难提出适合所有数据集和场景里异常的通用数学度量。此外,由于无监督的性质,统计上的异常实例与现实生活中用户感兴趣的实例之间存在差距。多年来,异常检测领域有诸多研究成果。一方面,正在采用最先进的技术(例如,下采样和集成(Pangetal.,2015)、DensityPeaks聚类(Tuetal.,2020)、深度学习(ChalapathyR.andChawlaS.,2019)等)来开发通用、准确和高效的异常检测器。另一方面,随着各个领域技术的快速发展,数据量越来越大,复杂性也越来越高。因此,异常检测面临着新的挑战:识别具有极高维度的数据中的异常值、无界的大量数据流以及大规模分布式数据等。

1.1 离群点的定义和分类

离群点是指在数据集中偏离大部分数据的数据,使人怀疑这些数据的偏离并非由随机因素产生,而是产生于完全不同的机制(Jiaweietal.,2011)。异常值的定义通常基于以下标准(Kiranetal.,2018):
(1)异常值的特征不同于正常值;
(2)与正常实例相比,数据集中的异常值很少。
根据异常定义、数据类型及其与其他数据的关系,可将异常分为三类,即点异常 (point anomalies) 、条件异常 (contextual anomalies) 及聚集异常 (collective anomalies)(Chandola etal.,2009;NazariZ.andKangD.,2018):
(1)点异常:将数据集中的数据对象映射到高维空间后,当一个数据对象明显偏离了数据集中绝大多数的对象时,该对象就是点异常。
(2)条件异常:一个数据看似属于正常点,但在特定的条件下又与一般情况有差异,这类数据称为条件异常或上下文异常。其中上下文指数据集间的结构和关系,每个数据均由上下文特征(contextualattributes)及行为特征(behavioralattributes)来定义,即条件异常需要考虑的不仅仅是数据的取值,还需考虑数据出现的环境,也就是说某一数据在特定数据环境下被判断为异常,而在其他数据集中则可能是正常的(卓琳等人,2020)。
(3)聚集异常:当数据集中的一些数据对象集体显著偏离整个数据集时,该集合形成的子集被称作聚集异常。
根据输入数据的类型,异常值可以分为类矢量异常值和图形异常值(ZhangJ.,2013)。类矢量异常值在多维数据中出现,而图离群值存在于图数据中。数据点有多个属性,每个属性都有一个数值或一个分类值。离群点检测方法依赖于两个类矢量数据点之间的距离定义(例如,欧几里得距离和余弦距离)。图数据由节点和边组成,它们很好地表示了数据对象之间的相互依赖关系。图数据中的异常值可以是点异常值(例如,节点异常值和边异常值)或聚集异常(如,子图异常值)(ZhangJ.,2013)。本文只关注解决多维数据中异常检测问题的方法。

1.2 方法分类以及讨论范围

根据输入数据标签的可用性,异常检测方法可分为监督异常检测、半监督异常检测和无监督异常检测三种类型。监督异常检测依赖于标记的训练数据来构建预测模型。监督异常检测可以看作是一个二元分类问题,通常具有不平衡的训练数据:正常类中的实例比异常值类中的多。半监督离群点检测要么使用仅具有正常标签的训练数据(例如,One-class随机森林(Désiretal.,2013)),要么使用大多数未标记数据和少量标记数据构建模型(例如,Das等人(2016))。无监督异常检测使用未标记的数据来构建离群点得分计算模型(例如,孤立森林(Liuetal.,2008)),或直接计算输入数据的离群点分数而不构建模型(例如LOF(Breunigetal.,2000))。
本文主要关注的是无监督异常检测。无监督异常检测是最广泛研究的异常检测技术。这是因为当我们想发现以前从未遇到的异常模式时,用于异常检测的标记数据通常很难得,甚至是不希望的。

图 1: 异常检测技术分类

图 1: 异常检测技术分类

本次调查中讨论的方法分类如图1所示。我们将方法分为基本方法和先进方法,先进方法是在基本方法的基础上开发的,以应对新的挑战。这些挑战包括高维数据(“维度诅咒”)、无界和动态数据流、分布式环境中的大数据以及非常有限的标签数据的有效使用。根据这些方法使用的基本技术,基本方法进一步分为基于邻近度的方法和基于投影的方法。基于邻近度的方法依赖于基于最近邻的技术或聚类算法来量化离群点与附近数据点的邻近度,然后据此找到离群点。基于投影的方法采用LSH(Dataretal.,2004)和空间填充曲线(BoltonR.J.andHandD.J.,2001)等技术,将原始数据转换到复杂度降低的新空间/结构,其中离群点的得分是基于新空间的特征定义的。
在异常检测领域有大量的研究,其中一些关注特定类型的方法或数据,一些关注不同的应用场景。近年来,由于大数据技术、分布式计算架构、深度学习等的快速发展,出现了许多新方法和新趋势。我们旨在提供异常检测区域的全面和最新概述。我们回顾了传统类别中的经典方法和新发表的方法:基于邻近度的方法。我们更加关注新趋势,例如基于投影的方法、分布式方法等等,带反馈的异常检测是半监督的,比较先进但我们在此不作赘述。

1.3 论文组织

文章的其余部分组织如下。第2节介绍了基于邻近度的方法。然后我们在第3节讨论了基于投影的方法。第4节介绍了用于高维数据的技术。第5节讨论了流数据场景中的异常检测方法。第6节重点介绍了面对大数据挑战的分布式方法。第7节介绍了基于深度学习的异常检测方法。最后,第8节总结了本文并对新兴的异常检测领域进行了展望。
在异常检测的知识结构上,我们主要参考了Boukerche等人(2020)的研究。

2 基于邻近度的方法

基于邻近度的方法基于异常值与附近数据点的关系来识别异常值。一种常见的情况是,异常值位于稀疏区域,在给定距离内只有很少的数据点,或者最近的数据点非常远。邻近的概念可以用各种方式来定义。在本节中,我们将重点介绍通过最近邻和聚类解决邻近度问题的技术。

2.1 基于最近邻的方法

基于最近邻的异常检测方法基于数据点与其最近的邻居的关系来测量异常程度。定义邻域有两种主要方式:k最近邻(k-NN)和以数据点为中心的预先指定半径内的邻域。第一种方式对应的是全局近邻异常检测算法,其中常见的是基于距离的异常检测算法;第二种方式对应的是局部近邻异常检测算法,其中常见的是基于密度的异常检测算法(王鑫等人,2020)。
在本节中,我们研究了几种基于最近邻的经典离群点检测方法,以及利用下采样和集成的新方法。我们主要介绍LOF、IN-FLO、LoOP等经典算法以及LeSiNN这种新方法。
LOF(Breunigetal.,2000)是一种众所周知的方法,它首先引入了局部异常值的概念,并启发了许多后续的局部异常值研究工作。局部异常与其邻近的数据点存在显著差异。数据实例的LOF分数基于实例的邻居密度与该实例密度的平均比率。换句话说,离群点得分是由邻居密度归一化的密度。邻域的归一化是LOF处理局部离群点的方式。计算LOF分数的详细过程如下所述。
首先,需要为每个数据实例p获得k-NN,也就是K-邻近距离,据此计算可达距离,K-邻近距离和可达距离的定义如下:
定义 1 (K-邻近距离 (k-distance)) 在距离数据点 p 最近的几个点中,第 k 个最近的点跟 点 p 之间的距离称为点 p 的 K-邻近距离,记为 k-distance(p)。
定义2(可达距离(rechabilitydistance))可达距离的定义跟K-邻近距离是相关的,给定参数k时,数据点p到数据点o的可达距离d(p,o)为数据点o的K-邻近距离和数据点p与点o之间的直接距离的最大值。即:

\(d_k(p,o)=max\{k\mbox{-}distance(o),d(p,o)\} \quad\quad (1)\)

然后,基于从p到其k-NN的平均可达距离计算局部可达性密度(LRD):

\(LRD_k(p) =(\frac{\sum_{o\in N_k(p)}{d_k(p,o)}}{|N_k(p)|})^{-1}\quad\quad (2)\)

其中\(N_k(p)\)\(p\)\(k\)最近邻。局部可达密度基本上是到邻居的平均距离的倒数,除非存在一些“足够接近”的邻居。最后,可以通过将\(p\)的局部可达密度(\(LRD\))与其所有\(k\)个邻居的\(LRD\)进行比较来计算\(LOF\)得分:

\(LOF_k(p)=\frac{\sum_{o\in N_k(p)}\frac{LRD_k(o)}{LRD_k(p)}}{|N_k(p)|}=\frac{\sum_{o\in N_k(p)}LRD_k(o)}{|N_k(p)|LRD_k(p)}\quad\quad (3)\)

通常,异常值具有密度较高的邻居。因此,离群值的LOF分数高于正常值,而较高的分数表示实例更可能是离群点。
受影响的离群值(INFLO)(Jiaweietal.,2006)使用与k-NN相结合的反向最近邻集(k-RNN)来计算离群值得分。在对象分布在两个甚至多个密度不同的簇之间时,INFLO算法的性能明显优于LOF算法(杨校林等人,2020)。FINFLO算法计算对象的局部异常因子时同时考虑其k-近邻对象和反向k-近邻对象。该算法的基本定义如下:
定义 3 (局部密度 (local outlier density)) 对象 p 的局部密度为其 k-邻近距离的倒数, 即:

\(den(p)=\frac{1}{k\mbox{-}distance(p)}\quad\quad (4)\)

定义 4 (反向 k-近邻 (reverse KNN)) 若对象 q 的 k-近邻中包含对象 p,则对象 p 的反 向 k-近邻中包含对象 q,即:

\(RNN_k(p)=\{q|q\in NN_k(p)\}\quad\quad (5)\)

定义5(k-影响空间(k-influencespace))对于任何对象p∈D,\(NN_k\)搜索总是返回至少k个结果,而RNN可以是空的,或者有一个或多个元素。通过将\(NN_k(p)\)\(RNN_k(p)\)以一种新的方式结合起来,我们形成了一个局部邻域空间,用于估计p周围的密度分布。我们称这个邻域空间为p的k-影响空间(k-influencespace),记为\(IS_k(p)\)
定义6(影响域离群因子(influencedoutlierness))对象p的影响域由其k-近邻和反向k-近邻组成,对象p的影响域异常因子为其影响域内对象的平均密度和它的局部密度的比值,即:

\(INFLO_k(p)=\frac{den_{avg}(IS_k(p))}{den(p)}\quad\quad (6)\)

其中:

\(den_{avg}(IS_k(p))=\frac{\sum_{o\in IS_k(p)}den(o)}{|IS_k(p)|}\quad\quad (7)\)

Kriegel等人(2009)提出了局部离群概率(LoOP),其输出的概率表示数据点为离群点的可能性。LoOP试图解决其他方法面临的困境:如何为异常值分数选择合适的截止阈值,以区分异常值和正常值。公式化的LoOP范围是从0到1,具有可解释的含义,因此在实际场景中更有用。LoOP的计算框架类似于LOF:计算局部密度并用邻域平均值进行归一化。然而,LoOP在计算数据点局部密度的方式上有所不同。假设数据点p位于其邻域的中心,并且到其k-NN的距离遵循半高斯分布(距离总是非负的)。因此,定义了一个名为标准距离的量:

\(\sigma(p,N_k(p))=\sqrt{\frac{\sum_{o\in N_k(p)}{dist(p,o)^2}}{|N_k(p)|}}\quad\quad (8)\)

其中\(N_k(p)\)是p的\(k\mbox{-}NN\)。标准距离类似于\(dist(p,o)\)的偏差,当\(o\in N_k(p)\)时。但是,标准距离使用0作为平均值。然后将概率集距离作为估计密度,定义为:

\(pdist(\lambda,p)=\lambda\cdot\sigma(p,N_k(p))\quad\quad (9)\)

其中\(\lambda\)仅是控制输出分数中的对比度而不影响排名的参数。为了将密度归一化为\(k\mbox{-}NN\)的平均值,概率局部离群因子(PLOF)定义为:

\(PLOF(p)=\frac{pdist(\lambda,p)\cdot|N_k(p)|}{\sum_{o\in N_k(p)}pdist(\lambda,o)}-1\quad\quad (10)\)

最后,为了将PLOF转换为概率,使用偏差归一化和高斯误差函数。Ting等人(2017)在他们的工作中指出,基于最近邻的异常检测方法与传统的更多的训练数据会产生更好的结果相反。仅使用原始数据集中的样本可以提高基于最近邻的方法的性能。他们认为,对于单个数据集,存在最佳样本量。当实际使用的样本小于最佳大小时,数据分布不能很好地表示。但是,当实际样本大小增加到最佳大小以上时,由于正常数据点和异常值之间的距离减小,结果的准确性往往会降低。
LeSiNN(Pangetal.,2015)是另一种离群点检测方法,它使用下采样建立模型。数据点p相对于样本集S的离群值分数简单地定义为p和p在S中的最近邻居之间的距离。LeSiNN是第一个集成方法,它可以很好地与使用一个实例的样本训练的模型一起工作。LeSiNN对于数据大小和维度数量具有线性时间复杂度,它是少数几个可以直接应用于数值和分类数据集的异常检测器之一。
通常,局部异常检测方法显示出比全局异常检测方法更好的性能,因为其有更精细的离群点分析粒度。然而,当计算对象及其邻居的局部密度时,代价也会比较高昂。因此,它们不适合大型数据集,并且不能有效地处理数据流。特别是,低密度时的LOF实验结果不佳。INFLO对参数k敏感,必须适当选择(SmitiA.,2020)。对于不同的方法和数据集,k的最佳选择是不同的。
使用下采样是将时间复杂度降低到线性的好方法。再加上集成,基于下采样的方法也可以提供有前途和可靠的性能。然而,新的问题是确定合适的样本大小和集成大小。通常,在处理大型数据集时,需要较大的集成大小才能获得良好的性能。然而,这可能会导致执行时间大大增加(Boukercheetal.,2020)。

2.2 基于聚类的方法

另一类重要的离群值检测方法是基于聚类的检测方法。基于聚类的技术依赖于寻找不同簇的过程,其中不属于任何簇的对象被认为是离群值。本节将讨论K-means及其衍生算法、DBSCAN、CBLOF以及比较先进的基于密度峰值聚类算法。

2.2.1 K-means 及其衍生算法

K-means最初根据用户定义的策略选择K个点作为每个簇的初始中心,迭代地应用输入数据,算法识别最佳匹配聚类,并更新聚类中心以形成新的簇,并最小化下式给出的平方和聚类函数:

\(\sum_{j=1}^{K}\sum_{n\in S_j}||\textbf{x}^n-\mu_j||^2\quad\quad (11)\)

其中\(\mu\)是簇\(S_j\)中的点(\(x_n\))的平均值。
一种非常相似的分区算法是k-medoids算法或PAM(围绕medoids的分区),它使用实际点和半径而不是平均点和半径来表示每个簇。Kmedoids对异常值具有鲁棒性,因为它不使用优化来解决向量放置问题,而是使用实际数据点来表示聚类中心。在训练过程中,K-medoids比标准K-means更不容易受到局部极小值的影响,其中K-means通常收敛于质量较差的聚类。与标准k均值不同,它也是独立于数据顺序的,其中输入数据的顺序影响聚类中心的定位,Bradley等人(1999)表明,k-medoids提供了比k均值更好的类间分离,因此由于改进的分离能力,更适合于新的识别任务。然而,k-means优于k-medoids的一点是可以更有效地处理更大的数据集,因为k-medoid每次迭代需要O(\(n^2\))运行时间,而k-means是O(n)。这两种方法都可以从相对较小的数据集推广。相反,k-NN、最小二乘回归或Grubbs方法的分类精度易受数据集中样本数量的影响,因为它们都对输入数据分布的密度进行建模和分析。
数据挖掘分区算法CLARANS(RaymondT.NgandJiaweiHan.,1994),是k-medoids算法的优化派生,可以处理异常检测,这是在聚类过程顺带实现的。它应用随机但有界的启发式搜索,通过只搜索一个随机选择的簇更新来寻找一个最优的聚类。它需要两个用户指定的参数,即k的值和要随机选择的簇更新的数量。它不是搜索整个数据集以寻找最优的medoid,而是测试预先指定的数量的潜在medoid,并选择它提高簇质量的第一个medoid。但是,它仍然有O(\(n^2k\))运行时间,因此只适用于中小型的数据集(HodgeV. and JimA.,2004)。
Jiang等人(Jiangetal.,2001)提出了一种基于改进版本的k-均值聚类和从聚类中心构建的最小生成树的离群点检测方法。修改后的kmeans聚类具有初始值和聚类数量的上限。如果遇到的数据点远离所有现有簇中心,则该数据点将被指定为新簇的中心,这意味着簇的数量将增加一个。为了确定创建新簇的距离,需要两个距离。第一个是任何两个簇中心之间的最短距离,当簇发生变化时,会对其进行维护和更新。第二个是数据点与其最近的簇中心之间的距离。如果第一个距离不小于第二个距离,将创建一个新簇。当簇的实际数量超过上限时,中心距离最短的两个簇将合并为一个簇。与k-means类似,修改后的版本也会多次迭代整个数据集,目的是最小化数据点到其聚类中心的距离之和。对于离群点检测阶段,首先创建最小生成树,以聚类中心为节点,彼此之间的距离为边权。然后重复删除最长边,直到子树的数量变为k。子树中基数最小的数据点被视为异常值。

2.2.2 DBSCAN

接着我们分析DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise),如EsterM.等人(Esteretal.,1996)引入的算法1中所述。DBSCAN算法的主要目标是有效地对分散的数据进行聚类,即可以清晰地分离任意形式的聚类。因此,DBSCAN可以识别低密度区域中的噪声,即,噪声数据的密度必须低于簇的密度。DBSCAN的有效性依赖于EsterM.等人(1996)提出的三个主要概念,即直接密度可达(见定义7)、密度可达(见定义8),最后是密度连接(见定义9)。Eps(邻域的最大半径)和MinPts(属于Eps邻域的最小点数)是DBSCAN所需的两个输入参数。

开始
任意选择一个点 p.
检索从 p 关于 Eps 和 M inP ts 可达到的密度的所有点。
如果 p 是核心点,则形成一个簇。
如果 p 是一个边界点,则没有点可以从 p 密度可达,并且 DBSCAN 访问数据库的下一个点。
继续该过程,直到处理完数据集的每个点。
结束

定义7(直接密度可达)当出现以下情况时,数据对象p被视为可从数据对象q关于Eps和MinPts的直接密度可达:

  • \(p\in N_{Eps}(q)\)
  • 核心点条件即\(|N_{Eps}(q)|\ge MinPts\)

定义 8 (密度可达) 如果存在点 \(p_1,p_2,\ldots p_n\) 的链,则点 p 是从一个点关于 Eps 和 MinPts 密度可达的点,使得\(p_{i+1}\)是从 \(p_i\)直接密度可达。
定义 9 (密度连接) 当数据对象 p 和 q 都可以从数据对象 o 关于 Eps 和 MinPts 密度可 达时,数据实例 p 被认为是与数据实例 q 关于 Eps 和 MinPts 的密度连接。

2.2.3 CBLOF

基于聚类的局部异常值因子(CBLOF)(Heetal.,2003)是一种基于聚类的异常检测方法,通过定量测量区分大小聚类。给定一组k个簇\(\{C_1, C_2, \ldots , C_k\}\),按簇基数的递减顺序排序,以及两个数值参数\(\alpha, \beta\),边界簇\(C_b\)至少满足以下两个条件之一:
(1)\(\sum_{i=1}^{b}|C_i|\ge \alpha|D|\);
(2)\(|C_b|/|C_b+1|\ge \beta\).
因此,排序序列中\(C_b\)之后的簇被定义为小簇,而其余的是大簇。第一个条件背后的直觉是,异常值只占整个数据集的一小部分。第二个条件是由于考虑到具有高可能性的离群值的簇应该在大小上显著更小。然后,根据小簇和大簇定义数据点p的异常值得分:

\(CBLOF(p)=\begin{cases} |C_i|\cdot min(dist(p,C_j)) \quad C_i\ is\ a\ small\ cluster \\ |C_i|\cdot dist(p,C_i)\qquad \quad \ \ C_i\ is\ a\ large\ cluster \end{cases}\quad\quad (12)\)

其中\(p\in C_i\)并且\(C_j\)是不包括p的大簇。用作缩放因子的簇基数旨在使算法能够检测局部异常值。假设基数越大,密度越低。然而,这在大多数情况下并不成立。相反,基数大被认为是正常的。
Amer等人(2012)稍后的工作证明,简单地去除CBLOF的聚类基数可以产生更好的结果,这被称为未加权CBLOF:

\(unweighted\mbox{-}CBLOF(p)=\begin{cases} min(dist(p,C_j)) \quad C_i\ is\ a\ small\ cluster\\ dist(p,C_i)\qquad \quad \ \ C_i\ is\ a\ large\ cluster \end{cases}\quad\quad (13)\)

此修改还使未加权 CBLOF 成为全局异常检测器,因为针对整个数据集评估了轮廓度。

2.2.4 基于密度峰值聚类算法

Du等人(2016)设计了一种基于密度峰值聚类算法(Rodriguez,A.andLaio,A.,2014)的局部异常检测方法,这是一种简单但有效的基于密度的方法,可以检测任意形状的聚类。密度峰值聚类依赖于两个假设:
(1)聚类中心比周围数据点具有更高的局部密度;
(2)聚类中心与具有更高局部密度的其他数据点之间的距离相对较大。
第一个假设代表簇的集中效应,而第二个假设区分簇中心和同一簇中的附近成员。根据这两个假设设计了两个数量。数据点的局部密度ρ定义为截止半径内相邻数据点的数量。数据点的δ是其到另一个局部密度较高的数据点的最小距离。在聚类过程中,具有高δ和高ρ的数据点首先被指定为聚类中心,然后剩余的每个数据点都属于同一个聚类,其最近的数据点具有较高的局部密度。在聚类阶段之后,这里的异常检测方法计算每个聚类内δ的平均值和标准差。

3 基于投影的方法

前面提到的许多流行的离群点检测技术需要对数据点进行成对距离计算或查找k-NN,这通常会导致二次时间复杂度,并使这些技术难以扩展到非常大的数据集。现在已经有多种投影技术,比如随机投影(AchlioptasD.,2001)、LSH(Dataretal.,2004)、Space-fillingcurve(MortonG.M.,1966),稀疏随机投影。在本节中,我们将主要提及基于树的投影,其基础方法是孤立森林(Liuetal.,2008)。这些投影方法的核心思想是将原始数据转换为维度或复杂性降低的新空间的方法,同时在一定程度上保留原始数据集的邻近信息(例如,成对欧几里得距离、最近邻关系等)。然后,可以在投影空间中执行异常检测,大大改进了执行时间。
在广义上,树模型的构建也可以被视为一种投影类型,其中原始数据点被映射到特定的树节点,并且这些树节点包含关于原始数据的邻近信息。
FeiLiu等人(2008)开发了孤立森林,这是一个无监督的树集合,直观上类似于分类问题的随机森林。孤立森林由多个孤立树(iTree)组成,可以将其视为决策树的无监督对应物。通过递归地选择每个树节点上数据的一个随机属性和一个随机分割值,使用给定的样本集生成iTree模型,直到达到高度限制或叶节点包含一个不同的数据实例。这是因为我们认为与正常数据实例相比,异常值在早期阶段被孤立的可能性更高。因此,异常值在孤立树中的高度预计会更短。基于此思想,p点的离群值得分定义为

\(Score(p)=2^{-(\frac{\overline{d}(p)}{Ed(p)})}\quad\quad (14)\)

其中\(\overline{d}(p)\)是所有iTree中p的平均深度,\(Ed(p)\)为p的树路径的预期长度。孤立森林应该用数据集中的小样本而不是整个数据集来构建。下采样增加了树集成的多样性,这有利于结果的准确性。下采样也有助于缓解或避免错误地将正常实例识别为异常值和紧密聚集的异常值难以检测问题。下采样的另一个好处是提高了效率,因为只处理了一小部分数据来构建模型。毕竟,在不必处理成对距离的情况下,孤立森林非常高效,具有线性时间复杂性。此外,孤立森林在各种数据集上也表现出高检测精度。

4 高维异常检测

正如Zimek等人(2012)所总结的,高维数据中异常检测的挑战有两个方面:效率方面和有效性方面。利用高维数据实现效率的困难主要归因于两个原因(胡珉等人,2020)。一是维数升高带来的“维数灾难”;二是随着时间增长,数据量激增带来的“信息膨胀”。这不仅增加了算法计算量,提高时间复杂度,加重处理数据的负担,不利于实时检测;而且复杂的关联性容易干扰数据的真实结构,增加数据分析的难度,导致错误的分析处理结果。
对于有效性方面,关键是异常检测方法是否能够识别有意义的异常值。与这个问题相关的一个常用术语是“维度诅咒”(Zimeketal.,2012)。它指的是在高维空间中,基于偏差的异常检测往往会受到一种称为“距离集中”的现象的干扰:所有数据点对的距离趋于几乎一致。因此,数据集中的所有区域变得几乎同样稀疏,异常值和正常实例之间的区别很难捕捉。这种现象是由大量“正常噪声”无关维度/属性的稀释效应造成的(Aggarwal,C.C.,2015)。换句话说,这些不相关的维度隐藏了可用于识别异常值的信息。本节重点介绍旨在解决高维数据中异常检测的两个有挑战性的方法,主要是RBRP和RSHash方法。
为了提高高维数据的异常检测效率,Ghoting等人(2008)提出了递归装箱和重投影(RecursiveBinningandRe-projection,RBRP)。RBRP的灵感来自ORCA(BayS.D.andSchwabacherM.,2003),这是一种嵌套循环异常检测方法,其异常值分数基于到第k个最近邻居的距离。为了利用ORCA的修剪方案,需要找到k个近似最近邻居。RBRP使用递归装箱过程来加速对这种近似k-NN的搜索。首先,将数据点递归地划分为箱,直到单个箱的大小小于预定义的阈值。这种递归分区策略类似于分裂的分层聚类。更具体地,对于分区的每个递归,采用k-means来创建k个分区,使得在距离上彼此更接近的数据点具有被分配到同一容器的高概率。在递归划分阶段之后,RBRP在生成的箱中搜索k个近似最近邻居,其中数据点根据其沿主分量的投影进行排序,以加速搜索。
Sathe等人(2016)提出了RS-Hash,这是一种基于随机哈希的非常有效和准确的子空间异常检测方法。RS-Hash仍沿袭了集成的思想,并将所有集成组件的得分平均作为最终得分。每个组件本质上都是一组基于封闭哈希函数的模型。这些模型由原始数据集的样本训练,通过各种随机变换和归一化,再加上子空间的随机选择。单个集成组件输出的数据点的异常值分数基于在训练阶段落入同一哈希仓中的采样数据点的数量。自然地,这种箱中的低计数表明为异常。直观地,RS-Hash估计给定数据点在不同子空间上的矩形区域的密度。由于随机化,不同集成组件中数据点的矩形区域大小不同,这对集成的准确性很重要。与Kriegel等人(2009)提出的方法类似。RS-Hash还通过分析导致低分数的相关子空间,提供了数据点为离群值的原因的见解。RS-Hash算法具有线性时间复杂性,被认为是一种非常有效的算法。此外,由于在模型中使用了子空间,RS-Hash在处理“维度诅咒”方面也很有效。
由于对效率和有效性的追求,高维数据的异常检测仍然是一个具有挑战性的问题。许多方法都使用诸如近似k-NN、子空间和集成之类的技术来解决这些问题。基于子空间的方法最近受到了研究界的广泛关注。要考虑的一个不可避免的问题是,如何识别最有意义和最有用的子空间,同时最小化相关的计算成本,因为不同属性的可能组合的数量可能是巨大的(Boukercheetal.,2020)。

5 数据流中的异常检测

数据流是大容量的连续无边界数据序列。数据流背景下的异常检测面临两大挑战。第一个是存储内存挑战。由于数据点不断到达,并且序列理论上是无限的,因此从一开始就将整个流存储在内存中通常是不可行的。第二,许多异常检测应用程序(例如,计算机网络中的入侵检测、无线传感器网络中的可疑行为检测)的保密特性对效率提出了要求。
为了解决这些挑战,一种常用的技术是窗口化:使用数据流的一段(通常是最新的一段)来构建增量模型,并根据所涉及数据点的变化来更新模型。如SalehiM.和RashidiL.(2018)所述,有四种类型的开窗技术:

  • 界标窗口:数据流中的特定点固定为界标。离群点检测算法考虑了界标和当前数据点之间的数据序列。由于处理过程中涉及的数据大小会随着时间的推移而增加,因此内存存储成为一个主要问题。
  • 滑动窗口:固定宽度w的窗口在数据流上滑动。换句话说,只有最新的w个数据点被用作异常检测的上下文。根据窗口宽度的定义,有两种类型的滑动窗口:基于计数的窗口和基于时间的窗口。基于计数的窗口使用固定数量的数据点作为窗口宽度,而基于时间的窗口则使用固定的持续时间。
  • 阻尼窗口:根据数据点到达的时间或顺序,为每个数据点分配权重。通常,较新的数据点具有较高的权重,因此检测结果可以反映最新的趋势。
  • 自适应窗口:自适应窗口与滑动窗口类似,只是窗口宽度w根据当前窗口中数据的变化率而变化。当数据保持静止时,窗口会扩大,当观察到数据变化时,窗口就会缩小。

5.1 数据流中基于距离的异常检测

采用这种标准来确定异常值:一个数据实例在半径为 r 的范围内有少于 p 个邻居。该定义 允许无监督的异常检测,而无需对数据集的分布进行任何假设。常用的算法有 STORM(Angiulli F. and Fassetti F., 2007)、Abstract-C(Yang et al, 2009)、DUE(Kontaki et al, 2011)、 MCOD(Kontaki et al, 2011) 和 Thresh_LEAP(Cao et al, 2014)。
尽管基于距离的技术易于理解,并且对数据流计算效率高,但它们也有局限性。首先,很难找到不同数据集的参数r和p的适当值。此外,它假设整个数据集中的密度均匀。然而,对于真实数据集,像LOF(Breunigetal.,2000)这样处理局部异常值的方法可能会产生更好的结果。

5.2 数据流中基于密度的异常检测

在本节中,我们介绍了数据流中的几种异常检测算法,这些算法基于数据点相对于k-NN的密度。所有这些方法都是LOF算法的扩展(Breunigetal.,2000)。上一节中介绍的基于距离的方法被认为能够检测全局异常值,因为它们假设数据集中的密度均匀。而LOF通常在具有非均匀密度的数据集中获得良好的性能。此属性在用于数据流时也适用。常用的算法有 Incremental LOF(Pokrajac et al, 2007)、MiLOF(Salehi et al, 2016) 和 DILOF(Na et al, 2018)。
IncrementalLOF旨在提供与每次接收到新数据实例时在数据流上重复应用原始LOF相同的性能,但执行时间明显更短。MiLOF通过创建先前数据点的汇总来克服增量LOF的无限内存问题,这导致了固定的内存边界。MiLOF成功地将内存消耗减少到用户指定的范围,并相应地降低了时间复杂性。MiLOF和DILOF都通过汇总一部分数据点,克服了增量LOF中内存和执行时间的限制,这只允许在内存中保留有限数量的数据点。由于更好的集成技术,DILOF在AUC测量的准确性方面往往优于MiLOF。然而,MiLOF在时间复杂度上似乎优于DILOF。在实践中,当窗口宽度W相对小于k均值(最大迭代次数、聚类中心数等)相关参数时,DILOF往往优于MiLOF(Boukercheetal.,2020)。

5.3 数据流中基于聚类的异常检测

基于聚类的方法在时间复杂度方面优于基于距离和基于密度的异常检测。然而,牺牲了异常值分析的粒度。但是同样值得注意的是,离群点检测技术的性能和特性在很大程度上取决于底层的聚类算法。例如,基于k均值的方法可能无法在任意形状聚类的上下文中识别异常值。在数据流的设置中,新的挑战有确保可扩展性、设计增量策略等。常用算法有D-Stream(ChenY.andTuL.,2007)、Elahi等人(2008)、AnyOut(Assenetal.,2012)、Salehi等人(2014)和Chenaghlou等人(2017)。
D-Stream是基于网格的方法,应用的是阻尼窗口,适用于任意形状的簇,但对高维度的可扩展性较差。Elahi等人的方法特点是k均值和异常值的延迟确定,应用的是非重叠滑动窗,但是它偏好于球形簇而且参数过多。AnyOut方法的特点是分层聚类和线索树,应用的是阻尼窗口,具有实时和变化的粒度,但假设的为球形簇。Salehi等人的方法特点是超椭球聚类,应用的是非重叠滑动窗,时效更高。Chenaghlou等人的方法特点是超椭球簇和高斯簇,应用的是非重叠滑动窗,时效更高而且便于解决新兴问题。

6 分布式异常检测

在大数据时代,传统的集中式数据挖掘和机器学习方法因以下几个原因而力不从心。首先,由于磁盘存储、内存、CPU等方面的限制,单个计算机的资源可能不足以执行计算任务。其次,集中式算法可能无法满足许多现代应用程序(例如实时大数据分析应用程序)所需的严格时间限制。此外,数据集本身正趋于越来越分散。常用的算法有Bhaduri等人(2011)、Angiulli等人(2012)、DLOF(Yanetal.,2017)、DTOLF(Yanetal.,2017)和OW-OCRF(Zenatietal.,2018)。
Bhaduri等人的算法是ORCA的分布式解决方案,其基础设施是环形拓扑网络,但是通信开销高。Angiulli等人的算法是Solvingset在分布式环境下的扩展,其基础设施是带TCP套接字的以太网,但是广播导致可扩展性受损。DLOF和DTOLF都是LOF在分布式环境下的实现,其基础设施是HadoopMapReduce,他们都能减少开销,但无法扩展到高维度,不同的是DTOLF是加入了Top-N修剪。OW-OCRF是采用的是One-class随机森林算法,其分布式基础设施是无线传感器网络,具有实时响应和高精度。

7 基于深度学习的异常检测

深度学习是一类基于深度人工神经网络的技术。它通常被认为是机器学习的一个子集。近年来深度学习成为人工智能和机器学习中极为重要的部分,在提取数据中潜在复杂模式方面表现出优越的性能,并在多个领域取得了进展。深度学习方法能够合理处理复杂的属性信息,并且可以从数据中学习隐含的规律(陈波冯等人,2021)。
我们参考了Pang等人(2021)的研究对深度异常检测进行了大致的分类。如图2所示:

图 2: 深度异常检测分类

图 2: 深度异常检测分类

常用的算法有 Chen 等人 (2017)、RDA(Zhou and Paffenroth, 2017)、AnoGAN(Siddiqui et al, 2017)、ALAD(Zenati et al, 2018) 和 RAMODO(Pang et al, 2018)。
Chen等人的研究的技术是自动编码器和集成。自动编码器是一种用于无监督表示学习或非线性降维的人工神经网络。自动编码器的结构是对称的,通常中间层节点较少。自动编码器的期望输出与输入相同。换句话说,自动编码器被训练来重构输入。由于中间层具有较少的节点,因此自动编码器被迫学习由中间层表示的有效的简化编码,以便可以尽可能多地重构输入。然而,由于在无监督设置中,训练数据可能受到异常值的污染,因此模型的有效性可能会因其对异常值的敏感性和可能的过度拟合而显著削弱。而Chen等人(2017)将多个自动编码器集成,尽管会单个自动编码器会过拟合,但是集成后的结果更加稳健。然而这样会增加计算成本。
鲁棒深度自动编码器(RDA)通过将输入数据划分为两个矩阵来解决受污染的训练数据的问题,一个包含异常值,另一个由自动编码器有效地重构。但是这种方法对超参数特别敏感。对抗学习异常检测(ALAD)与AnoGAN的想法类似,ALAD也依赖于GAN来建模正态实例的分布。ALAD与AnoGAN有三点不同:第一,ALAD基于双向GAN;第二,ALAD使用新技术来改善双向GAN的性能。第三,基于重建误差的异常评分不同于AnoGAN.因此,ALAD的效率和准确性更高。RAMODO是基于深度神经网络的异常检测方法,可以自定义表示。然而该框架的局限性在于它严重依赖于初始候选集的质量。
将深度神经网络应用于异常检测的主要优点是能够从复杂和高维数据中提取代表性特征,与传统方法相比,这提供了更准确的结果。然而,深度神经网络通常需要较大的数据量来避免过度拟合。但在许多情况下,可用的数据是有限的。此外,许多基于深度学习的方法对超参数非常敏感。调整超参数以获得最佳性能可能是一项具有挑战性且耗时的任务。

8 结论和展望

在本文中,我们对过去和最近的多维数据上的无监督异常检测技术进行了一个彻底的分类,并强调了它们的基本特性,以及它们的优势和局限性。
基于最近邻的方法一般比较直观但是算法时间复杂度较高,下采样和集成技术缓解了时间复杂度过高这一问题。基于聚类的方法也是直观但是一般参数过多。基于投影的方法具有时间复杂度低、精度高的优点,但是算法比较不易理解。
为了确定以后的研究方向,接下来我们对新兴的异常检测领域进行展望:

  • 深度学习异常检测虽然有较高的准确率,但大多数都还不能够实时性部署,其中一个关键原因在于深度学习方法提取有效特征的时间成本过高。从实际应用的角度考虑,及时准确地发现异常能有效降低异常事件造成的损失,所以未来可以设计新的方法进行高效的数据预处理和特征提取,进而突破处理速度的限制,使得这些系统能够用于实时的检测场景(何平等人,2022)。
  • 对高维数据进行异常检测,需要注意效率挑战和“维度诅咒”。解决效率挑战的一个直接思路是使用降维技术,将数据映射到较低维度的空间。如何设计一种有效保存后续异常检测相关信息的降维技术,以及如何针对特定异常检测算法或任务定制降维方法,都是值得进一步研究的问题。而对于“维度诅咒”,最近的子空间技术和集成技术取得了很好的效果,而适当的子空间的探索仍然非常具有挑战性,因为属性的可能组合的数量与维度成指数关系。
  • 数据流上的异常检测也面临许多挑战。最突出的问题是,尽管数据序列可能无限,但如何进行缩减是一个值得研究的问题。一些方法选择将整个历史数据存储在内存或辅助内存中。这样就意味着要删除过时的数据点,并基于最新的数据构建模型。如何定义过时和如何保留历史信息以确保准确性也是值得研究的方向。
  • 分布式的异常检测的最大问题是通信开销,这通常被认为是一个重要因素,特别是在网络带宽非常有限的情况下。如何在保证一定的可扩展性和准确性的基础上实现可用性,这是一个值得研究的方向。

对以上挑战进行研究,是非常具有价值的。同时,异常检测是一个灵活的任务,可以运用各个领域的方法。我们在广泛学习的基础上创新才能有好的成果。

参考文献

Achlioptas D.. Database-friendly random projections. 2001. Proceedings of the twentieth ACM SIGMODSIGACT-SIGART symposium on Principles of database systems, pages 274-281.
Aggarwal, C. C.. Outlier analysis. 2015. Data Mining, 237–263.
Amer M., and Goldstein M.. Nearest-neighbor and clustering based anomaly detection algorithms for rapidminer. 2012. Proc. of the 3rd RapidMiner Community Meeting and Conference (RCOMM 2012), pages 1-12.
Angiulli F., Basta S., Lodi S., and Sartori C.. Distributed strategies for mining outliers in large data sets. 2012. IEEE transactions on knowledge and data engineering, 25(7), 1520-1532.
Angiulli F. and Fassetti F.. Detecting distance-based outliers in streams of data. 2007. Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, pages 811-820.
Assen I., Kranen P., Baldauf C., and Seidl T.. Anyout: Anytime outlier detection on streaming data.2012. International Conference on Database Systems for Advanced Applications, pages 228-242.
Bay S. D., and Schwabacher M.. Mining distance-based outliers in near linear time with randomization and a simple pruning rule. 2003. Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 29-38.
Bhaduri K., Matthews B. L., and Giannella C. R.. Algorithms for speeding up distance-based outlier detection. 2011. Proceedings of the 17th ACM SIGKDD international conference on Knowledge Discovery and Data Mining, pages 859-867.
Bolton R. J., and Hand D. J.. Unsupervised profiling methods for fraud detection. 2001. Credit scoring and credit control VII, 235-255.
Boukerche A., Lining Z., and Omar A.. Outlier detection: Methods, models, and classification. 2020.ACM Computing Surveys (CSUR), 53(3): 1-37.
Bradley P. S., Fayyad U. M., and Mangasarian O. L.. Mathematical programming for data mining: Formulations and challenges. 1999. INFORMS Journal on Computing, 11(3), 217-238.
Breunig M. M., Kriegel H. P., Ng R. T., and Sander J.. LOF: identifying density-based local outliers.2000. Proceedings of the 2000 ACM SIGMOD international conference on Management of data, pages 93-104.
Cao L., Yang D., Wang Q., Yu Y., Wang J., and Rundensteiner E. A.. Scalable distance-based outlier detection over high-volume data streams. 2014. 2014 IEEE 30th international conference on data engineering, pages 76-87.
Chalapathy R. and Chawla S.. Deep learning for anomaly detection: A survey. 2019. arXiv preprint arXiv, 1901.03407.
Chandola V., Arindam B., and Vipin K.. Anomaly detection: A survey. 2009. ACM computing surveys (CSUR), 41(3), 1-58.
Chen J., Sathe S., Aggarwal C., and Turaga D.. Outlier detection with autoencoder ensembles. 2017. Proceedings of the 2017 SIAM international conference on data mining, pages 90-98.
Chen Y., and Tu L.. Density-based clustering for real-time stream data. 2007. Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 133-142.
Chenaghlou M., Moshtaghi M., Leckie C., and Salehi M.. An efficient method for anomaly detection in non-stationary data streams. 2017. GLOBECOM 2017-2017 IEEE Global Communications Conference, pages 1-6.
Das S., Wong W. K., Dietterich T., Fern A., and Emmott A.. Incorporating expert feedback into active anomaly discovery. 2016. 2016 IEEE 16th International Conference on Data Mining (ICDM), pages 853-858.
Datar M., Immorlica N., Indyk P., and Mirrokni V. S.. Locality-sensitive hashing scheme based on p-stable distributions. 2004. Proceedings of the twentieth annual symposium on Computational geometry, pages 253-262.
Desir C., Bernard S., Petitjean C., and Heutte, L.. One class random forests. 2013. Pattern Recognition, 46(12), 3490-3506.
Du H., Zhao S., Zhang D., and Wu J.. Novel clustering-based approach for local outlier detection. 2016. 2016 IEEE Conference on Computer Communications Workshops (INFOCOM WKSHPS), pages 802-811.
Elahi M., Li K., Nisar W., Lv X., and Wang H.. Efficient clustering-based outlier detection algorithm for dynamic data stream. 2008. 2008 Fifth International Conference on Fuzzy Systems and Knowledge Discovery, Vol. 5, pages 298-304.
Ester M., Kriegel H. P., Sander J., and Xu X.. A density-based algorithm for discovering clusters in large spatial databases with noise. 1996. kdd, Vol. 96, No. 34, pages 226-231.
Fayyad U., Gregory P., and Padhraic S.. From data mining to knowledge discovery in databases. 1996. AI magazine, 17(3), 37-37.
Ghoting A., Parthasarathy S., and Otey M. E.. Fast mining of distance-based outliers in high-dimensional datasets. 2008. Data Mining and Knowledge Discovery, 16(3), 349-364.
He Z., Xu X., and Deng S.. Discovering cluster-based local outliers. 2003. Pattern recognition letters, 24(9-10), 1641-1650.
Hodge V. and Jim A.. A survey of outlier detection methodologies. 2004. Artificial intelligence review, 22(2), 85-126.
Jiang M. F., Tseng S. S., and Su C. M.. Two-phase clustering process for outliers detection. 2001. Pattern recognition letters, 22(6-7), 691-700.
Jiawei H., Kamber M., and Pei J.. Data mining concepts and techniques third edition. 2011. The Morgan Kaufmann Series in Data Management Systems, 5(4), 83-124.
Jin W., Tung A. K., Han J., and Wang W.. Ranking outliers using symmetric neighborhood relationship. 2006. Pacific-Asia conference on knowledge discovery and data mining, pages 577-593.
Kiran B. R., Thomas D. M., and Parakkal R.. An overview of deep learning based methods for unsupervised and semi-supervised anomaly detection in videos. 2018. Journal of Imaging, 4(2), 36.
Kontaki M., Gounaris A., Papadopoulos A. N., Tsichlas K., and Manolopoulos Y.. Continuous monitoring of distance-based outliers over data streams. 2011. 2011 IEEE 27th International Conference on Data Engineering, pages 135-146.
Kriegel H. P., Kroger P., Schubert E., and Zimek A.. LoOP: local outlier probabilities. 2009. Proceedings of the 18th ACM conference on Information and knowledge management, pages 1649-1652.
Kriegel H. P., Kroger P., Schubert E., and Zimek A.. Outlier detection in axis-parallel subspaces of high dimensional data. 2009. Pacific-asia conference on knowledge discovery and data mining, pages 831-838.
Liu F. T., Ting K. M., and Zhou Z. H.. Isolation forest. 2008. 2008 eighth ieee international conference on data mining, pages 413-422.
Morton G. M.. A computer oriented geodetic data base and a new technique in file sequencing. 1966. IBM Germany Scientific Symposium Series.
Mucherino A., Petraq P., and Panos M. Pardalos. 2009. Data mining in agriculture. Springer Science & Business Media, Berlin, Germany.
Na G. S., Kim D., and Yu H.. Dilof: Effective and memory efficient local outlier detection in data streams. 2018. Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining, pages 1993-2002.
Nazari Z. and Kang D.. Evaluation of Multivariate Outlier Detection Methods with Benchmark Medical Datasets. 2015. International Journal Of Computer Science And Network Security, 18(4), 36-43.
Pang G., Cao L., and Aggarwal C.. Deep learning for anomaly detection: Challenges, methods, and opportunities. 2021. Proceedings of the 14th ACM International Conference on Web Search and Data Mining, pages 1127-1130.
Pang G., Cao L., Chen L., and Liu H.. Learning representations of ultrahigh-dimensional data for random distance-based outlier detection. 2018. Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining, pages 2041-2050.
Pang G., Ting K. M., and Albrecht D.. LeSiNN: Detecting anomalies by identifying least similar nearest neighbours. 2015. 2015 IEEE international conference on data mining workshop (ICDMW), pages623-630.
Pokrajac D., Lazarevic A., and Latecki L. J.. Incremental local outlier detection for data streams. 2007. 2007 IEEE symposium on computational intelligence and data mining, pages 504-515.
Raymond T. Ng, and Jiawei Han.. Efficient and Effective Clustering Methods for Spatial Data Mining. 1994. Proceedings of the 20th International Conference on Very Large Data Bases (VLDB ’94), 144– 155.
Rodriguez, A. and Laio, A.. Clustering by fast search and find of density peaks. 2014. science, 1492-1496.
Salehi M., Leckie C., Bezdek J. C., Vaithianathan T., and Zhang X.. Fast memory efficient local outlier detection in data streams. 2016. IEEE Transactions on Knowledge and Data Engineering, 28(12), 3246-3260.
Salehi M., Leckie C. A., Moshtaghi M., and Vaithianathan T.. A relevance weighted ensemble model for anomaly detection in switching data streams. 2014. Pacific-Asia Conference on Knowledge Discovery and Data Mining, pages 461-473.
Salehi M., and Rashidi L.. A Survey on Anomaly detection in Evolving Data: [with Application to Forest Fire Risk Prediction]. 2018. ACM SIGKDD Explorations Newsletter, 20(1), 13-23.
Sathe S., and Aggarwal C. C.. Subspace outlier detection in linear time with randomized hashing. 2016. 2016 IEEE 16th International Conference on Data Mining (ICDM), pages 459-468.
Schlegl T., Seebock P., Waldstein S. M., Schmidt-Erfurth U., and Langs G.. Unsupervised anomaly detection with generative adversarial networks to guide marker discovery. 2017. International conference on information processing in medical imaging, pages 146-157.
Smiti A.. A critical overview of outlier detection methods. 2020. Computer Science Review, 38, 100306.
Ting K. M., Washio T., Wells J. R., and Aryal S.. Defying the gravity of learning curve: a characteristic of nearest neighbour anomaly detectors. 2017. Machine learning, 106(1), 55-91.
Tsou Y. L., Chu H. M., Li C., and Yang S. W.. Robust distributed anomaly detection using optimal weighted one-class random forests. 2018. 2018 IEEE International Conference on Data Mining (ICDM), pages 1272-1277.
Tu B., Yang X., Li N., Zhou C., and He D.. Hyperspectral anomaly detection via density peak clustering. 2020. Pattern Recognition Letters, 129, 144-149.
Vercruyssen V., Meert W., Verbruggen G., Maes K., Baumer R., and Davis J.. Hyperspectral anomaly detection via density peak clustering. 2018. 2018 ieee international conference on data mining (icdm), pages 527-536.
Wang H., Mohamed J. Bah, and Mohamed H.. A survey of outlier detection methodologies. 2019. Ieee Access, 7, 107964-108000.
Yan Y., Cao L., Kulhman C., and Rundensteiner E.. Distributed local outlier detection in big data. 2017. Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining, pages 1225-1234.
Yan Y., Cao L., and Rundensteiner E. A.. Distributed Top-N local outlier detection in big data. 2017. 2017 IEEE International Conference on Big Data (Big Data), pages 827-836.
Yang D., Rundensteiner E. A., and Ward M. O.. Neighbor-based pattern detection for windows over streaming data. 2009. Proceedings of the 12th international conference on extending database technology: advances in database technology, pages 529-540.
Zenati H., Romain M., Foo C. S., Lecouat B., and Chandrasekhar V.. Adversarially learned anomaly detection. 2018. 2018 IEEE International conference on data mining (ICDM), pages 727-736.
Zimek A., Schubert E., and Kriegel H. P.. A survey on unsupervised outlier detection in high‐dimensional numerical data. 2012. tatistical Analysis and Data Mining: The ASA Data Science Journal,, 5(5), 363-387.
Zhang J.. A survey of outlier detection methodologies. 2019. ICST Transactions on Scalable Information Systems, 13(1), 1-26.
Zhou C. and Paffenroth R. C.. Anomaly detection with robust deep autoencoders. 2017. Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining, pages 665-674.
陈波冯,李靖东,卢兴见,沙朝锋,王晓玲,张吉.基于深度学习的图异常检测技术综述.2021.计算机研究与发展,58(07):1436-1455.
何平, 李刚, 李慧斌. 基于深度学习的视频异常检测方法综述. 2022. 计算机工程与科学, 44(09):1620-1629.
胡珉, 白雪, 徐伟, 吴秉键. 多维时间序列异常检测算法综述. 2020. 计算机应用, 40(06):1553-1564.
吕承侃, 沈飞, 张正涛, 张峰. 图像异常检测研究现状综述. 2022. 自动化学报, 48(06):1402-1428.
唐志恩. 数据挖掘在经济预测中的应用研究. 2008. 电子科技大学硕士学位论文. 四川, 中国.
孙海丽, 龙翔, 韩兰胜, 黄炎, 李清波. 工业物联网异常检测技术综述. 2022. 通信学报, 43(03):196-210.
王光霞. 基于多元时序数据的飞机发动机故障检测算法研究. 2016. 中国民航大学硕士学位论文. 天津, 中 国.
王鑫, 张涛, 金映谷. 异常检测算法综述. 2020. 现代计算机, 2020(30):21-26.
王志国, 章毓晋. 监控视频异常检测: 综述. 2020. 清华大学学报 (自然科学版), 60(06):518-529.
杨校林, 李菁菁, 李易. FINFLO:快速局部异常点检测算法. 2020. 数据与计算发展前沿, 2020, 2(06):8289.
卓琳, 赵厚宇, 詹思延. 异常检测方法及其应用综述. 2020. 计算机应用研究, 37(S1):9-15.

posted @ 2023-05-18 11:03  LateSpring  阅读(675)  评论(0编辑  收藏  举报