GANF: 用于多时间序列异常检测的图增广归一化流《Graph-Augmented Normalizing Flows for Anomaly Detection of Multiple Time Series》(异常检测、多时间序列、DAG、贝叶斯网络、归一化流)

今天是2022年7月12日，差不多小半个月没看论文了，因为模型一直运行不起来+系统搭建的一塌糊涂，今天干脆摆烂，本咸鱼要去看新的论文了(逃避旧工作，bushi)。

对了，我们放暑假了，可是我没放暑假...

论文：Graph-Augmented Normalizing Flows for Anomaly Detection of Multiple Time Series

或者是：Graph-Augmented Normalizing Flows for Anomaly Detection of Multiple Time Series

直达下载：https://openreview.net/pdf?id=45L_dgP48Vd

GitHub：https://github.com/EnyanDai/GANF

ICLR 2022的论文。

突然发现因果推断+图神经网络，好火啊。废话少说，看论文吧。

采用半解释半翻译的方式，手打字太耗时间了(上一篇就全是手敲的，自闭)，复制粘贴吧。

摘要

异常检测是一项广泛研究的任务，适用于各种数据类型；其中，多个时间序列经常出现在应用中，例如电网和交通网络。然而，由于组成序列之间复杂的相互依赖性，检测多个时间序列的异常是一个具有挑战性的课题。我们假设异常发生在分布的低密度区域，并探索使用归一化流进行无监督异常检测，因为其在密度估计方面具有较高的质量。此外，通过在组成序列之间施加贝叶斯网络，我们提出了一种新的流模型。贝叶斯网络是建模因果关系的有向无环图（DAG）；它将序列的联合概率分解为易于评估的条件概率的乘积。我们将这种图增强归一化流方法称为GANF，并提出了DAG与流参数的联合估计。我们在真实数据集上进行了大量实验，证明了GANF在密度估计、异常检测和识别时间序列分布漂移方面的有效性。

1绪论

异常检测（Pimentel等人，2014；Ruff等人，2018）的任务是识别明显偏离大多数数据实例的异常样本。它应用于多种领域，包括风险管理（Aven，2016）、视频监控（Kiran等人，2018）、对抗性示例检测（Grosse等人，2017）和欺诈检测（Roy&George，2017）。异常检测的典型方法有单类支持向量机（Sch¨olkopf等人，2001）和核密度估计（Parzen，1962；Kim&Scott，2012）。这些方法依赖于手工制作的特征，通常对高维数据（例如图像、语音信号和时间序列）不稳定。近年来，受复杂数据深度学习成功的启发，提出了许多深度异常检测方法，这些方法在应用中非常有效（Ruff等人，2018；Sabokrou等人，2018；Goyal等人，2020）。

除了这些已演示的应用之外，对更复杂数据的异常检测的需求也在不断增加；例如，多个时间序列。它们包含一组多变量时间序列，在系统中经常相互作用。多个时间序列来源的一个突出例子是电网，其中每个组成序列是电网随时间变化的状态，由部署在特定地理位置的传感器记录。网格状态包含许多属性；比如电流幅值和角度、电压幅值和角度以及频率。来自附近位置传感器的时间序列读数通常是相关的，在级联效应下，它们的行为可能是因果关系。异常检测相当于及时识别异常电网条件，如发电机跳闸和绝缘子损坏。

由于高维性、相互依存性和标签稀缺性，多个时间序列的异常检测相当具有挑战性。首先，一种简单的方法是沿属性维度连接组成序列，并对多变量时间序列应用检测方法。然而，当系统包含许多成分时，生成的数据具有高维性。其次，组成序列具有复杂的相互依存关系，这可能是隐含的，并且对建模具有挑战性。当已知显式图拓扑结构时，图神经网络被广泛用于提取关系信息（Seo等人，2016；Li等人，2018b；Yu等人，2018；Zhao等人，2019）。然而，图可能并不总是已知的（例如，因为它是敏感信息），因此图结构学习成为解决方案不可或缺的组成部分（Kipf等人，2018；Wu等人，2020；Shang等人，2021；Deng&Hooi，2021）。第三，标签信息通常是有限的。即使存在某些标签，在实践中，许多异常情况仍可能无法识别，因为标签费时费力且昂贵。因此，无监督方法是最合适的选择。然而，尽管提出了许多无监督检测方法（Ruff等人，2018；Sabokrou等人，2018；Malhotra等人，2016年；Hendrycks等人，2019），它们对多个时间序列无效。

在这项工作中，我们基于异常通常位于数据分布的低密度区域的假设，探索了使用归一化流（Dinh等人，2016；Papamakarios等人，2017）进行异常检测。归一化流是一类深度生成模型，用于学习数据样本的潜在分布。他们没有监督，解决了上述标签稀缺的挑战。归一化流的一个优点是，它们在估计任何样本的密度时都特别有效。Rasul等人（2021）最近的一项工作扩展了时间序列数据的标准化流，通过对历史数据进行连续条件化来表达序列的密度，并应用条件流来学习每个条件密度，为构建多个时间序列的复杂流铺平了道路。

我们通过学习组成序列之间的关系结构来解决高维度和相互依存的挑战。为此，建立变量因果关系模型的贝叶斯网络（Pearl，1985；2000）是一种原则选择。贝叶斯网络是一种有向无环图（DAG），其中一个节点在给定其父节点的情况下有条件地独立于其非子节点。这种结构允许将所有图节点的难以处理的联合密度分解为易于评估每个节点的条件密度的乘积。因此，学习组成序列之间的关系结构相当于识别最大化观察数据密度的DAG。

我们提出了一种新的框架，GANF（图增强归一化流），通过图结构学习来增强归一化流，并将其应用于异常检测。要实现这个框架，有一些重要的技术问题需要解决：（i）如何将图注入到归一化流中，归一化流本质上是将一个分布映射到另一个分布？（ii）如何在连续流模型中学习离散对象DAG？我们采取的解决方案是沿属性、时间和序列维度分解多个时间序列的密度，并使用基于图的依存编码器对分解产生的条件密度进行建模。其中，图邻接矩阵是一个连续变量，我们施加可微约束以确保相应的图是非循环的（郑等人，2018；俞等人，2019）。我们提出了一种联合训练算法来优化图邻接矩阵和流参数。

除了解决高维度和相互依存的挑战外，对组成序列之间的关系图结构进行建模的一个优点是，可以从图中轻松观察数据分布的动态。对于跨越长时间的时间序列数据集，人们自然会质疑其分布是否随时间而变化。图形结构是分布漂移的有用指标。我们将研究经验观察到的图演化。

我们强调了这项工作的以下贡献：

•我们提出了一个框架，用图结构学习来增强归一化流，对多个时间序列中显示的相互依存关系进行建模。

•我们应用增强流模型检测多个时间序列数据中的异常，并进行广泛的实证评估，以证明其在真实数据集上的有效性。

•我们研究学习的图形结构的演变，并识别跨越长时间段的时间序列数据中的分布漂移。

2相关工作

异常检测.由于其应用的多样性，异常检测是一个广泛研究的课题。最近，受深度学习成功的启发，提出了几种深度异常检测方法，它们在复杂数据上取得了显著的成功，例如单个时间序列（Malhotra等人，2016）、图像（Sabokrou等人，2018）和视频（Ionescu等人，2019）。这些方法通常分为三类：深度单类模型、基于生成模型的方法和基于转换的方法。深度单类模型（Ruff等人，2018；Wu等人，2019）将普通实例视为目标类，并识别不属于该类的实例。在基于生成模型的方法中（Malhotra等人，2016；Nguyen等人，2019；Li等人，2018a），使用自动编码器或生成对抗网络来建模数据分布。然后，定义异常度量，例如自动编码中的重建误差。基于转换的方法（Golan&El Yaniv，2018；Hendrycks等人，2019）基于这样一个前提，即可以识别应用于正常实例的转换，而不识别异常。研究了旋转和仿射变换等各种变换。另一方面，对多个时间序列的异常检测研究不足。最近，邓和胡（2021）研究了使用图神经网络结合结构学习来检测异常。我们的方法与这项工作有很大不同，因为学习的结构是贝叶斯网络，它允许密度估计。此外，贝叶斯网络可以识别组成序列之间的条件依赖关系，并更好地解释图和数据分布。

归一化流.归一化流是一种生成模型，通过使用一系列可逆和可微变换，将复杂的真实数据分布归一化为“标准”分布。Dinh等人（2016）介绍了一种广泛使用的归一化流架构-RealNVP，用于密度估计。提出了各种扩展和改进（Papamakarios等人，2017年；Hoogeboom等人，2019年；Kingma&Dhariwal，2018年）。例如，Papamakarios等人（2017年）将自回归模型视为归一化流。为了建模时间数据，Rasul等人（2021）使用序列模型来参数化条件流。此外，提出了图归一化流来处理图结构数据，并改进预测和生成（Liu等人，2019）。相比之下，文献中很少研究多个时间序列的归一化流。在这项工作中，我们开发了一种用于多个时间序列的密度估计和异常检测的图增强流。

3准备工作

我们首先回顾关键概念，让读者熟悉整篇论文中使用的符号。

3.1归一化流

让是D-维随机变量。归一化流是向量值可逆映射这将x的分布标准化为“标准”分布（或称为基分布）。该分布通常被视为各向同性高斯分布或其他易于采样且其密度易于评估的分布。设z=f（x），概率密度函数q（z）。随着变量公式的变化，我们可以通过以下公式表示x，p（x）的密度：

在实际应用中，（1）中的雅可比行列式需要易于计算，以便可以计算密度p（x）。此外，作为生成模型，f的可逆性允许绘制新实例通过抽样基本分布。这种f的一个例子是掩蔽自回归流（Papamakarios等人，2017），它从x=[x1，…，xD]产生z=[z1，…，zD]通过

其中µi和αi是神经网络，例如多层感知器。

可以使用条件信息来增强流可能有不同的维度。这样的流是一个条件流，用来表示。以h为条件的x的对数密度符合以下公式：

我们现在考虑时间序列的归一化流。设X=[x1，x2，…，xT]表示长度为T的时间序列，其中通过连续调节，时间序列的密度可以写成：

其中x<t表示时间t之前的所有变量。当条件概率参数化时，Rasul等人（2021）建议将每个 (..建模为..)，其中总结了过去信息x<t。例如，ht−1是递归神经网络在接受输入xt之前的隐藏状态。然后，可以应用条件归一化流来评估每个。

3.2贝叶斯网络

(无语，7月12日、13日、16日、17日、然后就是今天的18日才继续看论文)

让Xi表示一般随机变量，标量值、向量值或甚至矩阵值。n个变量（X1，…，Xn）的贝叶斯网络是变量作为节点的有向无环图。设A表示图的加权邻接矩阵，其中如果Xj是Xi的父代，则为0。贝叶斯网络描述了变量之间的条件独立性。具体来说，给出Xi的父代，节点Xi在条件上就独立于其非子代。换句话说，（X1，…，Xn）的联合分布密度为

其中表示xi的父集合。

4问题陈述

在本文中，我们重点研究了具有多个时间序列的无监督异常检测。训练集D只包含未标记的实例，我们假设其中大多数不是异常。每个实例X∈ D包含n个具有D属性且长度为T的组成序列；i.e.，X=（X1，X2，…，Xn），其中。我们使用贝叶斯网络（DAG）对组成序列Xi的关系结构进行建模，并增加归一化流，通过形式（5）的因子分解计算X的密度。让是DAG的邻接矩阵，设F：（X，A）→ Z表示增强流。由于异常点往往密度较低，我们建议通过评估通过增强流计算的多个时间序列的密度来进行无监督异常检测。问题公式如下。

问题1.给定多个时间序列的训练集 ，我们的目标是同时学习贝叶斯网络的邻接矩阵a，该矩阵表示组成序列之间的条件依赖关系，以及相应的图增强归一化流F：（X，a）→ Z、用于估计实例X的密度。这里，Z是具有“简单”分布的随机变量，例如各向异性高斯分布。

5方法

在本节中，我们具体化了在问题陈述中介绍的图增强归一化流，并使用它计算多个时间序列X的密度。中心思想是因子分解：我们使用贝叶斯网络沿序列维度分解p（X），然后使用条件归一化流沿时间维度分解。然后，我们使用一种新的基于图的依赖编码器来参数化因子分解产生的条件概率。用于因子分解的DAG是一个离散对象，通常难以学习；然而，离散结构通过可微的图邻接矩阵A反映在依存编码器中。此外，A必须对应于DAG的要求可以表示为可微方程。因此，可以使用基于梯度的优化来联合优化A和流分量。一旦学习到F，就直接评估密度p（X）以进行异常检测。图1显示了GANF框架的图示。

5.1因子分解

图1显示了作为DAG的贝叶斯网络的一个玩具示例。基于（5），多个时间序列的密度可以计算为所有节点的的乘积，其中表示的父集合。然后，继Rasul等人（2021）之后，我们进一步沿时间维度分解每个条件密度。具体来说，对于时间步长t，取决于其过去的历史以及其在DAG中的父代。我们写作

图1：贝叶斯网络和提出的框架GANF的说明

其中表示时间t之前节点i的历史，并且。在下一小节中，我们将参数化每个条件密度通过使用基于图的依存编码器。注意，到目前为止，因子分解（6）是基于贝叶斯网络的离散结构。然而，我们接下来介绍的依赖编码器以可微的方式使用邻接矩阵A，这足以确保不依赖于其父节点和自身以外的节点。

5.2神经网络参数化

根据3.1部分，条件密度可以通过使用条件归一化流来学习。然而，条件信息和不能直接用于参数化，因为其大小不是固定的。因此，如图1所示，我们设计了一个基于图的依存编码器，将条件信息总结为固定长度的向量数据集然后，使用条件归一化流来计算，其等效于.

依赖编码器.由于历史具有任意长度，我们首先使用递归神经网络（RNN）将多个时间步长映射到固定长度的向量。对于时间序列，递归模型将其抽象为隐藏状态通过以下递归

其中总结了截至步骤t的时间序列。RNN可以是任何序列模型，例如LSTM（Hochreiter&Schmidhuber，1997）和广义的transformer（Vaswani等人，2017）。我们允许在DAG中的所有节点之间共享RNN参数，以避免过度拟合并减少计算成本。

在（7）中，的条件信息全部总结在中.受GCN（Kipf&Welling，2016）在通过邻域聚合进行节点表示学习方面的成功启发，我们设计了一个图卷积层来聚合父节点的隐藏状态，以进行依赖编码。该层在时间t为所有组成序列生成依赖关系表示：

其中包含时间t的所有隐藏状态。这里，和是分别转换父节点和节点历史信息的聚合表示的参数；而是一种额外的转换，用于改进依赖关系表示。

密度估计.通过依赖编码器，我们获得了表示差异信息。然后，应用以条件的为条件的归一化流来建模每个. 与隐藏状态的计算类似，条件流的参数也在节点之间共享，以避免过拟合。基于（3），的条件密度可以写成：

其中q(z)被选择为标准法线并且。条件流f可以是文献中提出的任何有效流，例如RealNVP（Dinh等人，2016）和MAF（Papamakarios等人，2017年）。结合（9）和（6），我们得到了多个时间序列X的对数密度：

异常测量.由于异常显著偏离大多数数据实例，我们假设其密度较低。因此，我们使用（10）计算的密度作为异常度量，其中较低的密度表示更可能的异常。除了评估整个X的密度外，计算还产生条件密度对于每个组成序列.低密度是由贝叶斯网络中的一个或几个低条件密度引起的，这表明异常行为可以追溯到单个序列。

5.3联合训练

贝叶斯网络的学习是一个具有挑战性的组合问题，因为难以处理的搜索空间在节点数上是超指数的。郑等人（2018）最近的一项工作提出了方程，表征A的相应图的非循环性，其中e是矩阵指数，并且◦ 表示元素乘法。我们将把这个方程作为GANF训练的约束条件。

训练目标.在对常规归一化流进行训练后，观察数据的联合密度（似然）是训练目标，这相当于数据的真实分布和流恢复分布之间的库尔贝克-莱布尔散度。与DAG约束一起，优化问题如下所示

其中θ包含所有神经网络参数，包括依赖编码器和归一化流的参数。这里，DAG约束允许一个易于计算的梯度，这允许基于梯度的优化器求解（11）。

训练算法.问题（11）是一个非线性等式约束优化。此类问题得到了广泛研究，增广拉格朗日方法（Bertsekas，1999；Yu等人，2019）是使用最广泛的方法之一。增广拉格朗日定义为：

其中λ和c分别表示拉格朗日乘子和惩罚参数。该方法的总体思想是逐渐增加惩罚参数，以确保最终满足约束。在迭代过程中，λ作为对偶变量将收敛到（11）的拉格朗日乘子。第k次迭代的更新规则如下：

其中η∈ (1, +∞) 和γ∈ （0，1）是要调整的超参数。我们将η和γ分别设置为10和0.5。优化A和θ的子问题可以通过使用Adam优化器来解决（Kingma&Ba，2014）。附录A总结了训练算法。

6实验

在本节中，我们进行了一系列全面的实验，以验证所提出的GANF框架的有效性。特别是，它们旨在回答以下问题：

•Q1：GANF能否准确检测异常并估计密度？

•Q2：提出的图结构学习有帮助吗？该框架是否足够灵活，可以包括各种规范化流主干？

•Q3：对于跨越很长时间的数据集，人们可以观察到什么？E.g.，图形模式是否发生变化？

6.1设置

数据集.为了评估GANF在异常检测和密度估计方面的有效性，我们在两个电网数据集、一个水系统数据集和一个交通数据集上进行了实验。

•PMU-B和PMU-C：这两个数据集对应于美国电网的两个独立互连，分别包含由38个和132个相量测量单元（PMU）记录的时间序列。我们以1秒的频率处理一年的数据，形成十个月的训练集、一个月的验证集和一个月的测试集。通过移动一分钟窗口获得每个多时间序列。此外，为了研究分布漂移，我们改变了一个月的窗口以获得多个训练/验证/测试集（由于两年的数据可用，总共12个）。存在由领域专家标记的稀疏网格事件（异常）进行评估；但请注意，标签既嘈杂又不完整。这些数据集是专有的。

•SWaT：我们还使用公共数据集进行评估。安全水处理（SWaT）数据集源自于新加坡公用事业委员会协调的运行水处理试验台（Goh等人，2016）。数据收集了持续四天的51个传感器记录，频率为1秒。总共进行了36次攻击，导致大约11%的时间步长为异常地面实况。我们使用60秒的滑动窗口来构建序列数据，并分别对训练、验证和测试执行60/20/20的时间分割。

•METR-LA：该数据集也是公共的；它包含部署在加利福尼亚州洛杉矶高速公路上的207个传感器的速度记录（李等人，2018b）。然而，不存在异常标签，我们仅将此数据集用于探索性分析。结果推迟到附录E。

评估指标（在噪声标签下）.对于提供可靠地面实况的SWaT，我们使用标准ROC和AUC指标进行评估。然而，对于两个PMU数据集，时间序列的分辨率和事件的粒度导致了相当嘈杂的地面实况。因此，我们将ROC用于噪声标签。我们通过在标签中引入概率来平滑“地面真实”事件（异常）的时间点。具体来说，从时间t开始的多个时间序列是地面真值异常的概率为，其中ti是第i个标记异常的开始时间。然后，在计算混淆矩阵时，我们对概率求和，而不是计算0/1。选择平滑窗口σ为6个时间步长。

基线.我们将与以下具有代表性的最先进的深度方法进行比较

•EncDecAD（Malhotra等人，2016）：在这种方法中，训练了基于LSTM的自动编码器。重建误差被用作异常度量。

•DeepSvd（Ruff等人，2018）：该方法最小化了包含数据表示的超球体的体积。远离超球中心的样本被视为异常。

•ALOCC（Sabokrou等人，2020）：在这种基于GAN的方法中，生成器学习重建正常实例，而鉴别器用作异常检测器。

•DROCC（Goyal等人，2020）：该方法进行对抗性训练，以学习数据的稳健表示并识别异常。

•DeepSAD（Ruff等人，2020年）：该方法通过半监督损失项扩展了DeepSVDD，用于训练。我们使用嘈杂的标签作为监督。

为了将这些基线应用于多个时间序列，我们沿着属性维度连接组成序列（生成高维序列），并使用LSTM或CNN作为主干。另一方面，对于该方法，我们使用LSTM作为RNN模型，MAF作为归一化流。更多实施细节见附录C。

6.2异常检测和密度估计的性能

表1：异常检测的AUC-ROC（%）.

图2：各种数据集上异常检测的ROC曲线.

图3:GANF对PMU-C的定性评估.（a）测试集上对数密度的分布（对数标度中的注释）.（b）测试集中一周的异常检测结果.

为了回答Q1，我们对带有标签的数据集进行了定量和定性评估。

异常检测.我们将GANF与表1中的上述基线进行比较，其中AUC分数的标准偏差通过五次随机重复的模型训练进行额外报告。该表表明，GANF获得了极高的AUC分数。观察结果如下。（i） GANF优于基于生成模型的方法（EncDecAD和ALOCC）。作为一种生成模型，通过图结构增强的规范化流更有效地利用了组成序列的相互依存关系，从而大大提高了检测效率。（ii）GANF显著优于deep一类模型（DeepSVDD和DROCC），证实了使用密度进行检测的吸引力。（iii）GANF也比半监督方法DeepSAD表现更好，可能是因为此类方法依赖高质量标签进行监督（尤其是在标签稀缺的情况下），并且它们在面对噪声标签时效率较低。

除了单个分数外，我们还在图2中绘制ROC曲线。可以看出，GANF曲线支配着其他曲线。这种行为通常在低虚警情况下更为显著。

密度估计.我们研究了GANF估计的密度，如图3所示。测试集中对数密度的分布如图3a所示。我们使用对数密度作为异常度量；越低，可能性越大。请注意，垂直轴在对数刻度中。可以看出，对数密度为16时，大多数正常情况与少数异常情况大致分开。为了交叉验证低密度的实例是否可疑异常，我们研究了图3b，这是一周对数密度的时间图，覆盖了给定的标签。从该图中可以看出，带噪标记的序列通常具有低密度或接近低密度时间步长。此外，GANF发现了一些早期未检测到的低密度可疑时间步长。这些新发现引起了电力系统专家对分析和归档的兴趣。

6.3消融研究

表2：提出的方法变体的性能.

图5:GANF学习的DAG中边缘权重随时间的演变（PMU-B）.

为了回答Q2，我们进行了一项消融研究（包括不同的架构组件），以调查DAG结构学习的影响和GANF框架的灵活性。为了研究成对关系建模的能力，我们训练了一个分解的变体GANF\G；i.e.,假设组成序列之间独立。为了研究图结构学习的有效性，我们训练了一个变体GANF\D，该变量将节理密度分解为，这是一种没有DAG的完全分解。这相当于沿属性维度连接序列，并在结果序列上运行MAF。为了验证A和θ联合训练的贡献，我们训练了一个变体GANF\T，其中A通过使用NOTEARS单独学习（郑等人，2018）。为了证明GANF的灵活性，我们将基于MAF的归一化流替换为RealNVP，表示为GANF_RNVP。

结果如表2所示。除AUC-ROC外，还报告了对数密度。观察结果如下。（i） GANF显著优于GANF\G和GANF\D，证实了组成序列之间相互依存建模的重要性。注意，GANF\D通常会导致性能特别差，可能是因为高维输入（由串联太多序列引起）阻碍了规范化流的学习。（iii）由于存在关系建模，GANF\T略优于GANF\G，但其性能无法与联合训练DAG和流的GANF_RNVP和GANF相匹配。（ii）后两种模型对于数据集和指标都是最好的。MAF通常比RealNVP更好。

6.4 DAG结构的演变

为了回答Q3，我们通过逐月移动训练/验证/测试集来研究学习的DAG是如何演变的。前三个月移位内的图如图4所示，更多信息见附录F。除图结构外，我们在图5中绘制了随时间变化的学习边缘权重，每条边缘一列。边缘的出现和消失表明组成序列之间的条件独立结构随时间发生变化，表明数据分布漂移（即内部数据生成机制的变化）。观察季节效应很有趣。图5中的列（边缘）可以松散地分为三类：一类是全年存在的，一类是上半年出现的，另一类是更短暂存在的（例如，在一个季节内）。这种模式似乎与电力消耗有关，而电力消耗也是季节性的。如果PMU的空间信息已知，这些确定的DAG将有助于将季节模式映射到地理，并有助于规划更具弹性的网格。

7结论

在本文中，我们提出了一种用于多时间序列异常检测的图增强归一化流GANF。该图具体化为贝叶斯网络，对组成时间序列之间的条件依赖关系进行建模。设计了一种基于图的依存关系解码器，用于汇总计算序列密度的归一化流所需的条件信息。通过识别低密度实例来检测异常。在真实数据集上的大量实验证明了该框架的有效性。消融研究证实了学习图结构在异常检测中的贡献。此外，我们研究了图的演变，并提供了随时间变化的分布漂移的见解。

确认和免责声明

本材料基于能源部支持的工作，授予编号为DE-OE0000910。本报告是由美国政府的一个机构赞助的工作报告。美国政府及其任何机构或其任何员工均不对所披露的任何信息、装置、产品或工艺的准确性、完整性或有用性作出任何明示或暗示的保证，或承担任何法律责任或责任，或声明其使用不会侵犯私人拥有的权利。本文中以商品名、商标、制造商或其他方式提及的任何特定商业产品、工艺或服务不一定构成或暗示其得到美国政府或其任何机构的认可、推荐或支持。本文作者的观点和意见不一定陈述或反映美国政府或其任何机构的观点和意见。

我能说看了两遍没看懂吗？...

个人理解一下：

多个时间序列(之间存在复杂的相互依赖性)

使用贝叶斯网络(建模因果关系的有向无环图)，将序列的联合概率分解为易于评估的条件概率的乘积，提出了DAG与流参数的联合估计

学习序列之间的关系结构(使用贝叶斯网络，因为这个允许密度估计)---就变成了--->识别最大化观察到的数据的密度的DAG---因为归一化流通过可逆和可微变换，将真实数据分布归一化，用于密度估计--->增加归一化流，通过因子分解计算密度，(通过公式，将贝叶斯网络的邻接矩阵a(该矩阵表示序列之间的条件依赖关系)和归一化流结合起来F：（X，a）→ Z，从而来估计实例x的密度，z是随机变量，具有“简单”分布)

贝叶斯网络先沿着序列维度进行分解p(x)，然后再使用条件归一化流沿着时间维度分解
使用基于图的依赖编码器参数化因子分解产生的条件概率(说人话就是用这个依赖编码器来对DAG分解之后的东西进一步处理)

因子分解的DAG是离散的，不好学习，所以通过可微的图邻接矩阵把这个a反映在依存编码器中，这样就可以了

我们训练学习的是F这个东西，评估的是密度p(x)进行异常检测

总结就是序列转成DAG(为了变量之间的条件独立性)，然后因子分解DAG(因为DAG的离散结构)，然后使用可为的图邻接矩阵依存在编码器中，然后将产生的依赖关系再进行条件归一化处理，就能得到多个时间序列的对数密度，然后通过密度估计。

乱七八糟：

1.使用贝叶斯网络(DAG)进行沿序列维度分解，然后使用基于图的依赖编码器(邻接矩阵)参数化因子分解产生的条件概率，然后使用条件归一化沿时间维度分解(归一化流可以可微和可逆操作)用于密度估计.
2.在DAG约束下的邻接矩阵然后通过RNN将多个时间步长映射到固定长度的向量，然后通过图卷积聚合父节点的隐藏状态，进行依赖编码，然后产生依赖关系Dt，将得到的这种差异信息用归一化流建模，最后得到一个Z的随机变量分布用于密度估计.

乱七八糟，还是要多理解几遍，暂时先这样，告辞.

2022/7/19

posted @ 2022-07-19 15:25 ZERO- 阅读(2342) 评论(0) 编辑收藏举报

刷新页面返回顶部

Persistent.

昨日种种，皆成今我，切莫思量，更莫哀，从今往后，怎么收获，怎么栽.