论文笔记1. G-IDS Generative Adversaial Networks Assisted Intrusion Detection System

面临挑战以及解决方法
- 问题1：样本数据的不平衡和丢失问题
  解决方法：提出基于生成对抗网路的入侵检测系统来解决；
  GAN：生成合成样本(即训练数据)
  IDS：与原始样本一起训练
相关工作
- 网络物理系统 cyber-physical systems (CPS)：是指具有集成计算和物理能力的新一代系统，可以通过最先进的模式与人类交互。
- 物联网Internet of Things (IoT)：作为CPS的重要子领域之一，将技术提升到以数据为主要力量。是将设备与传感、计算和执行能力连接起来的领域。
- 入侵检测系统Intrusion Detection Systems (IDSs)：IDS 是一种设备或软件应用程序，用于监控网络或系统中的有害活动和违反规则的行为。负责检查网络流量和系统数据是否存在恶意活动并发出警报，是 CPS 域防御策略的首要部分。入侵防御系统与入侵检测系统同时工作，以防止攻击者对系统造成任何损害。
  - AIDS：异常检测系统，在训练过程中学习数据的分布。如果新来的数据不是来自同一分布，则将其检测为异常。每当系统有新的训练数据时，便训练 IDS 模型并不断更新新的攻击。因此，基于异常的 IDS 的防御机制是一个动态过程，每个标签需要更多数据才能正确训练其模型。
  - 分类类型的IDS-监督学习
  - 基于聚类的IDS-无监督学习
  - 数挖技术-提取重要特征　
- GAN：通过对抗性方法估计生成模型。它由两个独立的模型组成：生成器（G）和判别器（D）。G 的最终目标是最大化 D 将生成的数据错误预测为的概率真正的一个， D的目标是做相反的事情。因此，G 和 D 玩一个两人最小最大游戏。为达到最优解，两个博弈参与者需要不断优化自己，以提高他们达到纳什均衡的能力。
  - 生成模型 G 估计真实数据空间 x 上的数据分布 p(g)。考虑输入噪声变量 p(z)，G 的目标是生成来自相同 x 分布的新对抗样本 G(z)。
  - 判别器模型 D 返回概率 D(x)，即给定样本 x 来自真实数据集，而不是由 G 生成。
  - 价值函数 V(G,D) 定义如图：
  - 纳什均衡，Nash equilibrium：又称为非合作博弈均衡，纳什均衡是博弈论中一种解的概念，它是指满足下面性质的策略组合：任何一位玩家在此策略组合下单方面改变自己的策略（其他玩家策略不变）都不会提高自身的收益。在一个博弈过程中，无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下，其选择的策略是最优的，那么这个组合就被定义为纳什均衡。
- 零日攻击”(zero-day attack)——利用以前未知的漏洞侵入计算机系统　
研究贡献
- 1.人工神经网络ANN建模：使用可以在任何数据库上进行高精度训练的人工神经网络 (ANN) 对 IDS 进行建模；
- 2.对一个新兴的 CPS 安全数据集进行建模，独立 IDS 无法进行高精度预测。
- 3.最重要的是，我们提出了一个新的安全框架 G-IDS，其中 GAN 生成更多的训练数据来解决不平衡和丢失数据的问题。评估独立 IDS (S-IDS) 和 G-IDS 的性能。
- 4.在广泛的网络入侵检测数据集 KDD'99 中对所提框架进行评估。　　
研究目的(动机)
- 模型的训练样本即（数据）少；
  大量数据会存在数据缺失情况，IDS无法看清数据空间分布　
- GAN 是一种能够学习所提供数据的分布并生成新的相似样本深度学习工具
- 解决：可以使用 GAN 辅助的 IDS 框架为所有需要改进预测的标签生成新数据。　
- 解决：需要一个综合框架来处理新兴 CPS 技术的不平衡和缺失数据相关问题。
研究方法：提出的G-IDS框架-->四个模块

1.数据库模块(DM)：从**数据收集器**中收集真实世界的入侵检测数据，也可以从**数据合成器模块**的**生成器**中获取合成数据。所有数据都是并行连续累积的，并以不同的标志存储在数据库中，以区分数据源。
- 合成数据：分为待处理和合成类
  - 待处理数据：即未提交的数据，可根据控制器模块的未来决定接受或删除
  - 合成类：标记为合成的数据已经经过验证并永久保留在数据库中
- 混合数据库：仅包含原始数据和合成数据样本
- 构成：DM=DC+DB(数据收集器和数据库)　
  - 数据收集器DC：收集数据(标记网络攻击数据包)+数据预处理(使其可用于ML模型)　
    - 数据预处理(编码+特征缩放+特征提取)　
      - 编码：对数据集中的**分类值**进行**标签编码**。将特定特征的每个类别转换为 0 到 n-1 之间的值，其中 n 是该特征的不同类别的数量
      - 特征缩放：是一种用于对特征范围进行归一化的方法。即规范化特征。
      - 特征提取：（也称为特征缩减）将高维空间重塑为更少的维度，其中的变换可以是线性的或非线性的。帮助消除冗余变量使模型更简单。　　
  - 数据库 (DB)：存储 DC+ DSM 的数据，数据的标签(数据的类型正常或攻击**类型**)和标志位(特定数据的状态)。原始数据、待处理数据、合成数据的处理以及标签和相应的标志。
    - 待处理：DSM模块生成的数据首先被标记为待处理，并且控制器会进行进一步的检查。

2.入侵检测系统模块(IDS)：基于ML的模型(基于ANN的多层模型)进行两次训练-->计算两个性能指标-->评估合成数据
- 模型1：仅在混合数据集上进行训练模型　　
  - Performance metric without pending data (PMH)：即无待处理数据的性能指标。训练模型后IDS 评估标签性能指标并存储在 PMH 。
- 模型2：在混合数据集和待定数据集上进行训练
  - Performance metric with pending data (PMP)：带有待处理数据的性能指标，在获得带有待处理标志的合成数据后，IDS 在混合数据库上重新训练模型，包括待处理数据，以评估待处理数据点的额外贡献。性能指标存储在 PMP 中。
- 上述两个模型的评估指标都可供控制器模块使用，控制器模块根据这些指标对待处理数据做出进一步决定。
3.控制器模块：控制器对上述两种IDS模型的性能进行评估。根据评估结果，控制器决定拒绝/接受数据库中待处理的样本。**并行执行以下两项重要任务**。
- 任务1：向 DSM 发送数据合成请求。
  - 首先，控制器分析 PMH 并将其与 PMTH（性能指标的最小阈值）进行比较。得分低于 PMTH 的类都被视为弱类，需要借助 DSM 生成新样本以提高检测率。**每次 CM 向混合数据库发送一个标签的请求，并继续为所有剩余的弱标签发送请求**。　　　　
- 任务2：评估来自 DSM 的待处理数据请求。
  - CM 分析评估指标 PMP 和 PMH 以更新数据库。比较这两个指标，CM 建议数据库在性能下降时删除特定标签的待处理样本。另一方面，如果性能提高，CM 建议通过将待定的标志更新为合成来接受数据。　　
- 重复：控制器-->预测-->弱检测类数据样本-->数据合成器(由GAN组成)-->生成更多样本->数据库模块(带有待处理标志)~直至IDS的标签性能满足控制器的条件。
4.数据合成器模块(DSM)：核心部分是基于GAN的模型组成，由两个ML模型(1. 生成器 (G) 和 2. 判别器 (D))组成。在生成潜在的样本后，DSM将它们提供给DM，并带有一个挂起的标志。
- 控制器选择一个类并将整个数据库发送到 DSM，将 1 作为该特定类的标签，将 0 作为其余类的标签。因此，对于 DSM，它成为一个二元分类模型，并在成功训练后生成更多样本。　　
- 此外，生成器将噪声（潜在空间）作为输入并生成人工样本。GAN 训练完成后，它会生成具有更高准确度的新样本，并要求数据库添加待处理标志　
提出算法结构
伪代码：

实验部分
- 评估方法
  - A. 数据集特征形式化：多类+稀疏+不平衡
  - B.数据预处理：编码+特征缩放+特征选择
    - 编码：三个分类输入特征和一个输出特征-->标签编码
    - 特征缩放：特征缩放是处理局部最优和对特定特征的偏度的关键步骤
      - Z-分数：数据点的Z分数表示偏离平均值的度量
      - 其中x_i表示每个特征的值，x_mean是特征的平均值，x_std表示标准差。
    - 特征提取：减少特征的数量(基于PC方法)
      - PCA主成分分析：PCA 是一种无监督的非参数统计过程，它计算一组新的变量（“主成分”）并根据这些新变量表示数据，并使用正交变换来变换一组可能相关变量的观察值　　
  - C.数据建模：样本数据的分配：训练和测试
  - D.评估指标：Precision(精度)+Recall(召回)+F1-score+Confusion Matrix(混淆矩阵)+macro-average F1分数(宏观平均F1分数)
    - F1 分数：F1 分数是准确率和召回率的加权平均值，同时考虑了误报和误报。在假阴性和假阳性值分布不均的情况下，F1 分数可以推断出对模型性能的更好理解。　　
    - 混淆矩阵：是一个表格，旨在呈现每个类做出的正确和错误预测的计数。它提供了对预测的清晰洞察并显示了分类/错误分类类型（例如真阳性、真阴性、假阳性、假阴性）。因此，可以使用这四个重要的关键因素来分析 IDS 的性能。
    - 宏观平均 F1 分数：独立计算每个标签的度量，然后取平均值以平等对待所有标签，可以更好的了解模型在不同标签上的性能。(由于数据集包含大量良性数据，使用加权平均 F1 分数评估系统不能提供清晰的画面)　　
- 评估结果与讨论(两个角度进行评估)：G-IDS与独立的IDS(S-IDS)相比
  - 基于训练集大小的评估
    - 标签评估：在没有 GAN 的帮助下训练 S-IDS 模型。存在某些类别训练样本数不足，难以预测。GAN的性能高度随机，通过将随机噪声作为输入来工作　　
    - 整体评价：宏F1分数。
      - 如果任何类的 F1 分数小于阈值，控制器会要求数据合成器模块为该特定类(弱标签)生成更多合成数据，以提高 IDS 的性能。一旦通过控制器验证，新生成的合成样本就会被添加到现有的混合数据集中。　　
      - 尽管 GAN 本质上具有为一个标签生成可能与其他标签分布重叠的噪声意外数据的不确定性，但控制器模块会拒绝此类不良数据并保持 G-IDS 的性能提高。
  - 基于稳定性改善评估
    - GAN的优点
      - GAN提高了对不同攻击的最终检测率，还增强了IDS训练过程的稳定性。　　
      - 由于 GAN 生成的样本填补了数据分布中的空白，IDS 更容易学习训练数据的分布并得到解决。因此，总而言之，G-IDS 通过平衡不平衡数据集以及生成缺失数据来提高性能。除了提高对不同攻击的最终检测率外，GAN 还增强了 IDS 训练过程的稳定性。　　
结论与未来工作