入侵检测数据集比较

数据集比较

文献

M. Tavallaee, E. Bagheri, W. Lu, and A. A. Ghorbani, “A detailed analysis of the kdd cup 99 data set,” in 2009 IEEE Symposium on Computational Intelligence for Security and Defense Applications, July 2009, pp. 1–6.

"Nsl-kdd data set for network-based intrusion detection systems", March 2009, [online] Available: http://nsl.cs.unb.ca/NSL-KDD/.

数据集

加拿大网络安全研究所的数据集被世界各地的大学、私营企业和独立研究人员使用。

目前可用的数据集如下:

kdd99存在的问题

  • KDD 数据集中的第一个重要缺陷是大量的冗余记录。分析 KDD 训练和测试集,我们发现大约 78% 和 75% 的记录分别在训练和测试集中重复。训练集中大量的冗余记录会导致学习算法偏向于更频繁的记录,从而阻止它学习通常对网络更有害的非频繁记录。

  • 此外,为了分析 KDD 数据集中记录的难易程度,我们使用了 21 台学习机(7 个学习器,每台用不同的训练集训练 3 次)来标记整个 KDD 训练和测试集的记录,这为我们每条记录有 21 个预测标签。令人惊讶的是,训练集中大约 98% 的记录和测试集中大约 86% 的记录被所有 21 个学习者正确分类。我们在 KDD 训练集和测试集上都得到这些统计数据的原因是,在许多论文中,KDD 训练集的随机部分被用作测试集。结果,他们使用非常简单的机器学习方法实现了大约 98% 的分类率。即使应用 KDD 测试集也会导致最低分类率为 86%。

NSL-KDD数据集

为了解决KDD99中遇到的问题,创建了一个新的改进版本:由Tavallaee等人提出的NSL-KDD数据集。Nkiama、Said和Saidu介绍了使用NSL-KDD的一些主要优势:

  • 消除训练集中的冗余条目有助于分类器在处理更频繁的条目时保持公平性。
  • 测试集不包含重复条目,这意味着分类器性能不会受到对频繁条目具有更好检测率的技术的影响。
  • 从每个难度级别组中选择的记录数与原始 KDD 数据集中记录的百分比成反比。因此,不同机器学习方法的分类率在更大范围内变化,这使得对不同学习技术进行准确评估的效率更高。
  • 训练集和测试集中的记录数是合理的,这使得在完整集上运行实验可以负担得起,而无需随机选择一小部分。因此,不同研究工作的评价结果将具有一致性和可比性。

NSL-KDD训练集总共有126620个样本,每个样本包含41个特征(与KDD99相同),这些特征可以被分类为正常通信量或特定类型的攻击。这些特性分布在四个主要类别中:基本特性:包含从TCP/IP连接派生的所有资源,例如协议类型、服务和持续时间。

  • 基于时间的流量特性:如计数、srv计数和重错率。
  • 内容特性:这些资源使用领域知识来访问原始TCP包的有效负载。示例:hot,num root,是guest登录。
  • 基于主机的流量特性:使用这些特性可以访问与当前连接共享同一目标主机的持续时间超过2秒的攻击。示例:dst主机计数和dst主机srv计数。

NSL-KDD类或标签分为四个攻击类别和一个正常流量类别。攻击类别包括:

  • 拒绝服务DOS**):旨在阻止或限制计算机系统或网络资源和/或服务。
  • 探查:试图在网络中获取信息或发现漏洞的攻击。
  • 远程到本地(R2L):生成对网络的远程非授权访问的攻击。
  • 用户到根(U2R):试图以管理员或根用户身份获取访问权限的攻击。
posted @ 2021-06-10 20:08    阅读(1225)  评论(0编辑  收藏  举报