物联网安全相关数据集
物联网安全相关数据集
[原文]数据集可以在NIDS部署时使用,但是现在(文章发表于2019)没有专门针对IoT的数据集,因此开发者有两种选择1)使用针对传统系统的数据集 2)部署嗅探软件抓取自己网络的数据
[思考]按照原文的说法,数据集有针对性,使用的时候注意考察数据集的适用范围。
当前广泛使用的数据集有
- KDDCUP99(KDD99)
- NSL-KDD相当于KDD99的改进版
- UNSW-NB15是一个对于NIDS很尤其的数据集
- 公共数据集包括PREDICT, CAIDA, DEFCON, ADFA IDS, KYOTO, ISCX 2012和ICS可以用来测试评估。
最新的数据集要么就是由未加标数据组成,要么在某些地区就不能用, 要么就是只针对某个特殊领域。
进一步地说,数据集面临的问题还有1)隐私问题 2)繁重的输入匿名 3)无法反映za当前最新的安全攻击。
- KDD99
KDD99是一个用来从正常连接中监测非正常连接的数据集。产出于1999年Thrid International Knowlegde Discovery and Data Mining Tools Competition(第三节国际知识发现和数据挖掘工具竞赛),目的是建立一个鲁棒的NIDS。数据集是DARPA数据集的特征提取版本(DARPA是基础raw数据集)
KDD99包含了置入攻击的军事网络环境中的记录。攻击可以分类为
- Denial of Service, DoS攻击
- Remote to User, R2U
- User to Root, U2R
- Probing, 探针攻击
KDD99对每个连接提取了41个特征,使用Bro-IDS工具打标签。其41个特征可以按以下方式分类:
- 1-9 每个TCP连接的基本特征
- 10-22 连接内部的内容特征,由领域内知识建议(suggested by domain konwledge)
- 23-31 使用2秒时间窗激素那的流量特征(Traffic features computed using a two-second time window)
- 32-42 主机特征(Host features),用来评估持续时间再两秒钟以上的攻击
KDD99在研究者当中十分流行,研究者也对其本身做了很多工作:
- [*]减少特征数量,从最初的41个特征中选择最有用的特征
- [*]指出了KDD99的不足之处
KDD99面临不平衡的分类方法问题。测试集和训练集的概率分布是不同的,由于在训练集中加入新的攻击,攻击和正常流量的类别的平衡会被打破。[?]
数据集太老了,可能存在过时的问题
有证据表明,simulation artifacts[what is it?]可能会导致对异常检测性能的过高估计
[*]:相关文献查阅原文获取
- NSL-KDD
NSL-KDD是KDD99的升级版,克服了KDD99的诸多限制
- 移除了训练集和测试集中的重复记录
- 从原始KDD99数据集中选取了很多记录以从分类器系统中获得可靠的结果
- 解决了数据集中概率分布不平衡的问题
该数据集存在的缺点就在于缺少现在的低踪迹攻击的案例
3. UNSW-NB15
UNSW-NB15由ACCS(Australian Center for Cyber Security)的网络空间实验室使用IXIA PerfectStorm工具创造。初衷是产生混合的真实的现在正常活动和综合当代的攻击行为。b包含了将近2,540,044个记录,分别存储于4个csv文件中。
这些记录产生于最初使用tcpdump抓取到的100GB原始流量中(pcap)。其中包含了9中攻击,分别为
- Fuzzers
- Analysis
- Backdoors
- DoS
- Exploits
- Generic
- Reconnaissance
- Shellcode
- Worms
-
Sivanathan et al. IoT dataset
根据网络流量特征对IoT设备进行分类。作者们使用28种IoTa设备(如摄像机、灯、插头等)提供只能环境。
他们在六个月时间内从这个基础架构中合成了网络流量跟踪数据,来供研究者使用。
Sivanathan等d通过使用活动周期、端口号,信令模式和密码套件等进统计分析,可以提供有关网络流量模式的宝贵建议。 -
CICIDS数据集
CICIDS是当前由University of New Brunswick开发的IDS、IPS的数据集之一,反应现在真实网络数据中的了最新的威胁。
它建立在25个用户的行为抽象基础上,基于HTTP, HTTP, FTP, SSH和email协议。使用CICFlowMeter分析,基于时间戳、两端IP、端口、协议和攻击加标。为了生成真实流量,作者们使用B-Prodile方法来显示出HTTP, HTTPS, FTP, SSH和email协议。作者们在捕获数据的同时,使用了Brute force FTP, SSH Heartbleed 和DDoS攻击。
与现有的传统IDS不同,其评估皇家确定了构建可靠基准数据集所需的11个重要功能。
6. CSE-CIC-IDS2018数据库
这个数据库逐渐演变为替换现有的限制IDS/NIDS实验评估的备选数据集的unique数据集。
为了克服静态和一次性数据集的使用,它是一个恶意数据集,基于包含入侵行为的网络环境中动态生成的数据。作者们在其中加入了7中攻击情况:
- Brute-force
- Heartbleed
- Botnet
- DoS
- DDoS
- Web attacks
- Local network infiltration attacks
攻击基础设施包含50个基点,靶向于5各组织共30台服务器和420台主机。作者们从使用CICFlowMeter-V3抓取的网络流量和机器日志中提取了80个特征。
数据集的对比讨论
KDD99是最流行的数据集,但是有点过时,太老了,为了克服KDD99的各种限制,NSL-KDD应运而生,通过删除重复数据平衡了KDD99数据的平衡,但NSL-KDD也缺少现代攻击。UNSW-NB15风评不错,而且包含现在的攻击,就新攻击与正常行为的相似性来说,它比KDD99复杂很多。
对于最近的数据包
- Sivanathan et al. 数据集相比而言它只是IoT的数据集,它是为物联网设备激增而不是入侵检测设计的。
- CICIDS和CSECIC-IDS2018y都是加标记录,但没有特定针对于IoT系统安全,尽管它们的攻击类型很新。
原文:CHAABOUNI N, MOSBAH M, ZEMMARI A, et al. Network Intrusion Detection for IoT Security Based on Learning Techniques [J]. Ieee Communications Surveys and Tutorials, 2019, 21(3): 2671-701.