随笔- 67 文章- 0 评论- 11 阅读- 27596

UNSW-NB15数据集

UNSW-NB15数据集官网：UNSW-NB15 数据集 |新南威尔士大学研究

要搞网络流量这方面的，对研究对象就要有所了解。

UNSW-NB15就包含了这么一堆东西

在CSV文件中有：

NUSW-NB15_features.csv：
- 这是特征描述文件，列出了每个流量记录中的特征项及其详细说明。里面没有具体的流量数据，但包含每个特征的定义和解释。比如，特征可能包括传输协议、源端口、目标端口等。
- 用途：用来理解各个特征的含义，帮助你选择哪些特征对你的模型训练有用。
NUSW-NB15_GT.csv：
- 这是"ground truth"文件，包含流量数据的真实标签。它列出了哪些记录是正常流量，哪些是恶意流量，帮助你知道哪些数据是攻击。
- 用途：可以参考这个文件了解每条流量记录的标签。不过实际模型训练中，不需要单独使用它，标签通常已经包含在训练和测试集里。
UNSW-NB15_1.csv 到 UNSW-NB15_4.csv：
- 这四个文件是包含完整流量数据的文件，每个文件包含不同批次的网络流量记录。每一行代表一条流量记录，包括了流量的各个特征值以及标签（正常或恶意）。
- 用途：这些文件提供了完整的流量数据，可以根据你的需要选用。如果你想使用全数据集来训练模型，可以把这些文件合并使用。不过对于一般实验，单独使用后面提到的训练集和测试集可能会更方便。
UNSW-NB15_LIST_EVENTS.csv：
- 这个文件列出了数据集中涉及的各种攻击类型和标签。这是对恶意流量的分类说明，列出了各类攻击的名称及其编号。
- 用途：帮助你理解数据集中有哪些恶意流量类型，以及每种攻击的编号和名称。
training and testing sets 文件夹：
- UNSW-NB15_testing-set.csv：这是测试集文件，包含部分网络流量数据和标签，用于评估模型的性能。
- UNSW-NB15_training-set.csv：这是训练集文件，包含用于训练模型的网络流量数据和标签。
- 用途：如果你要训练机器学习模型，优先使用这个文件夹中的训练集和测试集。这些数据已经划分好，可以直接用于模型训练和评估。

训练模型时使用的文件：

UNSW-NB15_training-set.csv：用作模型的训练数据。
UNSW-NB15_testing-set.csv：用于测试模型的性能。

这两个文件已经包含了所有的特征和标签，不需要自己额外处理其他文件。如果想更深入理解特征，可以参考NUSW-NB15_features.csv，但在模型训练中，直接使用训练集和测试集文件即可。

UNSW-NB15_training-set.csv里各个字段的含义

id：每条记录的唯一标识符。
dur：连接的持续时间（以秒为单位）。
proto：传输协议类型，如TCP、UDP、ICMP等。
service：服务类型，例如HTTP、DNS等。
state：连接状态，例如建立、关闭等。
spkts：源主机发送的包数。
dpkts：目标主机接收的包数。
sbytes：源主机发送的字节数。
dbytes：目标主机接收的字节数。
rate：流量速率（包/秒或字节/秒）。
sttl：源主机的生存时间（TTL）。
dttl：目标主机的生存时间（TTL）。
sload：源主机的负载（以字节为单位）。
dload：目标主机的负载（以字节为单位）。
sloss：源主机的包丢失率。
dloss：目标主机的包丢失率。
sinpkt：源主机每个连接发送的平均包数。
dinpkt：目标主机每个连接接收的平均包数。
sjit：源主机的包抖动（时间延迟变化）。
djit：目标主机的包抖动。
swin：源主机的窗口大小。
stcpb：源主机TCP参数。
dtcpb：目标主机TCP参数。
dwin：目标主机的窗口大小。
tcprtt：TCP的往返时间（RTT）。
synack：TCP的同步确认数。
ackdat：TCP的确认数据。
smean：源主机的平均字节数。
dmean：目标主机的平均字节数。
trans_depth：传输深度，可能表示连接的层次或复杂度。
response_body_len：响应主体的字节长度。
ct_srv_src：源主机的连接数。
ct_state_ttl：特定状态下的连接数。
ct_dst_ltm：目标主机最近连接的数量。
ct_src_dport_ltm：源主机到特定目标端口的连接数量。
ct_dst_sport_ltm：目标主机特定源端口的连接数量。
ct_dst_src_ltm：目标主机与源主机之间的连接数量。
is_ftp_login：是否是FTP登录事件（0或1）。
ct_ftp_cmd：FTP命令的连接次数。
ct_flw_http_mthd：HTTP方法的流量连接次数。
ct_src_ltm：源主机的连接数。
ct_srv_dst：服务到目标的连接数。
is_sm_ips_ports：是否有相同的IP和端口（0或1）。
attack_cat：攻击类别，指示流量的类型（如DDoS、端口扫描等）。
label：流量记录的标签，通常标记为“正常”或某种攻击类型。

attack_cat这个字段说明了每个攻击类别的名称：

The name of each attack category. In this data set , nine categories e.g. Fuzzers, Analysis, Backdoors, DoS Exploits, Generic, Reconnaissance, Shellcode and Worms

UNSW-NB15_training-set.csv每一行数据代表的是一次连接的记录，而不是单个数据包。这条记录包含了两个主机之间在特定时间内通信的所有相关特征信息，通常是指一次持续的网络连接。