Intrusion Detection Using Convolutional Neural Networks for Representation Learning 笔记
Intrusion Detection Using Convolutional Neural Networks for Representation Learning
2.2 实验数据的预处理
为了确定NSL-KDD数据与CNN的图像转换,我们设计了一种方法,将NSL-KDD数据格式转换为视觉图像类型。为了实现这一目标,我们将各种类型的特征映射到二进制矢量空间,然后将二进制矢量转换为图像。
符号特征。NSL-KDD数据属性中有三种符号数据类型:协议类型、标志和服务。如图2所示,我们使用单热编码器将这些特征映射到二进制向量中。例如,protocol_type有三个值(tcp, udp, icmp),变成三个维度的二进制向量(100, 010, 100)。
连续特征。连续特征包括整数和浮点数类型的特征。我们使用标准标度器将连续数据归一到[0, 1]范围。标准缩放器指的是将数据缩放到一个特定的区间。在本文中,使用了最小-最大归一化方法。就是说
\[x_{new}=\frac{x-x_{min}}{x_{max}-x_{min}}
\]
(1)
其中x代表数字特征值,\(x_{min}\)代表特征的最小值,\(x_{max}\)代表最大值,\(x_{new}\)代表归一化后的值。在归一化处理后,我们将缩放后的连续值离散成10个区间。然后,我们使用单热编码器将间隔的顺序号编码为10个二进制向量,如图3所示。