使用深度学习检测TOR流量——本质上是在利用报文的时序信息、传输速率建模

from：https://www.jiqizhixin.com/articles/2018-08-11-11

可以通过分析流量包来检测TOR流量。这项分析可以在TOR 节点上进行，也可以在客户端和入口节点之间进行。分析是在单个数据包流上完成的。每个数据包流构成一个元组，这个元组包括源地址、源端口、目标地址和目标端口。

提取不同时间间隔的网络流，并对其进行分析。G.He等人在他们的论文“从TOR加密流量中推断应用类型信息”中提取出突发的流量和方向，以创建HMM（Hidden Markov Model，隐马尔科夫模型）来检测可能正在产生那些流量的TOR应用程序。这个领域中大部分主流工作都利用时间特征和其他特征如大小、端口信息来检测TOR流量。

我们从Habibi等人的“利用时间特征来发现TOR流量的特点”论文中得到启发，并遵循基于时间的方法提取网络流，用于本文TOR流量的检测。但是，我们的架构使用了大量可以获得的其他元信息，来对流量进行分类。这本质上是由于我们已经选择使用深度学习架构来解决这个问题。

四、数据实验-TOR流量检测

为了完成本文的数据实验，我们从纽布伦斯威克大学的Habibi Lashkari等人[11]那里获取了数据。他们的数据由从校园网络流量分析中提取的特征组成。从数据中提取的元信息如下表所示：

表1：从[ 1 ]获得的元信息参数

除了这些参数之外，其他基于流的参数也包括在内。图4显示了一个数据集的样例。

图4：本文使用的数据集实例

请注意，源IP/端口、目标IP/端口和协议字段已经从实例中删除，因为它们会导致模型过拟合。我们使用具有N隐藏层的深度前馈神经网络来处理其他所有特征。神经网络的架构如图5所示。

图5：用于Tor流量检测的深度学习网络表示

隐藏层层数在2和10之间变化。当N=5时是最优的。为了激活，线性整流函数（Rectified Linear Unit, ReLU）用于所有隐藏层。隐藏层每一层实际上都是密集的，有100个维度。

Keras中的FFN的Python代码片段：

model = Sequential() model.add(Dense(feature_dim, input_dim= feature_dim, kernel_initializer='normal', activation='relu')) for _ in range(0, hidden_layers-1): model.add(Dense(neurons_num, kernel_initializer='normal', activation='relu')) model.add(Dense(1,kernel_initializer='normal', activation='sigmoid')) model.compile(optimizer='adam', loss='binary_crossentropy', metrics=["accuracy"])

输出节点由Sigmoid函数激活。这被用来输出二分类结果-TOR或非TOR。

我们在后端使用带有TensorFlow的Keras来训练深度学习模块。使用二元交叉熵损失来优化FFN。模型会被训练不同次数。图7显示，在一轮仿真训练中，随着训练次数的增加，性能也在增加，损失值也在下降。

图7：网络训练过程中Tensorboard生成的静态图

我们将深度学习系统的结果与其他预测系统进行了比较。使用召回率（Recall）、精准率（Precision）和F-Score这些标准分类指标来衡量预测系统性能。我们基于深度学习的系统能够很好地检测TOR类。但是，我们更加重视非TOR类。可以看出，基于深度学习的系统可以减少非TOR类的假阳性情况。结果如下表：

表2：用于TOR流量检测实验的深度学习和机器学习模型结果

在各种分类器中，随机森林和基于深度学习的方法比其他方法更好。所示结果基于5,500个训练实例。本实验中使用数据集的大小相对小于典型的基于深度学习的系统。随着训练数据的增加，基于深度学习的系统和随机森林分类器的性能将会进一步提升。

但是，对于大型数据集来说，基于深度学习的分类器通常优于其他分类器，并且可以针对相似类型的应用程序进行推广。例如，如果需要训练检测使用TOR的应用程序，那么只需要重新训练输出层，并且其他所有层可以保持不变。而其他机器学习分类器则需要在整个数据集上重新训练。请记住，对于大型数据集来说，重新训练模型需要耗费巨大的计算资源。

尾记

每个企业面临的匿名流量检测的挑战是存在细微差别的。攻击者使用TOR信道以匿名模式偷窃数据。当前流量检测供应商的方法依赖于拦截TOR网络的已知入口节点。这不是一个可拓展的方法，而且很容易绕过。一种通用的方法是使用基于深度学习的技术。

本文中，我们提出了一个基于深度学习的系统来检测TOR流量，具有高召回率和高精准率。请下面的评论部分告诉我们您对当前深度学习状态的看法，或者如果您有其他替代方法。

References

[1]: Quamar Niyaz, Weiqing Sun, Ahmad Y Javaid, and Mansoor Alam, “A Deep Learning Approach for Network Intrusion Detection System,” IEEE Transactions on Emerging Topics in Computational Intelligence, 2018.

[2]: Daniel Gibert, “Convolutional Neural Networks for Malware Classification,” Thesis 2016.

[3]: Wookhyun Jung, Sangwon Kim,, Sangyong Choi, “Deep Learning for Zero-day Flash Malware Detection,” IEEE security, 2017.

[4]: Paweł Kobojek and Khalid Saeed, “Application of Recurrent

posted @ 2019-01-22 14:29 bonelee 阅读(4453) 评论(0) 收藏举报

刷新页面返回顶部

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

使用深度学习检测TOR流量——本质上是在利用报文的时序信息、传输速率建模

公告