nDPI:开源的深度包检测项目

DPI

DPI是Deep Packet Inspection的缩写,全称深度包检测,是对数据包负载进行实时分析的一类技术的总称,它的其中一种应用是对流量进行分类。

在互联网发展的早期,每一种协议或者应用都和一个端口关联。比如当我们说80端口时,我们指的就是HTTP协议。但是,端口和协议的关联并不是强制性的,而只是大家约定的共识。后来,许多新出现的协议都没有再和一个固定的端口关联,有的协议为了绕过防火墙的管控,会直接使用HTTP协议来传输。对于网络的监控和管理来说,识别当前流量中有哪些应用和协议,从而采取进一步动作——记录日志或者阻断连接——就变成了一件非常困难的事情。

为了识别流量的类型,DPI技术应运而生,它有三种基本的实现思路:

  1. 基于特征的。这种方式主要是使用模式匹配来匹配协议中的关键字。比如,通过GET/POST关键字来匹配HTTP协议。
  2. 基于语义的。这种方式主要是通过尝试不同的协议规范来解码数据包,从而确定它是哪一种协议。其中又可以分为不同层级,因为有些协议是借助其它协议来传输的。比如,许多P2P协议通常会使用HTTP协议。
  3. 基于统计的。这种方式主要是针对加密数据,因为它能被观测到的信息只有数据包数、大小以及建立加密连接时的过程和参数。

基于特征的实现不能很好地应对协议中有编码的情况,从而造成漏报。基于统计的则有很高的误报率。所以,nDPI采用的是基于语义的实现方式。

OpenDPI

因为nDPI是在OpenDPI的基础上开发的,所以有必要先介绍一下OpenDPI。

OpenDPI是少有的几个开源DPI库之一,使用的是C语言,现在已经没有人维护。它由两个部分组成:

  1. 核心部分。负责处理数据包,解析IP层、tcp/udp层,然后提取出IP地址、端口等基本信息。
  2. 插件部分。每个插件就是一个解码器,负责解析对应的协议。

OpenDPI存在以下问题:

  1. 每一次检测协议时,OpenDPI都会尝试使用所有的解码器来解码,即使可以通过端口来猜测协议类型。
  2. 代码并不是可重入的,因此在多线程的程序中使用会有些困难。
  3. 不支持从分析流量中提取元数据信息。
  4. 不支持运行时配置。

nDPI

nDPi是在OpenDPI代码的基础上修改的,它做出了两个比较大的改动:

  1. 通过端口来猜测真实的协议。这个设计基于一个前提,就是假设大部分协议仍然是和端口有关系的。当使用和端口关联的协议解码器解码失败时,才会像OpenDPI那样尝试所有其它的解码器,直到解码成功。
  2. 可以通过配置文件声明端口和协议以及关键字和协议之间的关系。解码时优先使用端口或者关键字对应的解码器。

nDPI的协议识别流程如下:

  1. nDPI解码数据包的3层、4层部分。
  2. 如果有注册了和数据包协议、端口相对应的解码器,首先尝试使用这个解码器。
  3. 如果没有匹配,会尝试使用已经注册的和数据包协议(比如UDP)相关的所有解码器。当其中任何一个解码器失败时,有两种情况,要么是真的失败了,要么是还需要更多的数据包。当数据包到来时,后一种情况会继续尝试解码。
  4. 只有有任何一个解码器匹配了,协议识别就会结束。

通常来说,nDPI只要分析了前8个数据包,就能够识别出协议类型。

从设计上来看,如果不能依靠端口猜测出真实的协议类型,性能开销将会是比较大的。因为这时nDPI会像OpenDPI那样尝试每一种解码器,依据的也仅仅是这些解码器注册的顺序。

用户可以通过配置文件来声明传输层协议、端口和协议的关系,配置文件的格式如下:

# Format:
# <tcp|udp>:<port>,<tcp|udp>:<port>,.....@<proto>
tcp:81,tcp:8181@HTTP
udp:5061-5062@SIP
tcp:860,udp:860,tcp:3260,udp:3260@iSCSI
tcp:3000@ntop
# Subprotocols
# Format:
# host:"<value>",host:"<value>",.....@<subproto>
host:"googlesyndacation.com"@Google
host:"venere.com"@Venere
host:"kataweb.it",host:"repubblica.it"@Repubblica

在上面的例子中,当传输层协议是tcp且端口是81或者8181时,‘@’符号后面是“HTTP”,就表示我们认为的最有可能的协议是HTTP。下面host对应的行又声明了特征对应的子协议。当HTTP中的host字段匹配了“venere.com”时,我们就认为它有可能是Venere协议,并交给对应的协议解码器处理。

在官方的测试中,单核的处理性能能够达到3.5Mpps/8.85Gbps。因此使用两个核心就能够处理10Gbps的流量。

参考资料

[1]L. Deri, M. Martinelli, T. Bujlow和A. Cardigliano, 《ndpi: Open-source high-speed deep packet inspection》, 收入 2014 International Wireless Communications and Mobile Computing Conference (IWCMC), 2014, 页 617–622, doi: 10/ghmq3k.
[2]F. Risso, M. Baldi, O. Morandi, A. Baldini和P. Monclus, 《Lightweight, Payload-Based Traffic Classification: An Experimental Evaluation》, 收入 2008 IEEE International Conference on Communications, Beijing, China, 2008, 页 5869–5875, doi: 10/dkftbj.

posted @ 2021-01-13 22:02  d0gulas  阅读(424)  评论(0编辑  收藏  举报