基于网络监听方式的电子邮件实现基础

基于网络监听方式的电子邮件实现基础
      电子邮件凭借其快捷、方便的特点成为人们生活中一种重要的通信方式。在提供便利的通信服务的同时，电子邮件也成为众多病毒、垃圾信息的主要载体。并且由于电子邮件在自身安全性设计上的不足，导致电子邮件可以使用虚假地址发送，使得不法信息的传播具有一定的隐蔽性。为了从根源上消除病毒以及不法信息的传播，必须对电子邮件进行安全审计，现有的电子邮件审计技术分为基于邮件服务器文件扫描方式和基于网络的监听方式两种。基于邮件服务器文件扫描方式主要通过对电子邮件服务器上的邮件进行扫描实现安全审计功能。这种方式主要依靠对本地服务器的访问来实现，因此具有处理速度快的优点，并且邮件在服务器上是按照一定规则存储，所以可以方便地进行读取。但是由于政治和经济原因，这种审计方式很难在境外服务器上实施，并且由于电子邮件服务器本身不提供文件扫描的接口，审计事件一旦在服务器上进行安装，可能会导致服务器负载过重，严重影响正常的电子邮件服务。
基于网络监听方式的实现基础
      基于网络监听方式的电子邮件内容审计可以在网络系统中的若干关键点收集并分析电子邮件数据包。在不影响网络性能和服务器性能的前提下，对网络中通过的电子邮件内容进行实时监测，检查其中是否有违反信息安全策略的行为迹象，例如美国开发的“食肉动物”系统。常见的基于网络监听的电子邮件审计方式有基于全文重组的电子邮件审计和基于单独分组的电子邮件审计，以及选择性全文重组的电子邮件审计三种方式。在分别介绍三种审计方式之前，首先介绍基于网络监听方式的实现基础
(1) 探测器部分
     探测器分布在网络系统中的若干关键点处，负责收集所有链路的电子邮件数据包，将收集到的数据包传输到中心控制台。为了减少中心控制台的工作量，探测器可以具有过滤功能，接收中心控制台的命令，按照命令进行针对关键字、组合关键字和电子邮件地址的BPF过滤配置，实现包括对IP区间、端口号、收件人和发件人地址以及邮件内容的过滤。
对于IP区间和端口号的过滤一般采用BPF设置过滤模块。在网络底层，系统利用基于BPF的虚拟设备驱动程序，从网络底层接收数据报文，对不属于所设定的IP区间和端口的报文直接在底层丢弃，将符合条件的报文向上层提交给邮件处理模块处理。对于收件人和发件人地址的过滤，其实现是根据SMTP和POP3协议的邮件头格式捕获邮件的第一个数据包，然后提取该分组的源地址IP和目的地址IP，根据提取的信息获取后继的全部分组，并转发到中心控制台进行组装、翻译。对于邮件内容的过滤是指利用多关键字匹配的布尔模型技术对收发邮件的所有数据包进行搜索，若数据包中含有中心控制台指定的关键字，则捕获该数据包并提交给中心控制台进行二次分析、统计。中心控制台则可以采用布尔模型或向量空间模型对分组或全文进行分析判别，从而实现对电子邮件的实时监控和审计。
(2) 中心控制台部分
      中心控制台主要实现数据整理、查询统计、控制探测器三个功能。数据整理。采用空间向量识别模型，对探测器发送回来的数据包进行处理，并根据文档类型的特征向量进行精确识别处理，将识别出的数据信息写入日志文件，以供查询统计，其余信息将被丢弃。在实现这个功能的过程中一定要记录并保持TCP的完整会话过程，这样做，一方面是为重组上层协议提供数据，另一方也是在一定程度上避免伪造邮件报文的存在。如果有人恶意伪造邮件报文，可能会伪造不完整的、包含敏感信息的数据报，然后放在审计系统所在的网段上，从而造成被欺骗的报警。建立数据库，记录被捕获数类型、目的MAC地址、源MAC地址、源IP地址、目的IP地址、IP序号、IP首部长度、IP总长度、IP协议、运输层协议、源端口号、目的端口号、应用协议名称、应用报文偏移、应用报文长度、原始应用报文等信息，用户可以进行各种单项和组合查询。控制探测器。用户可以在中心控制台远程设置各探测器的布尔模型的关键字和电子邮件地址，接收探测器的返回信息，完成与探測器的互动，实现对网络中电子邮件的实时监控。
(3) 敏感信息的选择与设置
      敏感信息的设置需要充分考虑到系统的识别效率，所以一般不建议选择语句，应尽量选择词组即关键词作为敏感信息。敏感信息的设置方式与具体的实现方案有关，当探测只完成收集信息功能时，则只需要在中央控制台上设置敏感信息。如果要减少中央控制台的工作负载，则应该让探测器具有一定的过滤功能，这时候就需要同时在控制台和探测器上设置敏感信息。
(4) 对敏感关键字变异的处理
      在现实的电子邮件传输过程中，关键字往往会发生一定的变异，如在关键字中加入空格或连接字符等情况，这就需要在对关键字进行动态匹配时去除掉特殊字符。如“关键字”可能变异为“关一键一字”或“关% 键 % 字”或“关=键=字”，在具体程序处理过程中，只需将非汉字字符和英文字符集内的特殊字符的编码去掉就可以实现动态完全匹配，而并不会增加关键字数据库存。实际上针对这种情况只是在匹配到第一个关键字符时才进行处理，其系统开销仅与所加入的特殊字符的个数成正比。
(5) 信息分析过滤方式
      对全文和分组进行信息过滤的方式一般有基于组合关键字方式的布尔模型、基于频率统计方式的空间向量模型和基于语义分析的方式三种，布尔模型采用关键字匹配的方法对信息进行过滤，因而简单高效，但准确性不高，必须采用辅助措施（如采用无关关键的字方式排除正面性的信息）来提高其准确度。空间向量模型是一种基于大量的现成的语料库，采用统计的方法，将与敏感信息相关的若干特征字按出现的频率进行排序，这种模型是近年来使用效果较多的一种模型。语义分析是准确性较高的方法之一，但也是比较难实现和比较复杂的方法之一。

posted on 2011-04-10 20:02 李晨光阅读(1894) 评论(1) 编辑收藏举报