第二次毕业设计任务书(3.8-3.15)

一.计划表

时间

计划进度

3.8--3.15

 了解KDDCUP99数据集

3.16--3.23

 完成数据预处理的初步过程。

3.24--3.30

 将算法和处理过的数据结合起来

 

 

 

 

 

 

 

 

二.本周的内容

1.kddcup99

  一个网络连接定义为在某个时间内从开始到结束的TCP数据包序列,并且在这段时间内,数据在预定义的协议下(如TCP、UDP)从源IP地址到目的IP地址的传递。每个网络连接被标记为正常(normal)或异常(attack),异常类型被细分为4大类共39种攻击类型,其中22种攻击类型出现在训练集中,另有17种未知攻击类型出现在测试集中。

 

  4种异常类型分别是:

  •   DOS, denial-of-service. 拒绝服务攻击。
  •   R2L, unauthorized access from a remote machine to a local machine. 来自远程主机的未授权访问 。
  •   U2R, unauthorized access to local superuser privileges by a local unpivileged user. 未授权的本地超级用户特权访问。
  •   PROBING, surveillance and probing, 端口监视或扫描 。

  前41项特征分为4大类,

  1. TCP连接基本特征(共9种)

  (1)duration.  (2)protocol_type. (3)service.  (4)flag.  (5)src_bytes.  (6)dst_bytes.(7)land.  (8)wrong_fragment. (9)urgent. 

  2. TCP连接的内容特征(共13种)

  (10)hot. (11)num_failed_logins. (12)logged_in. (13)num_compromised. (14)root_shell. (15)su_attempted. (16)num_root.(17)num_file_creations. (18)num_shells. (19)num_access_files. (20)num_outbound_cmds. (21)is_hot_login. (22)is_guest_login. 

  3. 基于时间的网络流量统计特征 (共9种,23~31)

(23)count. (24)srv_count. (25)serror_rate. (26)srv_serror_rate. (27)rerror_rate. (28)srv_rerror_rate. (29)same_srv_rate.  (30)diff_srv_rate. (31)srv_diff_host_rate. 

  4. 基于主机的网络流量统计特征 (共10种,32~41)

  (32)dst_host_count. (33)dst_host_srv_count. (34)dst_host_same_srv_rate. (35)dst_host_diff_srv_rate. (36)dst_host_same_src_port_rate.  (37)dst_host_srv_diff_host_rate. (38)dst_host_serror_rate. (39)dst_host_srv_serror_rate. (40)dst_host_rerror_rate. (41)dst_host_srv_rerror_rate. 

 

  特征选择对入侵检测的结果有很大的影响,不是所有的特征对数据处理都有用,有的还会对处理结果产生负面影响。因此,网络数据特征属性的正确选取对数据处理十分重要。

 

2.算法思想

   Apriori算法是一种最有影响的挖掘布尔关联规则频繁集的算法。该算法使用一种称作 逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。

  • 找出频繁1-项集的集合,该集合 记作L1。
  • L1用于找频繁2-项集的集合L2,L2用于找L3,如此下去,直到不能找到频繁k-项集。

  找每个Lk需要一次数据库扫描。为减少扫描的次数,对每个频集赋一个向量,当由长度为n 的频集产生长度为n+1的频集时,就不需要再扫描数据库,只需在与操作后计算每个二进制 位上1的个数就可以得到该属性集合在数据库中出现的次数,在计算频集支持度上大大减少 了扫描数据库所用的时间。

 

 

  将kddcup99数据集中 的10%的数据(约10万条记录)中随机抽取的的正常连接记录作为训练集,利用聚类分析中 的K-means算法对该训练集进行预处理,然后用Apriori算法对预处理后的数据进行关联挖 掘,得出正常连接规则。再利用这些规则对网络连接记录进行判断,如果是正常模式就继续 进行数据捕获,否则转向决策模块。决策模块负责对非正常模式进行应急处理。

 

  采用Apriori的改进算法找出频繁项集,并由频繁项集产生关联规则。

 

三.本周参考资料。

  1.http://blog.csdn.net/u010913001/article/details/51383467

  2.陈洪泉,霍志凯.基于关联规则的网络入侵检测方法[J].电子科技大学学报,2009,38(S)

  3.毛伊敏,杨路明,陈志刚,刘立新.基于数据流挖掘技术的入侵检测模型与算法[J]. 中南大学学报,2011,42

  4.杨建华,蒋玉明,彭轮.数据挖掘在网络入侵检测中的应用研究[J]. 微计算机信息, 2009, 25(24)

posted @ 2017-03-16 22:06  Banz  阅读(223)  评论(3编辑  收藏  举报