论文:基于数据挖掘的网络入侵检测关键技术研究-郭春

1、文章主要工作:

1.1 设计了一种适用于入侵检测的特征提取方法。(降维)DSFE:Distance-sum based feature extraction method;

提出了一种基于簇中心距离和的特征提取方法:利用数据集中各数据样本与簇中心的距离和关系,将原始特征向量从高维空间转换到低维空间。

实验数据集:KDD CUP 99
预处理
(1)第一步:将字符型特征映射为数值型特征。
(2)第二步:对这些数值型特征进行数值规范化。

评价指标:
(1)检测率:TP/(TP+FN)
是指测试集中攻击样本被正确识别为攻击的比例,是一个反映IDS攻击识别能力大小的重要指标;
(2)真阴性率:TN/(FP+TN)
指测试集中正常样本被正确识别为正常的比例,是一个反映IDS对正常样本识别准确性的指标;
(3)精确率:TP/(TP+FP)
指测试集中所有被IDS识别为攻击样本中,真正为攻击样本的比值;
(4)F-score:

综合评价IDS检测率和准确率的一个指标;
(5)分类正确率:(TN+TP)/(TN+TP+FN+FP)
指测试集中被正确分类的样本个数与测试集样本总数的比值,是一个反映IDS对正常样本和攻击样本区分能力大小的总体评价指标,能够在一定程度上体现IDS的总体识别能力;
(6)漏报率:FN/(TP+FN)
指测试集中被误识别为正常的攻击样本个数与测试集中攻击样本总数的比值,是一个能反映IDS攻击识别能力的大小的指标;
(7)误报率:FP/(FP+TN),也称为误警率;
指测试集中被误识别为攻击的正常样本个数与测试集中正常样本总数的比值,是一个反映IDS对正常样本识别能力大小的指标。

混淆矩阵:
TP(true positive),表示正确识别异常数据;
TN(true negative),表示正确识别正常数据,
FP(false positive),表示正常样本错被识别为异常;
FN(false negative),表示异常样本错被识别为正常;

分类算法:DSFE结合SVM——本文还指定了各个算法参数、内核以及解决的问题;

曲线:本节给出了检测模型对测试集进行检测的ROC曲线和AUC值。
ROC曲线:显示了当检测率变化时误报率的变化情况;
AUC值:与1越接近,说明检测模型的检测效果越好。

DSFE的框架为:

(1)阶段一:一个人任意的n维数据集D首先被划分为一个训练集\(D_{R}\)和一个测试集\(D_{E}\)。将\(D_{R}\)中的数据样本聚合为k个不相连的簇并提取各簇的簇中心,从而在该阶段将得到k个簇中心\(c_{1},c_{2},...,c_{k}\)
(2)阶段二:利用\(D_{R}\)\(c_{1},c_{2},...,c_{k}\)生成一个k维数据集\(D_{R}^‘\)\(D_{R}^'\)中每个数据样本均由k个以距离和表征的新特征构成。
生成新的数据集的方法是:每一个新样本\(x_{i}^'\)的特征向量中的每一个特征的特征值为\(x_{i}\)与簇中心\(c_{1},c_{2},...,c_{k}\)中k-1个簇中心的距离之和。本文采用欧几里得距离。
(3)分类时,可先利用\(D_{R}\)构建一个分类模型,然后在用k个簇中心\(c_{1},c_{2},...,c_{k}\)\(D_{E}\)转换为新数据集\(D_{E}^'\),再由分类模型对\(D_{E}^'\)进行分类得到分类结果;

1.2 设计了一种能够适用于入侵检测的样本约简方法。(样本约简,即缩减数据集中的样本数量)

提出了一种基于类中心的分层样本约简方法:等分划分策略?选出样本子集,通过子集建立入侵检测模型。

1.3 设计了一种离群点挖掘的异常检测方法。(能够发现数据集中偏离大部分数据的离群值)

提出了一种基于簇中心位置变化的异常检测方法:聚类算法

1.4 设计了一种包含三个检测模块的两层混合入侵检测模型。

结合误用检测和异常检测两种检测方法;
提出了包含两个异常检测模块和一个误用检测模块的两层混合入侵检测模型。

posted @ 2018-09-24 22:49  hugechuanqi  阅读(962)  评论(0编辑  收藏  举报