第三次毕业设计任务书

一. 进度计划

时间	计划进度
3.24-3.30	尝试将kdd数据预处理用代码实现
3.31-4.6	将kdd数据预处理用代码实现以及与aprior算法的结合

二. 课题需求

　　2.1 数据预处理的功能和主要方法

　　　在现实中,由于数据的来源、组织、存储等的多样性,海量的原始数据中一般都很难避免“脏数据”的存在,如噪音、冗余、矛盾、缺损等等,因而很少能够直接满足数据挖掘的要求。根据“进去的是垃圾,出来的也是垃圾,”的原理,为了获得有价值的知识,就必须提供有效的数据。同时,由于知识发现问题本身固有的复杂性,不同类型、不同目的、不同方法的知识发现往往对数据源有额外的、特殊的要求。当建立一个信息系统的时候,即使进行了良好的设计、规划和数据清洗,也不能保证获得的数据都能满足特定的挖掘任务的需要,针对具体的应用往往还需要进行后续的数据预处理工作,如数据集成和转换、数据归约、连续数据的离散化、概念分层等。这些工作直接影响到数据挖掘算法的有效性和运行效率。

　　数据预处理的主要方法有基于粗糙集理论的约简方法；基于概念树的数据浓缩方法；信息论思想和知识发现；基于统计分析的属性选取方法；遗传算法。而常见的数据预处理方法有：数据清洗、数据集成、数据变换和数据归约。

　　1. 数据集成（Data Integration)是将多文件或多数据库运行环境中的异构数据进行合并处理，解决语义的模糊性。该部分主要涉及数据的选择、数据的冲突问题以及不一致数据的处理问题。

　　2. 数据清洗（Data Cleaning）：数据清洗的目的不只是要消除错误、冗余和数据噪音。其目的是要将按不同的、不兼容的规则所得的各种数据集一致起来。

　　3. 数据变换（Data Transformation）：是找到数据的特征表示，用维变换或转换来减少有效变量的数目或找到数据的不变式，包括规格化、规约、切换和投影等操作。

　　4. 数据简化（Data Reduction）：是在对发现任务和数据本身内容理解的基础上，寻找依赖于发现目标的表达数据的有用特征，以缩减数据模型，从而在尽可能保持数据原貌的前提下最大限度的精简数据量。其主要有两个途径：属性选择和数据抽样，分别针对数据库中的属性和记录。

　　2.2数据预处理

　　入侵检测的原始数据通常包含几十个特征，这些数据运用到一些分类算法中，将使分类速度非常缓慢,甚至无法进行下去，因此，寻找这些大量特征之间的相关性，找出其中的冗余信息，是入侵检测数据预处理要解决的问题。目前，特征提取主要采用的方法有 PCA、KPCA 和非线性成分分析方法等。

　　PCA 是一种提取数据中线性特征的方法。作为一种特征提取技术，它已用在许多模式识别领域。

　　　　设研究对象有n 个特征即 1 2, ,...,nx x x,PCA 就是寻找p个正交向量，使向量组

　　　　　　　　　　　　（2.2.1）

　　　　能较好地表示研究对象。

　　　　(2.2.1)式写为矩阵的形式为

　　　　　　　　　　　　　　Y =A ⋅X (2.2.2)

　　　　所以

　　　　　　　　　　　　　　 (2.2.3)

　　　　对(2.2.3)式两边取数学期望得:

　　　　　　　　　　　　　　 (2.2.4)

　　　　令

　　　　　　　　　　　　 (2.2.5)

　　　　　　　　　　　　　　　　　 (2.2.6)

　　　　则(2.2.4)式可变为

　　　　　　　　　　　　　　　　 (2.2.7)

　　　　由 X 的m 个样本估计得到:

　　　　　　　　　　　　　　　　　　 (2.2.8)

　　　　　式中的为第j个样本,同样

　　　　　　　　　　　　　　　 (2.2.9)

　　　　　　方差的贡献率定义为，选择 m 的依据是 m 个最大特征值对应的方差贡献率的总和应大于 99.9%。m 个最大特征值对应的特征矢量构成m 维特征子空间。

　　　主成分分析的具体算法是：

　　　　　　1）计算协方差矩阵。

　　　　　　2）求出协方差矩阵的特征值。

　　　　　　3）按 m 个最大特征值对应的方差贡献率的总和大于 99.9%，选取 m 个最大的特征值及其对应的特征向量，利用(2.2.1)式求出输入数据在特征空间的投影。

　　目前，入侵检测数据预处理主要是采用一些传统的降维方法，这些方法在入侵检测中存在一定的困难，如数据维数降低不多，对入侵检测中不同类型的数据同时处理存在困难等。

　　CAEP （通过聚集显露模式分类）使用项集支持度挖掘显露模式（Emerging Pattern ,EP）[38]。而 EP 用于构造分类[41]。EP 基本概念如下：

设 I={i1, i2,…, im}是项的集合，其中的元素称为项(item)。事务 T 是项的集合，T⊆I。设数据集 D 是事务的集合。I 的子集 X 被称为 K 项集，当且仅当 K=|X|。如果 X⊆T，我们说事务集 T 包含项集 X。项集 X 在数据集 D 中的支持度用 supp D(X)表示，其计算公式如下：

　　其中 count D(X)是 D 中包含 X 的数量。给定一个正数 δ，如果 supp D (X)≥δ，则认为 X 是 δ-large 否则认为 X 是 δ-small。LARGEδ (D)（相应的 SMALLδ(D)）定义为所有 δ-large（相应的，δ-small）项集的集合。假设一对数据集的有序对，D1 和 D2 其支持度分别为 supp1 (X)和 supp2 (X)。项集X 从 D1 到 D2 的增长率 Growth Rate(X)定义如下：

三. 参考资料

刘宪芳.入侵检测系统的特征提取方法研究及其实现
关大伟.数据挖掘中的数据预处理
姜晚云.关联规则在学生成绩管理中的应用研究

posted @ 2017-03-24 22:39 Banz 阅读(222) 评论(1) 收藏举报

刷新页面返回顶部

G 's Garden

This is a little blog

第三次毕业设计任务书

公告