数据挖掘基本概念

数据挖掘定义

值对数据进行收集，清洗，加工和分析并从中获取有用知识的过程。

数据挖掘过程

数据采集

使用像传感器网络这样的专门硬件，手工录入的用户调查，或者如同Web爬虫工具来收集文档。

特征提取和数据清洗

上阶段获得的数据不适合直接进行处理，要转化为对数据挖掘算法较为合适的格式。

分析处理和算法

为处理过的数据设计有效的分析方法。

数据挖掘阶段

数据预处理阶段

特征提取：找出与手头应用最相关的特征。

数据清洗：丢弃错误数据记录，对却是的条目进行估计填充。

特征选择与转换：移除与应用无关的特征，或者把数据变换到一个新的维度空间以便于数据分析。

分析阶段

基本数据类型

非依赖型数据

最简单的数据形式，通常指多维数据。

定量型多维数据（数值数据）

数据集内所有字段都是定量的，特点是连续的，数值的。

类别型和混合型数据

每个数据项都是类别数据，特点是离散且无次序。

二元和集合数据

只可能取两个离散值，是多维定量型数据的特例。

文本数据

可以被视为一个字符串，也可以被视为多维数据；实际应用中，文档多以向量空间的形式表示；对于n个文档，d个术语（单词）的文本集合用一个n x d的数据矩阵表示，称为文档术语矩阵。数据稀疏性指的是一个具体的文档只使用词典中很笑的一部分单词。

依赖型数据

隐式依赖关系

数据项之间没有明确表达出来的依赖关系。

显示依赖关系

用图数据或网络数据显式给出数据项之间关系的情况。

时间序列数据

包含随着时间的推移通过连续测量所生成的数值。具有隐式的基于时间关系的依赖性。

离散序列和字符串

可以认为是将时间序列数据中的定量型数据转换成类别型数据而得到的。

上下文属性是一个时间戳或时间序列索引。

行为属性是一个类别型数据。

空间数据

许多非空间属性是在空间位置上测量的，如压力，温度。

上下文属性是空间坐标

行为属性是非空间属性（如温度），可以有多个行为属性。

时空数据

包含空间和时间两种属性

两种常见类型：时间空间都是上下文属性，时间是上下文属性弹空间是行为属性。

网络和图数据

数值对应网络中节点，数值之间关系对应节点之间的边。如社交网络

主要数据挖掘模块

数据挖掘过程中的根本性问题：聚类，分类，关联模式挖掘和异常检测。

设有一个多维数据库D，n条记录，d个属性。可以使用n x d的数据矩阵表示这个数据库。

数据条目之间的关系：

列之间的关系：目标是确定一行中各值之间频繁或罕见的关系，把某特定数据视为特殊属性并对它进行预测的数据挖掘过程（如某条重要属性缺失，通过其他条目的该属性来预测），称为有监督的数据挖掘。

行之间的关系：目标是把行分成多个子集，使得属于一个子集中的行具有相关性，若某一行的列值跟其他行中相应的列值不一样，可称为反常现象。这一问题称为异常分析。

关联模式挖掘

目标是求解商品间k组相关度，即确定顾客购买的商品组合之间的关联性。

数据聚类

给定一个数据矩阵D（数据库D），将其行（记录）分割成k个集合C₁,...,C_k，使得每个集合（簇）中的行（记录）都是相似的。

属于无监督学习。

异常检测

异常点指的是与其他数据有显著不同的数据点。

异常检查就是给定一个数据矩阵D，确定其中与其余行非常不同的行。

数据分类

给定一个nxd训练数据矩阵D（数据库），且D中的每一行都给定了{1,...,k}中的一个类标签，创建一个训练模型M，使得该模型能够预测不在数据库D中的d维记录的类标签。类标签未知的记录称为测试记录。属于有监督学习。

复杂数据类型对问题定义的影响

复杂数据类型上的模式挖掘：关联模式挖掘通常是从相应的数据中找出一些表达为集合的模式。当数据中含有依赖关系时，这种集合形式不再成立。

复杂数据类型上的聚类：主要表现在数据类型对相似度函数的影响。

复杂数据类型上的异常检测：依赖关系有助于定义数据项的预期值，与预期值有所偏差的就是异常点。

复杂数据类型上的分类：类标签可以附加在不同目标上，可以是序列的具体位置，可以是整个序列，可以使网络的单个结点，可以使众多图的集合中单个图。

posted @ 2023-02-22 20:22 Laplace蒜子阅读(105) 评论(0) 收藏举报

RedNoseBo