数据挖掘笔记(1)-概念、数据准备
一.概念:
数据挖掘:运用基于计算机的方法,从数据中获得有用之时的整个过程。
两个基本目标:预测和描述。
数据挖掘的基本任务:(1)分类 (2)回归 (3)聚类 (4)总结概括 (5)关联建模 (6)变化和偏差检测
数据挖掘的过程: 陈述问题,阐明假设->收集数据->预处理数据->模型评估(挖掘数据)->解释模型,得出结论
数据仓库的开发过程概括为3个阶段:建模、构建和部署
完成数据挖掘所耗费的精力:数据准备>商业目标>数据挖掘>巩固结果
二:数据准备
2.1 原始数据的表示
数据样本是数据挖掘的基本组成部分。每个样本都用几个特征来描述,每个特征都用不同类型的值。两种常见的类型数值型和分类型。
数值型值包括实型变量和整型变量,如年龄、速度或长度。数值型特征有两个重要的属性:其值有顺序关系和距离关系。
分类型(长叫做符号型)变量没有上述两种关系,分类型变量的两个值可以相等或不等。它们只建立一种等同关系,例如:眼睛颜色、性别、国籍。
具有n个值的分类型变量可以转换成n个二进制数值型变量,即一个二进制数值对应分类型变量的一个值。
另一种基于变量值的变量分类方法是,根据它是连续性变量还是离散型变量来分类。连续型变量也称为定量型或度量型变量。在大型数据集
中,连续型变量用实型或整型值来表示。离散型变量也叫定性型变量。一种特殊的离散型变量是周期变量。
最后,另一种数据分类维度是基于数据与时间有关的行为特征。大多数数据挖掘方法更适合静态数据,挖掘动态数据时,常常需要特殊的考虑
和预处理。
产生大多数数据挖掘问题的原因是,大量的样本具有不同类型的特征。此外,这些样本往往是高维度的,这就意味着它们有极多的可测量特征
。在高维度空间中密度和两点间距离的传统含义改变了,因此需要重新考虑、评估传统概念。
2.2 原始数据的特征
杂乱的数据来源和含义;根据已有的数据甚至丢失的数据来建模。失真数据、方法上错误的步骤选择、滥用数据挖掘工具、模型过于理想化、
未考虑数据中各种不确定性和模糊性的模型-----所有的这些都可能导致数据挖掘方向性错误。
数据挖掘中一个最关键的步骤是初始数据集的准备和转换。
数据准备阶段有两个中心任务:
(1)把数据组织成一种标准形式,以便于数据挖掘工具和其他基于计算机的工具处理(标准形式是一个关系表)。
(2)准备数据集,使其能得到最佳的数据挖掘效果。
2.3 原始数据转换
标准化、数据平整、差值和比率
2.4 对丢失数据的处理
对带有和不带有丢失值的特征生成多种数据挖掘解决方案,然后对他们进行分析和解释。
2.5 时间相关数据
2.6 异常点分析
异常点定义:在大型数据集中通常有一些不符合数据模型的一般规则,这些样本和数据集中的其他数据有很大的不同或不一致,叫做异常点。
异常点的检测方案的主要类型有:
图形或可视化技术、基于统计的技术、基于距离的技术、基于模型的技术 (这几种方法的具体介绍略)