期末复习
**************************1.1**************************************
1.数据分析:是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当地描述,提取出有用的信息的过程。
2.数据挖掘(Data Mining,DM)是指从海量的数据中通过相关的算法来发现隐藏在数据中的规律和知识的过程。
3.通常将数据挖掘视为数据中“知识发现”的同义词,也可以认为数据挖掘是知识发现中的一个步骤。
**************************1.2**************************************
1.数据库系统(DataBase System,DBS)由一组内部相关的数据(称作数据库)和用于管理这些数据的程序组成,通过软件程序对数据进行高效的存储和管理。
2.数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者决策过程。
3.事务数据库的每个记录代表一个事务,比如一个车次的订票、顾客的一个订单等等。
4.数据矩阵中的数据对象的所有属性都是具有相同性质的数值型数据。
**************************1.3**************************************
1.频繁模式:数据中频繁出现的模式
频繁项集:频繁在事务数据集中一起出现的商品集合
2.分类与标签预测是找出描述和区分数据类或概念的模型或函数,以便能够使用模型预测类标号未知的对象的类标号
分类预测类别(离散的、无序的)标号,回归建立连续值函数模型,也就是用来预测缺失的或难以获得的数值数据值。
3.聚类就是把一些对象划分为多个组或者“聚簇”,从而使得同组内对象间比较相似而不同组对象间差异较大。
4.离群点是指全局或局部范围内偏离一般水平的观测对象。
**************************1.4*************************************
数据挖掘是一门涉及面较广的交叉学科
*************************1.5**************************************
- 应用场景
商务智能、信息识别、搜索引擎、辅助医疗
- 存在的问题
数据类型的多样性
高维度数据
噪声数据
分析与挖掘结果的可视化
隐私数据的保护
**************************2.1**************************************
- 数据对象:
数据集由数据对象组成。一个数据对象代表一个实体。
数据对象又称为样本、实例、数据点、对象或元组。
数据对象用属性描述。数据表的行对应数据对象; 列对应属性。
- 属性
属性(特征,变量,维)是一个数据字段,表示数据对象的一个特征。
- 属性类型
标称属性(nominal)
二元属性(binary)
序数属性(ordinal)
数值属性(numeric)
区间标度属性(interval-scaled)
比率标度属性(ratio-scaled)
- 标称属性:
每个值代表某种类别、编码或状态,这些值不必具有有意义的序,可以看做是枚举的
例如:头发颜色= {赤褐色,黑色,金色,棕色,褐色,灰色,白色,红色}
也可以用数值表示这些符号或名称,但并不定量地使用这些数。
例如: 婚姻状况,职业,ID号,邮政编码,
可以用0表示未婚、1表示已婚
5.二元属性(binary attribute):布尔属性,是一种标称属性,只有两个状态:0或1。
对称的(symmetric): 两种状态具有同等价值,且具有相同的权重。
例如:性别
非对称的(asymmetric): 其状态的结果不是同样重要。
例如:体检结果(阴性和阳性),惯例:重要的结果用1编码(如,HIV阳性)。
6.序数属性(ordinal attribute),其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。
例如:尺寸={小,中,大},军衔,职称
序数属性可用于主观质量评估
例如:顾客对客服的满意度调查。0-很不满意;1-不太满意;2-基本满意;3-满意;4-非常满意
7.数值属性(numeric attribute):定量度量,用整数或实数值表示
区间标度(interval-scaled)属性:
比率标度(ratio-scaled)属性:
8.离散属性VS连续属性
离散属性(discrete Attribute):具有有限或者无限可数个值。有时,表示为整型量。
例如:邮编、职业或文库中的字集
二进制属性是离散属性的一个特例
连续属性(Continuous Attribute):属性值为实数,一般用浮点变量表示。
例如,温度,高度或重量,实际上,真实值只能使用一个有限的数字来测量和表示。
**************************2.2***************************************
中列数=(33 + 100)/ 2 = 66.5
***************************2.3***************************************
1.相似性(Similarity)
两个对象相似程度的数量表示
数值越高表明相似性越大
通常取值范围为[0,1]
相异性(Dissimilarity)(例如距离)
两个对象不相似程度的数量表示
数值越低表明相似性越大
相异性的最小值通常为0
相异性的最大值(上限)是不同的
邻近性(Proximity):相似性和相异性都称为邻近性
- 相似性和相异性计算方法
没有同取Y的,所以m=0 没用同取N的,所以q=0
**************************3.1******************************************
1.原始数据存在的问题:
数据的不一致:各系统间的数据存在较大的不一致性
噪声数据:数据中存在着错误或异常(偏离期望值),如血压和身高为0就是明显的错误
收集数据的时候难以得到精确的数据,主要原因:
收集数据的设备可能出现故障;
数据输入时可能出现错误;
数据传输过程中可能出现错误;
存储介质有可能出现损坏等。
缺失值:由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定。
原因可能有:
l 有些属性的内容有时没有(家庭收入,参与销售事务数据中的顾客信息);
l 有些数据当时被认为是不必要的;
l 由于误解或检测设备失灵导致相关数据没有记录下来;
l 与其它记录内容不一致而被删除;
l 忽略了历史数据或对数据的修改
- 数据质量的要求
准确性、完整性、一致性、时效性、可信性、可解释性
(预处理占60%时间以上)
3.数据预处理的主要任务
数据清理(清洗):去掉数据中的噪声,纠正不一致。
数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库。
数据归约(消减):通过聚集、删除冗余属性或聚类等方法来压缩数据。
数据变换(转换):将一种格式的数据转换为另一格式的数据
(如规范化)。
***********************3.2******************************
- 数据清理定义、目的
数据清理就是对数据进行重新审查和校验的过程。
其目的在于纠正存在的错误,并提供数据一致性。
• 缺失值的处理;
• 噪声数据;
• 不一致数据。
2.引起空缺值的原因
• 设备异常
• 与其他已有数据不一致而被删除
• 因为误解而没有被输入的数据
• 在输入时,有些数据因为得不到重视而没有被输入
• 对数据的改变没有进行日志记载
3.如何处理空缺值
1)忽略元组:
2)忽略属性列:
3)人工填写空缺值:
4)使用属性的中心度量值填充空缺值:
5)使用一个全局变量填充空缺值:
6)使用可能的特征值来替换空缺值(最常用):
4.如何检测噪声数据?
1)基于统计的技术
2)基于距离的技术
******************3.3**************************
- 检测冗余的方法 :
-相关性分析
• 数值属性:采用相关系数和协方差进行相关性分析
• 标称属性:采用 �↑ 2 2 (卡方)检验进行相关性分析
- 相关系数:
*******************************3.4*********************************************
1.数据归约的定义
数据归约(data reduction):数据消减或约简,是在不影响最终挖掘结果的前提下,缩小所挖掘数据的规模;
数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近保持原数据的完整性;
2.数据归约的标准:
• 用于数据归约的时间不应当超过或“抵消”在归约后的数据集上挖掘节省的时间。
• 归约得到的数据比原数据小得多,但可以产生相同或几乎相同的分析结果。
3.数据归约—属性子集选择:检测并删除不相关、弱相关或冗余的属性。
属性子集选择的基本启发式方法包括逐步向前选择、逐步向后删除、逐步向前选择和逐步
向后删除的组合以及决策树归纳,
4.数据归约-抽样
取样方法:
Ø 不放回简单随机取样
Ø 放回简单随机取样
Ø 聚类取样
Ø 分层取样
- 什么叫有放回和无放回
无放回的简单随机抽样方法,从N个元组中随机(每一数据行被选中的概率为1 /N )抽取出n个元组,以构成抽样数据子集。
• 有放回的简单随机抽样方法,与无放回简单随机抽样方法类似,也是从N个元组中每次抽取一个元组,但是抽中的元组接着放回原来的数据集D中,以构成抽样数据子集。这种方法可能会产生相同的元组。
6.分层取样:
首先将大数据集D划分为互不相交的层,然后对每一层简单随机选样得到D的分层选样。
********************************3.5************************************
- 数据变换:将数据转换成适合数据挖掘的形式
- - 规范化:把属性数据按比例缩放,使之落入一个特定的小区间
- 属性构造:通过已知的属性构建出新的属性,然后放入属性集中,有助于挖掘过程。
- 规范化常用的方法:
常用的方法:
小数定标规范化;
最小-最大规范化;
零-均值规范化(z-score规范化)。
4.对连续变量进行离散化处理,一般经过以下步骤:
①对此变量进行排序。
②选择某个点作为候选断点,根据给定的要求,判断此断点是否满足要求。
③若候选断点满足离散化的要求,则对数据集进行分裂或合并,再选择下一个候选断点。
④重复步骤②和③,如果满足停止准则,则不再进行离散化过程,从而得到最终的离散结果。
5.等深分箱:
•按记录数进行分箱,每箱具有相同的记录数,每箱的记录数称为箱的权重,也称箱子的深度。
• 按箱的平均值平滑:箱中每一个值被箱中的平均值替换
• 按箱的中值平滑:箱中的每一个值被箱中的中值替换
• 按箱的边界平滑:箱中的最大和最小值被视为箱边界,箱中
的每一个值被最近的边界值替换
等宽分箱 (binning):
• 在整个属性值的区间上平均分布,即每个箱的区间范围设定为 一个常量,称为箱子的宽度。
**********************************4.1*******************************
1.数据仓库的定义及特征
– 数据仓库是一个面向主题的、集成的、时变的并且非易失的,用于支持管
理者决策过程的数据集合
– 数据仓库的特征
• 面向主题的
• 集成的
• 时变的
• 非易失的
- 联机分析处理(OLAP)是数据仓库系统前端分析服务的分析工具,能快速汇总大量数据并进行高效查询分析,为分析人员提供决策支持。
**************************4.2***********************************
数据仓库的设计:
– 概念模型设计
– 逻辑模型设计
– 物理模型设计
**************************4.4*************************************
1.OLAP特点
– 快速性
– 可分析性
– 多维性
- **************************5.1***********************************
1.回归分析
– 按涉及变量个数划分
• 一元回归分析
• 多元回归分析
– 按自变量和因变量之间关系划分
• 线性回归分析
• 非线性回归分析
2.回归分析的步骤
确定变量。建立预测模型。进行相关分析。计算预测误差。确定预测值。
*************************5.2************************************
1.一元线性回归模型只包含一个解释变量(自变量)和一个被解释变量(因变量),是最简单的线性回归模型。
一元线性回归模型为: Y=a+bX+ε
其中, X为自变量, Y为因变量; a为截距,是一常量; b为回归系数,表示自变量对因变量的影响程度; ε为随机误差项。
*********************6.1******************************************
1.– 项集
包含0个或者多个项的集合
– 支持度
绝对支持度:项集的出现频度,即包含项集的事务数。
相对支持度:项集出现的百分比
– 频繁项集
事中同时包含集合A和集合B的事务数与包含集合A的事务数的百分比
– 关联规则挖掘的任务
①根据最小支持度阈值,找出数据集中所有的频繁项集;
②挖掘出频繁项集中满足最小支持度和最小置信度阈值要求的规则,得到强关联规则;
③对产生的强关联规则进行剪枝,找出有用的关联规则。
– 先验性质
如果一个项集是频繁的,那么它的所有非空子集也是频繁的。
*********************6.2***********************
1.关联规则挖掘的步骤
1.找出所有频繁项集,即大于或等于最小支持度阈值的项集
2.由频繁项集产生强关联规则,这些规则必须大于或等于最小支持度阈值和最小置信度阈值
- 令最小置信度为70%,则得到的强关联规则有:
- 一个频繁项集X能够生成2|X|-2个(即除去空集及自身之外的子集)候选关联规则。
6.频繁项集的性质:
①如果X是频繁项集,则它的任何非空子集X‘也是频繁项集。
②如果X是非频繁项集,则它的所有真超级都是非频繁项集。
*******************************6.3******************************
Apriori算法的优缺点
• 优点
– 算法原理简单,易于理解。
• 缺点:
– 需要多次扫描数据集
– 产生大量频繁项集
*******************************6.5*****************************
****************************7.1********************************************
- 分类的定义:• 分类就是根据以往的数据和结果对另一部分数据进行结果的预测。
2.分类的基本过程:
学习阶段:建立一个分类模型,描述预定数据类或概念集。
评估模型的预测准确率
如果准确率可以接受,那么使用该模型来分类标签为未知的样本。
分类阶段:即使用分类模型,对将来的或未知的对象进行分类
3.分类与预测
• 不同点
– 分类是预测类对象的分类标号(或离散值),根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据。
– 预测是建立连续函数值模型评估无标号样本类,或评估给定样本可能具有的 属性值或值区间,即用来估计连续值或量化属性值,比如预测空缺值。
• 相同点
– 分类和预测的共同点是两者都需要构建模型,都用模型来估计未知值。预测中主要的估计方法是回归分析。
6.虽然模型在训练数据上有较好的效果,但是对未知的测试数据可能结果会不好, 这种现象叫做过拟合。
****************************7.2****************************
决策树构造过程如下。
①输入数据,主要包括训练集的特征和类标号。
②选取一个属性作为根节点的分裂属性进行分裂。
③对于分裂的每个分支,如果已经属于同一类就不再分了,如果不是同一类,依次选取不同的特 征作为分裂属性进行分裂,同时删除已经选过的分列属性。
④不断的重复③,直到到达叶子节点,也就是决策树的最后一层,这时这个节点下的数据都是一类了。
⑤最后得到每个叶子节点对应的类标签以及到达这个叶子节点的路径
**************************7.3**********************
***************************7.5********************************
1.神经网络是一组连接的输入/输出单元,其中每个连接都与一个权重相关联。在学习阶段,通过调整这些权重,能够正确预测输入样本的类标号。
2.神经网络由三个要素组成:拓扑结构、连接方式和学习规则。
网络结构要掌握 隐藏层
*********************************7.6**********************************
1.二分类问题,即分类目标只有两类,正类(positive)即感兴趣的主要类和负类(negtive)即其他类,正例即为正类的实例或元组,负例即为负类的实例或元组。
2.⑤精度(precision)
精度可以看做精确性的度量,即正确识别的正元组数量占预测为正元组总数的百分比
⑥召回率(recall)
召回率用来评价模型的灵敏度和识别率,是完全性的度量,即正元组被标记为正类的
百分比,即为灵敏度(或真正例率),
⑦ 综合评价指标(F度量)
将精度和召回率组合到一个度量中,即为F度量(又称为F1分数或F分数)和Fβ度量的方法
3.
4.常见交叉验证的方法有以下几种
①留出法
②k折交叉验证
③留一法
**********************************8.5**********************************
1.聚类分析定义:
• 聚类分析(cluster analysis)简称聚类(clustering),是一个把数 据对象(或观测)划分成子集的过程。
• 每个子集是一个簇(cluster),使得簇中的对象彼此相似,但与其他簇中的对象不相似。
2.数据挖掘对聚类的典型要求如下:
• 处理不同属性类型的能力:
• 可伸缩性:
• 对于确定输入参数的领域知识的要求:
• 发现任意形状的簇:
• 处理噪声数据的能力:
• 增量聚类和对输入次序不敏感
• 聚类高维数据的能力:
• 基于约束的聚类:
• 可解释性和可用性:
3.–聚类过程遵循的基本步骤:
• 特征选择:
• 近邻测度:
• 准则定义:
• 算法调用:
• 结果验证:
• 结果判定:
4.– 基本聚类方法概述:
• 基于划分的方法
• 基于层次的方法
• 基于密度的方法
• 基于网格的方法
5.− k-均值算法的基本过程:
①首先输入k的值,即具有n个对象的数据集/span>={1 ,2 ,…,}经过聚类将得到k
个分类或分组。
②从数据集D中随机选择k个对象作为簇质心,每个簇质心代表一个簇,得到的簇质心集合为={1 ,2 ,…,}。
③对D中每一个对象,计算与(/span>=1,2,…,/span>)的距离,得到一组距离值,选择
最小距离值对应的簇质心c↓,则将对象划分到以c↓为质心的簇中。
④根据每个簇所包含的对象集合,重新计算簇中所有对象的平均值得到一个新
的簇质心,返回步骤③,直到簇质心不再变化
6.K-均值算法的优点:
① 擅长处理球状分布的数据,当结果聚类是密集的,而且类和类之间的区别比较明显时,k- 均值聚类算法的效果比较好。
② 对于处理大数据集,是相对可伸缩的和高效的,它的复杂度是O(nkt),n是对象的个数,k是簇的数目,t是迭代的次数。
③ 相比其他的聚类算法,k-均值聚类算法比较简单、容易掌握。
K-均值算法的缺点:
① 初始质心的选择与算法的运行效率密切相关
② 要求用户事先给定簇数k
③ 对噪声和离群点敏感,少量的这类数据对结果产生很大影响