2020~2021《数据挖掘与机器学习》复习记录

《数据挖掘与机器学习》复习

根据复习阶段遇到的题型列出比较可能考的知识点

第1章绪论

这部分基本概念了解即可

第2章数据预处理

光滑噪声数据的方法——分箱

分箱的方法：有4种：等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。

数据平滑方法：有3种按平均值平滑、按边界值平滑和按中值平滑。

分箱

等深分箱

统一权重，也成等深分箱法，将数据集按记录行数分箱，每箱具有相同的记录数，每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

等宽分箱

统一区间，也称等宽分箱法，使数据集在整个属性值的区间上平均分布，即每个箱的区间范围是一个常量，称为箱子宽度。

例子、客户收入属性income排序后的值（人民币元）：

800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000，分箱的结果如下。

采用等深分箱

统一权重：设定权重（箱子深度）为4，分箱后

【就是每个箱子都是装4个数值】

箱1：800 1000 1200 1500

箱2：1500 1800 2000 2300

箱3：2500 2800 3000 3500

箱4：4000 4500 4800 5000

采用等宽分箱

统一区间：设定区间范围（箱子宽度）为1000元人民币，分箱后

如果，设定箱子宽度为W。那么（结合本例）

第一个：800--800+W；第二个：2000--2000+W；第三个：3500--3500+W；第四个：4800--4800+W

箱1：800 1000 1200 1500 1500 1800

箱2：2000 2300 2500 2800 3000

箱3：3500 4000 4500

箱4：4800 5000

无论是等深还是等宽分箱第一步均是要对给定数据进行排序的

数据平滑

数据平滑方法：按平均值平滑、按边界值平滑和按中值平滑。

例子：

price 的排序后数据(美元): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
划分为（等深的）箱:
-箱1: 4, 8, 9, 15
-箱2: 21, 21, 24, 25
-箱3: 26, 28, 29, 34

用箱平均值平滑:
-箱1: 9, 9, 9, 9
-箱2: 23, 23, 23, 23
-箱3: 29, 29, 29, 29

用箱边界值平滑:
-箱1: 4, 4, 4, 15
-箱2: 21, 21, 25, 25
-箱3: 26, 26, 26, 34

⑴按平均值平滑：对同一箱值中的数据求平均值，用平均值替代该箱子中的所有数据。

⑵按边界值平滑：用距离较小的边界值替代箱中每一数据。

⑶按中值平滑：取箱子的中值，用来替代箱子中的所有数据。

分箱和数据平滑，尊重知识产权

数据规范化

最小最大规范化（要注意的是规范目标在0~1之间这种特殊情况）

z-score规范化

按小数定标规范

第3章关联规则挖掘（感觉必考）

Apriori算法的流程

求出频繁项集后关联规则的求取（这点感觉不难，但不知道原理的时候可能无从下手）

上图圈出的部分是重点，告诉了我们已知频繁项集的前提下求关联规则的两个步骤：1. 求出指定频繁项集的真子集；2. 对不同真子集之间求符合指定最小置信度的关联规则，切忌关联规则的前置项和后置项不能有交集。

举个小例子说明一下

比如最后求出的频繁项集中有一个频繁项集{T, M, P}。求这个频繁项集中是否有强关联规则。

解法：

求出频繁项集的真子集

求不同真子集间的关联（切忌前置项和后置项不能有交集）

T => M（或T => P, T => MP）（这几个时合法的关联规则，再根据最小置信度判断是否为强关联规则）。

非法的关联：T => TM, T => TP, T => TMP。为啥子不合法？因为它们前后项有交集呀。

其他的合法关联以此类推。