2020~2021《数据挖掘与机器学习》复习记录

《数据挖掘与机器学习》复习

根据复习阶段遇到的题型列出比较可能考的知识点

第1章 绪论

这部分基本概念了解即可

第2章 数据预处理

光滑噪声数据的方法——分箱

分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。

数据平滑方法:有3种按平均值平滑、按边界值平滑和按中值平滑。

分箱

  1. 等深分箱

    ​ 统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

  2. 等宽分箱

    ​ 统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。

    例子、客户收入属性income排序后的值(人民币元):

    800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。

    1. 采用等深分箱

      统一权重:设定权重(箱子深度)为4,分箱后

      【就是每个箱子都是装4个数值】

      箱1:800 1000 1200 1500

      箱2:1500 1800 2000 2300

      箱3:2500 2800 3000 3500

      箱4:4000 4500 4800 5000

    2. 采用等宽分箱

      统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后

      如果,设定箱子宽度为W。那么(结合本例)

      第一个:800--800+W;第二个:2000--2000+W;第三个:3500--3500+W;第四个:4800--4800+W

      箱1:800 1000 1200 1500 1500 1800

      箱2:2000 2300 2500 2800 3000

      箱3:3500 4000 4500

      箱4:4800 5000

无论是等深还是等宽分箱第一步均是要对给定数据进行排序的

数据平滑

数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。

例子:

price 的排序后数据(美元): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
划分为(等深的)箱:
-箱1: 4, 8, 9, 15
-箱2: 21, 21, 24, 25
-箱3: 26, 28, 29, 34

用箱平均值平滑:
-箱1: 9, 9, 9, 9
-箱2: 23, 23, 23, 23
-箱3: 29, 29, 29, 29

用箱边界值平滑:
-箱1: 4, 4, 4, 15
-箱2: 21, 21, 25, 25
-箱3: 26, 26, 26, 34

⑴按平均值平滑 :对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。

⑵按边界值平滑 :用距离较小的边界值替代箱中每一数据。

img

⑶按中值平滑 :取箱子的中值,用来替代箱子中的所有数据。

分箱和数据平滑,尊重知识产权

数据规范化

最小最大规范化(要注意的是规范目标在0~1之间这种特殊情况)

image-20210120212641099

image-20210120212734488

z-score规范化

image-20210120212757590

按小数定标规范

image-20210120212818417

第3章 关联规则挖掘(感觉必考)

Apriori算法的流程

image-20210120224337450

求出频繁项集后关联规则的求取(这点感觉不难,但不知道原理的时候可能无从下手)

image-20210120213143672

​ 上图圈出的部分是重点,告诉了我们已知频繁项集的前提下求关联规则的两个步骤:1. 求出指定频繁项集的真子集;2. 对不同真子集之间求符合指定最小置信度的关联规则,切忌关联规则的前置项和后置项不能有交集。

举个小例子说明一下

比如最后求出的频繁项集中有一个频繁项集{T, M, P}。求这个频繁项集中是否有强关联规则。

解法:

  1. 求出频繁项集的真子集

  2. 求不同真子集间的关联(切忌前置项和后置项不能有交集)

    T => M(或T => P, T => MP)(这几个时合法的关联规则,再根据最小置信度判断是否为强关联规则)。

    非法的关联:T => TM, T => TP, T => TMP。为啥子不合法?因为它们前后项有交集呀。

    其他的合法关联以此类推。

Apriori算法的优缺点

  1. 优点

    image-20210120214246985

  2. 缺点

    image-20210120214303737

    image-20210120214318449

实例分析

image-20210120230952929

image-20210120231008556

image-20210120231019559

image-20210120231041357

第4章 决策树分类算法

基本的决策树生成流程(结合实现过程不难理解)

image-20210120231120149

ID3算法

基本思路

image-20210120231202298

image-20210120231216852

生成一个节点需要了解的三个基本关系

根据熵增理论,当熵值越大其不确定越大。

  1. 训练样本集的期望信息(熵)

image-20210120231243149

  1. 属性划分的期望信息。 3. 信息增益
image-20210120222959264

ID3实例分析

image-20210120231549331

image-20210120231632010

image-20210120231655384

image-20210120231709586

image-20210120231723250

ID3算法的优缺点

  1. 优点

    image-20210120223219984

  2. 缺点

    image-20210120232122398

C4.5 与 ID3算法的区别

image-20210120232145542

C4.5 算法的判断标准——信息增益比

image-20210120232219223

image-20210120232236913

第5章 贝叶斯分类算法

贝叶斯定理和贝叶斯决策准则

image-20210120232311031

image-20210120223626855

朴素贝叶斯分类器

核心公式

image-20210120223752518

image-20210120223838618

朴素贝叶斯分类的工作流程

image-20210120223929308

image-20210120224040100

image-20210120224052967

朴素贝叶斯分类器的实例分析

image-20210120232430839

image-20210120232451294

image-20210120232507552

朴素贝叶斯的特点

image-20210120224202027

image-20210120224214401

第6章 人工神经网络算法

这一章想彻底弄懂要花时间呀,本人就只是了解个大概应付考试罢了😂

人工神经元模型

image-20210120224838451

BP神经网络的原理

image-20210120235415330

image-20210120234457962

image-20210120235504105

image-20210120235517629

image-20210120234603688

image-20210120234614984

image-20210120234624202

image-20210120234635211

image-20210120234656484

image-20210120235607881

优缺点

  1. 优点

    image-20210120235648247

  2. 缺点

    image-20210120235719154

第7章 支持向量机

这一章想彻底弄懂要花时间呀,本人就只是了解个大概应付考试罢了😂

支持向量机原理

image-20210120235750696

image-20210120235809752

image-20210120234052335

image-20210120234102390

image-20210120234117255

image-20210120234132411

image-20210120235836875

image-20210120235912169

image-20210120235941321

image-20210120235954420

image-20210121000019996

核函数

image-20210120234243538

支持向量机的优缺点

  1. 优点

    image-20210121000058960

  2. 缺点

    image-20210121000119975

第8章 K-means聚类算法

K-means聚类算法流程

image-20210120232616647

image-20210120232601549

image-20210120232636163

算法实例

image-20210120232705496

image-20210120232725342

image-20210120232746142

image-20210120232849502

image-20210120232904729

image-20210120232918869

K-means的优缺点

  1. 优点

    image-20210120232951265

  2. 缺点

    image-20210120233004431

K值的确定

image-20210120225521524

image-20210120225539526

image-20210120225552401

第9章 K-中心聚类算法

K-中心聚类算法流程

非中心点替换中心点的代价分析

image-20210120225927311

四种情况的统一规律便是:指点样本点到新中心点的距离 - 指定样本点到旧中心点的距离。

流程(和K-means类似的流程图)

image-20210120230009008

实例分析

image-20210120233048642

image-20210120233131176

K-中心聚类算法优缺点

  1. 优点

    image-20210120233203247

  2. 缺点

    image-20210120233216092

密度聚类DBSCAN

image-20210120230350868

image-20210120230406300

image-20210120230416738

image-20210120230431869

image-20210120230447283

密度峰值聚类

局部密度的定义:就是找和中心点距离在指定距离 dc以内点的个数

image-20210120230504623

距离的定义:对于样本点求和他最近的样本点的距离。对于最大密度的中心点找离他最远的的样本点。因为中心点要在第一象限的右上角的部位,而且越偏右上角约是有可能成为中心点。

image-20210120230618739

image-20210120230630133

image-20210120230650434

第10章 SOM神经网络聚类方法

这一章想彻底弄懂要花时间呀,本人就只是了解个大概应付考试罢了😂

SOM网络的拓扑结构

image-20210120233518478

image-20210120233535173

image-20210120233604094

SOM网络的学习算法

image-20210120235016223

image-20210120235031294

image-20210120233746230

image-20210120233800718

SOM优缺点

image-20210120235124821

posted @ 2021-01-21 00:13  技术扫地生—楼上老刘  阅读(824)  评论(0编辑  收藏  举报