《数据仓库和数据挖掘》复习大纲
《数据仓库和数据挖掘》复习大纲
- 共四道大题:
- 填空题:每空1分,共20分。
- 判断题:每题2分,共8题,总计16分。
- 简答或辨析题:共6题,每题6分,总计36分。
- 计算题(可以使用计算器):4道题,共28分。
填空、判断与简答题:
1.OLTP、OLAP、KDD、BI、ETL、CNN、RNN、GAN的缩写(英语);
abbr. | Eng. | 中文 |
---|---|---|
OLTP | On-line Transaction Processing | 联机事物处理 |
OLAP | On-line Analytical Processing | 联机分析处理 |
KDD | Knowledge Discovery in Databases | 数据库中的知识发现 |
BI | Business Intelligence ? | 商业智能 |
ETL | Extract-Transform-Load | 抽取、转换、装载(是一种数据仓库技术) |
CNN | Convolutional Neural Network | 卷积神经网络 |
RNN | Recurrent Neural Network | 循环神经网络 |
GAN | Generative Adversarial Networks | 生成对抗网络 |
2.数据仓库的特征、数据仓库模型、数据仓库的多层结构、度量(聚集函数)的分类,两种学习模型(有监督与无监督);
1、数据仓库的特征:
特征 | |
---|---|
面向主题的 | 数据仓库围绕一些重要主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是单位的日常操作和事务处理。因此,数据仓库通常排除对于决策无用的数据,提高特定主题的简明视图 |
集成的 | 构造数据仓库是将多个异构数据源,如关系数据库、一般文件和联机事务处理记录集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性 |
时变的 | 数据存储从历史的角度提供信息。数据仓库中的关键结构都隐式或显示地包含时间元素 |
非易失的 | 数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。通常,只需要两种数据访问操作:数据的初始化装入和数据访问 |
2、数据仓库模型
模型 | |
---|---|
企业仓库 | 搜集了关于主题的所有信息,跨越整个组织。提供企业范围内的数据集成,通常来自一个或多个操作数据库系统或外部信息提供者,并且是多功能的。 |
数据集市 | 包含企业范围数据的⼀个⼦集,对于特定的⽤户是有⽤的,其范围限于选定的主题。 |
虚拟仓库 | 操作数据库上视图的集合。为了有效地处理查询,只有一些可能的汇总视图被物化。 |
3、数据仓库的多层结构
数据仓库采用三层体系结构
底层 | 仓库数据库服务器 | 几乎总是一个关系数据库系统,使用后端工具和实用程序,由操作数据库或其他外部数据源提供数据,放入底层 |
中间层 | OLAP服务器 | 其典型的使用关系OLAP(ROLAP)模型,或使用多维OLAP(MOLAP)。 |
顶层 | 前端客户层 | 包括查询和报告工具、分析工具和/或数据挖掘工具 |
4、度量(聚集函数)的分类
分布的 | 假设数据被划分为n个集合,将函数用于每一部分,得到n个聚集值,;如果将函数用于n个聚集值得到的结果与将函数用于整个数据集(不划分)得到的结果一样,则该函数可以用分布方式计算。【如sum()是分布的】 |
代数的 | 一个聚集函数如果能够用一个具有M个参数的代数函数计算,而每个参数都可以用一个分布聚集函数求得,则它是代数的【如avg()可以用sum()和count()计算,这两个函数都是分布聚集函数】 |
整体的 | 一个聚集函数如果描述它的子聚集所需的存储没有一个常数界,则它是整体的。也就是说,不存在一个具有M个参数的代数函数进行这一计算 |
5、两种学习模型:
监督学习:
- 提供了每个训练元组的类标号。分类器的学习在被告知每个训练元组属于哪个类的“监督”下进行的
- 监督学习就是最常见的分类问题,通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的
无监督学习
- 每个训练元组的类标号是未知的,并且要学习的类的个数或集合也可能实现不知道。需要根据样本间的相似性对样本集进行分类,试图使类内差距最小化,类间差距最大化
- 聚类问题
3.数据预处理及其主要内容、挖掘的知识类型、常见的OLAP操作、数据立方的两种表、属性离散化、P、NP、NP完全与NP难、判别与生成模型
数据预处理及其主要内容
- 主要任务
- 数据清洗:
- 填充遗失的数据:
- 用unknown or 该属性平均值
- 给定元组属同一类的所有样本的该属性的平均值
- 使用最可能的值
- 平滑噪声数据,辨识或删除孤立点:
- 分箱
- 聚类
- 回归分析
- 解决不一致问题
- 解决数据集成时带来的数据冗余问题
- 填充遗失的数据:
- 数据集成:对多个数据库,数据立方或文件进行集成
- 数据变换:规范化与聚集
- 数据约简:得到数据集的压缩表示,它小的多,但能够产生(几乎)同样的分析结果
- 降维:有监督降维(决策树归纳)、无监督降维(PCA,主成分分析)
- 数值简约:参数化方法(线性回归、多元线性回归、对数线性模型)、非参数化方法(直方图、聚类、采样)
- 采样
- 数据离散化:特别对数字值而言非常重要
- 数据清洗:
挖掘的知识类型(?)
- 关系数据库
- 数据仓库
- 事务数据库
- 高级数据库
常见的OLAP操作
- 上卷Roll up (上钻 drill-up):通过一个维的概念分层层向上攀升 或 通过维的规约,在数据立方体上进行聚集
- 下钻 Drill down (roll down):上卷的你操作,它由不太详细的数据得到更详细的数据。
- 可以通过沿维的概念分层向下 或 引入新的维实现
- 切片(Slice) 与 切块(Dice):投影与算则
- 转轴 Pivot(rotate):是一种目视操作,它转动数据的视角,提供数据的替代表示
- 其他
- 钻过(drill across):执行涉及多个事实表的查询
- 钻透(drill through):使用SQL的机制,钻到数据立方的底层,道后端关系表
数据立方的两种表
- 维表:如维item (item_name, brand, type),或维time(day, week, month, quarter, year)
- 事实表:包含度量(measures),如销售额以及每个相关维表的关键字
- 数据立方由维和度量组成
属性离散化
- 属性的三种类型:
- 标称性的:取自于无需集合(unordered set)的值
- 有序的(Ordinal): 取自于有序集合(ordered set) 的值
- 连续的:实数
- 离散化
- 把连续型属性的取值范围划分成多个小的区间
- 通过离散化减少数据集大小
- 为进一步分析做好准备
- 数值数据的离散化技术
- 分箱
- 直方图分析
- 基于熵的离散化
- 给定一个样本集合S,如果用边界值T把S划分成2个区间S1,S2,则划分后的熵为:\(T(S,T) = \frac{|S_1|}{|S|}Ent(S_1)+\frac{|S_2|}{|S|}Ent(S_2)\)
- 选择边界T的准则:它使其后划分得到的信息增益(T(S, T))最大
- 分箱
P、NP、NP完全、NP难
-
P问题:在多项式时间内“能解决”的问题
-
NP问题:在多项式时间内“能验证”的问题;多项式时间内验证并得出这个问题的一个正确解;
【解释:只是不知道,并不是不存在;P问题是NP问题的子集】
-
NP完全问题:所有NP问题能在多项式时间内规约到该问题,且该问题本身属于NP问题(判定问题)【只要解决了这个问题,那么所有的NP问题都解决了】
-
NP难问题:所有NP问题能在多项式时间内规约到该问题(规约问题)
判别与生成模型
判别模型
学习得到条件概率分布P(y|x),即在特征x出现的情况下标记y出现的概率
-
特点:
- 判别方法直接学习的是决策函数Y=f(X)或者条件概率分布P(Y|X)。不能反映训练数据本身的特性。但它寻找不同类别之间的最优分类面,反映的是异类数据之间的差异
- 学习的准确率更高
- 由于直接学习P(Y|X)或P(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题
-
例子:k近邻;感知机;决策树;支持向量机
生成模型
学习得到联合概率分布P(x,y),即特征x和标记y共同出现的概率,然后求条件概率分布,能够学习到数据生成的机制【以统计学和Bayes作为理论基础】
-
特点
- 从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度。但它不关心到底划分各类的那个分类边界在哪
- 生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快的收敛于真实模型
- 当存在隐变量时,仍可以用生成方法学习。此时判别方法就不能用
-
例子:朴素贝叶斯和隐马尔科夫模型
监督学习方法又分生成方法和判别方法
- 判别方法:由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型(判别模型)。【有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型】
- 生成方法:由数据学习联合概率密度分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型(生成模型)\(P(Y|X)= P(X,Y)/P(X)\)【首先建立样本的联合概率概率密度模型P(X,Y),然后再得到后验概率P(Y|X),再利用它进行分类】
- 由生成模型可以得到判别模型,但由判别模型得不到生成模型。
4.深度网络训练面临的挑战及贪心有监督和无监督预训练方法;
深度网络训练面临的挑战
1、BP算法直接用于深度网络面临的挑战:
- 标记数据少,无标记数据多
- 容易陷入局部最优
- 除了最高的几层之外,梯度很小或消失;如果不进行pretarining,效果有时还不如浅层网络
- 对所有层同时训练,时间复杂度会太高
2、数据获取问题:
- 需要依赖有标签的数据才能进行训练,然而有标签的数据通常是稀缺的,很难获得足够多的样本来拟合一个复杂模型的参数。
3、局部极值问题:
-
使用监督学习方法来对浅层网络进行训练通常能够使参数收敛到合理的范围。但是当用这种方法来训练深度网络的时候,并不能取得很好的效果。
-
特别的,使用监督学习方法训练神经网络时,通常会涉及到求解一个高度非凸的优化问题。对深度网络而言,这种非凸优化问题的搜索区域中充斥着大量“坏”的局部极值,因而使用梯度下降法效果并不好。
4、梯度消失问题
5、复杂性太高
- 根据计算机硬件的配置高低及数据量的大小,训练时间从几分钟、几小时、几天、几周、几个月、几年不等。
贪心预训练方法
核心思想:从底层(输入层)开始,一层一层的往顶层(输出层)训练,原始输入作为训练第 一个隐藏层的输入;训练好一层后,参数固定,再在其上堆积(Stacking,又称栈化)一层, 然后用前一层的输出作为训练该层的输入。【一次只训练一层】
上述训练可以是无监督的或有监督的
-
无监督:如使用受限玻尔兹曼机RBM,自编码器等
-
有监督:直接用训练集的标识作为训练一层时的输出(将每一步的分类误差作为目标函数)
优点:
5.常见聚类准则及其合理性;
- 一些常见的聚类准则
- k-Center:最大半径最小化,NP-hard,
- k-Cluster:最大直径最小化,NP-hard
- 聚类分离度的最大化,P
- k-median:聚类内部距离之和的最小化
- k-means:聚类内部距离平方之和的最小化
- Min-cut:最小割,P
- Ncut:规范割,NP hard
- Max-cut:最大割,NP-hard
- MRSD准则:NP-hard
6.过拟合与欠拟合现象;
1、过拟合:
- 原因:模型过于复杂(模型的表达力或capacity过高:如神经网络的参数过多,决策树过深、过宽等等,而训练样本相对较少)
- 在学习期间,它可能包含了训练数据中的某些特定的异常,而这些异常不在一般数据集中出现。
- 表现为模型的高方差与低偏差
- 考虑变量数大于方程数的线性方程组
2、欠拟合
- 原因:模型过于简单(模型的表达力或capacity不够)
- 表现为模型的低方差与高偏差
- 考虑以线性模型去拟合非线性模型
3、方差、偏差
- f(x):真实函数;h(x):某种学习算法学习到的模型
- 方差:描述的是训练数据在不同迭代阶段的训练模型,预测值的变化波动情况。从数学角度看,可以理解为每个预测值与预测均值差的平方和的再求平均数。通常在深度学习训练中,初始阶段模型复杂度不高,为低方差;随着训练量加大,模型逐步拟合训练数据,复杂度开始变高,此时方差会逐渐变高。
- 偏差:衡量了模型的预测值与实际值之间的偏离关系。通常在深度学习中,我们每一次训练迭代出来的新模型,都会拿训练数据进行预测,偏差就反应在预测值与实际值匹配度上,比如通常在keras运行中看到的准确度为96%,则说明是低偏差;反之,如果准确度只有70%,则说明是高偏差。
7.训练集、验证集与测试集;
- 训练集:用于训练模型(的参数,如神经网络的各层权重和偏置)
- 验证集:用于调整超参数(如神经网络的宽度和深度)
- 测试集:用于评价模型本身的有效性
8.泛化误差及其偏差与方差分解;
1、泛化误差:
-
用来衡量一个学习机器推广未知数据的能力
9.数据立方体的方体格
- 基本方体:一个n维立方体(n-D)称为基本方体
- 顶点方体:0-D方体存放最高层的汇总
- 数据立方体:方体的格称作数据立方体
10.决策树、贝叶斯分类器及最近邻分类器的时间与空间复杂性比较;?
- 假设训练数据有n个维度为d的点
- https://blog.csdn.net/weixin_26756255/article/details/108946322
决策树 | 贝叶斯 | 最近邻分类 | |
---|---|---|---|
训练时间复杂度 | O(n * log(n)* d) | *O(n * d c) | O(n*d) |
运行时间复杂度 | O(k)【k是树的深度】 | ||
空间复杂度 | O(p)【p是树中节点数】 | O(d*c)【c为类数】 | O(n*d) |
11.知识发现过程的主要步骤;
- 创建目标数据集:数据选择
- 数据预处理:数据清洗、数据约简与数据变换
- 构建数据仓库(可选)
- 数据挖掘
- 模式评价与知识表示
- 知识的使用
12.OLTP与OLAP的主要区别;
OLTP联机事物处理 | 传统关系数据库的主要任务;日常操作:购买、存货、财务 |
OLAP联机分析处理 | 数据仓库的主要任务;数据分析与决策支持 |
13.为什么需要构建单独隔离的数据仓库;
- 使得操作数据库与数据仓库都能获得高性能
- DBMS——OLTP:访问方法,索引,并发控制,数据恢复
- Warehouse——OLAP:复杂OLAP查询,多维试图,整理
- 对数据与功能的要求不同
- 丢失的数据:决策支持需要历史数据,而传统数据库并不一定维护历史数据
- 数据整理:决策支持需要对异构数据源进行数据整理
- 数据质量:不同的数据源常常具有不一致的数据表示,编码结构与格式
14.数据预处理内容;
- 数据清洗:填充遗失的数据;平滑噪声数据,辨识或删除孤立点;解决不一致性问题;解决数据集成时带来的数据冗余问题
- 数据集成:对多个数据库,数据立方或文件进行集成
- 数据变换:规范化与聚集
- 数据约简:得到数据集的压缩标识,它小的多,但能够产生同样的分析结果
- 数据离散化:对数字值而言非常重要,把连续性属性的取值范围划分成多个小的区间。
15.数据仓库的三种设计模式;
- 星型模式:一个事实表以及一组事实表连结的维表
- 雪花模式:雪花模式式星型模式的变种,其中某些维表是规范化的。因而把数据进一步分解到附加的表中。
- 事实星座:多个事实表分享共同的维表,这种模式可以看作星型模式的集合,因此成为星系模式,或事实星座。
16.三种度量函数的定义;?
离散度量函数
欧几里得度量函数
曼哈顿度量函数
17.评估分类器准确率的方法;
方法 | 过程 | 适用范围 |
---|---|---|
划分法(训练集与测试集) | 把样本划分成2个独立的数据集合(如:训练集(2/3), 测试集(1/3)) | 大规模数据 |
交叉验证 | 1. 把数据集合划分成k个子样本 2. 使用k-1个子样本作为训练集,另一个作为测试样本——k-折交叉验证 |
中等规模数据 |
留一测试 | k=n | 小规模数据 |
自助法 | 1. 采用有放回采样,从样本集D中(|D|=m)采m个样本,记为D’。样本在m次采样中始终未采到的概率:\(lim_{m\rightarrow \infty}{(1-\frac{1}{m})^m = \frac{1}{e}} \approx 0.368\) 2. 也即初始样本D中有36.8%的样本未出现在D'。于是我们可以用D'作为训练集,D\D'用作测试集。 3. 因此我们仍有m个训练样本,且有约1/3的未出现在训练集中的测试数据 |
18.神经网络的结构设计;
-
神经网络的结构是指它具有多少单元以及它们如何连接:多少层?每层多少节点单元?单元之间如何连接、
-
通用近似定理:一个前馈神经网络如果具有线性输出层和至少一层具有任何一种“挤压”性质的激活函数的隐藏层,只要给予网络足够数量的隐藏单元,它可以以任意的精度来近似任何从一个有限维空间到另一个有限维空间的Borel可测函数
-
具有一层隐藏层的前馈神经网络足以表示任何函数,但是网络层可能非常大并且可能无法正确地学习和泛化;使用更深的模型能够减少表示期望函数所需的单元的数量,并且可以减少泛化误差。
输入层节点数:对应样本的维数,有多少个属性,就设置多少个输入节点
隐藏层节点数:通过实验验证设置
输出层节点数:若为二元分类,可设为1个;若为多元分类(标签数C>2),则用C个输出节点(对应C维输出向量),某个样本标签为i,则训练时对应的目标向量T,第i个为1。
19.深度学习训练算法及正则化技术;
训练算法 (真太多了 看第五章PPT叭)
- 三层前馈神经网络
- 后向传播算法(BP)
- 有监督逐层预训练
- 无监督逐层预训练
正则化技术
-
定义:以增大训练误差为代价来减少测试误差的策略
-
常见正则化策略 内容 提前终止 1. 返回使验证集误差最低的参数设置,就可以获得更好的模型
2. 每次验证集误差有所改善后,就存储模型参数的副本。当训练算法终止时,返回这些参数而不是最新的参数。
3. 当验证集上的误差在事先指定的循环内没有进一步改善时,算法就会终止Dropout 1. Dropout可视为集成非常多的大神经网络的实用Bagging方法。
2.Dropout训练的集成包括所有从基本的基础网络除去非输出单元形成自网络
3.具体操作:
3.1. 设置输出层的所有节点数为n,设置一个n位二元掩码向量\(\mu\),每个节点对应一位
3.2. 对于\(\mu\)的每一位都独立采样,其为1的概率是一个超参数,隐藏层节点通常:0.5, 输出层通常:0.8 -
Bagging
- 一种集成学习方法。
- 每轮的训练集由初时的训练集中,采取有放回随机取出n个训练样本
- 训练得到一组分类模型
- 最终的预测函数H对(如下两种情况两种方法)进行判别
- 分类问题采用投票方式
- 回归问题采用简单平均方法
- Bagging方法中所有模型时独立的
- Dropout中,模型是共享参数的
- 一种集成学习方法。
20.常见的深度网络类型;
- 卷积神经网络CNN:AlexNet,残差神经网络ResNet
- 循环神经网络RNN
- 生成对抗网络GAN
21.自编码器(具体看看PPT)
- 自编码神经网络是一种无监督学习算法,它使用了反向传播算法,并让目标值等于输入值
- 欠完备自编码器
- 过完备自编码器
- 栈式自编码算法
22.没有免费的午餐定理(NFL);
具体描述
1、对所有可能的目标函数求平均,所有学习算法的非训练集误差的期望值相同;
2、对任意固定的训练集,对所有的目标函数求平均,所有学习算法的“非训练集误差”的期望值也相同
3、对所有的先验知识求平均,所有学习算法的“非训练集误差”的期望值也相同
4、对任意固定的训练集,对所有的先验知识求平均,所有学习算法的“非训练集误差”的期望值也相同。
- 定理表明没有一个学习算法可以在任何数据集上总是学习到最准确的分类器。
23.文本摘要基本概念、链接分析算法主要特点、传播最大化模型
文本摘要基本概念
- 文本摘要即从大量的文本中提取最重要的文本信息
- 类型
- 从是否需要重写原有语句方面
- 抽取式摘要:从文本中选择最重要的一些句子,无需重写
- 生成式摘要: 采取文本重写技术,对一些语句进行压缩、合并等处理
- 从涉及的文档数量方面
- 单文本摘要:针对单个文本
- 多文本摘要:涉及多个文本
- 从涉及查询方面
- 通用性摘要:无查询词
- 基于查询的摘要:提供查询词
- 从是否需要重写原有语句方面
链接分析算法主要特点
链接分析算法 | 主要特点 |
---|---|
PageRank | 优点: 1. 防欺骗。页面所有者难以设置其他重要网页指向它自己的页面 2. PageRank值独立于查询,是一种全局度量。(是一个静态算法)PageRank值是通过所有网页计算得到并加以存储,而不是提交查询时才计算。 缺点: 不能区分全局重要性页面和查询主题重要性页面。 |
HITS(Hypertext Induced Topic Search) | 优点:(基于查询的搜索算法)根据查询进行排序,可能会返回更相关的权威性和汇集性网页 缺点: 1. 容易被欺骗。一个网站开发者很容易在自己的网页中加入许多出边 2. 主题偏移。许多扩展网页可能与主题并不相关。 3. 查询效率。动态抓取页面进行扩展、特征值计算。 |
传播最大化模型
- 传播目标:
- 给定一个带权网络G=(V, E), 从V中选取最少的节点集S,使其影响到网络中所有节点
- 给定一个带权网络G=(V, E), 一个正整数k,从V中选取最多k个节点,使用影响的节点数最大化
- 独立级联模型(IC模型)
- 目标:
- 选择最少的初始节点集A,使得V中所有节点为活跃节点;
- 选择少于k个初始节点的集合A,激活尽可能多的节点
- 带权网络,每条边(u,v)有一个权重\(p_{u,v}\),表示节点u激活节点v的概率
- 过程
- 在时间步t的活跃节点集为\(S_t\)。则在时间步t=0, \(S_0=A\)
- 如果在时间步t,v有多个邻居节点变为活跃状态,则这些活跃的邻居节点以任意顺序尝试激活v,但所有的这些尝试都发生在时间步t
- 在t步激活的新节点集合为S', 则\(S_{t+1}=S_t\cup S'\)
- 当不存在激活新节点的可能时,传播过程结束
- 目标:
- 线性阈值模型(LT模型)
- 每条边(u, v)有一个权重\(b_{u,v}\),表示节点u被它的邻居节点v以\(b_{u,v}\)所影响,(越大表示影响力越强),其中\(b_{u,v}\)满足:\(\sum_vb_{u,v}\leq1\);
- 每个顶点u还有一个权值(阈值),\(\theta _u \in [0,1]\),表示u被影响的难易程度(越大越难被影响)
- 过程
- 在时间步t的活跃节点集为\(S_t\)。则在时间步t=0, \(S_0=A\)
- 在t,如果u的活跃邻居节点集的影响力之和大于or等于\(\theta _u\),则u在时间t+1变成2活跃节点,其中v是u的活跃邻居
- 在t步激活的新节点集合为S',则\(S_{t+1}=S_t \cup S'\)
- 当不存在激活新节点的可能时,传播过程结束
- LT与IC模型不同点:“影响的累积”特性
- 子模函数
- P-完全问题
- 简单模型:如果一个节点有t个活跃节点的邻居,则该点被激活。
计算题:
1.用Apriori算法挖掘强关联规则
相关概念:对于规则
支持度Support:事务包含X∪Y的概率,即support = P(X∪Y)
【支持度计数:模式或项集在DB中出现的概率(次数)】
置信度Confidence:事务包含Y的条件概率,即confidence = P(Y|X).
最小⽀持度与最小置信度:由用户提供,即挖掘出的关联规则的⽀持度与置信度必须分别大于最小支持度与最小置信度。
关联规则挖掘的任务:发现所有满足最小支持度与最小置信度,形如X->Y的规则
设 L={I1,I2,..,Im}是项的集合,项的集合称为项集
项集的出现频度:包含项集的事务数,简称为项集的频度、支持度计数或计数
相对支持度:上面所定义的支持度;绝对支持度:出现频度
频繁项集:项集I的相对支持度满足预定义的最小支持度,则I是频繁项集。
超集:S2是S1的子集。 S1是S2的超集
一个频繁集的任意子集也必须是频繁集
连接步:Ck由Lk-1连接而来:
剪枝步:扫描数据库,确定Ck中每个候选的计数,从而确定Lk(Lk中,计数值不小于最小支持度计数)
直到:L为空
书P162
2.频繁模式树的构造
-
出现时为了解决Apriori存在的一些问题
- 多次扫描数据库
- 产生大量的候选集合
-
可以看看ppt上的例子
-
第四步的图怎么来的:
- 然后把一样的连起来,就可以得到第四步的图了
-
得到图之后求频繁模式
- \(3=2+1\)
- 同理可求包含其他的频繁模式
3.信息增益的计算
- 具有最高信息增益的,被选作分类属性。
4.朴素贝叶斯分类
- 贝叶斯定理:
- 给定训练集x属于类\(c_i\)的后验概率P(c|x)遵守贝叶斯定理,\(P(c_i|x)=\frac{P(x|c_i)P(c_i)}{P(x)}\)
- MAP(极大后验)假设,\(argmax_{c_i\in C}P(c_i|x) = argmax_{c_i \in C}P(x|c_i)P(c_i)\)
- 朴素贝叶斯分类器
- 假设:属性之间是条件独立的,\(P(x|c_i) = \prod ^n _{k=1}P(x_k|c_i)\)
- 一旦知道了概率\(P(x|c_i)\),把X赋予使得\(P(x|c_i)*P(c_i)\)具有最大值的类\(c_i\)
5.k-means聚类
原理:随机选取k个点作为初始聚类中心,然后计算各个数据对象到各聚类中心的距离,把数据对象归到离它最近的那个聚类中心所在的类;重新计算各个聚类的中心。
算法 |
---|
把对象划分成K个非空子集 |
计算当前划分的每个聚类的中心 |
把每一个对象分配到离它最近的中心 |
返回到第2步, 当满足某种停止条件时停止。 |
停止条件:当分配不再变化为止;当前后两次迭代的⽬标函数值⼩于某⼀给定的阈值时;当达到给定的迭代次数时
6.凝聚层次聚类法(全链接与单链接)
-
这种方法不需要用户提供聚类的数目k
-
层次方法 距离定义 内容 单链接(SLA,最小生成树) 两个聚类之间的距离为二者对象之间的最小距离 1. 每个对象当作一个聚类
2. 找到距离最小的两个聚类,凝聚成一个新聚类
3. 计算新聚类与剩下的其他聚类的距离
4. 重复上述步骤,直至凝聚成唯一的聚类全链接(CLA) 两个聚类之间的距离为二者对象之间的最大距离 将距离改为最大距离,然后算法过程与SLA一样(也是让最大距离最小,而不是最大) -
SLA与最小生成树的关系:最大分离度一定等于最小生成树中某条边的值
-
SLA算法找到了最大分离度,CLA算法是一个k-Cluster的logk近似算法(\(k\in [2, n]\))
7.神经网络的正反向传播计算(sigmoid、ReLU、softmax激活函数)
sigmoid
ReLU
softmax