机器学习:贝叶斯分类器
1、 贝叶斯决策论
贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法,对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
决策论中将“期望损失”称为“风险” (risk).
我们的任务就是寻找一个判定准则最小化所有样本的条件风险总和,因此就有了贝叶斯判定准则(Bayes decision rule):为最小化总体风险,只需在每个样本上选择那个使得条件风险最小的类标。
2、 极大似然估计
极大似然估计(Maximum Likelihood Estimation,简称MLE),是一种根据数据采样来估计概率分布的经典方法。
常用的策略是先假定总体具有某种确定的概率分布,再基于训练样本对概率分布的参数进行估计。
极大似然法的核心思想就是:估计出的参数使得已知样本出现的概率最大,即使得训练数据的似然最大
所以,贝叶斯分类器的训练过程就是参数估计。总结最大似然法估计参数的过程,一般分为以下四个步骤:
- 写出似然函数;
- 对似然函数取对数,并整理;
- 求导数,令偏导数为0,得到似然方程组;
- 解似然方程组,得到所有参数即为所求。
3、 朴素贝叶斯分类器
原始的贝叶斯分类器最大的问题在于联合概率密度函数的估计,首先需要根据经验来假设联合概率分布,其次当属性很多时,训练样本往往覆盖不够,参数的估计会出现很大的偏差。
为了避免这个问题,朴素贝叶斯分类器(naive Bayes classifier)采用了“属性条件独立性假设”,即样本数据的所有属性之间相互独立。
这样,为每个样本估计类条件概率变成为每个样本的每个属性估计类条件概率。
相比原始贝叶斯分类器,朴素贝叶斯分类器基于单个的属性计算类条件概率更加容易操作,需要注意的是:若某个属性值在训练集中和某个类别没有一起出现过,这样会抹掉其它的属性信息,因为该样本的类条件概率被计算为0。因此在估计概率值时,常常用进行平滑(smoothing)处理,拉普拉斯修正(Laplacian correction)就是其中的一种经典方法。
朴素贝叶斯朴素在哪里呢? —— 两个假设:
- 一个特征出现的概率与其他特征(条件)独立;
- 每个特征同等重要。
4、半朴素贝叶斯分类器
朴素贝叶斯分类器采用了属性条件独立性假设,但在现实任务中这个假设往往很难成立,于是,人们尝试对属性条件独立性假设进行一定程度的放松,由此产生了一类称为“半朴素贝叶斯分类器”(semi-naive Bayes classifiers)的学习方法.
半朴素贝叶斯分类器的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系.
“独依赖估计” (One-Dependent Estimator,简称 ODE)是半朴素贝叶斯分类器最常用的一种策略,顾名思义,所谓“独依赖”就是假设每个属性在类别之外最多仅依赖于一个其他属性,即
5、贝叶斯网络
贝叶斯网络(Bayesian network),又称信念网络(Belief Network),或有向无环图模型(directed acyclic graphical model),是一种概率图模型。它是一种模拟人类推理过程中因果关系的不确定性处理模型,其网络拓朴结构是一个有向无环图(DAG)。
贝叶斯网的构成:由结构G和参数θ组成,网络结构G是一个有向无环图,每个节点对应一个属性,如果两个属性有依赖关系,则他们由一条边连接起来;参数θ定量地描述这种依赖关系,包含了每个属性的条件概率表
贝叶斯网的结构:贝叶斯网假设每个属性与它的非后裔属性独立,变量之间有同父(common parent)、V型(V-structure)和顺序三种结构。其中一个变量的取值确定与否能对另外两个变量间的独立性产生影响
有向分离(D-separation):分析有向图中变量间的条件独立性的一种方法。其步骤是将有向图变为无向图:找出所有V型结构,在V型结构两个父节点间加上一条无向边,然后将所有有向边改为无向边。此时产生的无向图也称为道德图(moral graph),令父结点相连的行为称为道德化(moralization)
评分搜索:根据训练数据集来找出结构最恰当的贝叶斯网。先定义一个评分函数(score function),以此来估计贝叶斯网与训练数据的契合程度,基于这个评分函数寻找最优贝叶斯网。常用的评分函数通常基于信息论准则,将学习问题看作一个数据压缩任务,学习的目标是找到一个能以最短编码长度描述训练数据的模型。对于贝叶斯网学习而言,模型就是一个贝叶斯网,我们应该选择综合编码长度最短的贝叶斯网,这就是最小描述长度(Minimal Description Length,MDL)准则
吉布斯采样(Gibbs sampling):通过已知变量观测值预测带查询变量的过程需要根据贝叶斯网定义的联合概率分布来精确计算后验概率,而这是一个NP难问题。因此只能用贝叶斯网的近似推断来完成,吉布斯采样就是这种近似推断。
6、EM算法
训练样本在实际应用中往往会出现不完整的情况,这些未观测变量的学名是隐变量(latent variable)。EM(Expectation-Maximization)是一种常用的估计隐变量的利器
E步:利用当前估计的参数值来计算对数似然的期望值
M步:寻找能使E步产生的似然期望最大的参数值
7、参考文献
《机器学习》周志华