西瓜书机器学习算法脉络梳理之贝叶斯分类器
贝叶斯决策论:贝叶斯分类器的理论基础。
什么是贝叶斯决策论?
寻找判定准则,即贝叶斯判定准则(decision rule),使总体风险最小化;即在每个样本选择那个能使条件风险最小的类别标记。就是对每个样本选择使后验概率最大的分类器
可通过贝叶斯定理获得后验概率,从而转为对类条件概率(似然)的求解
如何估计类条件概率?
一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。极大似然估计(Maximum Likelihood Estimation, MLE)是来自频率主义学派,根据数据采样来估计概率分布参数的经典方法。
类条件概率是所有属性上的联合概率,难以从有限的训练样本直接估计得到,那如何做?
1. 朴素贝叶斯分类器的做法是属性条件独立性假设(attribute conditional independence assumption),即对已知类别,假设所有属性相互独立。
现实任务中,这个假设往往很难成立
2. 半朴素贝叶斯分类器对属性条件独立性假设进行一定程度的放松,适当考虑一部分属性间的相互依赖信息,从而既不需进行完全联合概率计算,又不至于彻底忽略比较强的属性依赖关系。如独依赖估计(One-Dependent Estimator, ODE)策略,即假设每个属性在类别之外,最多仅依赖一个其他属性。具体算法有SPODE(Super ODE)、TAN(Tree Augmented naïve Bayes)、AODE(Averaged One-Dependent Estimator)。
3. 贝叶斯网(Bayesian network),即信念网(belief network),刻画属性之间的依赖关系,并使用条件概率表(Conditional Probability Table, 简称CPT)来描述属性的联合概率分布。
那在存在“未观测”变量(隐变量)的情形下,如何对模型参数进行估计?
EM 算法
参考资料
[1] 周志华. 机器学习. 北京:清华大学出版社. 2016.147-170