贝叶斯分类器——机器学习(西瓜书)读书笔记
第七章 贝叶斯分类器
7.1 贝叶斯决策论
贝叶斯决策论就是在概率框架下实施决策的基本方法。类比于最小二乘法。对于分类任务,在所有相关概率已知的情况下,贝叶斯决策轮考虑如何基于概率和误判损失来选择最优的类别标记。
对于有N种可能的标记类别的预测,是将一个真实标记为cj的样本误分类为ci样本所产生的损失,所以可以得到期望损失为(被分错损失的期望,也叫条件风险):
我们希望得到一个分类方法(判定准则)h,使得这个判定准则对每一个样本,预测错的期望损失最小。那么这个h就叫做贝叶斯最优分类器 。这时总体的期望损失(风险)称为贝叶斯风险。
当每种误判损失类似时,不妨设:此时条件风险就变成:
,所以最优贝叶斯分类器为:
,也即对于每个样本x,选择能使后验概率最大的类别标记。
1.判别式模型,通过建模直接预测c。(决策树、BP神经网络、SVM等)
7.2 生成式模型
考虑 (其中P(c)是先验概率,如果训练集包含足够的独立同分布的样本,可以频率作为概率;对于给定样本,P(x)可以忽略。)
对于公式中,最重要的就是条件概率。它的意义是在c类中样本的所有属性的联合概率,涉及到联合概率分布,无法通过由频率估计概率来估计。此时我们通过假设这个概率有某种特定的分布,通过参数估计确定分布情况,从而拿到此概率,而对于参数的估计有两种方法可以对此概率进行估计。
两种参数估计方法:
极大似然估计
频率主义学派认为参数是固定的,可以通过极大似然估计来估计得出。
优势:易计算
缺点:估计结果准确性严重依赖于我们假设的这个概率的分布(分布不对,结果可能极具误导性)。所以需要使用者拥有足够的经验知识来支撑假设。
贝叶斯估计
贝叶斯学派认为既然是假设的分布,那么参数也应该是个随机变量,因此可以先假定参数服从某个先验分布,再通过数据计算出后验分布。
7.3 朴素贝叶斯分类器
由于条件概率涉及属性的联合分布,那么朴素贝叶斯分类器添加了一个假设,“属性条件独立性假设”,使得每个属性独立的对分类器产生影响。所以我们可以吧公式改写一下:
(即在各个属性独立时改写条件联合概率
)
在有足够独立同分布的样本的情况下,先验概率可以写成: ,其中Dc是表示训练集D中第c类样本组成集合。(频率代替概率)
但当属性是连续值时,还需假定概率密度函数是正态分布密度函数:,其中
,而
分别是第c类样本在第i个属性上取值的均值和方差。
修正:
有时存在原本属性的信息被训练集中未出现的属性值‘抹去’,即出现x3这个属性在c1类中没有出现,则条件概率=0的这种不正常的情况。这时我们引入“拉普拉斯修正”,则先验概率和条件概率修正为:
最后,通过对训练样本的计算,结果由贝叶斯准则判断,即可得到贝叶斯分类结果。
——————————————————————————————————————————————————————————————————————
注:现实中朴素贝叶斯分类器有多种使用方案:
1.若任务对预测速度要求高,则对给定的训练集,可以将朴素贝叶斯分类器涉及的所有概率估值先计算好,这样方便判别。
2.若任务数据更替频繁,可采用懒惰学习方法,只在收到预测请求时候才开始对训练集中数据进行概率估值。
3.若数据不断增加,可以在现有的基础上,对新增样本的属性进行概率估值修正,就可以实现增量学习。