贝叶斯分类器

贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。

假设有N中可能的类别标记,即Y={c1,c2,...,cN},λij\mathcal{Y}=\{c_1, c_2,...,c_N\}, \lambda_{ij}是将一个真实标记的cjc_j的样本误分类成cic_i所产生的损失。基于后验概率P(cix)P(c_i|\bm{x})可获得将样本x\bm{x}分类成cic_i所产生的期望损失,即样本x\bm{x}上的“条件风险”。
R(cix)=j=1NλijP(cjx)R(c_i|\bm{x}) = \sum_{j=1}^{N}\lambda_{ij}P(c_j|\bm{x})

  • 我们的任务是找到一个判定准则h:X>Yh: \mathcal{X}->\mathcal{Y}以最小化总体方差。
    R(h)=E[R(h(x)x)]R(h) = \mathbb{E}[R(h(\bm{x})|\bm{x})]

  • 对于每个样本x\bm{x},若hR(h(x)x)R(h)h能最小化条件风险R(h(\bm{x})|\bm{x}),则总体风险R(h)也将被最小化。这就产生了贝叶斯判定准则: 为最小化风险,只需在每个样本上选择那个能使条件风险R(cx)R(c|\bm{x})最小的类别标记。
    h(x)=argmincYR(cx)h^*(\bm{x}) = arg \min \limits_{c \in \mathcal{Y}}R(c|\bm{x})

hR(h)1R(h)h^*被称为贝叶斯最优分类器,R(h^*)称为贝叶斯风险。1-R(h^*)反映了分类器所能达到的最好性能。

  • 若目标是最小化分类错误率,误判损失λij\lambda_{ij}可写为:
    λij={0,ifi=j;1,otherwise, \lambda_{ij}= \begin{cases} 0, & if \quad i = j;\\ 1, & otherwise, \end{cases}

  • 此时条件风险:
    R(cx)=1P(cx)R(c|\bm{x}) = 1 - P(c|\bm{x})

  • 于是,最小化分类错误率的贝叶斯最优分类器为:
    h(x)=argmaxcYP(cx)h^*(\bm{x}) = arg \max \limits_{c \in \mathcal{Y}}P(c|\bm{x})

即对每个样本xx, 选择能使后验概率P(cx)P(c |\bm{x})最大的类别标记.
主要有两种策略:给定xx, 可通过直接建模P(cx)P(c|\bm{x}) 来预测cc,这样得到的是"判别式模型" (discriminative models); 也可先对联合概率分布P(x,c)P(\bm{x},c)建模,然后再由此获得P(cx)P(c|\bm{x}) , 这样得到的是"生成式模型" (generative models) 显然,前面介绍的决策树、BP 神经网络、支持向量机等,都可归入判别式模型的范畴。

  • 对生成式模型来说,必然考虑
    P(cx)=P(x,c)P(x)P(c|\bm{x}) = \frac{P(\bm{x},c)}{P(\bm{x})}

  • 基于贝叶斯定理:
    P(cx)=P(c)P(xc)P(x)P(c|\bm{x}) = \frac{P(c)P(\bm{x}|c)}{P(\bm{x})}

P(c)""(prior);P(c) 是类"先验"(prior)概率;表达了各类样本所占的比例
P(xc)xc(classconditionalprobability)""(likelihood)P(\bm{x}|c)是样本x相对于类标记c 的类条件概率(class-conditional probability) ,或称为"似然" (likelihood);
P(x)""(evidence)P(\bm{x}) 是用于归一化的"证据" (evidence) 因子

最大似然估计(MLE)

估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计,记关于类别cc 的类条件概率为P(xc)P(\bm{x}|c) , 假设P(xc)P(\bm{x}|c) 具有确定的形式并且被参数向量。cc 唯一确定,则我们的任务就是利用训练集DD 估计参数θcθ_c. 为明确起见,我们将P(xc)P(xθc)P(\bm{x}|c)记为P(\bm{x}|\theta_c)

  • DCD_C表示训练集DD中第c类样本组成的集合,假设这些样本是独立同分布的,则参数θc\bm{\theta}_c对于数据集DCD_C的依然是:
    P(Dcθc)=ΠxDcP(xθc)P(D_c | \bm{\theta}_c) = \Pi_{\bm{x}\in D_c} P(\bm{x} | \bm{\theta}_c)

θc\theta_c 进行极大似然估计,就是去寻找能最大化似然P(Dcθc)P(D_c |\theta_c)的参数值θc\theta_c ,直观上看,极大似然估计是试图在θc\theta_c 所有可能的取值中,找到一个能使数据出现的"可能性"最大的值。

  • 连乘操作容易造成下溢,通常使用对数似然
    LL(θc)=logP(Dcθc)=xDclogP(xθc)LL(\bm{\theta}_c) = logP(D_c|\bm{\theta}_c)\\=\sum_{\bm{x} \in D_c} logP(\bm{x} | \bm{\theta}_c)

  • 参数θc\bm{\theta}_c的极大似然估计θ^c\widehat{\bm{\theta}}_c为:
    θ^c=argmaxθcLL(θc).\widehat{\bm{\theta}}_c = arg \max \limits_{\bm{\theta}_c} LL(\bm{\theta}_c).

  • 再连续属性情形下,假设概率密度函数p(xc)N(μc,σc2)p(\bm{x} | c) \sim \mathcal{N}(\bm{\mu}_c,\bm{\sigma}^2_c),对参数μc,σc2\bm{\mu}_c,\bm{\sigma}^2_c的极大似然估计是:
    μ^c=1DcxDcxσ^c2=1DcxDc(xμ^c)(xμ^c)T\widehat{\bm{\mu}}_c = \frac{1}{|D_c|}\sum_{\bm{x} \in D_c}\bm{x} \\ \widehat{\bm{\sigma}}^2_c = \frac{1}{|D_c|}\sum_{\bm{x} \in D_c}(\bm{x} -\widehat{\bm{\mu}}_c )(\bm{x} -\widehat{\bm{\mu}}_c )^T

朴素贝叶斯分类

基于贝叶斯公式来估计后验概率P(cx)P(c|\bm{x})的主要k困难在于:类条件概率P(xc)P(\bm{x}|c)是所有属性上的联合概率,难以从有限的训练样本直接估计而得。为避开这个障碍,朴素贝叶斯分类器(naÏve Bayes classifier) 采用了"属性条件独立性假设" (attribute conditional i时ependence assu’mption): 对已知类别,假设所有属性相互独立。换言之,假设每个属性独立地对分类结果发生影响.

  • 基于属性条件独立性假设
    P(cx)=P(c)P(xc)P(x)=P(c)P(x)Πi=1dP(xic)P(c|\bm{x}) = \frac{P(c)P(\bm{x}|c)}{P(\bm{x})} = \frac{P(c)}{P(\bm{x})} \Pi_{i=1}^{d}P(x_i|c)

dd为属性数目,xix_ix\bm{x}再第i个属性上的取值

  • 基于贝叶斯判定准则,朴素贝叶斯分类器的表达式为:
    hnb(x)=argmaxcYP(c)Πi=1dP(xic)h_{nb}(\bm{x}) = arg \max \limits_{c \in \mathcal{Y}}P(c)\Pi_{i=1}^{d}P(x_i|c)

DcD_c表示训练集DD中第c类样本组成的集合,则先验概率:P(c)=DcDP(c) = \frac{|D_c|}{D}
对于离散属性,令Dc,xiD_{c,x_i}表示DcD_c中第i个属性上取值为xix_i的样本组成的集合:P(xic)=Dc,xiDcP(x_i|c) = \frac{|D_{c,x_i}|}{|D_c|}
对于连续属性可考虑概率密度函数,假定p(xic)N(μc,i,σc,i2)p(x_i | c) \sim \mathcal{N}(\mu_{c,i},\sigma^2_{c,i}),其中μc,i,σc,i2\mu_{c,i},\sigma^2_{c,i}分别是第cc类样本再第ii个属性上取值的均值和方差:p(xic)=12πσc,iexp((xiμc,i)22σc,i2)p(x_i | c) = \frac{1}{{\sqrt{2\pi}\sigma_{c,i}}}exp(-\frac{(x_i-\mu_{c,i})^2}{2\sigma_{c,i}^2})

例子
用西瓜数据集3.0训练一个朴素贝叶斯分类器,对测试集进行分类:

训练集
在这里插入图片描述
测试集
在这里插入图片描述

  • 首先估计类先验概率P(c)P(c):
    在这里插入图片描述

  • 为每个属性估计条件概率P(xic)P(x_i|c)
    在这里插入图片描述

  • 于是有:
    在这里插入图片描述

由于0.038>6.801050.038 > 6.80 * 10^5, 因此朴素贝叶斯分类器将测试样本判为"好瓜"。

拉普拉斯修正

但是有这样一种情况,若某个属性值再训练集中没有与某个类同时出现过,直接计算会出现问题,如:
在这里插入图片描述
如果连乘,则结果必定为0,因此无论什么属性,都会将好瓜分类错误。

  • 为了避免这种情况,在估计概率值时通常要进行"平滑",常用"拉普拉斯修正":
    P^(c)=Dc+1D+NP(xic)=Dc,xi+1Dc+Ni\widehat{P}(c) = \frac{|D_c| + 1}{|D| + N}\\ P(x_i|c) = \frac{|D_{c,x_i}| + 1}{|D_c| + N_i}

NDNiiN表示训练集D可能的类别数,N_i表示第i个属性可能的取值数

EM算法

在前面的讨论中,我们一直假设训练样本所有属性变量的值都已被观测到,即训练样本是"完整"的.但在现实应用中往往会遇到"不完整"的训练样本,例如由于西瓜的根蒂己脱落,无法看出是"蜷缩"还是"硬挺",则训练样本的"根蒂"属性变量值未知.在这种存在"未观测"变量的情形下,是否仍能对模型参数进行估计呢?

未观测变量的学名是"隐变量" (latent variable).

  1. EM算法理论公式
  2. EMs算法通俗实例
  3. EM论文
  4. EM python实战
  5. 如何感性地理解EM算法
posted on 2018-10-23 17:44  一小白  阅读(699)  评论(0编辑  收藏  举报