贝叶斯分类器——机器学习(周志华)

贝叶斯分类器

贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。

假设有N中可能的类别标记，即 $\mathcal{Y}=\{c_1, c_2,...,c_N\}, \lambda_{ij}$ 是将一个真实标记的 $c_j$ 的样本误分类成 $c_i$ 所产生的损失。基于后验概率 $P(c_i|\bm{x})$ 可获得将样本 $\bm{x}$ 分类成 $c_i$ 所产生的期望损失，即样本 $\bm{x}$ 上的“条件风险”。
$R(c_i|\bm{x}) = \sum_{j=1}^{N}\lambda_{ij}P(c_j|\bm{x})$

我们的任务是找到一个判定准则 $h: \mathcal{X}->\mathcal{Y}$ 以最小化总体方差。
$R(h) = \mathbb{E}[R(h(\bm{x})|\bm{x})]$
对于每个样本 $\bm{x}$ ，若 $h能最小化条件风险R(h(\bm{x})|\bm{x})，则总体风险R(h)也将被最小化。$ 这就产生了贝叶斯判定准则: 为最小化风险，只需在每个样本上选择那个能使条件风险 $R(c|\bm{x})$ 最小的类别标记。
$h^*(\bm{x}) = arg \min \limits_{c \in \mathcal{Y}}R(c|\bm{x})$

$h^*被称为贝叶斯最优分类器，R(h^*)称为贝叶斯风险。1-R(h^*)反映了分类器所能达到的最好性能。$

若目标是最小化分类错误率，误判损失 $\lambda_{ij}$ 可写为：
$\lambda_{ij}= \begin{cases} 0, & if \quad i = j;\\ 1, & otherwise, \end{cases}$
此时条件风险：
$R(c|\bm{x}) = 1 - P(c|\bm{x})$
于是，最小化分类错误率的贝叶斯最优分类器为：
$h^*(\bm{x}) = arg \max \limits_{c \in \mathcal{Y}}P(c|\bm{x})$

即对每个样本 $x$ ，选择能使后验概率 $P(c |\bm{x})$ 最大的类别标记.
主要有两种策略:给定 $x$ ，可通过直接建模 $P(c|\bm{x})$ 来预测 $c$ ，这样得到的是"判别式模型" (discriminative models); 也可先对联合概率分布 $P(\bm{x},c)$ 建模，然后再由此获得 $P(c|\bm{x})$ ，这样得到的是"生成式模型" (generative models) 显然，前面介绍的决策树、BP 神经网络、支持向量机等，都可归入判别式模型的范畴。

对生成式模型来说，必然考虑
$P(c|\bm{x}) = \frac{P(\bm{x},c)}{P(\bm{x})}$
基于贝叶斯定理：
$P(c|\bm{x}) = \frac{P(c)P(\bm{x}|c)}{P(\bm{x})}$

$P(c) 是类"先验"(prior)概率;表达了各类样本所占的比例$
$P(\bm{x}|c)是样本x相对于类标记c 的类条件概率(class-conditional probability) ，或称为"似然" (likelihood)$ ;
$P(\bm{x}) 是用于归一化的"证据" (evidence) 因子$

最大似然估计（MLE）

估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式，再基于训练样本对概率分布的参数进行估计，记关于类别 $c$ 的类条件概率为 $P(\bm{x}|c)$ ，假设 $P(\bm{x}|c)$ 具有确定的形式并且被参数向量。 $c$ 唯一确定，则我们的任务就是利用训练集 $D$ 估计参数 $θ_c$ . 为明确起见，我们将 $P(\bm{x}|c)记为P(\bm{x}|\theta_c)$ 。

令 $D_C$ 表示训练集 $D$ 中第c类样本组成的集合，假设这些样本是独立同分布的，则参数 $\bm{\theta}_c$ 对于数据集 $D_C$ 的依然是：
$P(D_c | \bm{\theta}_c) = \Pi_{\bm{x}\in D_c} P(\bm{x} | \bm{\theta}_c)$

对 $\theta_c$ 进行极大似然估计，就是去寻找能最大化似然 $P(D_c |\theta_c)$ 的参数值 $\theta_c$ ，直观上看，极大似然估计是试图在 $\theta_c$ 所有可能的取值中，找到一个能使数据出现的"可能性"最大的值。

连乘操作容易造成下溢，通常使用对数似然
$LL(\bm{\theta}_c) = logP(D_c|\bm{\theta}_c)\\=\sum_{\bm{x} \in D_c} logP(\bm{x} | \bm{\theta}_c)$
参数 $\bm{\theta}_c$ 的极大似然估计 $\widehat{\bm{\theta}}_c$ 为：
$\widehat{\bm{\theta}}_c = arg \max \limits_{\bm{\theta}_c} LL(\bm{\theta}_c).$
再连续属性情形下，假设概率密度函数 $p(\bm{x} | c) \sim \mathcal{N}(\bm{\mu}_c,\bm{\sigma}^2_c)$ ，对参数 $\bm{\mu}_c,\bm{\sigma}^2_c$ 的极大似然估计是：
$\widehat{\bm{\mu}}_c = \frac{1}{|D_c|}\sum_{\bm{x} \in D_c}\bm{x} \\ \widehat{\bm{\sigma}}^2_c = \frac{1}{|D_c|}\sum_{\bm{x} \in D_c}(\bm{x} -\widehat{\bm{\mu}}_c )(\bm{x} -\widehat{\bm{\mu}}_c )^T$

朴素贝叶斯分类

基于贝叶斯公式来估计后验概率 $P(c|\bm{x})$ 的主要k困难在于：类条件概率 $P(\bm{x}|c)$ 是所有属性上的联合概率，难以从有限的训练样本直接估计而得。为避开这个障碍，朴素贝叶斯分类器(naÏve Bayes classifier) 采用了"属性条件独立性假设" (attribute conditional i时ependence assu’mption)：对已知类别，假设所有属性相互独立。换言之，假设每个属性独立地对分类结果发生影响.

基于属性条件独立性假设
$P(c|\bm{x}) = \frac{P(c)P(\bm{x}|c)}{P(\bm{x})} = \frac{P(c)}{P(\bm{x})} \Pi_{i=1}^{d}P(x_i|c)$

$d$ 为属性数目， $x_i$ 为 $\bm{x}$ 再第i个属性上的取值

基于贝叶斯判定准则，朴素贝叶斯分类器的表达式为：
$h_{nb}(\bm{x}) = arg \max \limits_{c \in \mathcal{Y}}P(c)\Pi_{i=1}^{d}P(x_i|c)$

令 $D_c$ 表示训练集 $D$ 中第c类样本组成的集合，则先验概率： $P(c) = \frac{|D_c|}{D}$
对于离散属性，令 $D_{c,x_i}$ 表示 $D_c$ 中第i个属性上取值为 $x_i$ 的样本组成的集合： $P(x_i|c) = \frac{|D_{c,x_i}|}{|D_c|}$
对于连续属性可考虑概率密度函数，假定 $p(x_i | c) \sim \mathcal{N}(\mu_{c,i},\sigma^2_{c,i})$ ，其中 $\mu_{c,i},\sigma^2_{c,i}$ 分别是第 $c$ 类样本再第 $i$ 个属性上取值的均值和方差： $p(x_i | c) = \frac{1}{{\sqrt{2\pi}\sigma_{c,i}}}exp(-\frac{(x_i-\mu_{c,i})^2}{2\sigma_{c,i}^2})$