朴素贝叶斯分类器

文章目录

朴素贝叶斯分类器

朴素贝叶斯分类器

贝叶斯公式

x代表样本，c代表已知类别
$\frac{P(c)P(x|c)}{P(x)}\qquad(1)$

前提假设：

为了方便计算 $P (x ∣ c)$ ,朴素贝叶斯分类器采用了一个假设:**对已知类别，假设所有属性相互独立。**基于这个假设，式(1)可重写为:
$\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod_{i=1}^{d}P(x_i|c)$
其中d为属性的数目， $x_i$ 为 $x$ 在第 $i$ 个属性上的取值。

朴素贝叶斯分类器表达式

由于对所有类别来说 $P (x)$ 相同，根据贝叶斯判定准则:对每个样本 $x$ 选择能使后验概率 $P (c ∣ x)$ 最大的类别标记有：
$h_{nb}(x) = arg_{c \in y}maxP(c)\prod_{i=1}^{d}P(x_i|c)$
一句话概括：朴树贝叶斯分类器的训练过程就是用训练集 $D$ 估计先验概率 $P (c)$ ,为每个属性估计条件概率 $P(x_i|c)$ 。
令 $D_c$ 表示第 $D$ 的第 $c$ 类样本子集，则估计先验概率
$\frac{|D_c|}{|D|}$
对于离散属性,令 $D_{{c},{x_i}}$ 表示集合 $D_c$ 第 $i$ 个属性值为 $x_i$ 的子集，则条件概率 $P(x_i|c)=\frac{|D_{{c},{x_i}}|}{|D_c|}$

举例

下面是训练集 $D$ ，年龄、收入、学生、信誉为属性, $d = 4$ ，购买计算机为类别，类别数 $y = 2$

编号	年龄	收入	学生	信誉	购买计算机
1	$\le30$	高	否	中	否
2	$\le30$	高	否	优	否
3	$30\sim40$	高	否	中	是
4	$\ge41$	中	否	中	是
5	$\ge41$	低	是	中	是
6	$\ge41$	低	是	优	否
7	$30\sim40$	低	是	优	是
8	$\le30$	中	否	中	否
9	$\le30$	低	是	中	是
10	$\ge41$	中	是	中	是
11	$\le30$	中	是	优	是
12	$30\sim40$	中	否	优	是
13	$30\sim40$	高	是	中	是
14	$\ge41$	中	否	优	否

下面是一个测试样本 $x$ ,判断是否购买计算机

编号	年龄	收入	学生	信誉	购买计算机
1	$\le30$	中	是	中	?

首先计算先验概率 $P (c)$ ，有:
$\frac{9}{14}=0.64$
$\frac{5}{14}=0.36$
再为每个属性估计条件概率 $P(x_i|c)$
$P_{年龄\le30|购买计算机=是}=\frac{2}{9}=0.22$
$P_{年龄\le30|购买计算机=否}=\frac{3}{5}=0.60$
$P_{收入=中|购买计算机=是}=\frac{4}{9}=0.44$
$P_{收入=中|购买计算机=否}=\frac{2}{5}=0.40$
$P_{学生=是|购买计算机=是}=\frac{6}{9}=0.67$
$P_{学生=是|购买计算机=否}=\frac{1}{5}=0.20$
$P_{信誉=中|购买计算机=是}=\frac{6}{9}=0.67$
$P_{信誉=中|购买计算机=否}=\frac{2}{5}=0.40$
所以根据朴素贝叶斯分类器表达式有:
$P(购买计算机=是)\times P_{年龄\le30|购买计算机=是} \times P_{收入=中|购买计算机=是} \\ \times P_{学生=是|购买计算机=是}\times P_{信誉=中|购买计算机=是}\approx 0.03$
$P(购买计算机=否)\times P_{年龄\le30|购买计算机=否} \times P_{收入=中|购买计算机=否} \\ \times P_{学生=是|购买计算机=否}\times P_{信誉=中|购买计算机=否}\approx 0.01$
由于 0.03>0.01，所以朴素贝叶斯分类器将测试样本 $x$ 判别为“购买计算机 = 是”。

拉普拉斯修正(Laplacian correction)

如果有一个测试样本的属性“信誉 = 低”，那么条件概率
$\frac{0}{9}=0$ ,即使其他属性明显是“购买计算机= 是”，但分类结果都将是“购买计算机 = 否”。为了避免测试样本中其他属性信息被训练集中未出现的属性值“抹去”，可用拉普拉斯修正。
令 $N$ 表示训练集 $D$ 中可能的类别数， $N_i$ 表示第 $i$ 个属性的取值数则
先验概率为
$\widehat P(c)=\frac{|D_c|+1}{|D|+N}$
后验概率为
$\widehat P(x_i|c)=\frac{|D_{c,x_i}|+1}{|D_c|+N_i}$
例如上文例子中,先验概率可以估计为：
$\widehat P(购买计算机= 是) = \frac{9+1}{14+2}=0.625$
$\widehat P(购买计算机= 否) = \frac{5+1}{14+2}=0.375$
后验概率可以估计为:
$P(年龄\le30|购买计算机=是)=\frac{2+1}{9+3}=0.25$
$P (信誉 = 低 ∣ 购买计算机 = 是)$ 可以估计为:
$\frac{0+1}{9+3}=0.083$

posted @ 2019-11-13 21:36 消灭猕猴桃阅读(280) 评论(0) 收藏举报

刷新页面返回顶部

warms

朴素贝叶斯分类器

文章目录

朴素贝叶斯分类器

贝叶斯公式

前提假设：

朴素贝叶斯分类器表达式

举例

拉普拉斯修正(Laplacian correction)

公告