简明详细了解朴素贝叶斯分类

朴素贝叶斯分类是监督学习中的一个方法。其不按常理出牌，以概率的方式来进行分类和学习。

我将首先给定一个具体的例子说明其实现过程，然后我将给出其具体的推导原理：

我们首先对一个人美丑进行判别

这个表格是我们事先对美丑进行的分类

A={A1,A2,A3,A4,A5,A6} 这个A被称为属性的集合（又称特征值）

C={C1,C2} C被称为类别（即是我们最终对输入数据所分的类别）

朴素贝叶斯基于这个原理

我们首先利用训练集对模型进行训练：

p(C=C1) = 1/3(我们样本集中分类为C1 ，就是丑的概率) p(C=C2) = 2/3(我们样本集中分类为C2 ，就是美的概率)

p(A1=1|C1)=1 (在丑的样例中眼睛大的概率) p(A1=1|C2)=1/2(在美的样例中眼睛大的概率)

p(A1=0|C1)=1 (在丑的样例中眼睛小的概率) p(A1=0|C2)=1/2(在美的样例中眼睛小的概率)

这样对表中数据A1-A6均算出概率

接下来我们给定一个人的数据

由于P(A1=0|C=C1)...P(A6=0|C=C1) 这些数据可以从刚才对训练集的计算中得出，我们就可以得出p(C=C1)和 p(C=C2)具体的值，然后我们比较大小就可得出，该人更偏向概率大的类别

接下来我们说一下理论：

我们分类的任务是给定一个样例d计算它的后验概率

C表示所需分类的类别

A1...A_|A|表示样例d的属性值 .

a表示该属性的可能的取值

根据贝叶斯公式：

由于我们仅关心分类，所以我们分母均相同，我们将分子展开为：

假设所有属性Ai都是互不影响的。即：

Pr (A1=a1|A2=a2,...A_|A| =a_|A|,C=Cj)=Pr(A1=a1|C=Cj)

于是

而Pr(C=cj)和Pr(Ai=ai|C=Cj)都由已知样本得出：

所以我们只需求

在每个Cj中最大的概率值，那个最大概率值所属的类别既是样本最有可能属于的类别

posted @ 2018-04-17 22:07 Amoswish 阅读(471) 评论(0) 编辑收藏举报

刷新页面返回顶部

Amoswish