对于集合C = {y1,y2,y3...}和集合 I = {x1,x2,x3...},确定的映射y = f(x),使得对于 有且仅有一个,使得  成立。(不考虑模糊数学里的模糊集情况)

其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合,其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。

对于贝叶斯分类算法,其分类的基础是贝叶斯定理。

首先是条件概率公式: 表示表示事件B已经发生的前提下,事件A发生的概率。贝叶斯定理为我们打通从P(A|B)获得P(B|A)的道路,贝叶斯定理:

   这就是贝叶斯分类算法的基础。

 

朴素贝叶斯分类的原理与流程

朴素贝叶斯分类是贝叶斯分类里面最简单的分类算法。朴素贝叶斯的思想是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

 1.对于一个待分类项 X= {a1,a2,a3,...} ,a 为X 的特征属性。

 2.有类别集合 Y = (y1,y2,y3,.....).

3.计算条件概率 

4.如果 ,那么x 就属于yk

那么现在最重要的是如何计算第三部中的条件概率:

1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集

2、统计得到在各类别下各个特征属性的条件概率估计。即

3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:

因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:

那么就可以求得P(yi|x),找出其中的最大值就得到所述的分类。

参考 http://www.cnblogs.com/leoo2sk/archive/2010/09/17/1829190.html 张洋