朴素贝叶斯算法原理小结

在所有的机器学习分类算法中，朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法，比如决策树,KNN,逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数

　　　　朴素贝叶斯很直观，计算量也不大，在很多领域有广泛的应用，这里我们就对朴素贝叶斯算法原理做一个小结。

1. 朴素贝叶斯相关的统计学知识

　　　　在了解朴素贝叶斯的算法之前，我们需要对相关必须的统计学知识做一个回顾。

　　　　贝叶斯学派很古老，但是从诞生到一百年前一直不是主流。主流是频率学派。频率学派的权威皮尔逊和费歇尔都对贝叶斯学派不屑一顾，但是贝叶斯学派硬是凭借在现代特定领域的出色应用表现为自己赢得了半壁江山。

　　　　贝叶斯学派的思想可以概括为先验概率+数据=后验概率。也就是说我们在实际问题中需要得到的后验概率，可以通过先验概率和数据一起综合得到。数据大家好理解，被频率学派攻击的是先验概率，一般来说先验概率就是我们对于数据所在领域的历史经验，但是这个经验常常难以量化或者模型化，于是贝叶斯学派大胆的假设先验分布的模型，比如正态分布，beta分布等。这个假设一般没有特定的依据，因此一直被频率学派认为很荒谬。虽然难以从严密的数学逻辑里推出贝叶斯学派的逻辑，但是在很多实际应用中，贝叶斯理论很好用，比如垃圾邮件分类，文本分类。

　　　　我们先看看条件独立公式，如果X和Y相互独立，则有：

P (X, Y) = P (X) P (Y)

　　　　我们接着看看条件概率公式：

P (Y | X) = P (X, Y) / P (X)

P (X | Y) = P (X, Y) / P (Y)

或者说:

P (Y | X) = P (X | Y) P (Y) / P (X)

接着看看全概率公式

P (X) = \sum k P (X | Y = Y k) P (Y k) 其 中 \sum k P (Y k) = 1

从上面的公式很容易得出贝叶斯公式：

P (Y k | X) = P ( X | Y k ) P ( Y k ) \sum k P ( X | Y = Y k

2. 朴素贝叶斯的模型

　　　　从统计学知识回到我们的数据分析。假如我们的分类模型样本是：

(x (1) 1, x (1) 2, . . . x (1) n, y 1), (x (2) 1,

　　　　即我们有m个样本，每个样本有n个特征，特征输出有K个类别，定义为

　　　　从样本我们可以学习得到朴素贝叶斯的先验分布

P (X, Y = C k) = P (Y = C k) P (X = x | Y = C k) = P (

　　　　从上面的式子可以看出

P (X 1 = x 1, X 2 = x 2, . . . X n = x n | Y = C k) = P (X 1 = x 1

　　　　从上式可以看出，这个很难的条件分布大大的简化了，但是这也可能带来预测的不准确性。你会说如果我的特征之间非常不独立怎么办？如果真是非常不独立的话，那就尽量不要使用朴素贝叶斯模型了，考虑使用其他的分类方法比较好。但是一般情况下，样本的特征之间独立这个条件的确是弱成立的，尤其是数据量非常大的时候。虽然我们牺牲了准确性，但是得到的好处是模型的条件分布的计算大大简化了，这就是贝叶斯模型的选择。

　　　　最后回到我们要解决的问题，我们的问题是给定测试集的一个新样本特征

　　　　既然是贝叶斯模型，当然是后验概率最大化来判断分类了。我们只要计算出所有的K个条件概率

3. 朴素贝叶斯的推断过程

　　　　上节我们已经对朴素贝叶斯的模型也预测方法做了一个大概的解释，这里我们对朴素贝叶斯的推断过程做一个完整的诠释过程。

　　　　我们预测的类别

C r e s u l t = a r g m a x  C k P (Y = C k | X

　　　　由于对于所有的类别计算

C r e s u l t = a r g m a x  C k P (X = X (t e s t) | Y =

　　　　接着我们利用朴素贝叶斯的独立性假设，就可以得到通常意义上的朴素贝叶斯推断公式:

C r e s u l t = a r g m a x  C k P (Y = C k) \prod j = 1 n P

4. 朴素贝叶斯的参数估计

　　　　在上一节中，我们知道只要求出

　　　　对于

　　　　a) 如果我们的

P (X j = X (t e s t) j | Y = C k) = m k j t e s t m k

　　　　其中

　　　　某些时候，可能某些类别在样本中没有出现，这样可能导致

P (X j = X (t e s t) j | Y = C k) = m k j t e s t + λ

　　　　其中

　　　　b)如果我们我们的

P (X j = X (t e s t) j | Y = C k) = P (j | Y = C k) X (t e s

　　　　其中，

　　　　c)如果我们我们的

P (X j = X (t e s t) j | Y = C k) = 1 2 π σ 2 k----\sqrt e x p ( -

　　　　其中

5. 朴素贝叶斯算法过程

　　　　我们假设训练集为m个样本n个维度，如下：

(x (0) 1, x (0) 2, . . . x (0) n, y 0), (x (1) 1,

　　　　共有K个特征输出类别，分别为

　　　　输出为实例

　　　　算法流程如下：

　　　　1) 如果没有Y的先验概率，则计算Y的K个先验概率：

　　　　2) 分别计算第k个类别的第j维特征的第l个个取值条件概率：

　　　　　　a)如果是离散值:

P (X j = x j l | Y = C k) = x j l + λ m k + n λ

　　　　　　b)如果是稀疏二项离散值:

P (X j = x j l | Y = C k) = P (j | Y = C k) x j l + (1 - P (j

　　　　　　此时

　　　　　　c)如果是连续值不需要计算各个l的取值概率，直接求正态分布的参数:

P (X j = x j | Y = C k) = 1 2 π σ 2 k----\sqrt e x p ( - ( x j - μ

　　　　　　需要求出

　　　　3）对于实例

P (Y = C k) \prod j = 1 n P (X j = x (t e s t) j | Y = C k)

　　　　4）确定实例

C r e s u l t = a r g m a x  C k P (Y = C k) \prod j = 1 n P

　　　　从上面的计算可以看出，没有复杂的求导和矩阵运算，因此效率很高。

6. 朴素贝叶斯算法小结

　　　　朴素贝叶斯算法的主要原理基本已经做了总结，这里对朴素贝叶斯的优缺点做一个总结。

　　　　朴素贝叶斯的主要优点有：

　　　　1）朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。

　　　　2）对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练。

　　　　3）对缺失数据不太敏感，算法也比较简单，常用于文本分类。

　　　　朴素贝叶斯的主要缺点有：　　　

　　　　1）理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。

　　　　2）需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。

　　　　3）由于我们是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。

　　　　4）对输入数据的表达形式很敏感。

　　　　以上就是朴素贝叶斯算法的一个总结，希望可以帮到朋友们。

posted on 2017-04-05 20:26 郑兴鹏阅读(605) 评论(0) 编辑收藏举报