摘要:
朴素贝叶斯分类器是基于条件独立性提出的一种分类方法。现实中存在这样一类问题,特征的个数远大于训练集的个数或者与训练集个数相当,因此容易出现过拟合现象。如在文档分类问题,我们的目标对是一篇文档进行分类,可以把文档的每个词看做文档的一个特征,这样每篇文档就会有大量的特征出现,如果训练样本不够大,就会过拟合。朴素贝叶斯提出一种简单的处理方法,即认为在给定文档分类标号的情况下,词的出现是相互独立的,假设一文档被标记为机器学习,那么“分类”和“回归”被认为是相互独立的。虽然这样的假设看上去并不是很合理,但是在现实中的效果很好,因为它不是完全假设任意两个词的出现都是独立的,独立的前提条件是文档的类别已知, 阅读全文