第四章:基于概率论的分类方法: 朴素贝叶斯
本章内容
□使用概率分布进行分类
□学习朴素贝叶斯分类器
□解析RSS源数据
口使用朴素贝叶斯来分析不同地区的态度
前两章我们要求分类器做出艰难决策,给出“该数据实例属于哪一类”这类问题的明确答案。不过,分类器有时会产生错误结果,这时可以要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值。
概率论是许多机器学习算法的基础,所以深刻理解这一主题就显得十分重要。第3章在计算特征值取某个值的概率时涉及了一些概率知识,在那里我们先统计特征在数据集中取某个特定值的次数,然后除以数据集的实例总数,就得到了特征取该值的概率。我们将在此基础上深人讨论。
本章会给出一些使用概率论进行分类的方法。首先从一个最简单的概率分类器开始,然后给出一些假设来学习朴素贝叶斯分类器。我们称之为“朴素”,是因为整个形式化过程只做最原始、最简单的假设。不必担心,你会详细了解到这些假设。我们将充分利用Python的文本处理能力将文档切分成词向量,然后利用词向量对文档进行分类。我们还将构建另一个分类器,观察其在真实的垃圾邮件数据集中的过滤效果,必要时还会回顾一下条件概率。最后,我们将介绍如何从个人发布的大量广告中学习分类器,并将学习结果转换成人类可理解的信息。
4.1 基于贝叶斯决策理论的分类方法
朴素贝叶斯
优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。
适用数据类型:标称型数据。
朴素贝叶斯是贝叶斯决策理论的一部分,所以讲述朴素负叶斯之前有必要快速了解一下贝叶斯决策理论。
假设现在我们有一个数据集,它由两类数据组成,数据分布如图4-1所示。
假设有位读者找到了描述图中两类数据的统计参数。(暂且不用管如何找到描述这类数据的统计参数,第川章会详细介绍。 我们现在用p1(x,y)表示数据点(x,y)属于类别1(以图中用圆点表示的类别)的概率,用p2(x,y)表示数据点(x,y)属于类别2 ( 图中用三角形表示的类别)的概率,那么对于一个新数据点(x,y),可以用下面的规则来判断它的类别:
也就是说,我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想,即选择具有最高概率的决策。回到图4-1,如果该图中的整个数据使用6个浮点数来表示,并且计算类别概率的python代码只有两行,那么你会更倾向于使用下面哪种方法来对该数据点进行分类?
(1)使用第1章的knn ,进行1000次距离计算;
(2)使用第2章的决策树,分别沿x轴、y轴划分数据;
(3)计算数据点属于每个类别的概率,并进行比较。
使用决策树不会非常成功;而和简单的概率计算相比,knn的计算量太大。因此,对于上述问题,最佳选择是使用刚才提到的概率比较方法。
接下来,我们必须要详述p1及p1概率计算方法。为了能够计算p1与p2,有必要讨论一下条件概率。如果你觉得自己已经相当了解条件概率了,那么可以直接跳过下一节。
4.2 条件概率
另一种有效计算条件概率的方法称为贝叶斯准则。贝叶斯准则告诉我们如何交换条件概率中的条件与结果,即如果巳知p(x|c),要求p(c|x ) ,那么可以使用下面的计算方法:
4.3使用条件概率来分类
4.4使用朴素贝叶斯进行文档分类
机器学习的一个重要应用就是文档的自动分类。在文档分类中,整个文档(如一封电子邮件)是实例,而电子邮件中的某些元素则构成特征。虽然电子邮件是一种会不断增加的文本,但我们同样也可以对新闻报道、用户留言、政府公文等其他任意类型的文本进行分类。我们可以观察文档中出现的词,并把每个词的出现或者不出现作为一个特征,这样得到的特征数目就会跟词汇表中的词目一样多。朴素贝叶斯是上节介绍的贝叶斯分类器的一个扩展,是用于文档分类的常用算法。
使用每个词作为特征并观察它们是否出现,这样得到的特征数目会有多少呢?针对的是哪一种人类语言呢?当然不止一种语言。据估计,仅在英语中,单词的总数就有500000之多。为了能进行英文阅读,估计需要掌握数千单词。
所谓独立,指的是统计意义上的独立,即一个特征或者单词出现的可能性与它和其他单词相邻没有关系。
这个假设正是朴素贝叶斯分类器中朴素一词的含义,朴素贝叶斯分类器中的另一个假设是,每个特征同等重要.
4.5 使用Python进行文本分类
要从文本中获取特征,需要先拆分文本。具体如何做呢?这里的特征是来自文本的词条(token), 一个词条是字符的任意组合。可以把词条想象为单词,也可以使用非单词词条,如URL、IP地址或者任意其他字符串。然后将每一个文本片段表示为一个词条向量,其中值为1表示词条出现在文档中,0表示词条未出现。
以在线社区的留言板为例。为了不影响社区的发展,我们要屏蔽侮辱性的言论,所以要构建一个快速过滤器,如果某条留言使用了负面或者侮辱性的语言,那么就将该留言标识为内容不当。过滤这类内容是一个很常见的需求。对此问题建立两个类别:侮辱类和非侮辱类使用1和0分别表示。接下来首先给出将文本转换为数字向量的过程,然后介绍如何基于这些向量来计算条件概率,并在此基础上构建分类器’最后还要介绍一些利用python实现朴素贝叶斯过程中需要考虑的问题。
4.5.1准备数据:从文本中构建词向量
我们将把文本看成单词向量或者词条向量,也就是说将句子转换为向量。考虑出现在所有文档中的所有单词,再决定将哪些词纳人词汇表或者说所要的词汇集合,然后必须要将每一篇文档转换为词汇表上的向量。接下来我们正式开始。打开文本编辑器,创建一个叫化bayes.py的新文件,然后将下面的程序清单添加到文件中。
程序清单4-1 词表到向暈的转换函数
第一个函数loadDataset()创建了一些实验样本。该函数返回的第一个变量是进行词条切分后的文档集合,这些文档来自斑点犬爱好者留言板。这些留言文本被切分成一系列的词条集合,标点符号从文本中去掉,后面会探讨文本处理的细节。loadDataSet( )函数返回的第二个变量是一个类别标签的集合。这里有两类,侮辱性和非侮辱性。这些文本的类别由人工标注,这些标注信息用于训练程序以便自动检测侮辱性留言。
下一个函数createVocabList()会创建一个包含在所有文档中出现的不重复词的列表,为此使用了Python 的set数据类型。将词条列表输给set构造数,set()就会返回一个不重复词表。首先,创建一个空集合, 然后将每篇文档返回的新词集合添加到该集合中。操作符丨用于求两个集合的并集,这也是一个按位或(or) 操作符(参见附录0) 。在数学符号表示上,按位或操作与集合求并操作使用相同记号。
获得词汇表后,便可以使用函数setofWords2Vec(),该函数的输人参数为词汇表及某个文档,输出的是文档向量,向量的每一元素为1或0,分别表示词汇表中的单词在输人文档中是否出现。函数首先创建一个和词汇表等长的向量,并将其元素都设置为0 。接着,遍历文档中的所有单词,如果出现了词汇表中的单词,则将输出的文档向量中的对应值设为1。一切都顺利的话,就不需要检查某个词是否还vobalist中,后边可能会用到这一操作。
4.5.2 训练算法:从词向量计算概率
前面介绍了如何将一组单词转换为一组数字,接下来看看如何使用这些数字计算概率。现在已经知道一个词是否出现在一篇文档中,也知道该文档所属的类别。还记得3.2节提到的贝叶斯准则?我们重写贝叶斯准则,将之前的x.y 替换为w。粗体w示这是一个向量,即它由多个数值组成。在这个例子中,数值个数与词汇表中的词个数相同。
该函数的伪代码如下:
计算每个类别中的文档数目
对每篇训练文档:
对每个类别:
如果词条出现文档中―增加该词条的计数值
增加所有词条的计数值
对每个类别:
对每个词条:
将该词条的数目除以总词条数目得到条件概率
还回每个类别的条件概率
我们利用下面的代码来实现上述伪码。打开文本编辑器,将这些代码添加到bayes.py文件中。该函数使用了Numpy的一些函数,故应确保将from numpy import *语句添加至bayes.py文件的最前面。
接下来看这些变量的内部值:
4.5.3 测试算法:根据现实情况修改分类器
4.5.4 准备数据:文档词袋模型
4.6 示例:使用朴素贝叶斯过滤垃圾邮件
4.6.1 准备数据:切分文本
4.6.2 测试算法:使用朴素贝叶斯进行交叉验证
4 . 8 本章小结
对于分类而言,使用概率有时要比使用硬规则更为有效。贝叶斯概率及贝叶斯准则提供了一种利用已知值来估计未知概率的有效方法。
可以通过特征之间的条件独立性假设,降低对数据量的需求。独立性假设是指一个词的出现概率并不依赖于文档中的其他词。当然我们也知道这个假设过于简单。这就是之所以称为朴素贝叶斯的原因。尽管条件独立性假设并不正确,但是朴素贝叶斯仍然是一种有效的分类器。
利用现代编程语言来实现朴素贝叶斯时需要考虑很多实际因素。下溢出就是其中一个问题,它可以通过对概率取对数来解决。词袋模型在解决文档分类问题上比词集模型有所提高。还有其他一些方面的改进,比如说移除停用词,当然也可以花大量时间对切分器进行优化。
本章学习到的概率理论将在后续章节中用到,另外本章也给出了有关贝叶斯概率理论全面具体的介绍。接下来的一章将暂时不再讨论概率理论这一话题,介绍另一种称作Logistic回归的分类方法及一些优化算法。