机器学习Matlab打击垃圾邮件的分类————朴素贝叶斯模型
该系列来自于我《人工智能》课程回顾总结,以及实验的一部分进行了总结学习机
垃圾分类是有监督的学习分类最经典的案例,本文首先回顾了概率论的基本知识、则以及朴素贝叶斯模型的思想。最后给出了垃圾邮件分类在Matlab中用朴素贝叶斯模型的实现
1.概率
1.1 条件概率
定义:事件B发生的情况下,事件A发生的概率记作条件概率
条件概率也叫后验概率。无条件概率也叫先验概率(在没有不论什么其他信息存在的情况下关于命题的信度)
能够得到乘法规则:
推广有链式法则:
1.2 概率公理
1.3 联合分布和边缘概率分布
X是随机变量x取值集合,Y是随机变量y取值集合。那么称
边缘概率定义为联合分布中某一个随机变量发生的概率:
1.4 独立性
若事件A和B满足:
称A和B关于C**条件独立**,则有:
2.贝叶斯法则
2.1 贝叶斯法则
从乘法规则
常常我们把把未知因素cause造成的结果effect看作证据。去确定未知因素cause发生的概率,那么有:
举个样例:
我们预先知道在感冒(cause)的情况下头痛(effect)发生的概率为50%,而感冒的概率为0.025且头痛的概率为0.1,那么某天早上醒来我头痛了,这时我感冒的概率是0.5*0.025/0.1=0.125而不是感觉上的50%
2.2 朴素贝叶斯模型
给定cause的情况下有n个彼此条件独立的症状effect,那么他们的联合分布有:
通常称这个概率分布为朴素贝叶斯模型或贝叶斯分类器
那么朴素贝叶斯模型怎么实现分类呢?
我们设有非常多种cause(m个),这些cause下分别会表现为n个effect(effect也有多种)。我们统计训练集(已做标记)的结果仅仅能统计知道某个cause的情况下这n个effect的取值。也就是
那么当我们有未标记的測试数据须要预測时,仅仅须要输入这些測试数据的表现。也就是n个effect,我们就能通过一下公式计算出条件概率最大的
之所以称之为朴素。是由于其对effect条件独立性的如果,可是往往实际情况中effect并不是条件独立的。
3.朴素贝叶斯模型下的垃圾邮件分类
3.1 模型
如果:
- 设有n个单词
wordi,i=1,...,n :wordi=0 表示这个单词在这封email中不出现。wordi=1 表示这个单词在这封email中出现。 - 设训练集每封email有label标记邮件是否为垃圾邮件spam,label=1则该邮件是垃圾邮件
模型:
3.2 训练
我们须要用训练集计算出:
- 正常邮件概率
P(norm) - 垃圾邮件概率
P(spam) - 单词i在正常邮件中不出现概率
P(wordi=0|norm) - 单词i在正常邮件中出现概率
P(wordi=1|norm) - 单词i在垃圾邮件中不出现概率
P(wordi=0|spam) - 单词i在垃圾邮件中出现概率
P(wordi=1|spam)
那么我们依据朴素贝叶斯模型就可以计算出
3.3 Matlab实现
用Matlab实现朴素贝叶斯模型垃圾邮件分类器例如以下:
function [ypred,accuracy]= nbayesclassifier (traindata, trainlabel, testdata, testlabel, threshold)
trainnum = size(traindata, 1);
wordnum = size(traindata, 2);
p = zeros(wordnum, 2, 2);
count = zeros(2, 1);
for i = 1 : trainnum
count(trainlabel(i) + 1) = count(trainlabel(i) + 1) + 1;
for j = 1 : wordnum
p(j, trainlabel(i) + 1, traindata(i, j) + 1) = p(j, trainlabel(i) + 1, traindata(i, j) + 1) + 1;
end
end
pnorm = count(1) / trainnum;
pspam = count(2) / trainnum;
p(:, 1, :) = (p(:, 1, :)+1) / (count(1)+1);
p(:, 2, :) = (p(:, 2, :)+1) / (count(2)+1);
testnum = size(testdata, 1);
ypred = zeros(testnum, 1);
correct = 0;
for i = 1 : testnum
q = pnorm / pspam;
for j = 1 : wordnum
q = q * p(j, 1, testdata(i, j) + 1) / p(j, 2, testdata(i, j) + 1);
end
q = 1 / (1 + q);
if q > threshold
ypred(i) = 1;
end
if ypred(i) == testlabel(i)
correct = correct + 1;
end
end
accuracy = correct / testnum;
end
当中有几个要点:
- 我们将已标记数据集划分为训练集和測试集,训练集用来训练模型參数,測试集用来測试模型准确率。依据比較模型预測和測试集真实标记。我们能够计算出模型的准确率threshold
p(:, 1, :) = (p(:, 1, :)+1) / (count(1)+1);
是为了避免某个单词在某个分类(正常邮件或垃圾邮件)中一直没有出现而导致p(:, 1, :)=0
的情况减少分类器鲁棒性的情况(称之为Laplace校准。在数据规模较大时,加1产生的偏差忽略不计)
3.4 分类结果
通过枚举threshold的能够确定在某个训练集和測试集划分下,最优的阈值选取
我简单測试1000个邮件的数据量,6:4划分下最优预測准确率仅仅有90%(待优化)
版权声明:本文博主原创文章,博客,未经同意不得转载。