假设一个镇里有60%男性和40%女性。女性穿裤子的人数和穿裙子的人数一样,所有男性都穿裤子(正常男性都穿裤子)。一个人在远处随机看到了一个穿裤子的人,预测这个人是男生还是女生?为什么?
A:数女性事件,B:是穿的是裤子的事件
P(A)是看到是女性的概率,在这里是40%
P(A~)是看到是男性的概率,在这里是60%
P(B|A)是女性穿裤子的概率,在这里是50%
P(B|A~)是男性穿裤子的概率,在这里是100%
P(B)是穿裤子的概率,P(B) = P(B|A)P(A) + P(B|A~)P(A~),在这里是0.5×0.4 + 1×0.6 = 80%。
朴素贝叶斯分类的正式定义如下:
1、设X={a1,a2,a3,a4,.......an}为一个待分类项,而每个a为x的一个特征属性。
2、有类别集合C={y1,y2,y3,y4,........yn}。
3、计算P(y1|x),P(y2|x),P(y3|x),P(y4|x),...........,P(yn|x)。
4、如果P(yK|x)=max{P(y1|x),P(y2|x),P(y3|x),P(y4|x),...........,P(yn|x)},则 x∈yk。
看到穿裤是女性的后验概率
p(A|B) = P(B|A)*P(A)/P(B) = 25%
看到穿裤是男性的后验概率
p(A~|B) = P(B|A~)*P(A~)/P(B) = 75%
max{p(A|B),p(A~|B)} = p(A~|B)
所以预测是男生!