朴素贝叶斯

示例：
1000封邮件，每个邮件被标记为垃圾邮件或者非垃圾邮件，给定第1001封邮件，确定它是垃圾邮件还是非垃圾邮件
分析：
类别c：垃圾邮件c1，非垃圾邮件c2
词汇表：统计1000封邮件中出现的所有单词，记单词数目为N，即形成词汇表。
 将每个样本si向量化：初始化N维向量xi，若词wj在si中出现，则xij=1，否则，为0。从而得到1000个N维向量x。
 公式：对于两个关联事件A和B，同时发生的概率为：P(AB)=P(A|B)P(B)=P(B|A)P(A) 。
可以得到P(A|B)=P(B|A)*P(A)/P(B)
即表示事件B已经发生的前提下，事件A发生的概率=表示事件A已经发生的前提下，事件B发生的概率 * 事件A发生的概率/事件B发生的概率
对于垃圾邮件，P(A|T1,…Tn)=P(T1,…Tn|A)P(A)/P(T1,…Tn)=P(T1|A)P(T2|A)…P(Tn−1|A)P(Tn|A)P(A)/P(T1)P(T2)…P(Tn−1)P(Tn)
一般取高频词3000个，而不是全部，取正常邮件和垃圾邮件等量，统计关键词出现频率P(Tn)，垃圾邮件中关键词出现频率P(Tn|A)，垃圾邮件频率P(A)
那么即可得到一封邮件，最高关键词是这些的，该邮件是垃圾邮件的频率，可以设置阈值，超过多少才判定为垃圾邮件

posted @ 2019-10-19 00:10 心平万物顺阅读(173) 评论(0) 收藏举报

刷新页面返回顶部

朴素贝叶斯

公告