1、基于贝叶斯决策理论的分类方法(核心思想:选择具有最高概率的决策)
朴素贝叶斯
优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。
适用类型:标称型数据。
2、条件概率
p(A|B)=p(A and B)/p(B)
贝叶斯准则:p(c|x)=p(x|c)p(c)/p(x)
使用条件概率来分类:
p(ci|x,y)=p(x,y|ci)p(ci)/p(x,y)
若P(c1|x,y)>P(c2|x,y),那么属于类别c1;
两个假设:(1)特征之间相互独立;(2)每个特征同等重要。
使用python实现文本分类: