听见涛声_数说张小桃

日拱一卒 | 梳理、沉淀、数据科学家踩坑之路 | 努力成为数据分析领域python最强的人

导航

分类算法小结

一、【逻辑回归】


1、原理

线性函数通过一个sigmod函数,即可转换为[0,1]之间的概率值

2、优点

3、缺点

4、应用

 

二、【朴素贝叶斯】


1、原理

公式:P(A|B)=P(B|A)P(A) /P(B)

由联合概率公式 P(A,B)=P(A|B)P(B)=P(B|A)P(A) 推导而来,P(A)叫做先验概率,P(A|B)叫做后验概率,P(A,B)叫做联合概率。

2、优点

3、缺点

4、应用

如果在机器学的视角下,我们把A理解成“类别标签”,把B理解成“具有某种特征”。这样贝叶斯公司可以理解为:P(类别|特征)=P(特征|类别)P(类别) /P(特征)

例如,场景垃圾邮件判断。我们收到一封邮件,里面的内如是“我司可以办理正规发票(保真)17%增值税发票点数优惠”。那么我们要做的就是判断P(‘垃圾邮件’|‘我司可以办理正规发票(保真)17%增值税发票点数优惠’)是否大于1/2!而这里我们又到用了分词技术。(如结巴分词等)

我们可以将这个公式转化成

P(‘垃圾邮件’|‘我司可以办理正规发票(保真)17%增值税发票点数优惠’)=P(‘垃圾邮件’|(‘我’,‘司’,‘可’,‘办理’,‘正规发                                                                                                                                  票’,‘保真’,‘增值税’,‘发票’,‘点数’,‘优惠’))

这里我们用A标示‘垃圾邮件’,B标示分词词组(‘我’,‘司’,‘可’,‘办理’,‘正规发票’,‘保真’,‘增值税’,‘发票’,‘点数’,‘优惠’)

 

根据贝叶斯公式可以将求上式P(A|B)转换成 

P(B|A)P(A) /P(B)形式。

这里P(B|A)是P((‘我’,‘司’,‘可’,‘办理’,‘正规发票’,‘保真’,‘增值税’,‘发票’,‘点数’,‘优惠’)|‘垃圾邮件’)

 

而根据传说中的条件独立假设 

又可以将P((‘我’,‘司’,‘可’,‘办理’,‘正规发票’,‘保真’,‘增值税’,‘发票’,‘点数’,‘优惠’)|‘垃圾邮件’)转换成

P(‘我’|‘垃圾邮件’)*P(‘司’|‘垃圾邮件’)*....*P(‘点数’|‘垃圾邮件’)*P(‘优惠’|‘垃圾邮件’)

这样,这个例子里面就转换成了对P(‘我’|‘垃圾邮件’)等的概率计算。我们在训练集中,需要进行统计得出这些个概率。例如,P(‘发票’|‘垃圾邮件’)=垃圾邮件中所有‘发票’出现的次数/垃圾邮件中所有词语出现的次数。这样整个判断垃圾邮件的分类问题,就转换成了一个统计概率问题。这种分类问题就能得以解决。

上述这种增加了条件独立假设的贝叶斯方法叫做朴素贝叶斯方法。由上面的例子可以看出,朴素贝叶斯方法是很简单的。

 

但是,朴素贝叶斯存在这一个问题,就是在它眼里是没有词语之间的顺序的。如刚才上例

P((‘我’,‘司’,‘可’,‘办理’,‘正规发票’)|‘垃圾邮件’)=P(‘我’|‘垃圾邮件’)*P(‘司’|‘垃圾邮件’)*...*P(‘正规发票’|‘垃圾邮件’)

由于乘法满足交换律,那么上面可以认为是

P(‘我’|‘垃圾邮件’)*P(‘司’|‘垃圾邮件’)*...*P(‘正规发票’|‘垃圾邮件’) = P(‘正规发票’|‘垃圾邮件’)*...*P(‘司’|‘垃圾邮件’)*P(‘我’|‘垃圾邮件’)=P((‘正规发票’,‘可’,‘办理’,‘我’,‘司’)|‘垃圾邮件’)

这个语句就尴尬了!

不过,朴素贝叶斯在实际应用中的效率是很高的。效果好的出奇。

 

 

 

 

三、【决策树】


1、原理

根据一些 feature 进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。

2、优点

3、缺点

4、应用

 

 

 

 

【随机森林】


1、原理

2、优点

3、缺点

4、应用 

 

 

【支持向量机SVM】

1、原理

2、优点

3、缺点

4、应用

 

【k最近邻】

1、原理

2、优点

3、缺点

4、应用

 

【Adaboost】

 

1、原理

2、优点

3、缺点

4、应用

posted on 2020-02-08 22:30  数说张小桃  阅读(240)  评论(0编辑  收藏  举报