机器学习算法优缺点和应用

一、决策树

1、优点

易于理解和解释,可视化;

测试数据集时候,运行速度快;

易于扩展;

2、缺点

缺失数据处理困难;

容易过拟合;

忽略属性之间的相关性;

ID3算法计算信息增益时结果偏向数值比较多的特征;

基于条件概率,容易理解不同属性对结果的影响程度。但因为只要追踪叶子节点的属性,所以很容易受到攻击;

3、应用

如其名,有很好的分析能力,多应用于决策过程,例如企业投资决策等。

二、KNN

1、优点

是一种在线技术,新数据可以直接加入数据集,不必重新训练;

简单易实现;

2、缺点

计算量大,样本容量大的时候很耗时间;

样本不平衡时,预测的偏差比较大;

每一次分类都要进行一次全局运算;

k的选取;

3、应用

文本分类、模式识别、聚类分析

三、SVM

1、优点

不依赖于需要很大的样本容量,解决小样本下的机器学习问题;

可以解决非线性问题;

没有局部极小值问题,没有梯度的计算;

可以处理高维数据;

泛化能力强;

2、缺点

对缺失数据敏感;

3、应用

文本分类、图像识别、主要二分类领域

四、adaboost

1、优点

很好地利用了弱分类器;

每个弱分类器可以有不同的算法;

精度高;

要充分考虑每个弱分类器的权重;

2、缺点

弱分类器的数目不好设定,需要交叉验证;

数据不平衡会导致精度降低;

耗时;

3、应用

模式识别、计算机视觉、多用于二分类和多分类

五、朴素贝叶斯

1、优点

大量的训练和查询时有较高的速度;

对项目的训练和分类仅仅是特征概率上的数学运算;

可以实时对新增的样本进行训练;

2、缺点

样本特征独立的假设;

3、应用

适用于不同样本之间相关性比较小的时候,比较容易解释;

文本分类、欺诈检测、垃圾邮件;

六、logistic回归

1、优点

简单易于理解和实现

2、缺点

易欠拟合;

精度不高;

3、应用

二分类领域,得出概率值;

适用于根据分类概率排名的领域,如搜索排名;

扩展softmax应用于多分类,如手写数字识别;

七、神经网络

1、优点

分类准确度高、学习能力强;

容错性和鲁棒性好;

联想能力,能逼近任意非线性关系;

2、缺点

参数多、权值、阈值等等;

黑盒,不能观察中间结果;

学习过程长,易过拟合;

3、应用

计算机视觉、语音识别、自然语言处理

八、随机森林

改善了决策树容易被攻击的弱点,不需要调整太多的参数

posted @ 2019-07-20 21:21  Austin_anheqiao  阅读(401)  评论(0编辑  收藏  举报