机器学习算法优缺点和应用

一、决策树

1、优点

易于理解和解释，可视化；

测试数据集时候，运行速度快；

易于扩展；

2、缺点

缺失数据处理困难；

容易过拟合；

忽略属性之间的相关性；

ID3算法计算信息增益时结果偏向数值比较多的特征；

基于条件概率，容易理解不同属性对结果的影响程度。但因为只要追踪叶子节点的属性，所以很容易受到攻击；

3、应用

如其名，有很好的分析能力，多应用于决策过程，例如企业投资决策等。

二、KNN

1、优点

是一种在线技术，新数据可以直接加入数据集，不必重新训练；

简单易实现；

2、缺点

计算量大，样本容量大的时候很耗时间；

样本不平衡时，预测的偏差比较大；

每一次分类都要进行一次全局运算；

k的选取；

3、应用

文本分类、模式识别、聚类分析

三、SVM

1、优点

不依赖于需要很大的样本容量，解决小样本下的机器学习问题；

可以解决非线性问题；

没有局部极小值问题，没有梯度的计算；

可以处理高维数据；

泛化能力强；

2、缺点

对缺失数据敏感；

3、应用

文本分类、图像识别、主要二分类领域

四、adaboost

1、优点

很好地利用了弱分类器；

每个弱分类器可以有不同的算法；

精度高；

要充分考虑每个弱分类器的权重；

2、缺点

弱分类器的数目不好设定，需要交叉验证；

数据不平衡会导致精度降低；

耗时；

3、应用

模式识别、计算机视觉、多用于二分类和多分类

五、朴素贝叶斯

1、优点

大量的训练和查询时有较高的速度；

对项目的训练和分类仅仅是特征概率上的数学运算；

可以实时对新增的样本进行训练；

2、缺点

样本特征独立的假设；

3、应用

适用于不同样本之间相关性比较小的时候，比较容易解释；

文本分类、欺诈检测、垃圾邮件；

六、logistic回归

1、优点

简单易于理解和实现

2、缺点

易欠拟合；

精度不高；

3、应用

二分类领域，得出概率值；

适用于根据分类概率排名的领域，如搜索排名；

扩展softmax应用于多分类，如手写数字识别；

七、神经网络

1、优点

分类准确度高、学习能力强；

容错性和鲁棒性好；

联想能力，能逼近任意非线性关系；

2、缺点

参数多、权值、阈值等等；

黑盒，不能观察中间结果；

学习过程长，易过拟合；

3、应用

计算机视觉、语音识别、自然语言处理

八、随机森林

改善了决策树容易被攻击的弱点，不需要调整太多的参数

posted @ 2019-07-20 21:21 Austin_anheqiao 阅读(447) 评论(0) 编辑收藏举报

刷新页面返回顶部