机器学习算法优缺点和应用
一、决策树
1、优点
易于理解和解释,可视化;
测试数据集时候,运行速度快;
易于扩展;
2、缺点
缺失数据处理困难;
容易过拟合;
忽略属性之间的相关性;
ID3算法计算信息增益时结果偏向数值比较多的特征;
基于条件概率,容易理解不同属性对结果的影响程度。但因为只要追踪叶子节点的属性,所以很容易受到攻击;
3、应用
如其名,有很好的分析能力,多应用于决策过程,例如企业投资决策等。
二、KNN
1、优点
是一种在线技术,新数据可以直接加入数据集,不必重新训练;
简单易实现;
2、缺点
计算量大,样本容量大的时候很耗时间;
样本不平衡时,预测的偏差比较大;
每一次分类都要进行一次全局运算;
k的选取;
3、应用
文本分类、模式识别、聚类分析
三、SVM
1、优点
不依赖于需要很大的样本容量,解决小样本下的机器学习问题;
可以解决非线性问题;
没有局部极小值问题,没有梯度的计算;
可以处理高维数据;
泛化能力强;
2、缺点
对缺失数据敏感;
3、应用
文本分类、图像识别、主要二分类领域
四、adaboost
1、优点
很好地利用了弱分类器;
每个弱分类器可以有不同的算法;
精度高;
要充分考虑每个弱分类器的权重;
2、缺点
弱分类器的数目不好设定,需要交叉验证;
数据不平衡会导致精度降低;
耗时;
3、应用
模式识别、计算机视觉、多用于二分类和多分类
五、朴素贝叶斯
1、优点
大量的训练和查询时有较高的速度;
对项目的训练和分类仅仅是特征概率上的数学运算;
可以实时对新增的样本进行训练;
2、缺点
样本特征独立的假设;
3、应用
适用于不同样本之间相关性比较小的时候,比较容易解释;
文本分类、欺诈检测、垃圾邮件;
六、logistic回归
1、优点
简单易于理解和实现
2、缺点
易欠拟合;
精度不高;
3、应用
二分类领域,得出概率值;
适用于根据分类概率排名的领域,如搜索排名;
扩展softmax应用于多分类,如手写数字识别;
七、神经网络
1、优点
分类准确度高、学习能力强;
容错性和鲁棒性好;
联想能力,能逼近任意非线性关系;
2、缺点
参数多、权值、阈值等等;
黑盒,不能观察中间结果;
学习过程长,易过拟合;
3、应用
计算机视觉、语音识别、自然语言处理
八、随机森林
改善了决策树容易被攻击的弱点,不需要调整太多的参数