机器学习 总章

分类

含义:标识对象的所属类别

类别:监督学习

算法:SVM、KNN、随机森林、决策树、贝叶斯

 

回归

含义:预测与对象关联的连续值属性

类别:监督学习

算法:SVR、KNN、随机森林、随机梯度下降、多项式回归、logistic回归

 

聚类

含义:自动将相似对象归为一组

类别:无监督学习

算法:K-均值、谱聚类、MeanShift

 

降维

含义:减少要考虑的随机变量的数量

类别:预处理

算法:PCA(主成分分析:可以对数据进行线性变换,同时降低数据的维数并保留大部分可解释的方差。64x64像素的灰度图像,数据的维数为4096,通过PCA降维至200维)

ICA(独立成分分析将一个多元信号分解成独立性最强的可加子成分。通常,ICA不用于降低维度,而是用于分离叠加信号。)

 

模型选择

含义:比较、验证和选择参数及模型

应用:通过参数调整改进模型精度

算法:网格搜索、交叉验证、指标和评分(准确度、精确度、召回率、f1值)、混淆矩阵

 

预处理

含义:特征提取和归一化

应用:转换输入数据,例如文本,以供机器学习算法使用

算法:标准化(映射为均值为0、方差为1)、归一化(去量纲)、离散化(将连续特征划分为离散值的方法)、插补缺失值

 

集成

含义:将几个基估计器的预测与给定的学习算法结合起来,以提高单个估计器的通用性和鲁棒性。

种类:

1)平均法(averaging methods)中,该方法的原理是构建多个独立的估计器,然后取它们的预测结果的平均。一般来说,组合之后的估计器是会比单个估计器要好的,因为它的方差减小了。

算法:Bagging methods(bagging方法形成了一类算法,它在原始训练集的随机子集上建立几个黑箱估计器的实例,然后将它们的个体预测聚合起来,形成最终的预测。减少过度拟合)

投票分类器(结合了多个不同的机器学习分类器,并且采用多数表决(majority vote)(硬投票) 或者平均预测概率(软投票)的方式来预测分类标签。 这样的分类器可以用于一组同样表现良好的模型,以便平衡它们各自的弱点)、

投票回归器(将上不同的机器学习回归器组合起来,并返回平均预测值。这样的回归器对于一组同样表现良好的模型是有用的,以平衡它们各自的弱点。)

2)提升法(boosting methods)中,基估计器是按顺序建立的,并且试图减小组合估计器的偏差。其动机是将几个弱模型结合起来,形成一个强大的整体。

算法:AdaBoost(用反复调整的数据来训练一系列的弱学习器(一个弱学习器模型仅仅比随机猜测好一点, 比如一个简单的决策树),由这些弱学习器的预测结果通过加权投票(或加权求和)的方式组合, 产生最终的预测结果。在给定的一个迭代中, 那些在上一轮迭代中被预测为错误结果的样本的权重将会被增加,而那些被预测为正确结果的样本的权重将会被降低。随着迭代次数的增加,那些难以预测的样例的影响将会越来越大,每一个随后的弱学习器都将会被强迫更加关注那些在之前被错误预测的样例)

区别:bagging方法提供了一种减少过度拟合的途径,因此对强大模型和复杂模型(例如,充分生长的决策树)最有效,与之对比的提升法在弱模型(例如浅层决策树)上表现最好。

posted @ 2022-12-27 20:02  wangssd  阅读(50)  评论(0编辑  收藏  举报