机器学习基本认识

0. 概述

数据挖掘主要包括数据库、机器学习、统计学三个方面的知识。机器学习主要是数据、模型、评估。模型主要是函数集、损失函数（如何从函数集中找最优的一个函数）、求解过程。

机器学习的应用，应注意具体的场景，基本的假设和数据的情况。

1. 特征工程

1.1 归一化

1.2 类别特征

1.3 组合特征

1.4 不平衡数据

在两类数据的预测时，例如癌症患者诊断，搜索结果等。癌症患者诊断中，希望分类器低的假阴性率，即减少将癌症患者误诊为健康。因为，即使将健康人诊断为癌症（假阳性），也还是可以复查的；而将癌症患者误诊为健康，则会错过治疗时间。搜索结果，则相反，希望分类器将更多的相关结果返回，即更大的召回率。因为，返回结果中包括一些无关结果也是可以接受的，但是相关结果没过出来就不好。当然，无关结果太多也不好。上面的癌症患者和相关结果就是关心的正样本，而且相同的时正样本占比很小。

处理这个问题，可以从数据集、模型、评估，三个方面入手。

模型一般都是假定类平衡分布和相等的错误代价，所以传统分类算法不适合不平衡数据。可以使用组合技术，即集成学习。

另个，是阈值移动，例如对于返回概率的模型，从0.5降到0.4，使正样本容易分类。分类器包括：朴素贝叶斯，后向传播类的神经网络。

更改模型的评估指标。在不同的场景，可以更关心某一个指标。

数据集入手，包括：

过抽样：对正样本重复采样，使正样本和负样本的个数相同。
欠抽样：减少负样本的数量，使负样本和正样本的个数相同。

过抽样和欠抽样都改变训练集的分布。过抽样的方法，如SMOTE算法。

阈值移动和组合技术优于过抽样和欠抽样。
对于多分类，没有好的解决方案。

2. 模型评估

2.1 评价指标

2.2 过拟合与欠拟合

2.3 超参数选择

3. 算法

3.1 算法分类

算法的分类方法有很多种。按是否有标签，可以分为有监督和无监督模型。按数据的情况来分类，可以分为分类、关联规则、聚类、回归、离群点检测等。

机器学习算法分类

图机器学习算法分类

3.2 逻辑回归

3.3 决策树

3.4 支持向量机

3.5 朴素贝叶斯

3.6 KMeans

4. 降维

4.1 主成分分析PCA

4.2 线性判别分析

5. 集成学习

集成学习（ensemble learning, 系综）是用多个分类器的投票来进行分类。分类器，即为基分类器可以是决策树、逻辑回归、支持向量集等前面的算法，但是一般用决策树比较多。

主要思想是将许多简单模型组合起来，共同回答同一个问题，这样得到的结果可能比一个模型的结果更接近真实答案。但是如何将这些模型给的结果组合起来，得到一个结果呢？这就有许多方法了。

主要有bagging, boosting, 随机森林。

5.1 bagging

bagging（装袋）就是将训练数据作为超参数，对训练数据进行有放回的采样，得到子集。然后一个子集训练一个基分类器。最终，基分类器的组合，就是最终的bagging模型。

pasting与bagging不同的是，采样是不放回的。这种模型一般用在在线和大数据集的情形下。

上述两个方法的评价：

与单个分类器相比，准确率会有提升。
对于噪声数据和过拟合的影响，鲁棒性更好。
总的来说，最终结果与直接在原始训练集上训练的单个预测器相比，集成的偏差相近，但是方差更低。
更容易并行化或者扩展。

5.2 Boosting

boosting（提升法）的总体思路是循环训练基分类器，每一次都更关注其前序的”错误“。最终，组合每个分类器的表决，其中每个分类器的投票的权重是其准确率的函数。

其中，前一个分类器的”错误“有多种提升方式。一个是对训练数据中每个数据的权重进行调整；一个是对前一个分类器的残差进行训练学习。

有AdaBoost（自适应提升法，adaptive boosting）和梯度提升。

5.3 随机森林

每个分类器都是一棵决策树，因此分类器的集合就是一个”森林“。

数据集D, 包括F个属性，基分类器为M, 模型个数为k个。

随机森林使用bagging和随机属性选择结合来构建。过程是，在构建第i个分类器\(M_i\)时，随机抽样数据集\(D_i\), 随机选择属性\(F_i\)个，且\(F_i << F\). 这样的随机森林为Forest-RI.

另一种方式为Forest-RC，是使用属性的随机线性组合。在树结点，选择L个原属性，从[-1,1]中随机选择一个数作为系数相加，最终得到\(F_i\)个属性，然后搜索最佳划分。在属性较少时，很有用。

对于错误和离群点更鲁棒
准确率依赖于分类器的个体实力和它们之间的相关性
由于每次划分可以只考虑少量属性，因此适合大型数据库。

5.4 GBDT

6. 深度学习

6.1 分类

6.2 基础

6.3 CNN

6.4 RNN

6.5 强化学习

posted @ 2020-08-28 15:56 mszhai 阅读(487) 评论(0) 编辑收藏举报

刷新页面返回顶部

mszhai

机器学习基本认识

机器学习基本认识

0. 概述

1. 特征工程

1.1 归一化

1.2 类别特征

1.3 组合特征

1.4 不平衡数据

2. 模型评估

2.1 评价指标

2.2 过拟合与欠拟合

2.3 超参数选择

3. 算法

3.1 算法分类

3.2 逻辑回归

3.3 决策树

3.4 支持向量机

3.5 朴素贝叶斯

3.6 KMeans

4. 降维

4.1 主成分分析PCA

4.2 线性判别分析

5. 集成学习

5.1 bagging

5.2 Boosting

5.3 随机森林

5.4 GBDT

6. 深度学习

6.1 分类

6.2 基础

6.3 CNN

6.4 RNN

6.5 强化学习

公告