模型选择的一些基本思想和方法

0. 引言

有监督学习是日常使用最多的建模范式，它有许多更具体的名字，比如预测模型、回归模型、分类模型或者分类器。这些名字或来源统计，或来源于机器学习。关于统计学习与机器学习的区别已经有不少讨论，不少人认为机器学习侧重于目标预测，而统计学习侧重于机制理解和建模。个人更加直观的理解是，统计学习侧重于从概率分布来描述数据生成机制，除了预测之外，还关心结果（参数假设、误差分布假设）的检验，而机器学习侧重于从函数拟合角度来描述数据生成机制，基本目的就是为了拟合和预测，缺乏严谨的参数、误差的检验机制，比如下式：

Y = f (X) + ϵ

1. 统计学习目标是获取

不过即使有上述区别，关于高维统计推断（Lasso类带正则项的线性模型）的理论也逐渐完善，但相对于传统的生物制药、生物实验、社会调查、经济分析等领域，当前图像、文本、推荐系统等应用领域中，人们更关心模型的预测能力，而不是解释能力甚至是模型的可靠性，主要原因即这些领域模型预测能力相比于模型的假设检验要重要得多，因此如何根据模型预测能力来选择最优模型变得越来越重要。本文下面就逐步介绍模型选择的思路和方法，主要参考ELS这本书。

1. 偏移、方差、复杂度和模型选择

模型的预测能力通常也被称作模型的泛化能力，表示模型在新的、独立的测试数据上的预测能力。在很多关于模型泛化能力的介绍中，我们总会看到这样一幅图：模型在训练集上的训练误差与在测试集上的测试误差的变化趋势对比。

图上横轴表示模型的复杂度大小（比如线性模型中特征维度大小），纵轴表示预测误差，衡量预测值与真实值间的平均损失大小

* 训练误差（浅蓝色）和测试误差（浅红色）都有波动，并不是一个稳定的值，并且随着模型复杂度的增加，训练误差（浅蓝色）波动越来越小，而测试误差（浅红色）波动则越来越大；
* 随着模型复杂度增加，训练误差（浅蓝色）和平均训练误差（粗蓝线）越来越小，但测试误差（浅红色）和平均测试误差（粗红线）先降低后减小，在相对中间的位置有一个最小值。

看到这上面的现象，我们的脑中可能会冒出下面几个问题：

1. 为什么训练误差和测试误差会有波动？
2. 训练误差和测试误差的变化趋势说明了什么问题？
3. 造成这种变化趋势的原因是什么？
4. 这种趋势对模型的选择和评价有什么指导意义？

这四个问题由浅入深，最终目的就是想获取泛化能力最好和最稳定的预测模型。在回答这四个问题前，我们首先需要做一个假设：模型能够较好的预测，说明预测集与训练集有较好的相似性，更严格来说，很可能来源于同一分布，下文做分析时均假设来源于统一总体分布。如果测试集相对于训练集发生了巨大的变化，那么从训练到预测的思路将不可行。下面我们逐步来解答这四个问题。

1.1 为什么训练误差和测试误差会有波动？

现假设我们有个研究项目，想根据学生的平时表现和性格的

对应到上文的图，其实上图的波动产生的原因也和该例子操作是一样的，有多条线就意味着重复抽了多组训练集来分别训练，因此训练误差和测试误差的波动是由训练样本的变化带来的。在理想的实验条件下，为了能公正地衡量模型的预测能力，通常需要多换几组训练集和测试集来综合评价模型的预测能力，这样的结果才可能让人更信服模型的预测能力，而不是偶然结果。

但是实际情况中，我们却可能仅有一个训练集和一个测试集。用数学化语言描述，新的测试集中，目标变量

Err T = E X 0, Y 0 (L (Y 0, f^(X 0)) | T)

这里训练集

Err = E (L (Y 0, f^(X 0))) = E T [Err T]

这个目标即上图预测误差波动想要表达的含义，想要通过多个训练集训练来获取平均的预测误差，抹平训练集变动带来的影响，这是评价模型预测能力最理想方法，可以防止某个训练集上训练所得模型表现过好而夸大模型的预测能力。但是实际情况中，我们手边通常可能只有一个训练集，实际的需求是在此训练集上模型做到最好，所以

换句话说，很多时候人们给你一个训练集就希望你能够给他一个相对最稳定的预测模型，这个目标相对获取平均预测误差来说更难，后续模型选择方法比如CV法、bootstrap法、Cp法等其实都是估计测试误差的期望，即第一幅图中的红色均线。

1.2 训练误差和测试误差的变化趋势说明了什么问题？

图上反映的两个现象一句话表示即：随着模型复杂度增加，训练误差波动降低，平均训练误差降低趋向于0，而测试误差波动上升，平均测试误差先降低后升高。这个现象说明训练误差不能代替测试误差来作为模型选择和评价的手段。随着模型复杂度变化，训练误差与测试误差并不是一个良好的正相关关系，而是呈现较为复杂的非线性关系。用数学式子表示即

Err T err ¯ \neq d f \to \infty C o n s t

用更通俗的话说，复杂的模型可能在训练集上拟合的很好，但是面对新的测试集，预测误差不降反升，发生了所谓的“过拟合”现象。如果一个模型在不同的测试集上测试结果不仅波动性大，而且预测误差也比较大，就要警惕发生了过拟合现象，此时不妨将模型的复杂度降低些（关于模型的复杂度含义下文会做更细致的说明），即使用变量更少的简单模型，比如线性模型。

过拟合的原因有很多，其中一个很可能的原因是，随着模型复杂度升高，对于训练数据刻画的很细，但是训练数据中可能某些特征仅出现过一次或者很少，信息不足，而测试集中该特征却出现了很多其他的值，虽然模型在训练集上刻画的足够细致，但是由于测试集的变动，模型反而往测试机上的迁移性能下降，训练误差变化并不正比于测试误差。

1.3 造成预测误差变化趋势的原因是什么？

那究竟是什么原因导致了随着模型复杂度增加，训练误差与测试误差不呈现良好的正比关系呢？为何同样都是预测误差，训练误差很小的模型反而预测能力很差呢？下面我们以线性模型为例来阐释原因，假设

y = f (x) + ϵ,

如果用线性函数

β * = arg min β E X (f (X) - X T β) 2

在某个新样本点

Err (x 0) = = E [(y 0 - f^p (x 0)) 2 | X = x 0]

如果

1 N \sum i = 1 N Err ( x i ) = = σ 2 ϵ  I r r e d u c

对于普通线性模型易知其“估计偏移（Estimation Bias）”为0（最小二乘估计也是线性估计类中的最佳估计），易知随着特征个数

这与上图测试集误差变化一致。另外，之所以特地提到还有“估计偏移”，因为对于线性模型类，还有其他诸如岭回归、Lasso等受限的回归类别，他们都属于线性模型类，相比纯线性模型，他们由于对回归系数做了不同程度的压缩，因此相比于最佳线性估计

箭头组合长短即表示了平均预测误差，可以看到在受限模型空间中由于较小的模型估计方差，可能使得整体的平均预测误差更小。

1.4 对模型选择和评价有什么指导意义？

从“偏移-方差”分解可以看到，在有限的模型空间中，对某个模型类控制好模型的复杂度非常重要，否则不容易获取较好（包含稳定与预测误差小两方面）的预测模型，这便是模型选择阶段的工作。可能不少人觉得此处获取较好模型是指模型评价，但是模型评价与模型选择是两个不同的概念，代表两个不同的阶段：

* 模型选择：根据一组不同复杂度的模型表现，即从某个模型空间中挑选最好的模型；
* 模型评价：选择一个（最好）模型后，在新的数据上来评价其预测误差等评价指标。

从定义看，两者的目标不同，模型评价是模型选择的后一步。换句话说，模型选择是在某个模型类中选择最好的模型，而模型评价对这个最好的模型进行评价。模型评价可以比较多个模型类中的最佳模型，然后从中挑选出最佳模型，亦或者进行模型融合再进行评价。在模型选择阶段，常见的指标有AIC准则、BIC准则、CV值、结构风险上界等比较普适的准则，而在模型评价阶段，我们可以根据分类、回归、排序等不同问题关心的问题选择不同的评价指标，多与模型选择时的损失不同：（1）分类：ROC、AUC、TPR、FPR、F1 score；（2）排序：DCG、NDCG；（3）回归：RMSE、MAE、Deviance。根据具体业务，实际的评价指标有很多种，最好的方式当然是模型选择时即设计其损失函数即为评价指标，但是通常而言这些指标包含了某些非线性变化，优化起来难度颇大，因此实际模型选择仍是选用经典的那些损失函数，而模型评价则会与其略有不同。

随着机器学习普及，大家都有了“训练-验证-评价”的思维，这其实就是完整重现模型选择、模型评价的过程。如下图我们将数据集分成三个不相交的集合来做模型选择和模型评价：

* 训练集：获得模型及其训练误差，用来训练不同模型；
* 验证集：与训练集相对独立，获取训练模型在该集上的预测误差，用来做模型选择；
* 测试集：与训练集和验证集独立，获得真实的测试误差和其他模型评价指标，用来评价已选择出的模型。

使用训练集、验证集目的就是做模型选择，测试集自然是做模型评价。这三个集合的划分，并没有严格的准则，根据样本大小不同而做不同的选择，但是一个原则是测试集需要保持未知和与训练集、验证集的独立性。在数据挖掘比赛的时候，主办方通常会给我们一个训练集，然后自己持有一个未知的测试集。实际上这个测试集并不是真正的“测试集”，更应该称作“验证集”。因为随着参赛选手不断提交结果，他们在这个数据集也做了很多探索和尝试，能够逐渐发现这个所谓的“测试集”上的规律，模型选择和模型评价都依赖该数据集进行调整，因此从模型评价的独立性角度来说，这并不能当做最终的测试集，往往会低估预测误差，最好的做法是重新更换几组未知的数据集来当做新的“测试集”做模型评价，这也是秉承统计随机的思想——仅仅在某个“测试集”好是不够的（最近ImageNet事件也确实存在这样的问题）。

所以结合文章开始的方差-偏移图，对模型选择和模型评价的指导可以凝缩为一句话：根据已知的训练集和验证集在特定模型空间中进行模型选择，获取合适复杂度的模型，然后在多种模型空间做模型选择获取多种模型，最后的最优模型需要通过多个独立未知的测试集来做模型评价决定，否则很容易导致模型过拟合。（这实际上就是一个完整而规范的机器学习过程。）

2. 模型选择的方法

模型选择核心思想就是从某个模型类中选择最佳模型。注意，它与一般的“调参”意义不同，调参很多时候可能是针对优化算法中的某些参数进行调整，比如步长（学习速率）、mini-batch大小、迭代次数等，也会涉及到模型

从上面叙述可得知模型选择阶段，最标准的方法自然在训练集

1. 从训练集划分点数据出来形成验证集来近似测试误差；
2. 对训练误差进行某种转化来近似测试误差。

第一种思路是非常自然的思路，只要对训练集进行合适的划分，我们就有可能近似出预测误差

第二种思路相比第一种思路更加考虑计算效率，因为重复抽样需要计算多次估计，因此做一次模型选择可能需要花费不少时间，如果单单从训练集的训练误差就可以近似出测试误差

这两种思路在统计学习和机器学习中都有大量应用，相比较而言，统计学习更喜欢第二种解析法，这样容易计算，并且会较好的理论性质（似然角度）；而机器学习则更喜欢第二种重复抽样法和从VC维衍生出来的结构风险最小化法，不需要计算基于分布的似然，普适性更好。

一般而言模型选择准则有如下几种：

* 重复抽样与预测稳定性角度：CV、GCV、Boostrap
* 似然与模型复杂度角度：AIC、AICc、BIC、EBIC
* VC维与风险上界控制角度：SRM

首先我们从更加普适的重复抽样法入手来介绍这些模型选择的方法和思路。

2.1 重复抽样思路

CV法

交叉验证法（CV法）是最自然的重复抽样法，过程如下图所示

将一个训练集随机分成K份（图中所示为5份），然后选择第K份作为验证集（图中为第3份），然后剩余的K-1份作为训练集训练模型，这样便可以得到K个“预测误差”，求其平均值即为所谓的“CV值”，所以常说的CV值实际上是预测误差期望

C V (f^) = 1 N \sum i = 1 N L ( y i , f ^ - τ ( i ) ( x i ) )

如果该模型有调整参数

C V (f^, α) = 1 N \sum i = 1 N L ( y i , f ^ - τ ( i ) ( x i

此时通过调整参数

从CV估计定义可以看到，划分的份数

实际中，训练集切分带来的估计偏误与计算量才是我们真正关心的量。权衡偏误与效率的得失，由于CV对于预测误差的估计与训练样本大小有关，如果本身样本量就不大，交叉验证切分将导致训练样本更少，这会引起更大的估计偏差，所以实际折数

* 样本量大时，5折交叉验证对预测误差估计便足够，并且计算快速；
* 样本量小时，10折甚至LOO都可以，在损失计算效率的情况下优先考虑预测误差估计的准确性。

另外，由于5折或者10折CV估计有偏误，实际模型选择中还使用“one standard error”规则，即不选择CV值最小的模型，而是选择高于最小CV值一个标准差之内的最简模型，比如glmnet通常推荐lambda.1se，即这个准则。原因仍是5或10折CV很可能会低估平均测试误差，所以要保守选择平均预测误差略高于最小CV值得简单模型。

对于交叉验证法的实际操作，我们多半可能还会涉及变量筛选等预处理。对于这类预处理步骤，如果后续使用CV来做模型选择便需要考虑使用顺序的问题，一个使用原则是：

* 如果预处理涉及联合使用自变量

目前变量筛选的方法有很多，传统的有监督包含相关性筛选、熵增筛选等都是有监督方法，由于这种筛选已经利用了全体

另外，在分类问题中，特别是对于类别不平衡问题，由于CV法可能会导致每折中的类分布不一致，使得训练不稳定，因此实际中分层CV（stratified CV）也会使用。其相比较CV的不同之处就是不使用经典CV的均匀随机抽样方法来切分样本，而是根据总体类别比例，对每折都使用依赖于类别比例的分层抽样，保证每折的类别分布与原始数据差不多。学习过分层抽样的同学可能知道，分层抽样可以降低估计量方差，因此实际使用分层CV相比经典CV选择模型可能更稳定些。

GCV

由于计算CV是一个密集计算的模型选择法，即使可以利用并行计算来提高模型选择的效率，但是如果能够找到无需重复计算的替代方法，那么实际应用中，人们可能更倾向于使用这种模型选择方法。对于线性模型，如果使用平方损失，广义交叉验证（GCV）是LOO法解析形式的近似估计，可以避免计算N个模型来快速做模型选择。对于线性模型，对于目标变量的估计可以写成如下投影形式

y^= S y

其中

1 N ( y i - f ^ - i ( x i ) ) 2 = 1 N \sum i = 1 N ( y i

其中

G C V (f^) = 1 N \sum i = 1 N ( y i - f ^ ( x ) 1 - trace ( S

关于CV的衍生方法比较新的时ES-CV，由Yu Bin在2013年提出，不过实际上这种方法对于核心是估计稳定性的定义，CV法只是来改进估计稳定性的一种方式而已，感兴趣的同学可以参考Yu老师的论文。

Bootstrap法

对于bootstrap，不管是统计还是机器学习的同学，可能对这个名词以及实施方式都比较熟悉。bootstrap法由Efron于1979年提出，随后在统计中得到了大量的应用，主要用于解决复杂统计量的置信区间等估计问题；而在机器学习中，由Breiman在94年提出bagging方法（全称为bootstrap aggregating）实际上就是bootstrap的直接应用，它是一种模型组合方法，主要用于分类问题中以获取比较稳定的结果。bootstrap的思路和操作都非常简单，如下图

假设有样本

不过上述都是对于估计量或者模型而言，那么如何利用bootstrap来做模型选择呢？如果我们用着B个模型对每个观测都进行评价，然后求其平均误差

Err^b o o t (α) = 1 B 1 N \sum b = 1 B \sum i = 1 N L ( y i ,

看起来似乎可行，但仔细一思考就可以发现这并不是一个好的平均预测误差的估计，主要原因是bootstrap样本即被训练又被评价，与CV不同训练集被重复分割为独立的训练集与验证集相比，数据评价存在重合，所以

我们知道，bootstrap样本的获取其实就是重复有放回的N次抽样，那么对于观测

P b o o t = 1 - (1 - 1 N ) N ⟶ N \to \infty 1 - 1 / e \sim 0.632

换句话说，每个bootstrap样本中，总有些观测没被抽到，那么根据CV法的思路，这部分观测就可以拿出来作为验证集来作为平均预测误差的估计。
熟悉随机森林或者Bagging的同学对于OOB（out of bag）这个词肯定不陌生。OOB其实就是这种思路，不过只是对未抽中的样本再次做了投票然后再估计预测误差，对于此处我们则不做投票，直接取那些没出现过

Err^(1) b o o t (α) = 1 N \sum i = 1 N 1 C - i \sum b

其中

下面在思考下，这种估计是对平均预测误差估计是个好估计吗？虽然不会像第一个估计量那样低估平均预测误差，但是这种估计量也很容易高估平均预测误差，主要原因是每个bootstrap样本中仅有差不多63.2%的不同观测用来建模，这样使得

不过在大数据时代，分布式思维逐深入统计学家和计算机学家脑中，由于bootstrap具备良好的可并行性，以及良好的统计性质和估计稳定性，Jordan在2012便提出了基于bootstrap的[BLB(Bag of Little Bootstraps)](http://arxiv.org/pdf/1112.5016v2.pdf)，能够给出较稳定的估计量以及估计量的区间估计，这是其他方法不具备的特点。比如能告诉你预测误差大小，同时可以告诉你预测误差的偏误以及方差，那这是不是一件更令人安心的事情呢？在现在这种环境下，与其不停做实验等待结果，不妨考虑下bootstrap这类有可靠性估计的方法的好处。BLB的算法思路很清晰，简单来说：subsampling + bootstrap + average；先无放回抽样，然后bootstrap抽样，获取参数bootstrap估计量，以及其置信区间、偏移、预测误差等估计量，最后将这些估计量平均起来即可。细节可以参考其论文，只要有多机可并行环境便可很容易实施该方法。

bootstrap思想是一种非常重要思想，后来著名的random forest便充分利用了该思路。而且相比目前的数据并行、模型并行的分布式算法思路，我觉得可以从bootstrap抽样角度获取更加稳定的估计量，当然这些都是题外话，与本文话题不相符合，以后可以再谈谈抽样与并行算法之间的感想，实际上都会在“计算效率”与“精度”之间做些权衡。

2.2 解析解思路

根据上述重复抽样法可知，CV等方法直接来估计“样本外误差”，并求其期望，而解析解思路由于不像CV法通过原始训练集切分构建验证集，仅仅从训练集出发，构建训练误差与“样本内误差”间等式关系，因此需要深刻理解训练误差、“样本内误差”、模型复杂度这几个概念，才能较好的理解为何解析解思路的那几个准则是有效的。

2.2.1 训练误差与样本内误差

在本文第一节提到，实际应用中通常只有一个训练集

在第一部分关于

由于

Err i n = 1 N \sum i = 1 N E Y 0 i [ L ( Y 0 i , f ^ ( x i ) )

由于

op \equiv Err i n - e r r ¯

为更便于理解，以平方损失和线性模型为，且预测值

op \equiv 1 N \sum i = 1 N [ E Y 0 i ( Y 0 i - y ^ i ) 2 - ( y i -

ω \equiv E y (op) \equiv 1 N \sum i = 1 N [ E y i E

于是我们便得到了如下非常重要的关系式

E y (Err i n) = E y (e r r ¯) + 2 N \sum i = 1 N Cov

\sum i = 1 N Cov (y i, y^i) = \sum i = 1 N Cov (y i, S y i) = trace (

其中

2.2.2 Cp法与AIC

借助上述训练误差与样本内误差的关系式，实际中我们便可以这样来对“样本内误差”做这样的估计

E r r^i n = e r r ¯ + ω^

对于平方损失下的线性模型（注意此时的损失限制），所谓的Cp准则即为

C p = e r r ¯ + 2 \cdot d N σ ^ 2 ϵ

AIC准则与之略有差异，训练误差选用似然函数的负数来代替，而

AIC = - 2 N \cdot loglike + 2 \cdot d N

对于误差为已知方差的高斯模型，化简似然函数便可知AIC就等价于Cp准则。对似然函数化简，可以得到对应的不同的各类损失，比如高斯模型与平方损失的对应，logistic模型与cross entropy损失的对应等，所以相比仅只适用于平方损失线性模型的Cp准则，AIC适用范围更广。实际使用中，AIC做模型选择更倾向于选择比真实模型更多参数的模型，容易低估“样本外误差”，有**过拟合的倾向**。

另外AIC准则还与KL距离有紧密联系，可以从KL距离来推出AIC准则，感兴趣的同学可以参考这篇文档中关于AIC的介绍。而关于AIC的校正版AICc准则，实际中也有使用，关于其介绍可直接参考wiki。

2.2.3 BIC与贝叶斯

BIC准则形式项与AIC很像，同样还是似然负数作为损失，然后加上一个关于自由度与样本相关的项。

BIC = - 2 \cdot loglike + (log N) \cdot d

BIC = N σ 2 ϵ [ e r r ¯ + ( log N ) \cdot d N σ 2 ϵ ]

从贝叶斯角度来看，模型选择无非就是依托于当前样本数据

P (M m | X) = P ( M m ) \cdot P ( X |

对于模型选择而言，我们并不需要作上述复杂的积分，只需要比较模型后验概率的相对大小即可，这样的好处是忽略常数项是的计算简便了很多

P ( M m | X ) P ( M l | X ) = P ( M m ) P (

- BIC \approx log (X | M m) = log P (X | θ^m, M m) -

其中，

（注：一句话阐述Laplace技巧即，对于复杂概率函数的似然求解，我们可以将其在参数的极大似然估计处做二阶泰勒展开，根据似然函数在MLE估计处的一阶导为0的性质，原始的概率函数可凑成正态密度函数的形式，于是复杂概率函数就可以用均值和方差均可求的正态分布来近似。）

有了BIC值，我们也可以直接给出每个模型

P (M m | X) = exp ( - 1 2 \cdot BIC m ) \sum M l = 1 exp ( - 1

虽然在样本量大且变量维数固定时，BIC准则有模型渐进一致性，但是面对实际有限的样本，BIC相比AIC的过拟合又会欠拟合，对模型复杂度控制太严格，导致选择相对过于简单的模型。另外，BIC在模型特征维度

EBIC法主要的改进思路是对模型先验分布

为了改进这种所有BIC所有模型等同视之的思路，EBIC略作了改动，对于属于同一个模型集合

EBIC γ = - log P (X | θ^m, M m) + d m 2 \cdot log N + γ log π

其中

3. 总结

其他模型选择方法还有“最小描述长度（MDL）”和“基于VC维的最小结构风险法（VC-SRM）”。这两种方法一个从最优编码的角度，一个从数据可分性角度分别来阐述模型选择，感兴趣同学可以学习这两种思想，不过由于方法各有缺陷，实际应用较少。

总之，对于模型选择方法，实际中由于CV法、GCV法的通用性，不管在计算机还是统计领域中都大量应用。而其他的BIC等法则，由于计算快速且有良好的理论性质，统计领域的研究者可能更加喜欢这类方法。不过由于他们基于似然并不是通用框架，并且对于预测来说，根植于样本内误差做的模型选择，模型预测能力很可能不如预期，因此实际应用，我们也更加推荐CV法、GCV法来做模型选择，毕竟现在计算能力如此强大，并行处理也比较方便，而且方法也比较灵活，可以模型选择，也可以模型组合。通过学习这些方法，我们可以充分感受到不同学科的思考方式，通常而言，简单的方法会比较可靠，但是可能需要大量计算来验证、评价；而需要绕些脑子的方法，多半是为了能够进一步简化运算而推演的，这样可能会认识到更深刻的规律，但也可能会使用不少近似的方法来损失精度。对于现实计算而言，“效率-精度”总是一个绕不开的话题，以后有机会我们可以再谈谈这个问题。

posted @ 2015-08-31 18:39 菜鸡一枚阅读(1833) 评论(0) 收藏举报

刷新页面返回顶部

菜鸡一枚

模型选择的一些基本思想和方法

模型选择的一些基本思想和方法

0. 引言

1. 偏移、方差、复杂度和模型选择

1.1 为什么训练误差和测试误差会有波动？

1.2 训练误差和测试误差的变化趋势说明了什么问题？

1.3 造成预测误差变化趋势的原因是什么？

1.4 对模型选择和评价有什么指导意义？

2. 模型选择的方法

2.1 重复抽样思路

CV法

GCV

Bootstrap法

2.2 解析解思路

2.2.1 训练误差与样本内误差

2.2.2 Cp法与AIC

2.2.3 BIC与贝叶斯

3. 总结

公告