机器学习（ML）七之模型选择、欠拟合和过拟合

训练误差和泛化误差

需要区分训练误差（training error）和泛化误差（generalization error）。前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数，例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数。

直观地解释训练误差和泛化误差这两个概念。训练误差可以认为是做往年高考试题（训练题）时的错误率，泛化误差则可以通过真正参加高考（测试题）时的答题错误率来近似。假设训练题和测试题都随机采样于一个未知的依照相同考纲的巨大试题库。如果让一名未学习中学知识的小学生去答题，那么测试题和训练题的答题错误率可能很相近。但如果换成一名反复练习训练题的高三备考生答题，即使在训练题上做到了错误率为0，也不代表真实的高考成绩会如此。

机器学习里，我们通常假设训练数据集（训练题）和测试数据集（测试题）里的每一个样本都是从同一个概率分布中相互独立地生成的。基于该独立同分布假设，给定任意一个机器学习模型（含参数），它的训练误差的期望和泛化误差都是一样的。例如，如果我们将模型参数设成随机值（小学生），那么训练误差和泛化误差会非常相近。

模型的参数是通过在训练数据集上训练模型而学习出的，参数的选择依据了最小化训练误差（高三备考生）。所以，训练误差的期望小于或等于泛化误差。也就是说，一般情况下，由训练数据集学到的模型参数会使模型在训练数据集上的表现优于或等于在测试数据集上的表现。由于无法从训练误差估计泛化误差，一味地降低训练误差并不意味着泛化误差一定会降低。

机器学习模型应关注降低泛化误差。

模型选择

在机器学习中，通常需要评估若干候选模型的表现并从中选择模型。这一过程称为模型选择（model selection）。可供选择的候选模型可以是有着不同超参数的同类模型。以多层感知机为例，我们可以选择隐藏层的个数，以及每个隐藏层中隐藏单元个数和激活函数。为了得到有效的模型，我们通常要在模型选择上下一番功夫。下面，我们来描述模型选择中经常使用的验证数据集（validation data set）。

验证数据集

测试集只能在所有超参数和模型参数选定后使用一次。不可以使用测试数据选择模型，如调参。由于无法从训练误差估计泛化误差，因此也不应只依赖训练数据选择模型。鉴于此，我们可以预留一部分在训练数据集和测试数据集以外的数据来进行模型选择。这部分数据被称为验证数据集，简称验证集（validation set）。例如，我们可以从给定的训练集中随机选取一小部分作为验证集，而将剩余部分作为真正的训练集。

然而在实际应用中，由于数据不容易获取，测试数据极少只使用一次就丢弃。因此，实践中验证数据集和测试数据集的界限可能比较模糊。从严格意义上讲，除非明确说明，否则中实验所使用的测试集应为验证集，实验报告的测试结果（如测试准确率）应为验证结果（如验证准确率）。

$K$

欠拟合和过拟合

模型训练中经常出现的两类典型问题：

1、模型无法得到较低的训练误差，一现象称作欠拟合（underfitting）；

2、模型的训练误差远小于它在测试数据集上的误差，该现象为过拟合（overfitting）。

在实践中，我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题，在这里我们重点讨论两个因素：模型复杂度和训练数据集大小。

模型复杂度

为了解释模型复杂度，以多项式函数拟合为例。给定一个由标量数据特征 $x$

$x$

来近似y。在上式中，w_k是模型的权重参数，b是偏差参数。与线性回归相同，多项式函数拟合也使用平方损失函数。特别地，一阶多项式函数拟合又叫线性函数拟合。

因为高阶多项式函数模型参数更多，模型函数的选择空间更大，所以高阶多项式函数比低阶多项式函数的复杂度更高。因此，高阶多项式函数比低阶多项式函数更容易在相同的训练数据集上得到更低的训练误差。给定训练数据集，模型复杂度和误差之间的关系通常如下图所示。给定训练数据集，如果模型的复杂度过低，很容易出现欠拟合；如果模型复杂度过高，很容易出现过拟合。应对欠拟合和过拟合的一个办法是针对数据集选择合适复杂度的模型。

训练数据集大小

影响欠拟合和过拟合的另一个重要因素是训练数据集的大小。一般来说，如果训练数据集中样本数过少，特别是比模型参数数量（按元素计）更少时，过拟合更容易发生。此外，泛化误差不会随训练数据集里样本数量增加而增大。因此，在计算资源允许的范围之内，我们通常希望训练数据集大一些，特别是在模型复杂度较高时，例如层数较多的深度学习模型。

权重衰减

模型的训练误差远小于它在测试集上的误差。虽然增大训练数据集可能会减轻过拟合，但是获取额外的训练数据往往代价高昂。应对过拟合问题的常用方法：权重衰减（weight decay）。

方法

权重衰减等价于

丢弃法

除了权重衰减以外，深度学习模型常常使用丢弃法（dropout）来应对过拟合问题。丢弃法有一些不同的变体。本节中提到的丢弃法特指倒置丢弃法（inverted dropout）。

方法

“多层感知机”描述了一个单隐藏层的多层感知机。其中输入个数为4，隐藏单元个数为5，且隐藏单元 $h_{i}$

$h_{i}$

多项式函数拟合实验代码

  1 #!/usr/bin/env python
  2 # coding: utf-8
  3 
  4 # In[1]:
  5 
  6 
  7 get_ipython().run_line_magic('matplotlib', 'inline')
  8 import d2lzh as d2l
  9 from mxnet import autograd, gluon, nd
 10 from mxnet.gluon import data as gdata, loss as gloss, nn
 11 
 12 
 13 #  生成数据集
 14 # 
 15 # 我们将生成一个人工数据集。在训练数据集和测试数据集中，给定样本特征x，我们使用如下的三阶多项式函数来生成该样本的标签：
 16 # $$y = 1.2x - 3.4x^2 + 5.6x^3 + 5 + \epsilon,$$
 17 # 其中噪声项ϵ服从均值为0、标准差为0.1的正态分布。训练数据集和测试数据集的样本数都设为100。
 18 
 19 # In[2]:
 20 
 21 
 22 n_train, n_test, true_w, true_b = 100, 100, [1.2, -3.4, 5.6], 5
 23 features = nd.random.normal(shape=(n_train + n_test, 1))
 24 poly_features = nd.concat(features, nd.power(features, 2),
 25                           nd.power(features, 3))
 26 labels = (true_w[0] * poly_features[:, 0] + true_w[1] * poly_features[:, 1]
 27           + true_w[2] * poly_features[:, 2] + true_b)
 28 labels += nd.random.normal(scale=0.1, shape=labels.shape)
 29 
 30 
 31 # In[3]:
 32 
 33 
 34 #查看生成的数据集的前两个样本
 35 features[:2], poly_features[:2], labels[:2]
 36 
 37 
 38 # In[4]:
 39 
 40 
 41 # 定义作图函数semilogy，其中 y 轴使用了对数尺度。
 42 # 本函数已保存在d2lzh包中方便以后使用
 43 def semilogy(x_vals, y_vals, x_label, y_label, x2_vals=None, y2_vals=None,
 44              legend=None, figsize=(3.5, 2.5)):
 45     d2l.set_figsize(figsize)
 46     d2l.plt.xlabel(x_label)
 47     d2l.plt.ylabel(y_label)
 48     d2l.plt.semilogy(x_vals, y_vals)
 49     if x2_vals and y2_vals:
 50         d2l.plt.semilogy(x2_vals, y2_vals, linestyle=':')
 51         d2l.plt.legend(legend)
 52 
 53 
 54 # 和线性回归一样，多项式函数拟合也使用平方损失函数。因为我们将尝试使用不同复杂度的模型来拟合生成的数据集，所以我们把模型定义部分放在fit_and_plot函数中。多项式函数拟合的训练和测试步骤与“softmax回归的从零开始实现”一节介绍的softmax回归中的相关步骤类似。
 55 
 56 # In[5]:
 57 
 58 
 59 num_epochs, loss = 100, gloss.L2Loss()
 60 
 61 def fit_and_plot(train_features, test_features, train_labels, test_labels):
 62     net = nn.Sequential()
 63     net.add(nn.Dense(1))
 64     net.initialize()
 65     batch_size = min(10, train_labels.shape[0])
 66     train_iter = gdata.DataLoader(gdata.ArrayDataset(
 67         train_features, train_labels), batch_size, shuffle=True)
 68     trainer = gluon.Trainer(net.collect_params(), 'sgd',
 69                             {'learning_rate': 0.01})
 70     train_ls, test_ls = [], []
 71     for _ in range(num_epochs):
 72         for X, y in train_iter:
 73             with autograd.record():
 74                 l = loss(net(X), y)
 75             l.backward()
 76             trainer.step(batch_size)
 77         train_ls.append(loss(net(train_features),
 78                              train_labels).mean().asscalar())
 79         test_ls.append(loss(net(test_features),
 80                             test_labels).mean().asscalar())
 81     print('final epoch: train loss', train_ls[-1], 'test loss', test_ls[-1])
 82     semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'loss',
 83              range(1, num_epochs + 1), test_ls, ['train', 'test'])
 84     print('weight:', net[0].weight.data().asnumpy(),
 85           '\nbias:', net[0].bias.data().asnumpy())
 86 
 87 
 88 # ### 三阶多项式函数拟合（正常）
 89 # 我们先使用与数据生成函数同阶的三阶多项式函数拟合。实验表明，这个模型的训练误差和在测试数据集的误差都较低。训练出的模型参数也接近真实值：$$w_1 = 1.2, w_2=-3.4, w_3=5.6, b = 5$$
 90 
 91 # In[6]:
 92 
 93 
 94 fit_and_plot(poly_features[:n_train, :], poly_features[n_train:, :],
 95              labels[:n_train], labels[n_train:])
 96 
 97 
 98 # ### 线性函数拟合（欠拟合）
 99 # 我们再试试线性函数拟合。很明显，该模型的训练误差在迭代早期下降后便很难继续降低。在完成最后一次迭代周期后，训练误差依旧很高。线性模型在非线性模型（如三阶多项式函数）生成的数据集上容易欠拟合。
100 
101 # In[7]:
102 
103 
104 fit_and_plot(features[:n_train, :], features[n_train:, :], labels[:n_train],
105              labels[n_train:])
106 
107 
108 # ### 训练样本不足（过拟合）
109 # 事实上，即便使用与数据生成模型同阶的三阶多项式函数模型，如果训练样本不足，该模型依然容易过拟合。让我们只使用两个样本来训练模型。显然，训练样本过少了，甚至少于模型参数的数量。这使模型显得过于复杂，以至于容易被训练数据中的噪声影响。在迭代过程中，尽管训练误差较低，但是测试数据集上的误差却很高。这是典型的过拟合现象。
110 
111 # In[8]:
112 
113 
114 fit_and_plot(poly_features[0:2, :], poly_features[n_train:, :], labels[0:2],
115              labels[n_train:])

View Code

高维线性回归实验

# ### 高维线性回归实验
# 以高维线性回归为例来引入一个过拟合问题，并使用权重衰减来应对过拟合。设数据样本特征的维度为p。对于训练数据集和测试数据集中特征为$x_1, x_2, \ldots, x_p$的任一样本，我们使用如下的线性函数来生成该样本的标签：
# $$y = 0.05 + \sum_{i = 1}^p 0.01x_i + \epsilon,$$
# 其中噪声项$\epsilon$服从均值为0、标准差为0.01的正态分布。为了较容易地观察过拟合，我们考虑高维线性回归问题，如设维度p=200；同时，我们特意把训练数据集的样本数设低，如20。

# In[10]:


get_ipython().run_line_magic('matplotlib', 'inline')
import d2lzh as d2l
from mxnet import autograd, gluon, init, nd
from mxnet.gluon import data as gdata, loss as gloss, nn

n_train, n_test, num_inputs = 20, 100, 200
true_w, true_b = nd.ones((num_inputs, 1)) * 0.01, 0.05

features = nd.random.normal(shape=(n_train + n_test, num_inputs))
labels = nd.dot(features, true_w) + true_b
labels += nd.random.normal(scale=0.01, shape=labels.shape)
train_features, test_features = features[:n_train, :], features[n_train:, :]
train_labels, test_labels = labels[:n_train], labels[n_train:]


# In[11]:


def init_params():
    w = nd.random.normal(scale=1, shape=(num_inputs, 1))
    b = nd.zeros(shape=(1

DROPOUT代码实现

 1 # ### dropout代码实现
 2 
 3 # In[17]:
 4 
 5 
 6 import d2lzh as d2l
 7 from mxnet import autograd, gluon, init, nd
 8 from mxnet.gluon import loss as gloss, nn
 9 
10 def dropout(X, drop_prob):
11     assert 0 <= drop_prob <= 1
12     keep_prob = 1 - drop_prob
13     # 这种情况下把全部元素都丢弃
14     if keep_prob == 0:
15         return X.zeros_like()
16     mask = nd.random.uniform(0, 1, X.shape) < keep_prob
17     return mask * X / keep_prob
18 
19 
20 # In[18]:
21 
22 
23 
24 X = nd.arange(16).reshape((2, 8))
25 dropout(X, 0)
26 
27 
28 # In[19]:
29 
30 
31 dropout(X, 0.5)
32 
33 
34 # In[20]:
35 
36 
37 dropout(X, 1)
38 
39 
40 # In[22]: