深度学习模型调参总结

大部分内容参考自《Machine Learning Yearning》

Bias 和 Variance

偏差(bias)是指算法在训练集上的偏差，也就是错误率，错误越大偏差越大，欠拟合

方差（variance）是指算法在开发集（或测试集）上的表现比训练集上差多少，也可以理解为过拟合，表现为训练集正确率很高，测试集上的正确率很低

可避免偏差和不可避免偏差

偏差可以分为两个部分，包括可避免偏差和不可避免偏差

如何理解：假设现有一个珍稀动物识别系统，任务难度大，即便由人类来区分，也存在14%的错误率(最优错误率)

现在算法达到：

训练错误率=15%

开发错误率=30%

可以将训练错误率(偏差)分解如下：

最伏错误率(“不可避免偏差”)：14%，可以将其认为是学习算法的偏差“不可避免”的部分。

可避免偏差：1%。即训练错误率和最伏误差率之间的差值。

举个例子，该例子中最优错误率是 14%，我们有：

● 训练误差 = 15%

● 开发误差 = 16%

i这种情况下，可避免的偏差误差是 1%，方差误差约为 1%。因此，算法已经做的很好了，几乎没有提升的空间。它只比最佳错误率低 2%

如何设定期望误差率

使用人类表现水平来估计最优错误率，并设置可达到的“期望错误率”。假设你的算法在某个任务上达到了 10% 的误差，但普通人所能达到的误差是 2% . 由此我们就可以知道最优错误率是 2% 或更低，这也表明可避免偏差至少是 8% . 所以你应当尝试一下降低偏差的技术。更一般地说，有一个合理可实现的“期望错误率”可以帮助你去估计学习算法的可避免偏差。这反过来也帮你决定是否使用误差降低技术

偏差和方差的几种情况和解决方案

1）假设训练集错误率1%，开发集错误率10%，则样本方差大，过拟合

修改模型架构

减小模型规模（比如神经元/层的数量），减小网络复杂度
增加正则化
- L 1 Regularization
- L 2 Regularization
- Dropout层
添加Batch Normalization
加入提前终止（Early stopping）
模型初始化
通过特征选择减少输入特征的数量和种类
特征降维
根据误差分析修改特征
检测训练数据集和测试数据是否有相对应的特征，数据分布是否一致，不一致的时候，继续特征工程工作
增加训练数据的种类，使得训练数据覆盖所有测试数据的特使用数据增强
增加数据量

2）假设训练错误率为15%，开发错误率为16%，这个时候，偏差比较大，欠拟合

增加训练epoch
增大batch-size
调整激活函数(例如使用relu)
调整优化算法
- 例如使用Adam
- 增大learning rate
增加网络复杂度
- 增加网络层数
- 增加卷积层输出的通道数
- 增加全连接层的节点数
检测训练数据集和测试数据是否有相对应的特征
- 增加训练数据的种类，使得训练数据覆盖所有测试数据的特性，
- 增加外部数据集，如果担心外部数据集污染training set，可以将外部数据集的权重调低一点
- 数据增强

3）假设训练错误率为15%，开发错误率为30%，高偏差，高方差

这个时候，先要解决偏差问题，只有在训练集上开始收敛了，才能开始考虑测试集上的方差问题。因此遇到这种情况，先按照高偏差解决，高偏差解决之后，也许可能高方差的问题也就消失了，如果没有消失，在考虑解决高方差的问题。

4）假设训练错误率为0.5%，开发错误率为1%，低偏差，低方差（完美状态）

5）假设训练错误率为0.5%，开发错误率为1%，低偏差，低方差，但是开发集loss在低点持续震荡

确认训练集和测试集分布是否存在较大的差异，差异大的话进行特征工程
确认是否数据增强做的太多了
尝试调整学习率，在不同阶段使用不用学习率
思考和检查网络是否还是有点欠拟合，如果还有，解决欠拟合
找到更多训练数据，使其能够覆盖较多的样本分布

模型调参Pipeline

设定固定随机种子
先不要使用数据增强
设置合理的baseline
过拟合一个batch，然后观察loss最低可以到达多少，对比baseline，如果可以到达很低，进行下一步，如果不行，则考虑情况2）
绘制training和testing 阶段的loss曲线
验证loss函数
- 如果train loss 小
  - 如果test set 的loss 大，而train set 的loss小，说明过拟合，使用情况1）解决
  - 如果test set的loss 也小，那么基本上算是成功了
  - 如果test set 的 loss 也小，但是震荡，使用情况5）解决
- 如果train loss 大
  
  进入步骤2）

已优化模型如何进一步提高

优化网络结构，使用更好的backbone
使用更好的LOSS函数，比如：回归问题可以考虑smooth-l1等
考虑使用难例挖掘的方法
有条件的话，加大batchsize
考虑预训练模型
观察测试样本，查找case，针对Case来，补充样本+数据增强
尝试不同的优化函数，交替训练，fine-tuning
不同的权重初始化方法
尝试不同的学习率初始值和衰减值
考虑在梯度上做文章，可以是梯度裁剪、梯度校验、梯度归一化等方法
继续特征工程（往往最有效）

posted @ 2021-08-27 20:56 Neo0oeN 阅读(482) 评论(0) 收藏举报

刷新页面返回顶部

Taaccoo

Thought shape reality