机器学习——批量规范化
训练深层神经网络是十分困难的,特别是在较短的时间内使他们收敛更加棘手。 本节将介绍批量规范化(batch normalization) (Ioffe and Szegedy, 2015),这是一种流行且有效的技术,可持续加速深层网络的收敛速度。 再结合在 7.6节中将介绍的残差块,批量规范化使得研究人员能够训练100层以上的网络。
批量规范化计算公式:
批量规范化提出的意义:
1. 数据预处理和标准化对结果有很大影响,可以让模型更容易训练。批量规范化在一定程度上也是进行标准化。
2. 中间层的变量分布随着层数和时间都会发生变化,这可能会对训练造成困难。批量规范化可以减小这种变化。
3. 更深层的网络更容易过拟合,批量规范化作为一种正则化方法可以缓解过拟合。
4. 批量规范化需要一个适当大小的批量,否则无法工作。选择批量大小时需要更加慎重。
5. 批量规范化通过减去均值并除以标准差来规范化,这使用了批量内的统计信息,因此名称中有“批量”。
总结起来,批量规范化通过标准化内部变量的分布来帮助网络训练,使得超参数设置更加容易,并具有正则化的效果。
批量规范化层
下面,我们从头开始实现一个具有张量的批量规范化层。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 | import torch from torch import nn from d2l import torch as d2l def batch_norm(X, gamma, beta, moving_mean, moving_var, eps, momentum): # 通过is_grad_enabled来判断当前模式是训练模式还是预测模式 if not torch.is_grad_enabled(): # 如果是在预测模式下,直接使用传入的移动平均所得的均值和方差 X_hat = (X - moving_mean) / torch.sqrt(moving_var + eps) else : assert len (X.shape) in ( 2 , 4 ) if len (X.shape) = = 2 : # 使用全连接层的情况,计算特征维上的均值和方差 mean = X.mean(dim = 0 ) var = ((X - mean) * * 2 ).mean(dim = 0 ) else : # 使用二维卷积层的情况,计算通道维上(axis=1)的均值和方差。 # 这里我们需要保持X的形状以便后面可以做广播运算 mean = X.mean(dim = ( 0 , 2 , 3 ), keepdim = True ) var = ((X - mean) * * 2 ).mean(dim = ( 0 , 2 , 3 ), keepdim = True ) # 训练模式下,用当前的均值和方差做标准化 X_hat = (X - mean) / torch.sqrt(var + eps) # 更新移动平均的均值和方差 moving_mean = momentum * moving_mean + ( 1.0 - momentum) * mean moving_var = momentum * moving_var + ( 1.0 - momentum) * var Y = gamma * X_hat + beta # 缩放和移位 return Y, moving_mean.data, moving_var.data |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 | class BatchNorm(nn.Module): # num_features:完全连接层的输出数量或卷积层的输出通道数。 # num_dims:2表示完全连接层,4表示卷积层 def __init__( self , num_features, num_dims): super ().__init__() if num_dims = = 2 : shape = ( 1 , num_features) else : shape = ( 1 , num_features, 1 , 1 ) # 参与求梯度和迭代的拉伸和偏移参数,分别初始化成1和0 self .gamma = nn.Parameter(torch.ones(shape)) self .beta = nn.Parameter(torch.zeros(shape)) # 非模型参数的变量初始化为0和1 self .moving_mean = torch.zeros(shape) self .moving_var = torch.ones(shape) def forward( self , X): # 如果X不在内存上,将moving_mean和moving_var # 复制到X所在显存上 if self .moving_mean.device ! = X.device: self .moving_mean = self .moving_mean.to(X.device) self .moving_var = self .moving_var.to(X.device) # 保存更新过的moving_mean和moving_var Y, self .moving_mean, self .moving_var = batch_norm( X, self .gamma, self .beta, self .moving_mean, self .moving_var, eps = 1e - 5 , momentum = 0.9 ) return Y |
使用批量规范化层的 LeNet
1 2 3 4 5 6 7 8 | net = nn.Sequential( nn.Conv2d( 1 , 6 , kernel_size = 5 ), BatchNorm( 6 , num_dims = 4 ), nn.Sigmoid(), nn.AvgPool2d(kernel_size = 2 , stride = 2 ), nn.Conv2d( 6 , 16 , kernel_size = 5 ), BatchNorm( 16 , num_dims = 4 ), nn.Sigmoid(), nn.AvgPool2d(kernel_size = 2 , stride = 2 ), nn.Flatten(), nn.Linear( 16 * 4 * 4 , 120 ), BatchNorm( 120 , num_dims = 2 ), nn.Sigmoid(), nn.Linear( 120 , 84 ), BatchNorm( 84 , num_dims = 2 ), nn.Sigmoid(), nn.Linear( 84 , 10 )) |
总结
-
在模型训练过程中,批量规范化利用小批量的均值和标准差,不断调整神经网络的中间输出,使整个神经网络各层的中间输出值更加稳定。
-
批量规范化在全连接层和卷积层的使用略有不同。
-
批量规范化层和暂退层一样,在训练模式和预测模式下计算不同。
-
批量规范化有许多有益的副作用,主要是正则化。另一方面,”减少内部协变量偏移“的原始动机似乎不是一个有效的解释。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)