随笔分类 - 深度学习优化
摘要:SGD > SGDM > NAG > AdaGrad > AdaDelta > RMSprop > Adam > AdaMax > Ndam > AMSGrad 优化算法的框架: 待优化参数:,目标函数:,初始学习率 每个epoch : 计算目标函数关于当前参
阅读全文
摘要:1. 什么是Dropout(随机失活) 就是在神经网络的Dropout层,为每个神经元结点设置一个随机消除的概率,对于保留下来的神经元,我们得到一个节点较少,规模较小的网络进行训练。 标准网络和dropout网络: 左边是简单的模型,右边是含有dropout的模型 l: hidden layer i
阅读全文
摘要:1.调试处理 2.为超参数选择合适的范围 3.超参数在实践中调整:熊猫与鱼子酱 4.正则化网络的激活函数 5.将batch norm拟合进神经网络 6. 为什么Batch Norm会起作用? 7.测试集怎么用Batch Norm? 也就是说在测试集中,gamma和beta值都是训练集训练得到的值,而
阅读全文
摘要:1. Andrew Ng 的个人经验和偏好是: 第一梯队: learning rate α 第二梯队: hidden units mini-batch size momentum β 第三梯队: number of layers learning rate decay other optimizer
阅读全文
摘要:1.mini batch梯度下降 在前面学习向量化时,知道了可以将训练样本横向堆叠,形成一个输入矩阵和对应的输出矩阵: 当数据量不是太大时,这样做当然会充分利用向量化的优点,一次训练中就可以将所有训练样本涵盖,速度也会较快。但当数据量急剧增大,达到百万甚至更大的数量级时,组成的矩阵将极其庞大,直接对
阅读全文
摘要:梯度消失与梯度爆炸 当训练神经网络时,导数或坡度有时会变得非常大或非常小,甚至以指数方式变小,这加大了训练的难度 这里忽略了常数项b。为了让z不会过大或者过小,思路是让w与n有关,且n越大,w应该越小才好。这样能够保证z不会过大。 1.如果激活函数是tanh,一般选择下面的初始化方法 2.如果激活函
阅读全文
摘要:正则化数据前后的数据分布特点 正则化前后梯度下降的区别 如果特征值处于相似范围内,那么归一化就不是很重要了, 执行这一类归一化并不会产生什么危害
阅读全文
摘要:1. 参数初始化的目的是什么? 为了让神经网络在训练过程中学习到有用的信息,这意味着参数梯度不应该为0。而我们知道在全连接的神经网络中,参数梯度和反向传播得到的状态梯度以及入激活值有关。那么参数初始化应该满足以下两个条件: 初始化必要条件一:各层激活值不会出现饱和现象; 初始化必要条件二:各层激活值
阅读全文
摘要:1. 训练、验证、测试集 对于一个需要解决的问题的样本数据,在建立模型的过程中,我们会将问题的data划分为以下几个部分: 训练集(train set):用训练集对算法或模型进行训练过程; 验证集(development set):利用验证集或者又称为简单交叉验证集(hold out cross v
阅读全文