随笔档案「2024年1月」 - Oten

神经网络优化篇：将 Batch Norm 拟合进神经网络（Fitting Batch Norm into a neural network）

摘要：将 Batch Norm 拟合进神经网络假设有一个这样的神经网络，之前说过，可以认为每个单元负责计算两件事。第一，它先计算z，然后应用其到激活函数中再计算a，所以可以认为，每个圆圈代表着两步的计算过程。同样的，对于下一层而言，那就是\(z_{1}^{[2]}\)和\(a_{1}^{[2]}\)等。阅读全文

posted @ 2024-01-31 13:56 Oten 阅读(117) 评论(0) 推荐(0)

神经网络优化篇：详解归一化网络的激活函数（Normalizing activations in a network）

摘要：归一化网络的激活函数在深度学习兴起后，最重要的一个思想是它的一种算法，叫做Batch归一化，由Sergey loffe和Christian Szegedy两位研究者创造。Batch归一化会使的参数搜索问题变得很容易，使神经网络对超参数的选择更加稳定，超参数的范围会更加庞大，工作效果也很好，也会是的阅读全文

posted @ 2024-01-30 09:49 Oten 阅读(386) 评论(0) 推荐(0)

神经网络优化篇：详解超参数调试的实践：Pandas VS Caviar（Hyperparameters tuning in practice: Pandas vs. Caviar）

摘要：超参数调试的实践如今的深度学习已经应用到许多不同的领域，某个应用领域的超参数设定，有可能通用于另一领域，不同的应用领域出现相互交融。比如，曾经看到过计算机视觉领域中涌现的巧妙方法，比如说Confonets或ResNets。它还成功应用于语音识别，还看到过最初起源于语音识别的想法成功应用于NLP等等阅读全文

posted @ 2024-01-26 09:58 Oten 阅读(131) 评论(0) 推荐(0)

神经网络优化篇：详解为超参数选择合适的范围（Using an appropriate scale to pick hyperparameters）

摘要：为超参数选择合适的范围假设要选取隐藏单元的数量\(n^{[l]}\)，假设，选取的取值范围是从50到100中某点，这种情况下，看到这条从50-100的数轴，可以随机在其取点，这是一个搜索特定超参数的很直观的方式。或者，如果要选取神经网络的层数，称之为字母\(L\)，也许会选择层数为2到4中的某个值阅读全文

posted @ 2024-01-25 09:55 Oten 阅读(485) 评论(1) 推荐(0)

神经网络优化篇：详解调试处理（Tuning process）

摘要：调试处理关于训练深度最难的事情之一是要处理的参数的数量，从学习速率\(a\)到Momentum（动量梯度下降法）的参数\(\beta\)。如果使用Momentum或Adam优化算法的参数，\(\beta_{1}\)，\({\beta}_{2}\)和\(\varepsilon\)，也许还得选择层数，阅读全文

posted @ 2024-01-24 10:04 Oten 阅读(182) 评论(0) 推荐(0)

神经网络优化篇：详解局部最优的问题(The problem of local optima)

摘要：局部最优的问题在深度学习研究早期，人们总是担心优化算法会困在极差的局部最优，不过随着深度学习理论不断发展，对局部最优的理解也发生了改变。向展示一下现在怎么看待局部最优以及深度学习中的优化问题。这是曾经人们在想到局部最优时脑海里会出现的图，也许想优化一些参数，把它们称之为\(W_{1}\)和\(W 阅读全文

posted @ 2024-01-23 14:08 Oten 阅读(2023) 评论(0) 推荐(0)

神经网络优化篇：详解学习率衰减(Learning rate decay)

摘要：学习率衰减加快学习算法的一个办法就是随时间慢慢减少学习率，将之称为学习率衰减，来看看如何做到，首先通过一个例子看看，为什么要计算学习率衰减。假设要使用mini-batch梯度下降法，mini-batch数量不大，大概64或者128个样本，在迭代过程中会有噪音（蓝色线），下降朝向这里的最小值，但是阅读全文

posted @ 2024-01-22 10:25 Oten 阅读(1424) 评论(0) 推荐(1)

神经网络优化篇：详解Adam 优化算法(Adam optimization algorithm)

摘要：Adam 优化算法在深度学习的历史上，包括许多知名研究者在内，提出了优化算法，并很好地解决了一些问题，但随后这些优化算法被指出并不能一般化，并不适用于多种神经网络，时间久了，深度学习圈子里的人开始多少有些质疑全新的优化算法，很多人都觉得动量（Momentum）梯度下降法很好用，很难再想出更好的优化阅读全文

posted @ 2024-01-19 09:58 Oten 阅读(3764) 评论(0) 推荐(0)

神经网络优化篇：详解RMSprop

摘要：RMSprop 知道了动量（Momentum）可以加快梯度下降，还有一个叫做RMSprop的算法，全称是root mean square prop算法，它也可以加速梯度下降，来看看它是如何运作的。回忆一下之前的例子，如果执行梯度下降，虽然横轴方向正在推进，但纵轴方向会有大幅度摆动，为了分析这个例子阅读全文

posted @ 2024-01-18 09:56 Oten 阅读(1280) 评论(0) 推荐(0)

神经网络优化篇：详解动量梯度下降法（Gradient descent with Momentum）

摘要：动量梯度下降法还有一种算法叫做Momentum，或者叫做动量梯度下降法，运行速度几乎总是快于标准的梯度下降算法，简而言之，基本的想法就是计算梯度的指数加权平均数，并利用该梯度更新的权重。例如，如果要优化成本函数，函数形状如图，红点代表最小值的位置，假设从这里（蓝色点）开始梯度下降法，如果进行梯度阅读全文

posted @ 2024-01-17 09:57 Oten 阅读(2311) 评论(0) 推荐(0)

神经网络优化篇：详解指数加权平均的偏差修正（Bias correction in exponentially weighted averages）

摘要：指数加权平均的偏差修正 \({{v}_{t}}=\beta {{v}_{t-1}}+(1-\beta ){{\theta }_{t}}\) 在上一个博客中，这个（红色）曲线对应\(\beta\)的值为0.9，这个（绿色）曲线对应的\(\beta\)=0.98，如果执行写在这里的公式，在\(\beta 阅读全文

posted @ 2024-01-16 09:44 Oten 阅读(330) 评论(0) 推荐(0)

神经网络优化篇：理解指数加权平均数（Understanding exponentially weighted averages）

摘要：理解指数加权平均数回忆一下这个计算指数加权平均数的关键方程。 \({{v}_{t}}=\beta {{v}_{t-1}}+(1-\beta ){{\theta }_{t}}\) \(\beta=0.9\)的时候，得到的结果是红线，如果它更接近于1，比如0.98，结果就是绿线，如果\(\beta\) 阅读全文

posted @ 2024-01-15 10:16 Oten 阅读(364) 评论(0) 推荐(0)

神经网络优化篇：详解指数加权平均数（Exponentially weighted averages）

摘要：指数加权平均数比如这儿有去年伦敦的每日温度，所以1月1号，温度是40华氏度，相当于4摄氏度。世界上大部分地区使用摄氏度，但是美国使用华氏度。在1月2号是9摄氏度等等。在年中的时候，一年365天，年中就是说，大概180天的样子，也就是5月末，温度是60华氏度，也就是15摄氏度等等。夏季温度转暖，然后阅读全文

posted @ 2024-01-12 09:57 Oten 阅读(409) 评论(0) 推荐(0)

神经网络优化篇：理解mini-batch梯度下降法（Understanding mini-batch gradient descent）

摘要：理解mini-batch梯度下降法使用batch梯度下降法时，每次迭代都需要历遍整个训练集，可以预期每次迭代成本都会下降，所以如果成本函数\(J\)是迭代次数的一个函数，它应该会随着每次迭代而减少，如果\(J\)在某次迭代中增加了，那肯定出了问题，也许的学习率太大。使用mini-batch梯度下阅读全文

posted @ 2024-01-11 10:01 Oten 阅读(256) 评论(0) 推荐(0)

神经网络优化篇：详解Mini-batch 梯度下降（Mini-batch gradient descent）

摘要：Mini-batch 梯度下降机器学习的应用是一个高度依赖经验的过程，伴随着大量迭代的过程，需要训练诸多模型，才能找到合适的那一个，所以，优化算法能够帮助快速训练模型。其中一个难点在于，深度学习没有在大数据领域发挥最大的效果，可以利用一个巨大的数据集来训练神经网络，而在巨大的数据集基础上进行训练阅读全文

posted @ 2024-01-09 14:29 Oten 阅读(1972) 评论(0) 推荐(0)

神经网络优化篇：梯度检验应用的注意事项（Gradient Checking Implementation Notes）

摘要：梯度检验应用的注意事项分享一些关于如何在神经网络实施梯度检验的实用技巧和注意事项。首先，不要在训练中使用梯度检验，它只用于调试。意思是，计算所有\(i\)值的\(d\theta_{\text{approx}}\left[i\right]\)是一个非常漫长的计算过程，为了实施梯度下降，必须使用\( 阅读全文

posted @ 2024-01-08 09:43 Oten 阅读(190) 评论(0) 推荐(0)

神经网络优化篇：详解梯度检验（Gradient checking）

摘要：梯度检验梯度检验帮节省了很多时间，也多次帮发现backprop实施过程中的bug，接下来，看看如何利用它来调试或检验backprop的实施是否正确。假设的网络中含有下列参数，\(W^{[1]}\)和\(b^{[1]}\)……\(W^{[l]}\)和\(b^{[l]}\)，为了执行梯度检验，首先要阅读全文

posted @ 2024-01-05 10:01 Oten 阅读(598) 评论(1) 推荐(0)

神经网络优化篇：详解梯度的数值逼近（Numerical approximation of gradients）

摘要：在实施backprop时，有一个测试叫做梯度检验，它的作用是确保backprop正确实施。因为有时候，虽然写下了这些方程式，却不能100%确定，执行backprop的所有细节都是正确的。为了逐渐实现梯度检验，首先说说如何计算梯度的数值逼近。先画出函数\(f\)，标记为\(f\left( \thet 阅读全文

posted @ 2024-01-04 10:16 Oten 阅读(310) 评论(0) 推荐(0)

神经网络优化篇：详解神经网络的权重初始化（Weight Initialization for Deep NetworksVanishing / Exploding gradients）

摘要：神经网络的权重初始化这是一个神经单元初始化地例子，然后再演变到整个深度网络。来看看只有一个神经元的情况，然后才是深度网络。单个神经元可能有4个输入特征，从\(x_{1}\)到\(x_{4}\)，经过\(a=g(z)\)处理，最终得到\(\hat{y}\)，稍后讲深度网络时，这些输入表示为\(a 阅读全文

posted @ 2024-01-03 09:50 Oten 阅读(412) 评论(0) 推荐(1)

神经网络优化篇：详解梯度消失/梯度爆炸（Vanishing / Exploding gradients）

摘要：梯度消失/梯度爆炸训练神经网络，尤其是深度神经所面临的一个问题就是梯度消失或梯度爆炸，也就是训练神经网络的时候，导数或坡度有时会变得非常大，或者非常小，甚至于以指数方式变小，这加大了训练的难度。接下来，将会了解梯度消失或梯度爆炸的真正含义，以及如何更明智地选择随机初始化权重，从而避免这个问题。阅读全文

posted @ 2024-01-02 09:57 Oten 阅读(513) 评论(0) 推荐(0)

Oten

01 2024 档案

公告