Oten

2024年1月18日

摘要： RMSprop 知道了动量（Momentum）可以加快梯度下降，还有一个叫做RMSprop的算法，全称是root mean square prop算法，它也可以加速梯度下降，来看看它是如何运作的。回忆一下之前的例子，如果执行梯度下降，虽然横轴方向正在推进，但纵轴方向会有大幅度摆动，为了分析这个例子阅读全文

posted @ 2024-01-18 09:56 Oten 阅读(1074) 评论(0) 推荐(0)

2024年1月17日

神经网络优化篇：详解动量梯度下降法（Gradient descent with Momentum）

摘要：动量梯度下降法还有一种算法叫做Momentum，或者叫做动量梯度下降法，运行速度几乎总是快于标准的梯度下降算法，简而言之，基本的想法就是计算梯度的指数加权平均数，并利用该梯度更新的权重。例如，如果要优化成本函数，函数形状如图，红点代表最小值的位置，假设从这里（蓝色点）开始梯度下降法，如果进行梯度阅读全文

posted @ 2024-01-17 09:57 Oten 阅读(1807) 评论(0) 推荐(0)

2024年1月16日

神经网络优化篇：详解指数加权平均的偏差修正（Bias correction in exponentially weighted averages）

摘要：指数加权平均的偏差修正 \({{v}_{t}}=\beta {{v}_{t-1}}+(1-\beta ){{\theta }_{t}}\) 在上一个博客中，这个（红色）曲线对应\(\beta\)的值为0.9，这个（绿色）曲线对应的\(\beta\)=0.98，如果执行写在这里的公式，在\(\beta 阅读全文

posted @ 2024-01-16 09:44 Oten 阅读(219) 评论(0) 推荐(0)

2024年1月15日

神经网络优化篇：理解指数加权平均数（Understanding exponentially weighted averages）

摘要：理解指数加权平均数回忆一下这个计算指数加权平均数的关键方程。 \({{v}_{t}}=\beta {{v}_{t-1}}+(1-\beta ){{\theta }_{t}}\) \(\beta=0.9\)的时候，得到的结果是红线，如果它更接近于1，比如0.98，结果就是绿线，如果\(\beta\) 阅读全文

posted @ 2024-01-15 10:16 Oten 阅读(257) 评论(0) 推荐(0)

2024年1月12日

神经网络优化篇：详解指数加权平均数（Exponentially weighted averages）

摘要：指数加权平均数比如这儿有去年伦敦的每日温度，所以1月1号，温度是40华氏度，相当于4摄氏度。世界上大部分地区使用摄氏度，但是美国使用华氏度。在1月2号是9摄氏度等等。在年中的时候，一年365天，年中就是说，大概180天的样子，也就是5月末，温度是60华氏度，也就是15摄氏度等等。夏季温度转暖，然后阅读全文

posted @ 2024-01-12 09:57 Oten 阅读(346) 评论(0) 推荐(0)

2024年1月11日

神经网络优化篇：理解mini-batch梯度下降法（Understanding mini-batch gradient descent）

摘要：理解mini-batch梯度下降法使用batch梯度下降法时，每次迭代都需要历遍整个训练集，可以预期每次迭代成本都会下降，所以如果成本函数\(J\)是迭代次数的一个函数，它应该会随着每次迭代而减少，如果\(J\)在某次迭代中增加了，那肯定出了问题，也许的学习率太大。使用mini-batch梯度下阅读全文

posted @ 2024-01-11 10:01 Oten 阅读(187) 评论(0) 推荐(0)

2024年1月9日

神经网络优化篇：详解Mini-batch 梯度下降（Mini-batch gradient descent）

摘要： Mini-batch 梯度下降机器学习的应用是一个高度依赖经验的过程，伴随着大量迭代的过程，需要训练诸多模型，才能找到合适的那一个，所以，优化算法能够帮助快速训练模型。其中一个难点在于，深度学习没有在大数据领域发挥最大的效果，可以利用一个巨大的数据集来训练神经网络，而在巨大的数据集基础上进行训练阅读全文

posted @ 2024-01-09 14:29 Oten 阅读(1671) 评论(0) 推荐(0)

2024年1月8日

神经网络优化篇：梯度检验应用的注意事项（Gradient Checking Implementation Notes）

摘要：梯度检验应用的注意事项分享一些关于如何在神经网络实施梯度检验的实用技巧和注意事项。首先，不要在训练中使用梯度检验，它只用于调试。意思是，计算所有\(i\)值的\(d\theta_{\text{approx}}\left[i\right]\)是一个非常漫长的计算过程，为了实施梯度下降，必须使用\( 阅读全文

posted @ 2024-01-08 09:43 Oten 阅读(138) 评论(0) 推荐(0)

2024年1月5日

神经网络优化篇：详解梯度检验（Gradient checking）

摘要：梯度检验梯度检验帮节省了很多时间，也多次帮发现backprop实施过程中的bug，接下来，看看如何利用它来调试或检验backprop的实施是否正确。假设的网络中含有下列参数，\(W^{[1]}\)和\(b^{[1]}\)……\(W^{[l]}\)和\(b^{[l]}\)，为了执行梯度检验，首先要阅读全文

posted @ 2024-01-05 10:01 Oten 阅读(492) 评论(1) 推荐(0)

2024年1月4日

神经网络优化篇：详解梯度的数值逼近（Numerical approximation of gradients）

摘要：在实施backprop时，有一个测试叫做梯度检验，它的作用是确保backprop正确实施。因为有时候，虽然写下了这些方程式，却不能100%确定，执行backprop的所有细节都是正确的。为了逐渐实现梯度检验，首先说说如何计算梯度的数值逼近。先画出函数\(f\)，标记为\(f\left( \thet 阅读全文

posted @ 2024-01-04 10:16 Oten 阅读(242) 评论(0) 推荐(0)

公告