2019年7月16日
摘要: 在mini-batch梯度下降法中,我们曾经说过因为分割了baby batch,所以迭代是有波动而且不能够精确收敛于最小值的 因此如果我们将学习率α逐渐变小,就可以使得在学习率α较大的时候加快模型训练速度,在α变小的时候使得模型迭代的波动逐渐减弱,最终收敛于一个较小的区域来得到较为精确的结果 首先是 阅读全文
posted @ 2019-07-16 16:58 NWNU-LHY 阅读(282) 评论(0) 推荐(0) 编辑
摘要: 基本上讲,Adam就是将day8.2提到的momentum动量梯度下降法和day8.3提到的RMSprop算法相结合的优化算法 首先初始化 SdW = 0 Sdb = 0 VdW = 0 Vdb = 0 On iteration t: compute dw,db using current Mini 阅读全文
posted @ 2019-07-16 16:34 NWNU-LHY 阅读(628) 评论(0) 推荐(0) 编辑
摘要: RMSprop: 全称为root mean square prop,提及这个算法就不得不提及上篇博文中的momentum算法 首先来看看momentum动量梯度下降法的过程: 在RMSprop中: Compute dW,db on the current mini-batch SdW = βSdW 阅读全文
posted @ 2019-07-16 15:49 NWNU-LHY 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 首先感谢吴恩达老师的免费公开课,以下图片均来自于Andrew Ng的公开课 指数加权平均法 在统计学中被称为指数加权移动平均法,来看下面一个例子: 这是伦敦在一些天数中的气温分布图 Vt = βVt-1 + (1 - β)θt β指的是加权系数 0<β<1 θt 指的是当前时刻的温度 当β=0.9的 阅读全文
posted @ 2019-07-16 15:15 NWNU-LHY 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 所谓Mini-batch梯度下降法就是划分训练集和测试集为等分的数个子集,比如原来有500W个样本,将其划分为5000个baby batch,每个子集中有1000个样本,然后每次对一个mini-batch进行梯度下降 mini-batch大小 = m: 极限情况下,当mini-batch的单个子集样 阅读全文
posted @ 2019-07-16 11:38 NWNU-LHY 阅读(327) 评论(0) 推荐(0) 编辑