上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 27 下一页
摘要: 测试时的 Batch Norm( Batch Norm at test time) Batch 归一化将你的数据以 mini-batch 的形式逐一处理,但在测试时,你可能需要对每个样本逐一处理: $u = \frac{1}{m}\sum\limits_i {{z^{(i)}}}$ ${\sigma 阅读全文
posted @ 2018-09-24 14:41 刘-皇叔 阅读(1893) 评论(1) 推荐(1) 编辑
摘要: Batch Norm 为什么奏效?( Why does Batch Norm work?) 一个原因是,你已经看到如何归一化输入特征值x,使其均值为 0,方差 1,它又是怎样加速学习的,有一些从 0 到 1 而不是从 1 到 1000 的特征值,通过归一化所有的输入特征值x,以获得类似范围的值,可以 阅读全文
posted @ 2018-09-24 14:38 刘-皇叔 阅读(581) 评论(0) 推荐(0) 编辑
摘要: 将 Batch Norm 拟合进神经网络( Fitting Batch Norm into a neural network) 假设现有如下的神经网络: 可以认为每个单元负责计算两件事情:第一,先计算z,然后应用到激活函数中再计算a,所以,可以认为,每个圆圈代表着两步计算。 如果没有应用Batch归 阅读全文
posted @ 2018-09-24 14:30 刘-皇叔 阅读(604) 评论(0) 推荐(0) 编辑
摘要: 运行程序,使用命令top查看指定的进程的PID: 然后使用命令: 按f键,并使用上下切换,利用空格键选中nTH,P: 按esc键,P所在的列就是线程运行的CPU号: 阅读全文
posted @ 2018-09-22 09:01 刘-皇叔 阅读(6955) 评论(0) 推荐(0) 编辑
摘要: 归一化网络的激活函数( Normalizing activations in a network) 在深度学习兴起后,最重要的一个思想是它的一种算法,叫做 Batch 归一化。Batch 归一化会使你的参数搜索问题变得很容易,使神经网络对超参数的选择更加稳定,超参数的范围会更加庞大,工作效果也很好, 阅读全文
posted @ 2018-09-19 11:02 刘-皇叔 阅读(958) 评论(0) 推荐(0) 编辑
摘要: 超参数训练的实践: Pandas VS Caviar( Hyperparameters tuning in practice: Pandas vs. Caviar) 每隔几个月需要重新测试或评估超参数。 关于如何搜索超参数的问题,通常采用的两种重要但不同的方式:熊猫方式和鱼子酱方式。 熊猫方式: 你 阅读全文
posted @ 2018-09-19 10:58 刘-皇叔 阅读(588) 评论(0) 推荐(0) 编辑
摘要: 为超参数选择合适的范围( Using an appropriate scale to pick hyperparameters) 随机取值可以提升你的搜索效率。但随机取值并不是在有效范围内的随机均匀取值,而是选择合适的标尺,用于探究这些超参数,这很重要。 假设你要选取隐藏单元的数量${n^{[l]} 阅读全文
posted @ 2018-09-18 22:41 刘-皇叔 阅读(765) 评论(0) 推荐(0) 编辑
摘要: 调试处理( Tuning process) 按照参数的重要性依次排列: 学习速率$\alpha$ Momentum(动量梯度下降法)的参数$\beta$ 如果使用Adam 优化算法的参数${\beta _1}$,${\beta _2}$,$\varepsilon $,但是通常使用默认值:0.9,0. 阅读全文
posted @ 2018-09-18 20:50 刘-皇叔 阅读(374) 评论(0) 推荐(0) 编辑
摘要: 局部最优的问题(The problem of local optima) 人们总是担心优化算法会困在极差的局部最优, 不过随着深度学习理论不断发展,我们对局部最优的理解也发生了改变。 这是曾经人们在想到局部最优时脑海里会出现的图,也许你想优化一些参数,我们把它们称之为${W_1}$和${W_2}$, 阅读全文
posted @ 2018-09-17 12:58 刘-皇叔 阅读(985) 评论(0) 推荐(0) 编辑
摘要: 学习率衰减(Learning rate decay) 加快学习算法的一个办法就是随时间慢慢减少学习率,我们将之称为学习率衰减。 假设你要使用 mini-batch 梯度下降法, mini-batch 数量不大,大概 64 或者 128 个样本,在迭代过程中会有噪音( 蓝色线),下降朝向这里的最小值, 阅读全文
posted @ 2018-09-17 12:55 刘-皇叔 阅读(741) 评论(0) 推荐(0) 编辑
摘要: Adam 优化算法(Adam optimization algorithm) Adam 优化算法基本上就是将 Momentum 和 RMSprop 结合在一起。 使用 Adam 算法,首先你要初始化,${v_{dW}} = 0$,${S_{dw}} = 0$,${v_{db}} = 0$,${S_{ 阅读全文
posted @ 2018-09-16 21:33 刘-皇叔 阅读(659) 评论(0) 推荐(0) 编辑
摘要: RMSprop 知道了动量( Momentum)可以加快梯度下降,还有一个叫做 RMSprop 的算法,全称是 root mean square prop 算法,它也可以加速梯度下降: 如果你执行梯度下降,虽然横轴方向正在推进,但纵轴方向会有大幅度摆动,为了分析这个例子,假设纵轴代表参数b,横轴代表 阅读全文
posted @ 2018-09-16 16:11 刘-皇叔 阅读(2028) 评论(0) 推荐(0) 编辑
摘要: 动量梯度下降法(Gradient descent with Momentum) 还有一种算法叫做 Momentum,或者叫做动量梯度下降法,运行速度几乎总是快于标准的梯度下降算法,简而言之,基本的想法就是计算梯度的指数加权平均数,并利用该梯度更新你的权重。 如果你要优化成本函数,函数形状如图,红点代 阅读全文
posted @ 2018-09-16 12:17 刘-皇叔 阅读(5289) 评论(0) 推荐(0) 编辑
摘要: 指数加权平均的偏差修正( Bias correction in exponentially weighted averages) 实际上$\beta {\rm{ = }}0.98$时,图中所示的划线并不是绿色的线,而是下图紫色的线条: 可以注意到紫色曲线的起点较低。 计算移动平均数的时候,初始化${ 阅读全文
posted @ 2018-09-15 21:49 刘-皇叔 阅读(1351) 评论(0) 推荐(0) 编辑
摘要: 指数加权平均数( Exponentially weighted averages) 指数加权平均,在统计中也叫做指数加权移动平均。 下面列举出表示伦敦一年之中的温度: 如果要计算趋势的话,也就是温度的局部平均值,或者说移动平均值: 先使:${v_0} = 0$,然后计算: ${v_1} = 0.9{ 阅读全文
posted @ 2018-09-15 20:24 刘-皇叔 阅读(1592) 评论(0) 推荐(0) 编辑
摘要: 理解 mini-batch 梯度下降法( Understanding mini-batch gradient descent) 使用 batch 梯度下降法时,每次迭代你都需要历遍整个训练集,可以预期每次迭代成本都会下降,所以如果成本函数J是迭代次数的一个函数,它应该会随着每次迭代而减少,如果在某次 阅读全文
posted @ 2018-09-14 21:19 刘-皇叔 阅读(5004) 评论(0) 推荐(0) 编辑
摘要: Mini-batch 梯度下降( Mini-batch gradient descent) 机器学习的应用是一个高度依赖经验的过程,伴随着大量迭代的过程,你需要训练诸多模型,才能找到合适的那一个,优化算法能够帮助你快速训练模型。 向量化能够让你有效地对所有m个样本进行计算,允许你处理整个训练集。 我 阅读全文
posted @ 2018-09-13 21:57 刘-皇叔 阅读(541) 评论(0) 推荐(0) 编辑
摘要: 梯度检验应用的注意事项 ( Gradient Checking Implementation Notes) 首先,不要在训练中使用梯度检验,它只用于调试。我的意思是,计算所有 i值的 $d{\theta _{approx}}[i]$是一个非常漫长的计算过程,为了实施梯度下降,你必须使用 W和bbac 阅读全文
posted @ 2018-09-12 22:35 刘-皇叔 阅读(694) 评论(0) 推荐(0) 编辑
摘要: 梯度检验( Gradient checking) 梯度检验有助于发现 backprop 实施过程中的 bug。假设你的网络中的参数:${{\rm{W}}^{[1]}},{b^{[1]}}......{W^{[l]}},{b^{[l]}}$,为了执行梯度检验,首先要做的就是,把所有参数转换成一个巨大的 阅读全文
posted @ 2018-09-12 22:10 刘-皇叔 阅读(522) 评论(0) 推荐(0) 编辑
摘要: 梯度的数值逼近( Numerical approximation of gradients) 在实施 backprop 时,有一个测试叫做梯度检验,它的作用是确保 backprop 正确实施。因为有时候,你虽然写下了这些方程式,却不能 100%确定执行 backprop 的所有细节都是正确的。为了逐 阅读全文
posted @ 2018-09-12 08:59 刘-皇叔 阅读(1037) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 27 下一页