刘-皇叔 - 博客园

2018年9月24日

摘要：测试时的 Batch Norm（ Batch Norm at test time） Batch 归一化将你的数据以 mini-batch 的形式逐一处理，但在测试时，你可能需要对每个样本逐一处理： $u = \frac{1}{m}\sum\limits_i {{z^{(i)}}}$ ${\sigma 阅读全文

posted @ 2018-09-24 14:41 刘-皇叔阅读(1893) 评论(1) 推荐(1) 编辑

3-6 Batch Norm 为什么奏效？

摘要： Batch Norm 为什么奏效？（ Why does Batch Norm work?）一个原因是，你已经看到如何归一化输入特征值x，使其均值为 0，方差 1，它又是怎样加速学习的，有一些从 0 到 1 而不是从 1 到 1000 的特征值，通过归一化所有的输入特征值x，以获得类似范围的值，可以阅读全文

posted @ 2018-09-24 14:38 刘-皇叔阅读(581) 评论(0) 推荐(0) 编辑

3-5 将 Batch Norm 拟合进神经网络

摘要：将 Batch Norm 拟合进神经网络（ Fitting Batch Norm into a neural network）假设现有如下的神经网络：可以认为每个单元负责计算两件事情：第一，先计算z，然后应用到激活函数中再计算a，所以，可以认为，每个圆圈代表着两步计算。如果没有应用Batch归阅读全文

posted @ 2018-09-24 14:30 刘-皇叔阅读(604) 评论(0) 推荐(0) 编辑

2018年9月22日

linux 下查看某个进程中线程运行在哪个CPU上

摘要：运行程序，使用命令top查看指定的进程的PID：然后使用命令：按f键，并使用上下切换，利用空格键选中nTH,P：按esc键，P所在的列就是线程运行的CPU号：阅读全文

posted @ 2018-09-22 09:01 刘-皇叔阅读(6955) 评论(0) 推荐(0) 编辑

2018年9月19日

3-4 归一化网络的激活函数

摘要：归一化网络的激活函数（ Normalizing activations in a network）在深度学习兴起后，最重要的一个思想是它的一种算法，叫做 Batch 归一化。Batch 归一化会使你的参数搜索问题变得很容易，使神经网络对超参数的选择更加稳定，超参数的范围会更加庞大，工作效果也很好，阅读全文

posted @ 2018-09-19 11:02 刘-皇叔阅读(958) 评论(0) 推荐(0) 编辑

3-3 超参数训练的实践

摘要：超参数训练的实践： Pandas VS Caviar（ Hyperparameters tuning in practice: Pandas vs. Caviar）每隔几个月需要重新测试或评估超参数。关于如何搜索超参数的问题，通常采用的两种重要但不同的方式：熊猫方式和鱼子酱方式。熊猫方式：你阅读全文

posted @ 2018-09-19 10:58 刘-皇叔阅读(588) 评论(0) 推荐(0) 编辑

2018年9月18日

3-2 为超参数选择合适的范围

摘要：为超参数选择合适的范围（ Using an appropriate scale to pick hyperparameters）随机取值可以提升你的搜索效率。但随机取值并不是在有效范围内的随机均匀取值，而是选择合适的标尺，用于探究这些超参数，这很重要。假设你要选取隐藏单元的数量${n^{[l]} 阅读全文

posted @ 2018-09-18 22:41 刘-皇叔阅读(765) 评论(0) 推荐(0) 编辑

3-1 调试处理

摘要：调试处理（ Tuning process）按照参数的重要性依次排列：学习速率$\alpha$ Momentum（动量梯度下降法）的参数$\beta$ 如果使用Adam 优化算法的参数${\beta _1}$，${\beta _2}$，$\varepsilon $，但是通常使用默认值：0.9,0. 阅读全文

posted @ 2018-09-18 20:50 刘-皇叔阅读(374) 评论(0) 推荐(0) 编辑

2018年9月17日

2-9 局部最优的问题

摘要：局部最优的问题(The problem of local optima) 人们总是担心优化算法会困在极差的局部最优，不过随着深度学习理论不断发展，我们对局部最优的理解也发生了改变。这是曾经人们在想到局部最优时脑海里会出现的图，也许你想优化一些参数，我们把它们称之为${W_1}$和${W_2}$，阅读全文

posted @ 2018-09-17 12:58 刘-皇叔阅读(985) 评论(0) 推荐(0) 编辑

2-8 学习率衰减

摘要：学习率衰减(Learning rate decay) 加快学习算法的一个办法就是随时间慢慢减少学习率，我们将之称为学习率衰减。假设你要使用 mini-batch 梯度下降法， mini-batch 数量不大，大概 64 或者 128 个样本，在迭代过程中会有噪音（蓝色线），下降朝向这里的最小值，阅读全文

posted @ 2018-09-17 12:55 刘-皇叔阅读(741) 评论(0) 推荐(0) 编辑

2018年9月16日

2-7 Adam 优化算法

摘要： Adam 优化算法(Adam optimization algorithm) Adam 优化算法基本上就是将 Momentum 和 RMSprop 结合在一起。使用 Adam 算法，首先你要初始化，${v_{dW}} = 0$，${S_{dw}} = 0$，${v_{db}} = 0$，${S_{ 阅读全文

posted @ 2018-09-16 21:33 刘-皇叔阅读(659) 评论(0) 推荐(0) 编辑

2-6 RMSprop

摘要： RMSprop 知道了动量（ Momentum）可以加快梯度下降，还有一个叫做 RMSprop 的算法，全称是 root mean square prop 算法，它也可以加速梯度下降：如果你执行梯度下降，虽然横轴方向正在推进，但纵轴方向会有大幅度摆动，为了分析这个例子，假设纵轴代表参数b，横轴代表阅读全文

posted @ 2018-09-16 16:11 刘-皇叔阅读(2028) 评论(0) 推荐(0) 编辑

2-5 动量梯度下降法

摘要：动量梯度下降法（Gradient descent with Momentum）还有一种算法叫做 Momentum，或者叫做动量梯度下降法，运行速度几乎总是快于标准的梯度下降算法，简而言之，基本的想法就是计算梯度的指数加权平均数，并利用该梯度更新你的权重。如果你要优化成本函数，函数形状如图，红点代阅读全文

posted @ 2018-09-16 12:17 刘-皇叔阅读(5289) 评论(0) 推荐(0) 编辑

2018年9月15日

2-4 指数加权平均的偏差修正

摘要：指数加权平均的偏差修正（ Bias correction in exponentially weighted averages）实际上$\beta {\rm{ = }}0.98$时，图中所示的划线并不是绿色的线，而是下图紫色的线条：可以注意到紫色曲线的起点较低。计算移动平均数的时候，初始化${ 阅读全文

posted @ 2018-09-15 21:49 刘-皇叔阅读(1351) 评论(0) 推荐(0) 编辑

2-3 指数加权平均数

摘要：指数加权平均数（ Exponentially weighted averages）指数加权平均，在统计中也叫做指数加权移动平均。下面列举出表示伦敦一年之中的温度：如果要计算趋势的话，也就是温度的局部平均值，或者说移动平均值：先使：${v_0} = 0$，然后计算： ${v_1} = 0.9{ 阅读全文

posted @ 2018-09-15 20:24 刘-皇叔阅读(1592) 评论(0) 推荐(0) 编辑

2018年9月14日

2-2 理解 mini-batch 梯度下降法

摘要：理解 mini-batch 梯度下降法（ Understanding mini-batch gradient descent）使用 batch 梯度下降法时，每次迭代你都需要历遍整个训练集，可以预期每次迭代成本都会下降，所以如果成本函数J是迭代次数的一个函数，它应该会随着每次迭代而减少，如果在某次阅读全文

posted @ 2018-09-14 21:19 刘-皇叔阅读(5004) 评论(0) 推荐(0) 编辑

2018年9月13日

2-1 Mini-batch 梯度下降

摘要： Mini-batch 梯度下降（ Mini-batch gradient descent）机器学习的应用是一个高度依赖经验的过程，伴随着大量迭代的过程，你需要训练诸多模型，才能找到合适的那一个，优化算法能够帮助你快速训练模型。向量化能够让你有效地对所有m个样本进行计算，允许你处理整个训练集。我阅读全文

posted @ 2018-09-13 21:57 刘-皇叔阅读(541) 评论(0) 推荐(0) 编辑

2018年9月12日

1-14 梯度检验应用的注意事项

摘要：梯度检验应用的注意事项（ Gradient Checking Implementation Notes）首先，不要在训练中使用梯度检验，它只用于调试。我的意思是，计算所有 i值的 $d{\theta _{approx}}[i]$是一个非常漫长的计算过程，为了实施梯度下降，你必须使用 W和bbac 阅读全文

posted @ 2018-09-12 22:35 刘-皇叔阅读(694) 评论(0) 推荐(0) 编辑

1-13 梯度检验

摘要：梯度检验（ Gradient checking）梯度检验有助于发现 backprop 实施过程中的 bug。假设你的网络中的参数：${{\rm{W}}^{[1]}},{b^{[1]}}......{W^{[l]}},{b^{[l]}}$，为了执行梯度检验，首先要做的就是，把所有参数转换成一个巨大的阅读全文

posted @ 2018-09-12 22:10 刘-皇叔阅读(522) 评论(0) 推荐(0) 编辑

1-12 梯度的数值逼近

摘要：梯度的数值逼近（ Numerical approximation of gradients）在实施 backprop 时，有一个测试叫做梯度检验，它的作用是确保 backprop 正确实施。因为有时候，你虽然写下了这些方程式，却不能 100%确定执行 backprop 的所有细节都是正确的。为了逐阅读全文

posted @ 2018-09-12 08:59 刘-皇叔阅读(1037) 评论(0) 推荐(0) 编辑

刘皇叔

接着奏乐，接着舞！

公告