摘要:
1、梯度下降法 梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。 梯度下降法的优化思想:用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近目标值,步 阅读全文
摘要:
1、优化算法 SGD:随机梯度下降 SGD+Momentum: 基于动量的SGD(在SGD基础上做过优化) SGD+Nesterov+Momentum:基于动量,两步更新的SGD(在SGD+Momentum基础上做过优化) Adagrad:自适应地为各个参数分配不同学习速率 Adadelta: 针对 阅读全文
摘要:
1、参数共享的道理 如果在图像某些地方探测到一个水平的边界是很重要的,那么在其他一些地方也会同样是有用的,这是因为图像结构具有平移不变性。所以在卷积层的输出数据体的55x55个不同位置中,就没有必要重新学习去探测一个水平边界了。 在反向传播的时候,都要计算每个神经元对它的权重的梯度,但是需要把同一个 阅读全文