摘要:
局部最优的问题(The problem of local optima) 人们总是担心优化算法会困在极差的局部最优, 不过随着深度学习理论不断发展,我们对局部最优的理解也发生了改变。 这是曾经人们在想到局部最优时脑海里会出现的图,也许你想优化一些参数,我们把它们称之为${W_1}$和${W_2}$, 阅读全文
摘要:
学习率衰减(Learning rate decay) 加快学习算法的一个办法就是随时间慢慢减少学习率,我们将之称为学习率衰减。 假设你要使用 mini-batch 梯度下降法, mini-batch 数量不大,大概 64 或者 128 个样本,在迭代过程中会有噪音( 蓝色线),下降朝向这里的最小值, 阅读全文