摘要:
可以看到,x2 比 x1 的斜率的绝对值更大。 给定学习率,迭代自变量时会使自变量在竖直方向比水平方向移动幅度更大。那么我们需要一个较小的学习率从而避免自变量在竖直方向上越过目标函数最优解。然而,这样又会造成自变量在水平方向上朝着最优解移动变慢。 调大学习率,竖直方向的自变量,不断越过最优解,并发散 阅读全文
摘要:
由5个卷积层块(2个单卷积层,3个双卷积层),3个全连接层组成——VGG-11 输出形状。 阅读全文