摘要:
可以发现 和VGG最后面的网络都是全连接层,但是有如下问题 基本上所有参数都集中在最后的全连接层(这样导致计算慢内存大还很容易过拟合,比如我们期望三层全连接层学习完所有特征,但是一层就把所有特征学习完了) 所以我们要替换掉最后的全连接层。我们可以使用\(1\time 阅读全文
摘要:
最大的问题就是加的层很随意,这里加一点那里加一点,结构就不清晰,也就是说我们还不能够很好的回答“如何更深更大”这一个问题 考虑一下这个问题如何回答。想一下我们可能的选项如下 于是VGG就采用了最后一个选项 那么为什么不用 的卷积层呢?实际上 阅读全文
摘要:
在训练AlexNet时使用更小的学习率,主要原因可以从以下角度结合具体例子理解: 1. 网络更深更广,梯度传递更敏感 LeNet:仅有5层(2卷积+3全连接),参数少,梯度反向传播时链式法则的连乘次数少,梯度幅度相对稳定。 AlexNet:8层(5卷积+3全连接),参数数量大幅增加(如第一个全连接层 阅读全文