【深度学习】沐神论文领读:Alexnet
倒数第二层:
现在的倒数第二层是4096个神经元,算是一个很优秀的特征提取。
dropout:
现在CNN通常不会用到那么大的全连接
dropout也就不那么重要,gpu/内存不那么吃紧
但dropout在全连接/RNN/Attention很有用,
初始化:
均值0,方差0.01的高斯随机变量。Bert 0.02,
LR:
valid不动了,从0.01 - 0.001
Resnet,前120轮,之后每30轮下降十倍
现在主流:线性上去,cos下降下来