动手学深度学习 | ResNet为什么能训练出1000层的模型 | 28

ResNet的梯度计算

最最核心的思想就是乘法变加法。

如果是这种情况，加入g()这一层已经学的很好了，那么梯度就会变小，这样就对f()的梯度也会越来越小（相当于小数字的累乘）

但是如果是残差结构的话，直接使用加法，那么即使g()学的很好，其梯度很小，也不会影响f()的梯度。

正常的深度结构只能是从上至下，但是残差的这个跳转结构，相当于数据可以从这条跳转的“高速公路”直接下来。（原来的深层神经网络最大的问题也是底层的参数更新）

可以的。但是它的问题是你不是那么好设置它的数值。

是的。

梯度消失：小数值累乘。

梯度爆炸：大数值累乘。

posted @ 2021-10-03 08:59 RowryCho 阅读(129) 评论(0) 编辑收藏举报

刷新页面返回顶部