一、结构

二、作用

1.在网络继续加深时,在训练集上的效果反而下降,而这不是过拟合引起的,因为过拟合会导致在训练集上效果很好。

2.考虑残差结构的梯度表达式,xl表示该层的输入,xL表示该层的输出。下式最后一项求导的分子和分母写反了

梯度表达式原本是连乘的形式,残差结构相当于将每层里的乘法变成了加法形式,考虑(1+0.01)*(1+0.02)*(1+0.01)...即使0.01部分很小,上述结果依然不导致梯度消失。但如果没了每个括号里的1来做加法,这个式子乘起来就很小。