当神经网络层数较多时,模型的数值稳定性就容易变差。假设输出o=XW1W2W3W4W5W6W7。假设激活函数为恒等函数不考虑bias,对W1求导,就是W2W3W4W5W6W7,如果这5个权值较大导致梯度爆炸,否则梯度衰减。