一句话讲明梯度衰减和爆炸

当神经网络层数较多时,模型的数值稳定性就容易变差。假设输出o=XW1W2W3W4W5W6W7。假设激活函数为恒等函数不考虑bias,对W1求导,就是W2W3W4W5W6W7,如果这5个权值较大导致梯度爆炸,否则梯度衰减。

posted @ 2021-07-26 20:33  祥瑞哈哈哈  阅读(116)  评论(0编辑  收藏  举报