摘要: 梯度消失与梯度爆炸 梯度为偏导数构成的向量。 损失函数收敛至极小值时,梯度为0(接近0),损失函数不再下降。我们不希望在抵达极小值前,梯度就为0了,也不希望下降过程过于震荡,甚至不收敛。梯度消失与梯度爆炸分别对应这2种现象, 梯度消失(vanishing gradients):指的是在训练过程中,梯 阅读全文
posted @ 2020-04-22 17:46 Jerry_Jin 阅读(1135) 评论(0) 推荐(0) 编辑