🤔️如何避免梯度爆炸或消失?
在参数初始化时需要非常小心,以确保梯度和参数可以得到很好的控制(随即初始化)
ReLU激活函数缓解了梯度消失问题,这样可以加速收敛。(Sigmoid激活函数在输入很大或是很小时,它的梯度都会消失。)