1、什么是ill-conditioned问题,会造成什么影响?

2、Momentum如何解决ill-conditioned问题?Momentum有何作用(减少方向上的波动)?

3、Xavier如何解决梯度爆炸问题?各种初始化方法的作用?

4、如何解决梯度消失问题?