摘要:
1. Training stuck ≠ Small Gradient 如果我们在训练过程中遇到了training stuck,不一定是遇到了critical point,也可能是走到了critical point附近,并在山谷两端左右徘徊! 把此时的梯度计算出来,可以发现,梯度并不为0,可以证明此时 阅读全文
摘要:
1. Small Batch v.s. Large Batch 2. "Noisy" update is better for training! 如果将所有的数据作为一个Batch丢进网络中,当梯度下降遇到critical point时,由于loss是恒定的,参数就会卡在critical poin 阅读全文
摘要:
1. Optimization Fails because ... local minima(局部最小值)和saddle point(鞍点)都会造成梯度为0,导致参数无法继续更新下去,损失趋于平缓 local minima和saddle point统称为critical point(驻点) 2. 如 阅读全文