局部最优,在深度学习中一般不会出现。弄清楚局部最优的概念,是要求所有方向都凸函数的情况下,才具有局部最优,这个比例往往是很小的。例如20000个方向的局部最优,需要2的20000次方才能成立。
鞍点,这是我们深度学习中经常会碰到的情况,有一部分时凸函数,一部分是凹函数。
动量法,RMSprop、Adam都是解决梯度下降加速的问题,能够更大的可能逃离出这些鞍点。
超参数的优先级:红色>橙色>紫色