摘要:
这是为了解决深层神经网络梯度消失的问题 因为随着训练的进行,我们每一层的网络输出会逐渐两极分化 比如使用的是tanh激活函数,到最后就会使偏导几乎等于0,网络的训练时间过长 我们可以把每一层的输出看做符合N(u, alaph)的正态分布 如果我们能将这一层的正太分布改为符合N(0,1)就很舒服了 Z 阅读全文
摘要:
我们一般认为神经网络会有局部最优解 就像三维中的坑洞一样,可能使我们的神经网络陷进去就出不来了 其实不是这样的 可以看到,我门的loss其实是一个多维的神经网络 那么对于第i维,我可以大致的认为在这一维,他上升或下降的概率均为0.5 我们知道,如果要形成坑洞的话,我们在这个区域上的所有点的梯度都必须 阅读全文