神经网络-初始化参数

初始化 w b，其实并没有特别统一的规定，只是有一些经验，而这些经验并没有被严格证明，所以不保证一定有效；

假设我们选择 sigmoid 为激活函数，我们需要把 sigmoid 的输入定格于 0 附近，因为这里梯度比较明显；

换句话说就是要把 wx+b 的值置于 0 左右，这样才不容易梯度消失；

w 的初始化原则，即保证 wx+b 在 0 附近，

1. 一般采用 std 很小的截断的正态分布

2. 也可根据一些经验，其原理也是一样的，稍微麻烦点，如下

上述方式的问题在于，刚开始是保证了 wx+b 在 0 附近，但是训练一段时间后，无法保证还在 0 附近，所以也是一种理想化方法，BN或许可以解决这个问题，如果可以，那参数随便初始化就行了，仅限于理论哦

xavier 初始化

泽维尔

kaiming 初始化

何凯明

参考资料：

发表于 2020-01-14 15:29 努力的孔子阅读(761) 评论(0) 收藏举报

刷新页面返回顶部

导航