初始化的目的就是,设置一个很接近0的的值,以方便参数update。
Gaussian 是最先想到的一种可以实现一个很接近0的方法,而且带有较强的随机性,但也具有中央分布的特性。
Xavier 可以认为是Gaussian的一种改进,动态版的Gaussian,Reasonable的初始化,线性激活下Mathematical derivation,但是ReLU下可能会break网络的nonlinearity。
so, 凯明的MSRA = Xavier/2,解决了这个问题。