Toriyung

导航

神经网络梯度爆炸/消失以及改善方式(吴恩达)

神经网络的传播(前向)过程如图,如果ω>1(即使是稍微大一点点),只要层数足够多最后会造成ω呈指数上升,这就是梯度爆炸;同理,当ω<1(即使是稍微小一点点),ω会快速缩小逼近0,这就是梯度消失

 

 

 

目前能稍微解决的方法是对ω进行合理地初始化

对于若干层数且每层的神经元数量不尽相同的情况下,比较好的取向是神经元数量多的ω大小尽可能小,而神经元数量少的ω尽可能大,即神经元数量与ω成反比关系:ω∝k/√n,其中k为常数,n为神经元数

实际使用中,k的取值需要考虑激活函数。如ReLU函数k取2,tanh函数k取1

根据之前 随机初始化参数的必要性 https://www.cnblogs.com/toriyung/p/16406891.html

可得到ω的初始化值:

ω = np.random()*np.sqrt(1/n)*k

posted on 2022-07-28 18:33  Toriyung  阅读(57)  评论(0编辑  收藏  举报