梯度检验

梯度检验的实现原理，是根据导数的定义，对成本函数求导，有：

\[J’(\theta) = \frac{\partial J(\theta)}{\partial \theta}= \lim_{\epsilon\rightarrow 0}\frac{J(\theta+\epsilon)-J(\theta-\epsilon)}{2\epsilon} \]

则梯度检验公式：

\[J’(\theta) = \frac{J(\theta+\epsilon)-J(\theta-\epsilon)}{2\epsilon} \]

其中当\(ϵ\)越小时，结果越接近真实的导数也就是梯度值。可以使用这种方法，来判断反向传播进行梯度下降时，是否出现了错误。
梯度检验的过程，是对成本函数的每个参数\(\theta_{[i]}\)加入一个很小的\(ϵ\)，求得一个梯度逼近值\(d\theta_{approx[i]}\)：

\[d\theta_{approx[i]} = \frac{J(\theta_{[1]},\theta_{[2]},…,\theta_{[i]}+\epsilon)-J(\theta_{[1]},\theta_{[2]},…,\theta_{[i]}-\epsilon)}{2\epsilon} \]

以解析方式求得\(J′(θ)\)在\(θ\)时的梯度值\(dθ\),进而再求得它们之间的欧几里得距离：

\[\frac{||d\theta_{approx[i]}-d\theta||_2}{||d \theta_{approx[i]}||_2+||dθ||_2} \]

其中\(||x||_2\)表示向量x的2范数.
当计算的距离结果与\(ϵ\)的值相近时，即可认为这个梯度值计算正确，否则就需要返回去检查代码中是否存在bug。
需要注意的是:

不要在训练模型时进行梯度检验.
当成本函数中加入了正则项时，也需要带上正则项进行检验.
不要在使用随机失活后使用梯度检验。

posted @ 2019-04-10 14:46 youngliu91 阅读(886) 评论(0) 收藏举报

刷新页面返回顶部

Young

天道酬勤厚积薄发

梯度检验

梯度检验

公告

Young

天道酬勤 厚积薄发

梯度检验

梯度检验

公告

天道酬勤厚积薄发