摘要:
那么为什么会出现梯度消失的现象呢?因为通常神经网络所用的激活函数是sigmoid函数,这个函数有个特点,就是能将负无穷到正无穷的数映射到0和1之间,并且对这个函数求导的结果是f′(x)=f(x)(1−f(x))f′(x)=f(x)(1−f(x))。因此两个0到1之间的数相乘,得到的结果就会变得很小了 阅读全文
摘要:
很久之前学的,这次回顾的时候发现自己把梯度下降法和导数=0搞混了。 导数=0是直接的求法,可能是极大值也可能是极小值。 梯度下降法是一步步逼近极小值的方法,而不是一步到位的。(因为在求法中θ1 = θ0 - α*梯度,而梯度是函数上升最快的方向,加上一个负号,所以一定是函数下降的方向) https: 阅读全文