摘要: 由上述推导可以看出,在使用MSE时,w、b的梯度均与sigmoid函数对z的偏导有关系,而sigmoid函数的偏导在自变量非常大或者非常小时,偏导数的值接近于零,这将导致w、b的梯度将不会变化,也就是出现所谓的梯度消失现象。而使用cross-entropy时,w、b的梯度就不会出现上述的情况。所以M 阅读全文
posted @ 2020-07-01 14:58 USTC丶ZCC 阅读(3270) 评论(0) 推荐(0) 编辑