1. 正则化系数与最速下降的步长

(W,b)=1NiNy(i)logp(i)+(1y(i))log(1p(i))

  • 这里对全局的损失之所以取均值的原因在于,是为了解耦(decouple)后续的对权值矩阵的正则化系数以及 SGD 的步长;
posted on 2016-11-23 11:02  未雨愁眸  阅读(223)  评论(0编辑  收藏  举报