最优化-梯度下降算法-前向传播-反向传播

一、前向传播：通过一组w参数得到一组得分值f(x)，再做e^x再归一化，再到Loss值。

　　Bachsize是一次取2的整数倍数（32,64,128）张图片做一次迭代

　　学习率：过大会来回震荡，找不到最小值；太小，迭代次数过大，效率低。

二、反向传播

　　由Loss值一步一步往回传，更新权重参数。

　　先算z对L的贡献，一步一步地向前求偏导。

三种门单元：

　　

posted @ 2018-10-31 19:35 zarjen 阅读(569) 评论(0) 收藏举报

刷新页面返回顶部