2019 年 7月 13 日随笔档案 - xd_xumaomao

2019年7月13日

摘要： SGD 权重更新公式 \[W \leftarrow W - \eta \frac{{\partial L}}{W}\] SGD的缺点学习率的设置非常需要技巧，学习率设置的过大，容易跳过最优点，学习率设的过小，又容易困于局部最优或鞍点，所以一般要设置一个随着训练批次衰减的学习率所以特征的学习率都一阅读全文

posted @ 2019-07-13 23:55 xd_xumaomao 阅读(1283) 评论(0) 推荐(0) 编辑

BGD，SGD比较

摘要： BGD每次迭代都用了所有的样本，每一轮都是朝着极小值方向更新的，当函数只有一个极小值点时BGD能过够比较快的收敛的全局最优，当函数有多个极小值点时BGD容易陷入局部最优，而且当数据量很大时BDG需要消耗大量的内存，计算代价也会很高。SGD每次只用小批量的数据来计算，内存消耗小，计算代价也更低，而且S 阅读全文

posted @ 2019-07-13 20:53 xd_xumaomao 阅读(805) 评论(0) 推荐(0) 编辑

xd_xumaomao

公告