摘要:
SGD 权重更新公式 \[W \leftarrow W - \eta \frac{{\partial L}}{W}\] SGD的缺点 学习率的设置非常需要技巧,学习率设置的过大,容易跳过最优点,学习率设的过小,又容易困于局部最优或鞍点,所以一般要设置一个随着训练批次衰减的学习率 所以特征的学习率都一 阅读全文
摘要:
BGD每次迭代都用了所有的样本,每一轮都是朝着极小值方向更新的,当函数只有一个极小值点时BGD能过够比较快的收敛的全局最优,当函数有多个极小值点时BGD容易陷入局部最优,而且当数据量很大时BDG需要消耗大量的内存,计算代价也会很高。SGD每次只用小批量的数据来计算,内存消耗小,计算代价也更低,而且S 阅读全文