摘要: 1. 优化: 1.1 随机梯度下降法(Stochasitc Gradient Decent, SGD)的问题: 1)对于condition number(Hessian矩阵最大和最小的奇异值的比值)很大的loss function,一个方向梯度变化明显,另一个方向梯度变化很缓慢,SGD在优化过程中会 阅读全文
posted @ 2017-11-04 22:31 ZonghaoChen 阅读(260) 评论(0) 推荐(0) 编辑