摘要: 论文解读:Radam:ON THE VARIANCE OF THE ADAPTIVE LEARNING RATE AND BEYOND 1,目的 想找到一个比较好的优化器,能够在收敛速度和收敛的效果上都比较号。 目前sgd收敛较好,但是慢。 adam收敛快,但是容易收敛到局部解。 常用解决adam收 阅读全文
posted @ 2019-08-25 16:30 Jerry_Jin 阅读(3327) 评论(0) 推荐(0) 编辑