摘要: 由于训练时间短,越来越多人使用自适应梯度方法来训练他们的模型,例如Adam它已经成为许多深度学习框架的默认的优化算法。尽管训练结果优越,但Adam和其他自适应优化方法与随机梯度下降(SGD)相比,有时的效果并不好。这些方法在训练数据上表现良好,但在测试数据却差很多。 最近,许多研究人员已经开始针对这 阅读全文
posted @ 2022-08-25 10:54 deephub 阅读(35) 评论(0) 推荐(0) 编辑