2024年3月最新的深度学习论文推荐

现在已经是3月中旬了,我们这次推荐一些2月和3月发布的论文。

Why do Learning Rates Transfer? Reconciling Optimization and Scaling Limits for Deep Learning.

https://arxiv.org/abs/2402.17457

学习速率为什么会迁移?本研究试图从理论上解释MuP超参数传递的成功之处。根据其创作者的说法,训练损失的Hessian矩阵的最大特征值不受网络深度或广度的影响。

 

https://avoid.overfit.cn/post/8a1f17f10c7f43ec93afb3abd0f3a14c

posted @ 2024-03-13 10:43  deephub  阅读(69)  评论(0编辑  收藏  举报