dreamlike-zzg

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
  63 随笔 :: 0 文章 :: 0 评论 :: 7619 阅读

随笔分类 -  知识总结

摘要:优化 都9102年了,别再用Adam + L2 regularization了 AdamW and Super-convergence is now the fastest way to train neural nets 从几何视角来理解模型参数的初始化策略 让模型在初始化时能保持模长不变,W正交 阅读全文
posted @ 2022-11-05 15:59 梦幻济公 阅读(26) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示