摘要:优化 都9102年了,别再用Adam + L2 regularization了 AdamW and Super-convergence is now the fastest way to train neural nets 从几何视角来理解模型参数的初始化策略 让模型在初始化时能保持模长不变,W正交
阅读全文
|
随笔分类 - 知识总结
摘要:优化 都9102年了,别再用Adam + L2 regularization了 AdamW and Super-convergence is now the fastest way to train neural nets 从几何视角来理解模型参数的初始化策略 让模型在初始化时能保持模长不变,W正交
阅读全文
|