摘要: 引用自: https://www.lizenghai.com/archives/64931.html AdamW AdamW是在Adam+L2正则化的基础上进行改进的算法。使用Adam优化带L2正则的损失并不有效。如果引入L2正则项,在计算梯度的时候会加上对正则项求梯度的结果。 那么如果本身比较大的 阅读全文
posted @ 2020-08-03 12:00 TFknight 阅读(16681) 评论(0) 推荐(3) 编辑