摘要: #1. SGD ##1.1 weight_decay 既不是为了提高精确度也不是提高收敛速度,目的是防止过拟合. 损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂度对损失函数的 阅读全文
posted @ 2022-04-21 22:27 哈哈哈喽喽喽 阅读(134) 评论(0) 推荐(0) 编辑