摘要: 学习率设置原则(在这主要以迁移学习为主): 由于模型已经在原始数据上收敛,所以应该设置较小学习率,在新数据上微调。若非迁移学习则先将学习率设置在0.01~0.001为宜,一定轮数之后再逐渐减缓,接近训练结束学习率的衰减应在100倍以上。 目标函数损失值 曲线(理想状态应该为绿色滑梯式下降曲线): 曲 阅读全文
posted @ 2022-03-15 09:00 青竹之下 阅读(993) 评论(0) 推荐(0) 编辑
摘要: batch size大小选取原则: CPU是非常讨厌16,32,64…… 这样大小的(2^*)数组的;(具体原因网上好像有说明,但没太细看:Data alignment and caches) GPU好像没有类似的问题,但我还是要劝大家,超参的选取随意点。而且GPU上好像推荐取32 的倍数 个人觉得 阅读全文
posted @ 2022-03-15 08:00 青竹之下 阅读(93) 评论(0) 推荐(0) 编辑