摘要: 原因: 损失函数在顶层,顶层训练的比较快 数据在底层,数据发生变化,所有都变化,最后那些层需要学习多次,收敛变慢 在改变底部数据时,避免顶部重新训练 作为可学习的b与r, 作用在: 全连接和卷积层的输出上,激活函数前。(bn是线性变化,激活函数增加非线性) 在输入上 全连接,作用在特征维度。 ● 其 阅读全文
posted @ 2021-06-23 20:58 Marklong 阅读(428) 评论(0) 推荐(0) 编辑