BN和正则化一起使用的后果

就是因为 batch norm 过后, weight 影响没那么重了,所以 l2 weight decay 的效果就不明显了。

证明了L2正则化与归一化相结合时没有正则化效应。相反,正则化会影响权重的范围,从而影响有效学习率。

posted @ 2019-06-28 19:40  Austin_anheqiao  阅读(1543)  评论(0编辑  收藏  举报