就是因为 batch norm 过后, weight 影响没那么重了,所以 l2 weight decay 的效果就不明显了。
证明了L2正则化与归一化相结合时没有正则化效应。相反,正则化会影响权重的范围,从而影响有效学习率。