摘要: bn是拉平各个feature的差异,而l2 norm是拉平各个样本的差异,本来各个样本的模长千变万化,按照距离的概念,差别是很大的,但是l2 norm后,距离就变得有一个上界了,显然样本间差异变小了。而对于各个feature,本来各个feature的量级都可能不一样,方差也就不一样,bn让方差为1, 阅读全文
posted @ 2018-04-28 00:08 木易修 阅读(1028) 评论(0) 推荐(0) 编辑