摘要: 就是因为 batch norm 过后, weight 影响没那么重了,所以 l2 weight decay 的效果就不明显了。 证明了L2正则化与归一化相结合时没有正则化效应。相反,正则化会影响权重的范围,从而影响有效学习率。 阅读全文
posted @ 2019-06-28 19:40 Austin_anheqiao 阅读(1532) 评论(0) 推荐(0) 编辑
摘要: L1范数损失函数,也被称为最小绝对值偏差(LAD),最小绝对值误差(LAE) L2范数损失函数,也被称为最小平方误差(LSE) 鲁棒性 最小绝对值偏差之所以是鲁棒的,是因为它能处理数据中的异常值。如果需要考虑任一或全部的异常值,那么最小绝对值偏差是更好的选择。 L2范数将误差平方化(如果误差大于1, 阅读全文
posted @ 2019-06-28 19:25 Austin_anheqiao 阅读(12224) 评论(0) 推荐(0) 编辑
摘要: BGD(batch gradient descent) 遍历完所有数据,计算一次损失函数,更新一次梯度。 计算量大,速度慢,不支持在线学习。 SGD(stochastic gradient descent) 看一个数据,就计算一次损失函数,更新一次梯度。 速度快,收敛性能不太好,可能在最优点附近震荡 阅读全文
posted @ 2019-06-28 17:01 Austin_anheqiao 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 对于同一个损失函数值,可以对应很多种不同的参数,甚至在高纬度下,极小值和极大值都很接近,所以即使是很好优化过的模型,也可能会对应多个不同的参数组合,很多组合都未必是数值稳定的。而且因为参数的安慰更自由,可以得到很小的训练误差,往往都不具有很好的泛化能力。 这个时候加入一个约束项,这个约束项计算之后, 阅读全文
posted @ 2019-06-28 16:36 Austin_anheqiao 阅读(396) 评论(0) 推荐(0) 编辑
摘要: 思想: 使用队的思想,将每一层的节点放入队列中,依次弹出,同时将其children放入队列。 c++ 或者:(做了一些小改动) 阅读全文
posted @ 2019-06-28 15:32 Austin_anheqiao 阅读(925) 评论(0) 推荐(0) 编辑