2019 年 6月 28 日随笔档案 - Austin_anheqiao

2019年6月28日

摘要：就是因为 batch norm 过后， weight 影响没那么重了，所以 l2 weight decay 的效果就不明显了。证明了L2正则化与归一化相结合时没有正则化效应。相反，正则化会影响权重的范围，从而影响有效学习率。阅读全文

posted @ 2019-06-28 19:40 Austin_anheqiao 阅读(1532) 评论(0) 推荐(0) 编辑

摘要： L1范数损失函数，也被称为最小绝对值偏差（LAD），最小绝对值误差（LAE） L2范数损失函数，也被称为最小平方误差（LSE）鲁棒性最小绝对值偏差之所以是鲁棒的，是因为它能处理数据中的异常值。如果需要考虑任一或全部的异常值，那么最小绝对值偏差是更好的选择。 L2范数将误差平方化（如果误差大于1，阅读全文

posted @ 2019-06-28 19:25 Austin_anheqiao 阅读(12224) 评论(0) 推荐(0) 编辑

mini batch

摘要： BGD(batch gradient descent) 遍历完所有数据，计算一次损失函数，更新一次梯度。计算量大，速度慢，不支持在线学习。 SGD(stochastic gradient descent) 看一个数据，就计算一次损失函数，更新一次梯度。速度快，收敛性能不太好，可能在最优点附近震荡阅读全文

posted @ 2019-06-28 17:01 Austin_anheqiao 阅读(199) 评论(0) 推荐(0) 编辑

正则化

摘要：对于同一个损失函数值，可以对应很多种不同的参数，甚至在高纬度下，极小值和极大值都很接近，所以即使是很好优化过的模型，也可能会对应多个不同的参数组合，很多组合都未必是数值稳定的。而且因为参数的安慰更自由，可以得到很小的训练误差，往往都不具有很好的泛化能力。这个时候加入一个约束项，这个约束项计算之后，阅读全文

posted @ 2019-06-28 16:36 Austin_anheqiao 阅读(396) 评论(0) 推荐(0) 编辑

树————N叉树的层序遍历

摘要：思想：使用队的思想，将每一层的节点放入队列中，依次弹出，同时将其children放入队列。 c++ 或者：（做了一些小改动）阅读全文

posted @ 2019-06-28 15:32 Austin_anheqiao 阅读(925) 评论(0) 推荐(0) 编辑

keep going!~

苦尽甘来定不负生而善之

公告

keep going!~

苦尽甘来 定不负生而善之

公告

苦尽甘来定不负生而善之