AdamW优化

由于AdamW是Adam+L2正则化的改进，所以这里再详细总结一下正则化方法

正则化：所有防止过拟合，提升模型泛化能力的方法（包括常见的L1,L2,dropout等，可能还有许多更为广义上的正则化措施）

L1,L2正则化：利用L1,L2番薯规范网络参数w的方法，注意这里只说了w没有说b（y=wx+b），因为w决定曲线形状，b偏置项仅决定位置，正则化b意义不大

范数：空间中两个点距离的定义

例如L2范数就是我们常说的欧氏距离，高维向量的L2范数即使用勾股定理的公式计算该点到坐标原点的距离

L1范数：

当然范数这个概念是很大的

但是只有当P大于等于1时，构成的集合才是凸集，凸函数对应的就是凸优化问题，凸优化是更为简单的问题

我们使用的L1,L2某种程度上就是在使用凸集特性

我们知道，训练神经网络的过程即找到一组参数，使得损失函数达到最小。但这一组最优参数并不是唯一的，如果某一层或某几层的参数扩大几倍，可以通过缩小其他层的参数来达到与之前损失函数相同的效果。所以这个参数究竟优化到一个什么值上，与其初始化有很大关系

posted @ 2023-12-22 15:41 诸葛村夫CC 阅读(86) 评论(0) 编辑收藏举报

刷新页面返回顶部

诸葛村夫