AdamW优化

由于AdamW是Adam+L2正则化的改进,所以这里再详细总结一下正则化方法

 

正则化:所有防止过拟合,提升模型泛化能力的方法(包括常见的L1,L2,dropout等,可能还有许多更为广义上的正则化措施)

L1,L2正则化:利用L1,L2番薯规范网络参数w的方法,注意这里只说了w没有说b(y=wx+b),因为w决定曲线形状,b偏置项仅决定位置,正则化b意义不大

范数:空间中两个点距离的定义

例如L2范数就是我们常说的欧氏距离,高维向量的L2范数即使用勾股定理的公式计算该点到坐标原点的距离

L1范数:

 当然范数这个概念是很大的

但是只有当P大于等于1时,构成的集合才是凸集,凸函数对应的就是凸优化问题,凸优化是更为简单的问题

我们使用的L1,L2某种程度上就是在使用凸集特性

 

我们知道,训练神经网络的过程即找到一组参数,使得损失函数达到最小。但这一组最优参数并不是唯一的,如果某一层或某几层的参数扩大几倍,可以通过缩小其他层的参数来达到与之前损失函数相同的效果。所以这个参数究竟优化到一个什么值上,与其初始化有很大关系

 

posted @ 2023-12-22 15:41  诸葛村夫CC  阅读(86)  评论(0编辑  收藏  举报