AdamW优化
由于AdamW是Adam+L2正则化的改进,所以这里再详细总结一下正则化方法
正则化:所有防止过拟合,提升模型泛化能力的方法(包括常见的L1,L2,dropout等,可能还有许多更为广义上的正则化措施)
L1,L2正则化:利用L1,L2番薯规范网络参数w的方法,注意这里只说了w没有说b(y=wx+b),因为w决定曲线形状,b偏置项仅决定位置,正则化b意义不大
范数:空间中两个点距离的定义
例如L2范数就是我们常说的欧氏距离,高维向量的L2范数即使用勾股定理的公式计算该点到坐标原点的距离
L1范数:
当然范数这个概念是很大的
但是只有当P大于等于1时,构成的集合才是凸集,凸函数对应的就是凸优化问题,凸优化是更为简单的问题
我们使用的L1,L2某种程度上就是在使用凸集特性
我们知道,训练神经网络的过程即找到一组参数,使得损失函数达到最小。但这一组最优参数并不是唯一的,如果某一层或某几层的参数扩大几倍,可以通过缩小其他层的参数来达到与之前损失函数相同的效果。所以这个参数究竟优化到一个什么值上,与其初始化有很大关系
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!