基础优化方法
梯度下降
梯度是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。梯度在物理学、机器学习和数学优化等领域有着广泛的应用。
- 挑选一个初始值
- 重复迭代参数t=1,2,3
- 沿梯度方向将增加损失函数的值
- 学习率:步长的超参数
学习率的选择;
不能太小:因为梯度计算是有花费
不能太大:因为步子太大会跨过最优解,导致结果一直在震荡并没有真正的使损失函数减小
小批量随机梯度下降
- 在整个训练集上算梯度太贵
在深度神经网络模型对训练集求一遍梯度可能需要数分钟至数小时 - 我们可以随机采样
个样本 来近似损失
b是批量大小,另一个重要的超参数
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· DeepSeek在M芯片Mac上本地化部署