11.10.1 算法

Adam(Adaptive Moment Estimation)算法可以直观理解为“智能调整步长的动量法”，结合了动量加速和自适应学习率的优势。以下是逐步解释：

计算梯度的一阶矩（动量）
- 类似加权平均的历史梯度方向：
  ( m_t = \beta_1 \cdot m_{t-1} + (1-\beta_1) \cdot g_t )
  （(\beta_1)控制动量衰减率，如0.9）
计算梯度的二阶矩（自适应学习率）
- 类似历史梯度平方的加权平均：
  ( v_t = \beta_2 \cdot v_{t-1} + (1-\beta_2) \cdot g_t^2 )
  （(\beta_2)控制平方梯度衰减率，如0.999）
偏差校正
- 初始阶段（(t)较小时），(m_t)和(v_t)偏向零，需放大：
  ( \hat{m}_t = \frac{m_t}{1-\beta_1^t} ),
  ( \hat{v}_t = \frac{v_t}{1-\beta_2^t} )
更新参数
- 用校正后的动量方向和学习率调整步长：
  ( \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \cdot \hat{m}_t )
  （(\eta)是基础学习率，(\epsilon)防止除以零）

算法	特点
SGD	无动量，固定步长，易卡在局部最优点或震荡。
Momentum	有动量加速，但步长固定，对稀疏梯度效果差。
Adagrad	自适应步长，但累积梯度平方导致后期步长过小。
Adam	动量加速 + 自适应步长 + 偏差校正，适合大多数非凸优化问题，鲁棒性强。

Adam像是一个智能驾驶员，既通过动量保持方向惯性，又根据路况（梯度大小）自动调节油门和刹车，最终高效平稳地抵达目的地（损失函数最小值）。

也就是说\(\hat{v}\)相当于动量法抑制某些方向上的震荡，\(\frac{\eta}{\sqrt{\hat{s}_t}+\epsilon}\)相当于动态调整学习率

为什么要做式\((11.81)\)的修正？事实上，如果我们将式\((11.80)\)展开，就会发现下面这个式子

显然权重和是\(1\)。但是上面这个式子针对\(t\)比较大的情况，如果\(t\)比较小的话，根据
为了保证权重和仍然为\(1\)，所以要做这个修正

式\((11.82)\)的一个直观理解：分子是让更新的方向比较平滑，分母是让每个维度的值都在合适的范围内（跟Normalization比较像）

posted @ 2025-02-17 15:16 最爱丁珰阅读(90) 评论(0) 收藏举报

刷新页面返回顶部

最爱丁珰