11.7.1 稀疏特征和学习率

AdaGrad的两个好处的第一个解释如下
第一个benefit的含义是：
Adagrad通过自动累加历史梯度平方值来调整学习率，省去了人为设定“梯度多大才算大”的阈值（threshold）。

具体解释：

原始方法的问题：例如在某些优化算法中，可能需要手动设定一个阈值，当梯度超过该值时，才调整学习率或参数更新幅度。这种手动选择阈值的方式既不灵活，也容易因设定不当导致训练效果差。
Adagrad的改进：通过直接累加所有历史梯度的平方（( s(i, t) = \sum (\partial_i f(x))^2 )），系统能自动根据梯度的实际大小动态调整学习率。
- 梯度较大的参数，其累积平方值会迅速增大，从而显著降低学习率（因学习率通常与累积值的平方根成反比）。
- 梯度较小的参数，累积值增长缓慢，学习率调整幅度较小。
核心优势：无需人工干预判断“梯度何时足够大”，完全由算法自适应完成，既简化了调参过程，又提升了鲁棒性。

类比理解：
传统方法像手动调节水龙头水量大小（需反复尝试合适的水流），而Adagrad像智能水龙头，根据历史用水量自动调节水流，既省力又高效。

posted @ 2025-02-17 14:57 最爱丁珰阅读(58) 评论(0) 收藏举报

刷新页面返回顶部

最爱丁珰