11.7.1 稀疏特征和学习率

AdaGrad的两个好处的第一个解释如下
第一个benefit的含义是
Adagrad通过自动累加历史梯度平方值来调整学习率,省去了人为设定“梯度多大才算大”的阈值(threshold)

具体解释

  • 原始方法的问题:例如在某些优化算法中,可能需要手动设定一个阈值,当梯度超过该值时,才调整学习率或参数更新幅度。这种手动选择阈值的方式既不灵活,也容易因设定不当导致训练效果差。
  • Adagrad的改进:通过直接累加所有历史梯度的平方(( s(i, t) = \sum (\partial_i f(x))^2 )),系统能自动根据梯度的实际大小动态调整学习率
    • 梯度较大的参数,其累积平方值会迅速增大,从而显著降低学习率(因学习率通常与累积值的平方根成反比)。
    • 梯度较小的参数,累积值增长缓慢,学习率调整幅度较小。
  • 核心优势:无需人工干预判断“梯度何时足够大”,完全由算法自适应完成,既简化了调参过程,又提升了鲁棒性。

类比理解
传统方法像手动调节水龙头水量大小(需反复尝试合适的水流),而Adagrad像智能水龙头,根据历史用水量自动调节水流,既省力又高效。

posted @   最爱丁珰  阅读(22)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
历史上的今天:
2024-02-17 NKOJ 2040
2024-02-17 NKOJ2640
2024-02-17 XOR和路径
2024-02-17 hdu4336
2024-02-17 hdu4135
2024-02-17 魔法珠
2024-02-17 放弃测试
点击右上角即可分享
微信分享提示