Keras Adam

keras.optimizers.Adam(learning_rate=0.001, beta_1=0.9, beta_2=0.999, epsilon=None, decay=0.0, amsgrad=False)

    learning_rate: float >= 0. 学习率。
    beta_1: float, 0 < beta < 1. 通常接近于 1。
    beta_2: float, 0 < beta < 1. 通常接近于 1。
    epsilon: float >= 0. 模糊因子. 若为 None, 默认为 K.epsilon()。
    decay: float >= 0. 每次参数更新后学习率衰减值。假如learning_rate是0.001，epoch是3000，那么学习率衰减速率为 0.001/3000。也就是始学习速率除以当前训练的总次数。
    amsgrad: boolean. 是否应用此算法的 AMSGrad 变种，来自论文 “On the Convergence of Adam and Beyond”。

adam = Adam(lr=5e-5, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=9e-5)

https://blog.csdn.net/leadai/article/details/79178787
链接：https://blog.csdn.net/qq_42363032/article/details/121532568

=====================================================

# 参数

lr: float >= 0. 学习速率、学习步长，值越大则表示权值调整动作越大，对应上图算法中的参数 alpha；

beta_1: 接近 1 的常数，（有偏）一阶矩估计的指数衰减因子；

beta_2: 接近 1 的常数，（有偏）二阶矩估计的指数衰减因子；

epsilon: 大于但接近 0 的数，放在分母，避免除以 0 ；

decay: 学习速率衰减因子，【2】算法中无这个参数；

"""

=====================================================

posted @ 2023-10-08 09:26 emanlee 阅读(55) 评论(0) 编辑收藏举报

刷新页面返回顶部