Keras Adam

 

keras.optimizers.Adam(learning_rate=0.001, beta_1=0.9, beta_2=0.999, epsilon=None, decay=0.0, amsgrad=False)

    learning_rate: float >= 0. 学习率。
    beta_1: float, 0 < beta < 1. 通常接近于 1。
    beta_2: float, 0 < beta < 1. 通常接近于 1。
    epsilon: float >= 0. 模糊因子. 若为 None, 默认为 K.epsilon()。
    decay: float >= 0. 每次参数更新后学习率衰减值。假如learning_rate是0.001,epoch是3000,那么学习率衰减速率为 0.001/3000。也就是始学习速率除以当前训练的总次数。
    amsgrad: boolean. 是否应用此算法的 AMSGrad 变种,来自论文 “On the Convergence of Adam and Beyond”。

 

adam = Adam(lr=5e-5, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=9e-5)

 


https://blog.csdn.net/leadai/article/details/79178787
 链接:https://blog.csdn.net/qq_42363032/article/details/121532568

=====================================================

 

 

# 参数

lr: float >= 0. 学习速率、学习步长,值越大则表示权值调整动作越大,对应上图算法中的参数 alpha;

beta_1: 接近 1 的常数,(有偏)一阶矩估计的指数衰减因子;

beta_2: 接近 1 的常数,(有偏)二阶矩估计的指数衰减因子;

epsilon: 大于但接近 0 的数,放在分母,避免除以 0 ;

decay: 学习速率衰减因子,【2】算法中无这个参数;

"""

=====================================================

 

=====================================================

 

=====================================================

 

=====================================================

 

posted @ 2023-10-08 09:26  emanlee  阅读(55)  评论(0编辑  收藏  举报