Keras Adam
keras.optimizers.Adam(learning_rate=0.001, beta_1=0.9, beta_2=0.999, epsilon=None, decay=0.0, amsgrad=False)
learning_rate: float >= 0. 学习率。
beta_1: float, 0 < beta < 1. 通常接近于 1。
beta_2: float, 0 < beta < 1. 通常接近于 1。
epsilon: float >= 0. 模糊因子. 若为 None, 默认为 K.epsilon()。
decay: float >= 0. 每次参数更新后学习率衰减值。假如learning_rate是0.001,epoch是3000,那么学习率衰减速率为 0.001/3000。也就是始学习速率除以当前训练的总次数。
amsgrad: boolean. 是否应用此算法的 AMSGrad 变种,来自论文 “On the Convergence of Adam and Beyond”。
adam = Adam(lr=5e-5, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=9e-5)
https://blog.csdn.net/leadai/article/details/79178787
链接:https://blog.csdn.net/qq_42363032/article/details/121532568
=====================================================
# 参数
lr: float >= 0. 学习速率、学习步长,值越大则表示权值调整动作越大,对应上图算法中的参数 alpha;
beta_1: 接近 1 的常数,(有偏)一阶矩估计的指数衰减因子;
beta_2: 接近 1 的常数,(有偏)二阶矩估计的指数衰减因子;
epsilon: 大于但接近 0 的数,放在分母,避免除以 0 ;
decay: 学习速率衰减因子,【2】算法中无这个参数;
"""
=====================================================
=====================================================
=====================================================
=====================================================