摘要: Adam 方法 Adam 方法将惯性保持和环境感知这两个优点集于一身。一方面, Adam 记录梯度的一阶矩(first moment),即过往梯度与当前梯度的平均,这体现了惯性保持;另一方面,Adam 还记录梯度的二阶矩(second moment),即过往梯度平方与当前梯度平方的平均,这类似Ada 阅读全文
posted @ 2019-03-10 21:44 下路派出所 阅读(295) 评论(0) 推荐(0) 编辑