摘要: 1. section 3 的最末一段,没怎么明白,主要是 a small value of $\beta_2$ ,看起来与 default setting 相悖,并且其所说的 sparse case 与 section 5 中 AdaGrad 的描述($\beta_2\rightarrow 1$)也 阅读全文
posted @ 2017-07-31 20:26 rotxin 阅读(450) 评论(0) 推荐(0) 编辑