结论先行:为什么要使用指数加权平均?因为深度学习中计算效率优先,指数加权平均不占用内存计算平均,并且一行代码搞定。
V2 = βV1+(1-β)b2
V3= βV1+(1-β)b3
不断更新迭代,这就是指数加权平均的由来。意义是指1/(1-β) 天的平均值。
修正偏差的指数加权平均,初始值太小。