摘要:
结论先行:为什么要使用指数加权平均?因为深度学习中计算效率优先,指数加权平均不占用内存计算平均,并且一行代码搞定。 V2 = βV1+(1-β)b2 V3= βV1+(1-β)b3 不断更新迭代,这就是指数加权平均的由来。意义是指1/(1-β) 天的平均值。 修正偏差的指数加权平均,初始值太小。 阅读全文
摘要:
鉴于自己对minibatch一直以来的误解,说明一下minbatch的具体做法。 batch是一次运行所有数据集,只更新一次梯度下降,m过大,计算依然很慢。 minibatch是一次运行一个minibatch,更新一次梯度,整个数据集,会更新多次,通常来说,运行更快。 原因可能是w的维数小,参数数量 阅读全文
摘要:
偏差和方差衡量的必要性,因为深度学习中,根据没免费午餐定理,降低了偏差一定增加了方差,降低了方差也增加了偏差。 高偏差:欠拟合,线性不能充分拟合,非线性才能充分拟合 高方差:过拟合,对部分点描述过度,泛化误差增大 偏差和方差一定程度对应着训练误差和验证误差。 基本误差为0的情况下, 1、训练误差降低 阅读全文