@
PyTorch没有L-1正则化,所以用下面的方法自己实现
一般用L-2正则化 weight_decay 表示\(\lambda\)
moment参数设置上式中的\(\beta\),表式上一时刻梯度所占的比例0~1之间
Dropout在train时使用,在test时要手动关闭