摘要: 1:动量Momentum(惯性) 【注】简而言之:下一个梯度方向等于当前梯度的更新方向和上一个梯度方向的共同方向。 【注】当β=0,α!=0完全退化成没有添加动量的梯度更新 [注]当α和β都不等于0,则动量β有效,最优化时避免陷入局部极小值。 【注】在pytorch中只需要在优化器SGD中添加参数m 阅读全文
posted @ 2021-08-02 21:58 收购阿里巴巴 阅读(282) 评论(0) 推荐(0) 编辑
摘要: 1:减弱过拟合reduce overfitting (1)regularization (1.1)Regularization函数 [注]λ为超参数(需要自己设置)迫使参数的一或者二范数逼近于0,。 decay衰减 (1.2)regularization的分类 【注】pytorch中内嵌了L2-re 阅读全文
posted @ 2021-08-02 20:45 收购阿里巴巴 阅读(37) 评论(0) 推荐(0) 编辑
摘要: 1:train-val-test数据集的划分(6:2:2) [注]val 数据集其实质也是test,其只不过是在train数据集中划分出来的test数据集以选择合适的参数(防止选择的参数出现过拟合现象如图1中,当Degrees=5时,参数的选择最好,大于5会出现过拟合现象)。 2:k-flod cr 阅读全文
posted @ 2021-08-02 19:15 收购阿里巴巴 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 1:激活函数 (1.1)Tanh和Sigmoid函数 [注]sigmoid函数的取值区间为[0,1],适合概率和RGB值的重建。Tanh函数的取值区间为[-1,1],多用于循环神经网络。 sigmoid和Tanh函数存在的问题:当w的取值无穷大或者无穷小的时候会出现梯度弥散的现象。 (1.2)ReL 阅读全文
posted @ 2021-08-02 11:16 收购阿里巴巴 阅读(326) 评论(0) 推荐(0) 编辑