神经网络训练经验

【静态经验】

1. ResNet-50 3D，#param大约30+M，kinetics-400，dropout使用0.2，weight decay使用5e-4，momentum 0.9。

2. ResNet-23 2D，#param大约11M，kinetics-400，dropout使用0.5，weight decay使用1e-4， momentum0.9。

【Learning Rate】

与step调整lr相比，使用退火方式，使得训练过程更加顺滑，同时能够收敛到比较好的结果，同时更加稳定。

【Batch Size】

BN对batch size敏感，如果使用bn，则更大的batch size有利于bn更好拟合样本总体分布。

【Weight Decay】

根据目前的经验，wd和网络参数量、训练数据量有关。数据量差不多时，大网络使用大的weight decay（ResNet-50 3D，#param大约30M，kinetics-400，wd使用5e-4），小网络使用小的wd（ResNet-23 2D，#param大约11M，kinetics-400，wd使用1e-4）。

【Dropout】

根据目前的经验，小网络的do应该大，大网络的do应该小。例如ResNet-50 3D，#param大约30M，kinetics-400，do使用0.2；ResNet-23 2D，#param大约11M，kinetics-400，do使用0.5。

posted @ 2019-08-10 09:59 leizhao 阅读(457) 评论(0) 编辑收藏举报

刷新页面返回顶部

Well Max

◤ 不辞千里而来，必定心意相通
◤ 难事的难度远远低于我对它的恐惧

神经网络训练经验

公告

Well Max

◤ 不辞千里而来，必定心意相通 ◤ 难事的难度远远低于我对它的恐惧

神经网络训练经验

公告

◤ 不辞千里而来，必定心意相通
◤ 难事的难度远远低于我对它的恐惧