摘要:
在用pytorch搭建和训练神经网络时,有时为了查看非叶子张量的梯度,比如网络权重张量的梯度,会用到retain_grad()函数。但是几次实验下来,发现用或不用retain_grad()函数,最终神经网络的准确率会有一点点差异。用retain_grad()函数的训练结果会差一些。目前还没有去探究这 阅读全文
摘要:
深度学习中的batch的大小对学习效果有何影响? 更大的batch size能更好的代表训练样本总体,所指示的梯度方向能更接近所有训练数据的极值方向。 阅读全文